JP7422873B2 - 胸部x線写真から胸部状態を診断するためのディープラーニングシステム - Google Patents

胸部x線写真から胸部状態を診断するためのディープラーニングシステム Download PDF

Info

Publication number
JP7422873B2
JP7422873B2 JP2022526251A JP2022526251A JP7422873B2 JP 7422873 B2 JP7422873 B2 JP 7422873B2 JP 2022526251 A JP2022526251 A JP 2022526251A JP 2022526251 A JP2022526251 A JP 2022526251A JP 7422873 B2 JP7422873 B2 JP 7422873B2
Authority
JP
Japan
Prior art keywords
chest
training
machine learning
radiograph
human
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022526251A
Other languages
English (en)
Other versions
JP2023500538A (ja
Inventor
アンドリュー・ベックマン・セレールグレン
シュラビヤ・ラメシュ・シェティ
シッダント・ミッタル
デイヴィッド・フランシス・シュタイナー
アンナ・マイコフスカ
ギャヴィン・エリオット・デュガン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2023500538A publication Critical patent/JP2023500538A/ja
Application granted granted Critical
Publication of JP7422873B2 publication Critical patent/JP7422873B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/50Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment specially adapted for specific body parts; specially adapted for specific clinical applications
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B6/00Apparatus or devices for radiation diagnosis; Apparatus or devices for radiation diagnosis combined with radiation therapy equipment
    • A61B6/52Devices using data or image processing specially adapted for radiation diagnosis
    • A61B6/5211Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data
    • A61B6/5217Devices using data or image processing specially adapted for radiation diagnosis involving processing of medical diagnostic data extracting a diagnostic or physiological parameter from medical diagnostic data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/20ICT specially adapted for the handling or processing of medical images for handling medical images, e.g. DICOM, HL7 or PACS
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H30/00ICT specially adapted for the handling or processing of medical images
    • G16H30/40ICT specially adapted for the handling or processing of medical images for processing medical images, e.g. editing
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10116X-ray image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30096Tumor; Lesion

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Radiology & Medical Imaging (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Biophysics (AREA)
  • High Energy & Nuclear Physics (AREA)
  • Optics & Photonics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Physiology (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Image Analysis (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

関連出願
本出願は、2019年11月7日に出願された米国仮特許出願第62/931974号の優先権および利益を主張する。米国仮特許出願第62/931974号は、その全体が参照により本明細書に組み込まれている。
本開示は、概して、診断技術に関する。より詳細には、本開示は、ディープラーニングモデルを使用して、胸部X線写真に基づいて、たとえば気胸、陰影、結節もしくは腫瘤、および/または骨折などの胸部状態を診断することに関する。
X線写真術は、最も一般的で確立された画像診断法の1つであるにもかかわらず、顕著な読影者間変動が生じ、重要な臨床所見を検出するための感度が不十分である。したがって、X線写真を解釈する訓練を受けた人(たとえば、放射線科医)のグループの間でも、グループの大部分が、困難であるが重大な状態を検出できない例を含め、正しい解釈間に顕著な相違が見られることがある。
本開示の実施形態の態様および利点は、以下の説明に部分的に記載されるか、または説明から知ることができ、または実施形態を実施することによって知ることができる。
本開示の1つの例示的な態様は、機械学習を介して胸部X線写真の解釈を向上させるための方法を対象とする。この方法は、1つまたは複数のコンピューティングデバイスによって、胸部X線写真を受信し処理して、胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示す出力を生成するように構成された1つまたは複数の機械学習モデルを記述するデータを取得するステップを含む。この方法は、1つまたは複数のコンピューティングデバイスによって、複数の訓練例を含む訓練データセットにアクセスするステップであって、複数の訓練例の各々が、例示的な胸部X線写真と、例示的な胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示す例示的な胸部X線写真に割り当てられたラベルとを含む。複数の訓練例の少なくともいくつかについて、例示的な胸部X線写真に割り当てられたラベルは、複数の人間の評価者によってそれぞれ例示的なX線写真について提供された複数の最終評価に基づいて生成される判定ラベルを含む。複数の最終評価を提供する前に、人間の評価者に、1回または複数回の中間評価ラウンドを介して、他の人間の評価者によって提供される1つまたは複数のそれぞれの中間評価が与えられる。この方法は、1つまたは複数のコンピューティングデバイスによって、訓練データセットに含まれる複数の訓練例を使用して1つまたは複数の機械学習モデルを訓練するステップを含む。
本開示の別の例示的な態様は、胸部X線写真を受信し処理して、胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示す出力を生成するように構成された機械学習モデル用の改良された訓練データを生成する方法を対象とする。この方法は、それぞれ複数の例示的な胸部X線写真を含む複数の訓練例のうちの1つまたは複数について実施される。この方法は、複数の人間の評価者に例示的な胸部X線写真を与えるステップを含む。この方法は、例示的な胸部X線写真についての複数の中間評価をそれぞれ複数の人間の評価者から受信するステップを含む。この方法は、1回または複数回の中間評価ラウンドの各々について、複数の人間の評価者の各々に複数の中間評価を与えるステップと、複数の人間の評価者の各々について、そのような人間の評価者がそのそれぞれの中間評価を維持するかそれとも変更するかの指示を受信するステップとを含む。この方法は、1回または複数回の中間評価ラウンドの後に、それぞれ複数の人間の評価者について例示的な胸部X線写真についての複数の最終評価を判定するステップを含む。この方法は、複数の最終評価に基づいて例示的な胸部X線写真についてのラベルを生成するステップを含む。この方法は、ラベルを例示的な胸部X線写真と共に訓練データセットに格納するステップを含む。
本開示の別の例示的な態様は、胸部X線写真上で機械学習モデルの性能を評価する際に逆確率重み付けを実行するための方法を対象とする。この方法は、参照データセットに含まれる複数の参照例のうちの1つまたは複数について実行される。この方法は、1つまたは複数のコンピューティングデバイスによって、参照胸部X線写真について1つまたは複数の機械学習モデルによって生成された出力を取得するステップであって、出力は、参照胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示す、ステップを含む。この方法は、1つまたは複数のコンピューティングデバイスによって、参照胸部X線写真に関連するラベルにアクセスするステップを含む。この方法は、1つまたは複数のコンピューティングデバイスによって、出力とラベルとの比較に少なくとも部分的に基づいて参照胸部X線写真について1つまたは複数の機械学習モデルの重み付き性能を評価するステップであって、重み付き性能は、参照例に関連するエンリッチメントの量に反比例する重み値を使用して重み付けされる、ステップを含む。
本開示の他の態様は、様々なシステム、装置、非一時的コンピュータ可読媒体、ユーザインターフェース、および電子デバイスを対象とする。
本開示の様々な実施形態のこれらおよびその他の特徴、態様、あるいは利点は、以下の説明および添付の特許請求の範囲を参照することによってよりよく理解されよう。添付の図面は、本明細書の一部に組み込まれ本明細書の一部を構成するものであり、本開示の例示的な実施形態を示し、説明と共に関連する原則について説明する働きをする。
当業者を対象とする実施形態の詳細な説明は、添付の図面を参照する明細書中に記載されている。
本開示の例示的な実施形態による例示的なコンピューティングシステムを示す図である。 本開示の例示的な実施形態による例示的なコンピューティングシステムを示す図である。 本開示の例示的な実施形態による例示的なコンピューティングシステムを示す図である。 本開示の例示的な実施形態による判定ラベルを取得するための例示的なプロセスを示す図である。 本開示の例示的な実施形態による訓練済みモデルの重み付き性能評価を判定するための例示的な技法のブロック図である。 本開示の例示的な実施形態による、重み付き損失関数を使用してモデルを訓練するための例示的な技法のブロック図である。 本開示の例示的な実施形態による、複数の画像診断推論情報を作成するように構成されたマルチヘッドモデルのブロック図である。 本開示の例示的な実施形態による、判定ラベルを取得して使用するための例示的な方法のフローチャート図である。 本開示の例示的な実施形態による、モデル出力の重み付き性能評価を判定するための例示的な方法のフローチャート図である。
一般に、本開示は、機械学習モデル(たとえば、人工ニューラルネットワーク)を訓練および/または使用して、胸部X線写真に基づいて、例として気胸、陰影、結節もしくは腫瘤、および/または骨折などの胸部状態を診断するためのシステムおよび方法を対象とする。たとえば、1つまたは複数の機械学習モデルは、胸部X線写真を受信し処理して出力を生成することができる。出力は、1つまたは複数の胸部状態の各々について、胸部X線写真が(たとえば、ある程度の信頼性をもって)胸部状態を示すかどうかを示すことができる。機械学習モデルの出力は、(たとえば、検出された状態を治療するために)患者を治療する際に使用できるように医療専門家および/または患者に与えることができる。
本開示の一態様は、判定ラベルを参照基準として含む訓練データセットを使用して本明細書で説明する機械学習モデルを訓練することを対象とする。判定された訓練データを使用すると、特に大部分の評価者が見逃す場合がある困難な診断の場合に、得られるモデルの精度を向上させることができる。
より具体的には、展開中の臨床的に適切な診断モデルの重大な態様は、既定の「グラウンドトゥルース」ラベルを有する参照データセット上でのモデルの訓練および評価を含む。しかし、これらの参照基準画像ラベルを確立する際の読影者間変動は、性能および評価に顕著な影響を有する。
具体的には、X線画像分析のためのディープラーニングにおける事前作業では一般に、1人の読影者または複数の独立した読影者にわたる多数決手法を利用して参照基準ラベルを設けている。しかし、得られるラベルにおける誤りまたは不一致に起因して、そのような手法ではモデル性能が過大評価されることがある。たとえば、困難であるが重大な所見に対する認識が不十分であり、したがって、その結果が少数の独立した読影者によってのみ(正しく)特定された場合には、多数決手法によって誤ったラベルが付けられることがある。この場合、モデルが(誤った訓練ラベルに起因して)これらの所見を検出できないことがあるだけでなく、(誤った参照基準ラベルに起因して)このような誤りを測定できず、モデル精度の誤った認識がもたらされることがある。
これらの問題を解決するために、本開示は、人間の評価者によってグラウンドトゥルース参照ラベルを判定するための改良されたプロセスを提供する。具体的には、本開示は、複数の(たとえば、3人、5人などの)人間の評価者(たとえば、放射線科医)が協働して参照X線写真(たとえば、参照胸部X線写真)を評価して参照X線写真用の判定ラベルを生成することができる判定プロセスを提供する。具体的には、判定プロセスは1回または複数回の中間評価ラウンド(たとえば、2ラウンド、3ラウンド、5ラウンドなど)にわたって行うことができる。各中間評価ラウンドにおいて、各々の人間の評価者に、参照例を検討しそれぞれの中間評価を提供する機会を与えることができる。
本開示の一態様によれば、各中間評価ラウンドにおいて、各々の人間の評価者に、前のラウンドおよび/または現在のラウンドにおいて他の評価者によって与えられた中間評価を検討する機会を与えることもできる。各評価者は、他の、場合によっては異なる視点に関する情報に基づいて評価者自身のそれぞれの中間評価を維持するかそれとも更新するかを決定することができる。
人間の評価者が他の評価者の評価を検討できるようにすることによって、人間の評価者は前に検出できなかった状態を特定できる場合がある。言い換えれば、放射線学を介して検出可能ないくつかの状態は検出が著しく困難な場合があり、それによって、判定者の大部分でさえその状態を正しく診断することができない。しかし、1回または複数回のラウンドを介して協働的な議論/検討を行うことができる提案する方式では、最終的な判断を提供する前に少数派の視点が考慮される場合がある。実際には少数派の視点が正しい診断である場合に、議論によって、少数派が多数派を納得させて多数派の診断を変更させることが可能になる場合がある。たとえば、1人の鋭敏な熟達した評価者が、他の評価者が最初正しい診断を提供することができなかったことをそれらの評価者に納得させることができる場合がある。そのように、人間の評価者によって提供される評価によって、極めて判定が困難な場合に、より正確なラベルを与えることができる。
いくつかの実装形態では、各中間評価ラウンドにおいて、人間の評価者は、そのそれぞれの中間評価に関するそれぞれの書面による解説を他の人間の評価者に提供することができる。たとえば、各評価者からグループに、書面によるメモを送信することができる。これによって、人間の評価者は、なぜそれぞれの評価を下したか、および場合によってはなぜその評価が逆の評価よりも優れているかの書面による説明を示すことができる。
同様に、いくつかの実装形態では、各中間評価ラウンドにおいて、人間の評価者が例示的な胸部X線写真上のそれぞれの視覚的マークアップを他の人間の評価者に提供することができる。たとえば、視覚的マークアップには色付け、アノテーション、および/または評価者が評価を視覚的に立証するために使用できる他の形態のマークアップを含めることができる。
いくつかの実装形態では、各中間評価ラウンドにおいて、一部またはすべての人間の評価者は他の人間の評価者に対して匿名にすることができる。評価者の身元を不明にすることによって、他の評価者は、政治的偏見、社会的偏見、または他の暗黙的な偏見が他の評価者の評価にどの程度の敬意を与えるかに影響を与えるのを防止することができる。たとえば、人間の評価者の1人が極めて優秀な放射線科医である場合、その放射線科医の身元を秘密にすると、他の評価者が敬意またはその他の関心からその放射線科医の判断に単純に従うことが防止される。
いくつかの実装形態では、中間評価ラウンドは、同期的に実行することができ、それによって、評価者は、(たとえば、チャットインターフェース、ビデオ会議などを介して)同時に協働することができる。代替的に、または追加として、中間評価ラウンドを非同期的に実行することができる。非同期プロセスは、評価者が融通性に富んだスケジュールどおりに画像にラベル付けするのを可能にし、複数の臨床スケジュールを合わせるのを不要にすることができる。
1回または複数回の中間評価ラウンドの後に(たとえば、意見が一致するかまたはラウンドの最大数に達した直後に)、各々の人間の評価者は、最終評価を提供することができる。たとえば、最終評価は単に、最後の中間評価ラウンドで提供された最後の中間評価とすることができる。複数の人間の評価者からの最終評価を組み合わせるかまたは集計して参照X線写真についての判定ラベルを生成することができる。たとえば、投票方式を適用して、大多数の評価者によって与えられた状態評価を判定ラベルとして選択することができる。
提案する判定プロセスでは、特に、困難であるが重大なエッジケースにおいて、向上した精度を示す(たとえば、訓練、試験、および/または妥当性確認に有用な)判定ラベルを作成する。精度が向上したラベルを与えることによって、そのようなラベルから学習する得られる機械学習モデルも向上した精度を示すことができる。さらに、そのようなラベルに関して試験されたモデルの性能を正確に測定することができる。
本開示の別の態様は、参照データセット(たとえば、訓練データセット、試験データセット、妥当性確認データセットなど)内の陽性所見のエンリッチメントをもたらす、母集団補正評価手法を使用する本明細書で説明する機械学習モデルの評価を対象とする。
より具体的には、データセット選択が放射線学における機械学習手法の重要な要素である。陽性所見についてのエンリッチメントは、ラベル付けリソースを効率的に使用する訓練および評価の必須の例を提供することができるデータセットを作成する際の手法である。具体的には、データセットエンリッチメントでは、肯定的な訓練ラベルを有する(たとえば、検出すべき状態を示す)訓練例が参照データセット内で大きい割合を占め、それによって、モデルに肯定ラベルに関して学習または試験する追加の機会が与えられる。この肯定ラベルは場合によっては非常にまれにしか生じないことがある(たとえば、検出すべき状態が一般集団内ではまれにしか生じない場合)。
しかし、エンリッチされたデータセットは必ずしも実世界の有病率またはケースミックス多様性を反映せず、そのようなエンリッチメントは、診断能の有意義な臨床的解釈を妨げることもある。エンリッチメントと乏しいケースミックス多様性の問題は、機械学習システムについて一般に報告される性能メトリクスの意義を低下させることがある。
この問題に対処するために、本開示は、参照データセットのエンリッチメントをもたらす、機械学習モデルを評価するための改良された技法を提供する。具体的には、(たとえば、訓練、試験、または妥当性確認時に)モデルの性能が評価される各例において、モデルについての生性能スコア(たとえば、通常生成されるであろうスコア)を重み値によって修正することができ、この場合、重み値は、モデルの性能が評価されている例に対して実行されたエンリッチメントの量に反比例する。
簡単に言えば、様々な選択基準に基づいて、各参照例(たとえば、訓練例または試験例)を「エンリッチメントグループ」に割り当てて重み付けを容易にすることができる。一例として、各グループを参照例に割り当てられるラベルによって定義することができ、または各グループはラベルと同一の範囲を有することができる(たとえば、「骨折」の状態について「はい」のラベルを有するすべての参照例を1つのグループに割り当てることができる)。別の例として、各グループをそれぞれのラベルに関連する信頼性レベルに基づくグループとすることができる(たとえば、陽性診断に極めて自信ありと、間違いなく異常と、陰性診断に極めて自信あり)。
いくつかの実装形態では、特定の参照例についての重みを算出するために、グループのメンバーが参照データセット(たとえば、訓練データセットまたは試験データセット)に何度出現するかと、グループのメンバーが親データセットに何度出現するかをコンピューティングシステムが評価することができる。たとえば、親データセットは、すべての既知の参照例を含むことができる。たとえば、親データセットは母集団-レベル分布を示すことができる。
より具体的には、一例では、各参照例についての重みは、参照例に関連するグループに含まれる親データセットに含まれる例の数を、参照データセットに含まれ、参照例に関連するグループに含まれる参照例の数で割った値に等しくすることができる。一例を挙げると、親データセットが同じ選択グループに含まれる(たとえば、同じラベルを有する)20個の例を含み、一方、参照データセットが10個の例のみを含む場合、10個の例の各々についての重み値は2に等しくすることができる。したがって、重みは「エンリッチメントの量」に反比例し、最低の可能な重み1は、あるラベルタイプのすべての可能な画像がエンリッチされたセットに含まれるときのシナリオに相当する(たとえば、これらの画像は、比較的まれな画像タイプであり、実際の臨床的ケースミックスに対して参照セットにおいて高度にエンリッチされ、したがって、低い重みは、補正時にこれらの画像がまれであることを反映する)。
上述の重み付き性能評価は、訓練時および/または訓練後評価(たとえば、試験)時に適用することができる。たとえば、訓練時には、重み値は、損失関数がモデルパラメータの更新に対してどれだけ影響を与えるかを制御するために損失関数の一部として適用することができる。試験時には、重み値を精度尺度などの性能尺度に適用して、(たとえば、特殊参照データセットによって示されるエンリッチされた分布とは対照的に)母集団-レベル分布を有するケースに適用されるときにモデルの真の性能についてのより正確な測定値を取得することができる。
米国仮特許出願第62/931974号において実証されているように、本明細書で説明する技法に従って訓練された例示的なモデルは、多様なマルチセンター胸部X線データセット上での気胸、結節/腫瘤、陰影、および骨折の検出について有資格の放射線科医の胸部X線解釈とのパリティを実現した。具体的には、米国仮特許出願第62/931974号に含まれる例示的な実験データは、各参照基準方法の違いおよび性能評価に対して得られる効果を実証し、厳密な標準化された方法の重要性を強調し、放射線学における人工知能アプリケーションの開発を推進する。
本開示の例示的な態様は、X線写真(および特に胸部X線写真)用の判定ラベルを生成するプロセスに焦点を合わせているが、判定プロセスは、訓練例の他の形態のモダリティ用の判定ラベルを生成するように実行することができる。さらに、本開示の例示的な態様は、画像診断推論情報についての重み付き性能評価の判定に焦点を合わせているが、重み付き性能評価を適用して機械学習モデルによって与えられる他の形態の推論情報の性能を測定することができる。一例として、例示的な態様は胸部X線写真および胸部状態に焦点を合わせているが、本明細書で説明する技法は、人体の任意の部分(たとえば、手)のX線写真およびそのようなX線写真から検出可能な任意の状態(たとえば、骨折)に拡張可能である。同様に、本明細書で説明する技法は、他の形態の医用画像(たとえば、CTスキャン)およびそのような形態の医用画像から検出可能な任意の状態(たとえば、脳損傷)に拡張可能である。
いくつかの実装形態では、(たとえば、訓練および/または推論用に)モデルによって使用されるデータは、非特定化されたデータとすることができる。たとえば、位置、名前、正確な誕生日、連絡先情報、生体情報、顔写真などの個人を特定可能な情報が、モデルおよび/もしくはモデルを含むコンピューティングシステムに送信されるかまたはモデルおよび/もしくはコンピューティングシステムによって利用される前にレコードからスクラブすることができる。たとえば、個人の身元を保護し、HIPAAなどの医療データに関する規制を順守するようにデータを非特定化することができ、それによって、モデルによって使用される、および/またはモデルを訓練するために使用されるデータに個人を特定可能な情報(たとえば、保護健康情報)は存在しない。
上記の説明に加えて、本明細書で説明するシステム、プログラム、または特徴がユーザ情報(たとえば、経過観察、治療介入、状態など)の集合を有効化してもよいかどうかと、いつ有効化し得るかの両方に関する選択をユーザが行うのを可能にする制御手段がユーザに与えられてもよい。さらに、あるデータが、記憶または使用される前に、個人を特定可能な情報が削除されるように1つまたは複数の方法で処理されてもよい。たとえば、ユーザの身元は、ユーザについて個人を特定可能な情報を判定できないように処理されてもよい。したがって、ユーザはユーザに関してどんな情報が収集されるか、その情報がどのように使用されるか、およびどんな情報がユーザに与えられるかを制御してもよい。
たとえば、患者が患者の電子カルテ(EMR)データの使用に同意するのを可能にする制御手段が患者に与えられてもよい。別の例として、患者がいくつかまたはすべての形態のEMRデータが収集または記憶されるのを制限するのを可能にする制御手段が患者に与えられてもよい。別の例として、患者が、EMRデータが訓練データとして使用されるかまたは異なる患者に関連する予測に使用されるのを制限することなどによって、EMRデータの使用または継続的な使用を制限するのを可能にする制御手段が患者に与えられてもよい。たとえば、スクラブされ非特定化されたデータの公的に利用可能なデータセット(たとえば、患者から導出された非保護健康情報を使用して)のみを使用して、機械学習モデルを訓練することができる。
次に図を参照して、本開示の例示的な実装形態についてさらに詳しく説明する。
例示的なデバイスおよびシステム
図1A~図1Cは、本開示の例示的な実施形態による例示的なコンピューティングシステムを示す。具体的には、図1Aは、1つまたは複数の機械学習モデル140が、X線機器101によって生成されたX線写真から画像診断推論情報を生成するためにリモートX線写真解釈システム130によって使用される例示的なシステムを示す。図1Bは、1つまたは複数の機械学習モデル120が画像診断推論情報を生成するためにX線写真術コンピューティングシステム102によって使用される代替システムを示す。図1Cは、機械学習モデル120または140の訓練を可能にするように接続されたシステム/デバイスの構成要素を示す。
より具体的には、まず図1Aおよび図1Bを参照するとわかるように、患者20の一部を示す1つまたは複数のX線写真を生成するようにX線機器101を動作させることができる。X線写真は最初に、X線写真術コンピューティングシステム102に収集されるかまたは提供され得る。たとえば、X線写真術コンピューティングシステム102は、X線機器101と共に施設内に配置されるコンピューティングシステムとすることができる。たとえば、X線写真術コンピューティングシステム102はX線機器101の一部とすることができる(たとえば、X線写真術コンピューティングシステム102はX線機器101を制御し、取り込み時にX線機器101からX線データ(X線写真)を受信し記憶することができる)。代替的に、または追加として、X線写真術コンピューティングシステム102は、X線機器101と共に医療施設に配置された別個のシステムとすることができる。たとえば、X線写真術コンピューティングシステム102は、(たとえば、様々な種類の患者ファイルまたはデータを格納する)病院、診療所など用に動作されるコンピューティングシステムなどの医療提供者のコンピューティングシステムとすることがある。
図1Aでは、X線写真がX線写真術コンピューティングシステム102からリモートX線写真解釈システム130に送信される。たとえば、リモートX線写真解釈システム130は、X線写真術コンピューティングシステム102が呼び出しを行って画像診断推論情報を受信することができる(たとえば、APIを介してアクセス可能である)クラウドサービスとすることができる。具体的には、リモートX線写真解釈システム130は1つまたは複数の機械学習モデル140を記憶し使用して、X線写真に基づいて1つまたは複数の画像診断推論情報を生成することができる。たとえば、各画像診断推論情報は、所与のX線写真が所与の状態を示すかどうかの有無を(たとえば、ある程度の信頼性をもって)示すことができる。リモートX線写真解釈システム130は画像診断推論情報をX線写真術コンピューティングシステム102に送信することができ、X線写真術コンピューティングシステム102は画像診断推論情報を医療サービス提供者30(たとえば、医師またはその他の医療専門家)に提供(たとえば、表示)することができる。医療サービス提供者30は(たとえば、医療サービス提供者30自体の判断に加えて)画像診断推論情報を使用して患者20向けの診断および/または治療計画を決定することができる。いくつかの実装形態では、画像診断推論情報は具体的には、推論された状態についての提案される治療を含むことができる。
図1Bは、図1Aに非常に類似している。ただし、X線写真は、X線写真術コンピューティングシステム102にローカルに記憶された1つまたは複数の機械学習モデル120を使用してX線写真術コンピューティングシステム102においてローカルに解析される。
次に図1Cを参照するとわかるように、機械学習モデル120および140を有効化するためのシステム100は、X線写真術コンピューティングシステム102と、リモートX線写真解釈システム130と、ネットワーク180を介して通信可能に結合された訓練コンピューティングシステム150とを含む。
X線写真術コンピューティングシステム102は、たとえば、パーソナルコンピューティングデバイス(たとえば、ラップトップもしくはデスクトップ)、モバイルコンピューティングデバイス(たとえば、スマートフォンもしくはタブレット)、組み込み型コンピューティングデバイス、1つもしくは複数のサーバ、X線機器内に含まれるデバイス、または任意の他の種類のコンピューティングデバイスなどの任意の種類のコンピューティングデバイスを含むことができる。
X線写真術コンピューティングシステム102は、1つまたは複数のプロセッサ112と、メモリ114とを含む。1つまたは複数のプロセッサ112は任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、1つのプロセッサとすることもまたは動作可能に接続された複数のプロセッサとすることもできる。メモリ114は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ114はデータ116と、X線写真術コンピューティングシステム102に動作を実行させるためにプロセッサ112によって実行される命令118とを記憶することができる。
いくつかの実装形態では、X線写真術コンピューティングシステム102は1つまたは複数の機械学習モデル120を記憶するかまたは含むことができる。たとえば、機械学習モデル120は、ニューラルネットワーク(たとえば、ディープニューラルネットワーク)などの様々な機械学習モデルまたは非線形モデルおよび/もしくは線形モデルを含む他の種類の機械学習モデルとすることができ、あるいは場合によってはそのような機械学習モデルを含むことができる。ニューラルネットワークは、フィードフォワードニューラルネットワーク、再帰型ニューラルネットワーク(たとえば、長短期記憶再帰型ニューラルネットワーク)、畳み込みニューラルネットワーク、またはその他の形態のニューラルネットワークを含むことができる。
いくつかの実装形態では、1つまたは複数の機械学習モデル120をネットワーク180を介してリモートX線写真解釈システム130から受信し、X線写真術コンピューティングシステムメモリ114に記憶し、次いで1つまたは複数のプロセッサ112によって使用するかまたは場合によっては実装することができる。いくつかの実装形態では、X線写真術コンピューティングシステム102は、(たとえば、X線写真の複数のインスタンスにわたって並列画像診断推論を実行するために)単一の機械学習モデル120の複数の並列インスタンスを実装することができる。
追加または代替として、クライアント-サーバ関係に従ってX線写真術コンピューティングシステム102と通信するリモートX線写真解釈システム130に1つまたは複数の機械学習モデル140を含めるか、または場合によっては、そのようなリモートX線写真解釈システム130によって1つまたは複数の機械学習モデル140を記憶し実装することができる。たとえば、機械学習モデル140は、ウェブサービス(たとえば、放射線サービス)の一部としてリモートX線写真解釈システム130によって実装することができる。したがって、1つもしくは複数のモデル120をX線写真術コンピューティングシステム102に記憶し実装することができ、および/または1つもしくは複数のモデル140をリモートX線写真解釈システム130に記憶し実装することができる。
X線写真術コンピューティングシステム102は、ユーザ入力を受信する1つまたは複数のユーザ入力構成要素122を含むこともできる。たとえば、ユーザ入力構成要素122は、ユーザ入力オブジェクト(たとえば、指またはスタイラス)の接触に感応するタッチセンサー式構成要素(たとえば、タッチセンサー式表示画面またはタッチパッド)とすることができる。タッチセンサー式構成要素は、仮想キーボードを実装するように働くことができる。他の例示的なユーザ入力構成要素は、マイクロフォン、従来のキーボード、またはユーザがユーザ入力を与えるのを可能にする他の手段を含む。
リモートX線写真解釈システム130は、1つまたは複数のプロセッサ132と、メモリ134とを含む。1つまたは複数のプロセッサ132は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、1つのプロセッサとすることもまたは動作可能に接続された複数のプロセッサとすることもできる。メモリ134は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ134はデータ136と、リモートX線写真解釈システム130に動作を実行させるためにプロセッサ132によって実行される命令138とを記憶することができる。
いくつかの実装形態では、リモートX線写真解釈システム130は、1つもしくは複数のサーバコンピューティングデバイスを含むか、または場合によっては1つもしくは複数のサーバコンピューティングデバイスによって実装される。リモートX線写真解釈システム130が複数のサーバコンピューティングデバイスを含む例では、そのようなサーバコンピューティングデバイスは、順次コンピューティングアーキテクチャ、並列コンピューティングアーキテクチャ、またはそれらの何らかの組合せに従って動作することができる。
上述のように、リモートX線写真解釈システム130は、1つもしくは複数の機械学習モデル140を記憶するかまたは場合によっては含むことができる。たとえば、モデル140は様々な機械学習モデルとすることができ、または場合によっては様々な機械学習モデルを含むことができる。例示的な機械学習モデルは、ニューラルネットワークまたは他の多層非線形モデルを含む。例示的なニューラルネットワークは、フィードフォワードニューラルネットワーク、ディープニューラルネットワーク、再帰型ニューラルネットワーク、および畳み込みニューラルネットワークを含む。
X線写真術コンピューティングシステム102および/またはリモートX線写真解釈システム130は、ネットワーク180を介して通信可能に結合された訓練コンピューティングシステム150との対話を介してモデル120および/または140を訓練することができる。訓練コンピューティングシステム150は、リモートX線写真解釈システム130から分離することができ、またはリモートX線写真解釈システム130の一部とすることができる。
訓練コンピューティングシステム150は、1つまたは複数のプロセッサ152と、メモリ154とを含む。1つまたは複数のプロセッサ152は、任意の適切な処理デバイス(たとえば、プロセッサコア、マイクロプロセッサ、ASIC、FPGA、コントローラ、マイクロコントローラなど)とすることができ、1つのプロセッサとすることもまたは動作可能に接続された複数のプロセッサとすることもできる。メモリ154は、RAM、ROM、EEPROM、EPROM、フラッシュメモリデバイス、磁気ディスクなど、およびそれらの組合せなど、1つまたは複数の非一時的コンピュータ可読記憶媒体を含むことができる。メモリ154はデータ156と、訓練コンピューティングシステム150に動作を実行させるためにプロセッサ152によって実行される命令158とを記憶することができる。いくつかの実装形態では、訓練コンピューティングシステム150は、1つもしくは複数のサーバコンピューティングデバイスを含むか、または場合によっては1つもしくは複数のサーバコンピューティングデバイスによって実装することができる。
訓練コンピューティングシステム150は、たとえば、誤差逆伝搬などの様々な訓練または学習技法を使用してX線写真術コンピューティングシステム102および/またはリモートX線写真解釈システム130に記憶された機械学習モデル120および/または140を訓練するモデルトレーナ160を含むことができる。たとえば、損失関数をモデル内を逆伝搬させ、(たとえば、損失関数の勾配に基づいて)モデルの1つまたは複数のパラメータを更新することができる。平均2乗誤差、尤度損失、交差エントロピー損失、ヒンジ損失、および/または様々な他の損失関数などの様々な損失関数を使用することができる。勾配降下技法を使用していくつかの訓練イテレーションにわたってパラメータを繰り返し更新することができる。
いくつかの実装形態では、誤差逆伝搬を実行することは、打ち切り型通時的逆伝搬を実行することを含むことができる。モデルトレーナ160は、いくつかの一般化技法(たとえば、荷重減衰、ドロップアウトなど)を実行して訓練中のモデルの一般化機能を向上させることができる。
具体的には、モデルトレーナ160は、訓練データ162のセットに基づいて機械学習モデル120および/または140を訓練することができる。訓練データ162は、たとえば1つまたは複数の判定ラベルがラベル付けされた例示的な訓練または参照X線写真を含むことができる。たとえば、例示的なX線写真は胸部X線写真とすることができる。各X線写真についての判定ラベルは、X線写真が1つまたは複数の状態を示すかどうかを(たとえば、2進数で表されてもまたは連続数で表されてもよい、ある信頼性をもって)示すことができる。
より具体的な例として、例示的な訓練データセットは以下のようなデータセットとすることができる。第1のデータセット1(DS1)は、538,390人の患者からのレポートを有する、759,611個の非特定化された正面胸部X線写真(デジタルおよびスキャン済み)を含むことができる。このデータセットは、2010年11月から2018年1月までの間にインドの5つの都市(ベンガルール、ブバネーシュワル、チェンナイ、ハイデラバード、ニューデリー)におけるApollo Hospitalsグループの5つの地域センターから取得されたDICOMフォーマットのすべての連続する入院患者画像および外来患者画像からなる。第2のデータセットは、30,805人の患者からの112,120枚の正面胸部X線写真像からなる国立衛生研究所(ChestX-ray14)(18、21)から公的に利用可能なデータセットとすることができる(Table 1)。DS1は複数の異なる病院からのすべての胸部X線写真を含むので、このデータセットにおける異常は、これらの母集団におけるそれぞれに異なる異常の自然な母集団有病率を反映する。これに対して、ChestX-ray14は、一般集団に対する様々な胸部異常についてエンリッチされている。
訓練データセットを準備するための1つの例示的なプロセスは以下のとおりである。DS1について、患者をランダムに訓練セット、チューニング/妥当性確認セット、または試験セットに割り当てることができる。ChestX-ray14について、2,797人の患者からの25,596枚の画像の最初の試験セットを保存することができる。28,008人の患者からの残りの86,524枚の画像をランダムに訓練セット(80%)およびチューニング/妥当性確認セット(20%)に分割することができる。両方のデータセットについて、同じ患者からの画像を分割後の同じセットに維持して、同じ患者に対する訓練および試験を回避することができる。
さらなる例として、陽性所見を有する十分な数の多様な高品質ラベル付き画像を与えるために、DS1とChestX-ray14の両方から約2,000枚の画像を選択することができる。ChestXray14はすでに陽性所見についてエンリッチされているので、画像は利用可能な画像からランダムに選択することができる。DS1について、画像は、ケースミックス多様性を維持し、また逆確率重み付けによる解析における母集団補正を可能にしつつ陽性所見についてエンリッチするように放射線レポートに基づいて選択することができる。放射線レポートを使用してケースエンリッチメントを推進することができるが、各画像についての参照基準ラベルは、放射線科医による画像レビューの判定を介して与えることができる。
いくつかの例示的な実装形態では、2つの手法、すなわち専門家による画像アノテーションおよび自然言語処理(NLP)を介して訓練例にラベル付けすることができる。たとえば、訓練画像(たとえば、DS1画像)にラベル付けするには、NLPモデルを使用して、約35,000個のレポートを使用する最初の放射線レポートから画像ラベルを予測することができる。簡単に言えば、1次元深層畳み込みニューラルネットワークを訓練することができ、性能を人間によってラベル付けされたレポートに対して評価することができる。NLPモデル開発のための訓練セット、妥当性確認セット、および試験セットは、画像モデル化に使用される対応するデータ分割のサブセットとすることができる。
いくつかの実装形態では、ユーザが同意した場合、X線写真術コンピューティングシステム102によって訓練例を与えることができる。したがって、そのような実装形態では、X線写真術コンピューティングシステム102に与えられたモデル120は、X線写真術コンピューティングシステム102から受信されるユーザ固有データに関して訓練コンピューティングシステム150によって訓練することができる。いくつかの例では、このプロセスはモデルのパーソナライゼーションと呼ぶことができる。
モデルトレーナ160は、所望の機能を提供するために利用されるコンピュータ論理を含む。モデルトレーナ160は、汎用プロセッサを制御するハードウェア、ファームウェア、および/またはソフトウェアにおいて実装することができる。たとえば、いくつかの実装形態では、モデルトレーナ160は、記憶デバイス上に記憶され、メモリにロードされ、1つまたは複数のプロセッサによって実行されるプログラムファイルを含む。他の実装形態では、モデルトレーナ160は、RAMハードディスクまたは光学媒体もしくは磁気媒体などの有形コンピュータ可読記憶媒体に記憶されたコンピュータ実行可能命令の1つまたは複数のセットを含む。
ネットワーク180は、ローカルエリアネットワーク(たとえば、イントラネット)、ワイドエリアネットワーク(たとえば、インターネット)、またはそれらの何らかの組合せなど、任意の種類の通信ネットワークとすることができ、任意の数の有線リンクまたはワイヤレスリンクを含むことができる。一般に、ネットワーク180を介した通信は、様々な通信プロトコル(たとえば、TCP/IP、HTTP、SMTP、FTP)、符号化もしくはフォーマット(たとえば、HTML、XML)、および/または保護方式(たとえば、VPN、セキュアHTTP、SSL )を使用して任意の種類の有線接続および/またはワイヤレス接続を介して行うことができる。
図1Cは、本開示を実施するために使用することができる1つの例示的なコンピューティングシステムを示す。他のコンピューティングシステムを使用することもできる。たとえば、いくつかの実装形態では、X線写真術コンピューティングシステム102はモデルトレーナ160と、訓練データセット162とを含むことができる。そのような実装形態では、モデル120はX線写真術コンピューティングシステム102においてローカルに訓練するとともに使用することができる。そのような実装形態のうちのいくつかでは、X線写真術コンピューティングシステム102はモデルトレーナ160を実装して、ユーザ固有データに基づいてモデル120をパーソナライズすることができる。
例示的なラベル判定プロセス
図2は、本開示の例示的な実施形態による判定ラベルを取得するための例示的なプロセスを示す。具体的には、図示の判定プロセスでは、複数の(たとえば、1~N人)の人間の評価者(たとえば、放射線科医)が協働で参照X線写真(たとえば、参照胸部X線写真)を評価して参照X線写真についての判定ラベルを生成することができる。具体的には、判定プロセスは、1回または複数回の中間評価ラウンド(たとえば、2ラウンド、3ラウンド、5ラウンドなど)にわたって行うことができる。各中間評価ラウンドにおいて、各々の人間の評価者には、参照例を検討してそれぞれの中間評価を提供する機会を与えることができる。
本開示の一態様によれば、各中間評価ラウンドにおいて、各々の人間の評価者には前のラウンドおよび/または現在のラウンドにおいて他の評価者によって提供された中間評価を検討する機会を与えることもできる。各評価者は、他の、場合によっては異なる視点に関する情報に基づいて評価者自身のそれぞれの中間評価を維持するかそれとも更新するかを決定することができる。
人間の評価者が他の評価者の評価を検討するのを可能にすることによって、人間の評価者は前に検出できなかった状態を特定できることがある。言い換えれば、放射線学を介して検出可能ないくつかの状態は検出が著しく困難な場合があり、それによって、判定者の大部分でさえその状態を正しく診断することができない。しかし、1回または複数回のラウンドを介して協働的な議論/検討を行うことができる提案する方式では、最終的な判断を提供する前に少数派の視点が考慮される場合がある。実際には少数派の視点が正しい診断である場合に、議論によって、少数派が多数派を納得させて多数派の診断を変更させることが可能になる場合がある。たとえば、1人の鋭敏な熟達した評価者が、他の評価者が最初正しい診断を提供することができなかったことをそれらの評価者に納得させることができる場合がある。そのように、人間の評価者によって提供される評価によって、極めて困難な場合に、より正確なラベルを与えることができる。
いくつかの実装形態では、各中間評価ラウンドにおいて、人間の評価者は、そのそれぞれの中間評価に関するそれぞれの書面による解説を他の人間の評価者に提供することができる。たとえば、各評価者からグループに、書面によるメモを送信することができる。これによって、人間の評価者は、なぜそれぞれの評価を下したか、および場合によってはなぜその評価が逆の評価よりも優れているかの書面による説明を示すことができる。
同様に、いくつかの実装形態では、各中間評価ラウンドにおいて、人間の評価者が例示的な胸部X線写真上のそれぞれの視覚的マークアップを他の人間の評価者に提供することができる。たとえば、視覚的マークアップには色付け、アノテーション、および/または評価者が評価を視覚的に立証するために使用できる他の形態のマークアップを含めることができる。
いくつかの実装形態では、各中間評価ラウンドにおいて、一部またはすべての人間の評価者は他の人間の評価者に対して匿名にすることができる。評価者の身元を不明にすることによって、他の評価者は、政治的偏見、社会的偏見、または他の暗黙的な偏見が他の評価者の評価にどの程度の敬意を与えるかに影響を与えるのを防止することができる。たとえば、人間の評価者の1人が極めて優秀な放射線科医である場合、その放射線科医の身元を秘密にすると、他の評価者が敬意またはその他の関心からその放射線科医の判断に単純に従うことが防止される。
いくつかの実装形態では、中間評価ラウンドは、同期的に実行することができ、それによって、評価者は、(たとえば、チャットインターフェース、ビデオ会議などを介して)同時に協働することができる。代替的に、または追加として、中間評価ラウンドを非同期的に実行することができる。非同期プロセスは、評価者が融通性に富んだスケジュールどおりに画像にラベル付けするのを可能にし、複数の臨床スケジュールを合わせるのを不要にすることができる。
1回または複数回の中間評価ラウンドの後に(たとえば、意見が一致するかまたはラウンドの最大数に達した直後に)、各々の人間の評価者は、最終評価を提供することができる。たとえば、最終評価は単に、最終状態がもたらされる前に行われた最後の中間評価ラウンドにおいて提供された最後の中間評価とすることができる。複数の人間の評価者からの最終評価を組み合わせるかまたは集計して参照X線写真についての判定ラベルを生成することができる。たとえば、投票方式を適用して、大多数の評価者によって与えられた状態評価を判定ラベルとして選択することができる。
提案する判定プロセスでは、特に、困難であるが重大なエッジケースにおいて向上した精度を示す(たとえば、訓練、試験、および/または妥当性確認に有用な)判定ラベルを作成する。精度が向上したラベルを与えることによって、そのようなラベルから学習する得られる機械学習モデルも向上した精度を示すことができる。さらに、そのようなラベルに関して試験されたモデルの性能を正確に測定することができる。
このプロセスの1つの例示的な実装形態のより詳細な説明は以下のとおりである。例示的な判定プロセスは、4つの胸部X線写真所見、すなわち気胸、陰影、(陰影の特定のサブタイプとしての)結節/腫瘤、および骨折の特定を追求することができる。これらの範疇についての臨床的な定義は、目に見える肋骨、鎖骨、上腕骨、または椎体の骨折として定義され得る骨折を除いてFleischner Society Glossary of Terms for Thoracic Imagingに基づく定義とすることができる。たとえば、結節は3cm未満と定義することができ、腫瘤は3cm以上と定義することができる。これらの所見の各々の有無は、画像レベルにおいてラベル付けすることができる。胸腔チューブおよび骨折程度ラベルを収集することもできる。
いくつかの例では、最終妥当性確認および試験セット画像についての参照基準ラベルを3人の放射線科医による判定レビューを介して割り当てることができる。試験セットにおける各画像について、11人の有資格の放射線科医(一般的な放射線学における経験範囲3年~21年、胸部専門医なし、A.D.を含む)のコホートから3人の読影者を選任することができる。妥当性確認セットの各画像についての3人の読影者は、有資格の放射線科医(胸部専門医なし)と研修医の両方からなる13人の個人のコホートから選択することができる。
簡単に言えば、画像を3人の読影者によって独立に評価することができ、不一致を同じ読影者による最大5ラウンドの非同期式で匿名の議論を介して解決するのが可能になるが、意見の一致が強化されることはない。意見が一致しなかった場合、任意に多数決を使用することができる。読影者の全員が患者の年齢および画像ビュー(PAとAP)にアクセスすることができるが、さらなる臨床データまたは患者データにアクセスすることはできない。結節/腫瘤および気胸は、有り、無し、または「ヘッジ」(すなわち、有無が不確かである)として判定することができ、陰影および骨折は有りまたは無しとして判定することができる。評価について、ヘッジは、臨床ヘッジがさらなる読影、処置、および/または臨床経過観察を促すという原理によって陽性と見なすことができる。
例示的な性能評価
図3は、本開示の例示的な実施形態による(たとえば、妥当性確認または試験時の)訓練済みモデルの重み付き性能評価を判定するための例示的な技法のブロック図を示す。具体的には、図3に示すように、機械学習モデル304が参照X線写真を受信し処理して1つまたは複数の画像診断推論情報306を生成することができる。1つまたは複数の画像診断推論情報に対して性能評価(たとえば、重み付き性能評価)308を実行することができる。
具体的には、モデル304の性能が308において評価されたときに、モデル304についての生性能スコア(たとえば、通常、従来の評価技法を使用して生成される精度スコアなど)を重み値によって修正することができ、この場合、重み値は、モデルの性能が評価されている参照X線写真302に対して行われたエンリッチメントの量に反比例する。
簡単に言えば、様々な選択基準に基づいて、参照データセットにおける各参照例(たとえば、参照X線写真302)を「エンリッチメントグループ」に割り当てて重み付けを容易にすることができる。一例として、各グループを参照例に割り当てられるラベルによって定義することができ、または各グループはラベルと同一の範囲を有することができる(たとえば、「骨折」の状態について「はい」のラベルを有するすべての参照例を1つのグループに割り当てることができる)。別の例として、各グループをそれぞれのラベルに関連する信頼性レベルに基づくグループとすることができる(たとえば、陽性診断に極めて自信ありと、間違いなく異常と、陰性診断に極めて自信あり)。
いくつかの実装形態では、特定の参照例302についての重みを算出するために、グループのメンバーが参照データセット(たとえば、訓練データセットまたは試験データセット)に何度出現するかと、グループのメンバーが親データセットに何度出現するかをコンピューティングシステムが評価することができる。たとえば、親データセットは、すべての既知の参照例を含むことができる。たとえば、親データセットは、母集団全体における状態の分布に一致する母集団-レベル分布を示すことができる。
より具体的には、一例では、参照X線写真302についての重みは、参照X線写真302に関連するグループに含まれる親データセットに含まれる例の数を、参照データセットに含まれ、参照X線写真302に関連するグループに含まれる参照例の数で割った値に等しくすることができる。一例を挙げると、親データセットが同じ選択グループに含まれる(たとえば、同じラベルを有する)20個の例を含み、一方、参照データセットが10個の例のみを含む場合、10個の例の各々についての重み値は2に等しくすることができる。したがって、重みは「エンリッチメントの量」に反比例し、最低の可能な重み1は、あるラベルタイプのすべての可能な画像がエンリッチされたセットに含まれるときのシナリオに相当する(たとえば、これらの画像は、比較的まれな画像タイプであり、実際の臨床的ケースミックスに対して参照セットにおいて高度にエンリッチされ、したがって、低い重みは、補正時にこれらの画像がまれであることを反映する)。
一例として、画像当たりモデル予測を決定変数として使用して受信者動作曲線(AUC-ROC)に基づいて面積を算出することによってモデル性能を評価することができる。モデル性能は、試験セット上の2つの動作点、すなわち、平均放射線科医感度および平均放射線科医特異度において放射線科医能力と比較することができる。
図4は、本開示の例示的な実施形態による重み付き損失関数を使用してモデルを訓練するための例示的な技法のブロック図を示す。図4に示すように、機械学習モデル404は訓練X線写真402を受信し処理して1つまたは複数の画像診断推論情報406を生成することができる。損失関数(たとえば、重み付き損失関数)308は、画像診断推論情報406と1つまたは複数のグラウンドトゥルースラベル403(たとえば、判定ラベル)を比較して(たとえば、画像診断推論情報406と1つまたは複数のグラウンドトゥルースラベル403との差を判定して)損失値(たとえば、重み付き損失値)を生成することができる。具体的には、本明細書で説明するように、訓練X線写真402についての重み付き損失値を訓練X線写真402に関連するエンリッチメントの量に反比例する重みを使用して重み付けすることができる。損失値は機械学習モデル404を訓練するための訓練信号として使用することができる。たとえば、勾配降下技法に従って重み付き損失関数408をモデル404内を逆伝搬させることができる。
モデル性能を評価するための例示的なプロセスのより詳細な説明は以下のとおりである。画像レベルでの1,000倍のリサンプリングによるノンパラメトリックブートストラップ法を使用してモデルについての信頼区間(CI)および放射線科医能力を算出することができる。Obuchowski-Rockette-Hillis手順を使用してモデル性能を放射線科医と比較することができる。最初に、画像診断法同士を比較するために、この解析が放射線科医能力とスタンドアロンアルゴリズムの放射線科医能力との比較に適応されている。この解析では、平均放射線科医感度(特異度を比較する際)および平均放射線科医特異度(感度を比較する際)に相当する動作点を使用してモデルにしきい値を適用することができ、モデルと放射線科医の両方に2値化一致(すなわち、正しいと誤り)を使用した。試験統計の分子にマージンパラメータ(5%)を組み込むことによって非劣性を評価することができる。簡単に言えば、小さいp値は、ヌル仮説(放射線科医の能力がモデルの性能よりも5%以上優れている)が拒否されることを示す。ジャックナイフ法を使用して試験の共分散項を推定することができる。
例示的なモデルアーキテクチャ
図5は、使用できる1つの例示的な機械学習モデルアーキテクチャを示す。図5に示すアーキテクチャは一例に過ぎず、図示のアーキテクチャに加えてまたは図示のアーキテクチャの代わりに他のアーキテクチャを使用することができる。
図5に示すように、例示的な機械学習モデル500は、共有特徴抽出部504と、異なる状態についてそれぞれの画像診断推論情報(たとえば、推論情報516、517、518)を与える複数の分類ヘッド(たとえば、ヘッド506、507、508)とを含むことができる。より具体的には、共有特徴抽出部504はX線写真502を入力として受信することができ、X線写真502を処理して中間表現を生成することができ、中間表現は組み込みと呼ぶこともできる。中間表現は、たとえば低次元または高次元潜在空間における連続値ベクトルとすることができる。
共有特徴抽出部504は、中間表現を各分類ヘッド506、507、508に与えることができる。各分類ヘッド506、507、508は中間表現に基づいてそれぞれの画像診断推論情報516、517、518を作成することができる。各々のそれぞれの推論情報516、517、518は2進推論情報(たとえば、分類)とすることができ、または(たとえば、範囲[0,1]の)連続値推論情報とすることができる。必要に応じて、連続値推論情報にしきい値を適用して2進推論情報を取得することができる。いくつかの実装形態では、出力516、517、518のうちの1つまたは複数は、対応する予測に重要であった1つまたは複数のサリエンシー領域を示すこともできる。
例示的なモデルアーキテクチャのより詳細な説明は以下のとおりである。2つの別々のディープラーニング法を訓練してそれぞれ、骨折および結節/腫瘤の有無を区別することができる。2つの出力を有する単一のディープラーニングモデルを訓練して気胸と陰影の両方を特定することができる。モデルは、DS1訓練セットとChestX-ray14訓練セットの両方からの訓練画像の結合セットを用いて訓練された畳み込みニューラルネットワークとすることができる。Xceptionネットワークを畳み込みニューラルネットワークアーキテクチャとして使用することができる。ネットワークは3億枚の自然画像上で事前に訓練することができる。事前に訓練されたXceptionアーキテクチャとの互換性のために、単一チャネルグレースケール画像を3つのチャネル(本来RGBを対象としている)にタイル表示することができる。モデルは交差エントロピー損失およびAdam最適化アルゴリズムを用いて訓練することができる。訓練では、初期学習率を0.00143、指数的減衰率を0.865とし、減衰率が0.0822のモメンタムを使用し、減衰学習率およびモメンタムについてバッチサイズを16とすることができる。
妥当性確認セット上の精度-再現性曲線(AUC-PR)に基づく領域に基づいてアンサンブル化用のモデルを選択することができる。最終モデルは同じデータセット上で訓練された複数のモデルのアンサンブルとすることができ、最終モデル予測は、アンサンブルの予測の平均として算出することができる。
したがって、一例として、各状態について、マルチヘッドモデルを訓練して、関心対象の状態についての性能を向上させることが経験的に示された2進分類タスクのセット向けに最適化することができる。モデルアンサンブル化用の同一のパラメータを用いて各訓練構成を3回実行することができる。
訓練の間、モデルをチェックポイントとして周期的に保存することができる。性能はDS1およびChestX-ray14の妥当性確認セット上で監視することができ、関心対象の状態に関して最高のAUC-PRを有するチェックポイントを最終モデルとしてアンサンブル化することができる。
一例として、気胸については、気胸、気腔陰影、胸腔チューブ、および胸腔チューブがない場合の気胸の存在を予測するようにモデルを訓練することができる。1つの例示的な最終モデルは、3つの訓練レプリカにわたる、DS1についての気胸タスクに関する最高のAUCPR、ChestXray14についての気胸タスクに関する最高のAUC-PR、DS1についての胸腔チューブタスクがない場合の気胸に関する最高のAUC-PR、およびChestX-ray14についての胸腔チューブタスクがない場合の気胸に関する最高のAUC-PRの各チェックポイントに基づくアンサンブルである。この結果12個のチェックポイントが得られる。
別の例として、陰影については、気胸の場合と同じモデル訓練構成を使用することができるが、気胸出力ではなく気腔陰影出力を得ることができる。1つの例示的な最終モデルは、3つの訓練レプリカにわたって、DS1についての気腔陰影タスクに関するAUC-PRが最高であったチェックポイントおよびChestX-ray14についての気腔陰影タスクに関するAUC-PRが最高であったチェックポイントに基づくアンサンブルである。この結果6つのチェックポイントが得られる。
別の例として、結節/腫瘤については、結節/腫瘤、気腔陰影、結節、および腫瘤の存在を予測し、結節のカウントタイプ(単一、複数、または広範性)を分類するように訓練することができる。1つの例示的な最終モデルは、3つの訓練レプリカの各々について、DS1についての結節/腫瘤タスクに関するAUC-PRが最高であったチェックポイントおよびChestX-ray14についての結節/腫瘤タスクに関するAUC-PRが最高であったチェックポイントに基づくアンサンブルであり得る。この結果6つのチェックポイントが得られる。
別の例として、骨折については、骨折の存在および左右鎖骨、左右肋骨、左右肩骨、および脊柱における位置の各々における存在を予測するようにモデルを訓練することができる。これによって、様々な位置にわたる複数の骨折を予測することができる。1つの例示的な最終モデルは、3つの訓練レプリカの各々について、DS1についての骨折タスクに関するAUC-PRが最高であったチェックポイントおよびChestX-ray14についての骨折タスクに関するAUCPRが最高であったチェックポイントに基づくアンサンブルである。この結果6つのチェックポイントが得られる。
例示的な方法
図6は、本開示の例示的な実施形態による判定ラベルを取得して使用するための例示的な方法600のフローチャート図を示す。
602において、コンピューティングシステムが例示的なX線写真を複数の人間の評価者に与えることができる。
604において、コンピューティングシステムは、それぞれ複数の人間の評価者から例示的なX線写真についての複数の中間評価を受信することができる。
606において、コンピューティングシステムは、複数の人間の評価者の各々の間で複数の中間評価を共有することができる。
608において、コンピューティングシステムは、そのような評価者がそれぞれの中間評価を維持するかそれとも変更するかの指示を各評価者から受信することができる。
610において、コンピューティングシステムは、追加の中間評価ラウンドを実行すべきであるかどうかを判定することができる。たとえば、ラウンドカウンタを最大ラウンド数と比較することができる(たとえば、5ラウンドが実行されると、中間ラウンドは終了する)。別の例として、コンピューティングシステムは、意見が一致したかどうかを判定することができ、一致した場合、中間ラウンドは終了する。
610において、追加の中間評価ラウンドを実行すべきであると判定された場合、方法600は、606に戻り、再び現在の評価がすべての評価者に共有される。
しかし、610において追加の中間評価ラウンドを実行すべきではないと判定された場合、方法600は612に進むことができる。612において、コンピューティングシステムは、最後の中間評価ラウンドをそれらの評価者についての最終評価と見なす。
614において、コンピューティングシステムは、最終評価に基づいて例示的なX線写真についての判定ラベルを生成することができ、ラベルを例示的なX線写真と共に訓練データセットに格納することができる。
616において、コンピューティングシステムは、例示的なX線写真および判定ラベルを使用して1つまたは複数の機械学習モデルを訓練することができる。
図7は、本開示の例示的な実施形態によるモデル出力の重み付き性能評価を判定するための例示的な方法700のフローチャート図を示す。
702において、コンピューティングシステムは、参照データセットから参照例にアクセスすることができる。参照例に特定のラベルを関連付けることができる。
704において、コンピューティングシステムは、参照例に基づいて機械学習モデルによって作成された出力についての生性能値を判定することができる。
706において、コンピューティングシステムは、参照データセットにおける特定のラベルに関連するエンリッチメントの量を判定することができる。
708において、コンピューティングシステムは、エンリッチメントの量に少なくとも部分的に基づいて重み値を判定することができる。
710において、コンピューティングシステムは、重み値を用いて(たとえば、乗算によって)生性能値を修正して重み付き性能値を取得することができる。
追加の開示
本明細書で議論される技術は、サーバ、データベース、ソフトウェアアプリケーション、およびその他のコンピュータベースシステム、ならびにそのようなシステム間で講じられる処置およびそのようなシステム間で送信される情報に言及している。コンピュータベースシステムの固有の融通性によって、構成要素間のタスクおよび機能の様々な可能な構成、組合せ、および分割が可能になる。たとえば、本明細書で議論されるプロセスは、単一のデバイスもしくは構成要素を使用して実施することもまたは協働する複数のデバイスもしくは構成要素を使用して実施することもできる。データベースおよびアプリケーションは単一のシステム上に実装することもまたは複数のシステムにわたって分散することもできる。分散された構成要素は順次動作することもまたは並行して動作することもできる。
本主題についてその様々な特定の例示的な実施形態に関して詳細に説明したが、各例は、開示の限定ではなく説明のために示されている。当業者は、上記のことを理解したときに、そのような実施形態の代替実施形態、変形実施形態、および等価実施形態を容易に作成することができる。したがって、本開示は、当業者に容易に明らかになる本主題のそのような修正実施形態、変形実施形態、および/または追加実施形態を包含することを妨げることはない。たとえば、一実施形態の一部として図示または説明した特徴を別の実施形態と共に使用してさらなる実施形態を生成することができる。したがって、本開示はそのような代替実施形態、変形実施形態、および等価実施形態を対象とする。
具体的には、図6および図7はそれぞれ、例示および説明のために特定の順序で実行されるステップを示すが、本開示の方法は具体的に例示される順序および構成に限定されない。方法600および方法700の様々なステップを本開示の範囲から逸脱せずに様々な方法で省略し、再構成し、組み合わせ、および/または適応させることができる。
本開示の別の例示的な態様は、機械学習モデルを利用して正常な胸部X線写真と異常な胸部X線写真を区別するシステムおよび方法を対象とする。これらのシステム、方法、およびモデルは、見えない疾患に一般化されることが実証されている。これらのシステム、方法、およびモデルは、一例ではトリアージ手段として使用することができる。
より具体的には、いくつかのアルゴリズムは、肺炎、胸水、および骨折などの特定の所見を検出するうえで放射線科医に匹敵するかまたはそれよりも高い性能を示している。しかし、これらのアルゴリズムは、特定の所見を検出するように開発されることによって、検出するように訓練されていない他の異常を適正に報告する可能性は低い。
上記のことに考慮して、本開示の1つの例示的な態様は、胸部X線写真(CXR)を正常または異常として分類する機械学習システム(たとえば、ディープラーニングシステム)を提供する。具体的には、放射線科医の判定負担が大きいシナリオでは、これらの提案するシステムおよび方法を使用して所見を含む可能性が高い事例を特定し、それらの事例を優先的に検討できるようにグループにまとめ、異常事例についての検査所要時間を短縮することができる。AIアルゴリズムによって正常事例を迅速に特徴付けることもでき、医療関係者がいくつかの鑑別診断を迅速に除外できるようにし、遅延なく精密検査を他の方向に進めることが可能になる。
これらの提案するシステムを非放射線科医用の最先端ポイントオブケア手段として使用することができる。これらの提案するシステムが既存の解決手段に勝る1つの利点は一般化可能性である。提案するシステムの例示的な実装形態を、提案するシステムが検出するように特に訓練されなかった2つの疾患(たとえば、結核および新型コロナウイルス感染症2019)を含む6つの国際データセットに関して評価することによって、提案するモデルが既存の解決手段よりも広い範囲の異常に対してうまく働くことが経験的に示されている。
20 患者
30 医療サービス提供者
101 X線機器
102 X線写真術コンピューティングシステム
112 プロセッサ
114 メモリ
116 データ
118 命令
120 機械学習モデル、モデル
122 ユーザ入力構成要素
130 リモートX線写真解釈システム
132 プロセッサ
134 メモリ
136 データ
138 命令
140 機械学習モデル、モデル
150 訓練コンピューティングシステム
152 プロセッサ
154 メモリ
156 データ
158 命令
160 モデルトレーナ
162 訓練データ、訓練データセット
180 ネットワーク
302 参照X線写真、参照例
304 機械学習モデル、モデル
306 画像診断推論情報
308 性能評価、損失関数
402 訓練X線写真
403 グラウンドトゥルースラベル
404 機械学習モデル、モデル
406 画像診断推論情報
408 重み付き損失関数
500 機械学習モデル
504 共有特徴抽出部
506、507、508 分類ヘッド
516、517、518 推論情報、出力
600 例示的な方法、方法
700 例示的な方法、方法

Claims (23)

  1. 機械学習を介して胸部X線写真の解釈を向上させるための方法であって、
    1つまたは複数のコンピューティングデバイスによって、胸部X線写真を受信し処理して、前記胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示す出力を生成するように構成された1つまたは複数の機械学習モデルを記述するデータを取得するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、複数の訓練例を含む訓練データセットにアクセスするステップであって、前記複数の訓練例の各々が、例示的な胸部X線写真と、前記例示的な胸部X線写真が前記1つまたは複数の胸部状態を示すかどうかを示す前記例示的な胸部X線写真に割り当てられたラベルとを含み、
    前記複数の訓練例の少なくともいくつかについて、前記例示的な胸部X線写真に割り当てられた前記ラベルが、複数の人間の評価者によってそれぞれ前記例示的な胸部X線写真について提供された複数の最終評価に基づいて生成される判定ラベルを含み、
    前記複数の最終評価を提供する前に、前記人間の評価者に、1回または複数回の中間評価ラウンドを介して、他の人間の評価者によって提供された1つまたは複数のそれぞれの中間評価が与えられる、ステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記訓練データセットに含まれる前記複数の訓練例を使用して前記1つまたは複数の機械学習モデルを訓練するステップとを含む方法。
  2. 前記1回または複数回の中間評価ラウンドのうちの少なくとも1回について、前記複数の人間の評価者には、前記他の人間の評価者に対する、そのそれぞれの中間評価に関するそれぞれの書面による解説が提供されている、請求項1に記載の方法。
  3. 前記1回または複数回の中間評価ラウンドのうちの少なくとも1回について、前記複数の人間の評価者には、前記他の人間の評価者に対する、前記例示的な胸部X線写真に関するそれぞれの視覚的マークアップが提供されている、請求項1または2に記載の方法。
  4. 前記1回または複数回の中間評価ラウンドのうちの少なくとも1回について、前記複数の人間の評価者の各々が前記他の人間の評価者に対して匿名である、請求項1から3のいずれか一項に記載の方法。
  5. 各判定ラベルは、それぞれ前記複数の人間の評価者によって提供されたそれぞれの複数の最終評価からの意見の一致または多数派所見を含む、請求項1から4のいずれか一項に記載の方法。
  6. 前記1つまたは複数の機械学習モデルを訓練した後、
    前記1つまたは複数のコンピューティングデバイスによって、患者に関連する臨床胸部X線写真を取得するステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記1つまたは複数の機械学習モデルを使用して、前記臨床胸部X線写真に基づいて前記患者についての臨床診断を生成するステップとをさらに含む、請求項1から5のいずれか一項に記載の方法。
  7. 前記患者についての前記臨床診断が、前記患者の前記1つまたは複数の胸部状態についての提案される治療を含む、請求項6に記載の方法。
  8. 前記訓練データセットに含まれる前記例示的な胸部X線写真の少なくともいくつかは、正面胸部X線写真を含む、請求項1から7のいずれか一項に記載の方法。
  9. 前記1つまたは複数の胸部状態は、気胸、陰影、結節、および骨折のうちの1つもしくは複数を含む、請求項1から8のいずれか一項に記載の方法。
  10. 各訓練例についての前記ラベルは、複数の胸部状態の有無を示し、
    前記1つまたは複数の機械学習モデルは、それぞれ前記複数の胸部状態についての複数の2進分類ヘッドを有する少なくとも1つのマルチヘッドモデルを含む、請求項1から9のいずれか一項に記載の方法。
  11. 胸部X線写真を受信し処理して、前記胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示す出力を生成するように構成された機械学習モデル用の改良された訓練データをコンピューティングシステムによって生成するための方法であって、
    それぞれ複数の例示的な胸部X線写真を含む複数の訓練例のうちの1つもしくは複数について、
    複数の人間の評価者に前記例示的な胸部X線写真を与えるステップと、
    前記例示的な胸部X線写真についての複数の中間評価をそれぞれ前記複数の人間の評価者から受信するステップと、
    1回または複数回の中間評価ラウンドの各々について、
    前記複数の人間の評価者の各々に前記複数の中間評価を与えるステップと、
    前記複数の人間の評価者の各々について、そのような人間の評価者がそのそれぞれの中間評価を維持するかそれとも変更するかの指示を受信するステップと、
    前記1回または複数回の中間評価ラウンドの後に、それぞれ前記複数の人間の評価者について前記例示的な胸部X線写真についての複数の最終評価を判定するステップと、
    前記複数の最終評価に基づいて前記例示的な胸部X線写真についてのラベルを生成するステップと、
    前記ラベルを前記例示的な胸部X線写真と共に訓練データセットに格納するステップとを含む方法。
  12. 前記1回または複数回の中間評価ラウンドのうちの少なくとも1回について、前記複数の人間の評価者の各々に前記複数の中間評価を与えるステップは、前記複数の人間の評価者から受信されたそれぞれの書面による解説を他の人間の評価者に提供するステップを含む、請求項11に記載の方法。
  13. 前記1回または複数回の中間評価ラウンドのうちの少なくとも1回について、前記複数の人間の評価者の各々に前記複数の中間評価を与えるステップは、前記複数の人間の評価者から受信された前記胸部X線写真上のそれぞれの視覚的マークアップを他の人間の評価者に提供するステップを含む、請求項11または12に記載の方法。
  14. 前記1回または複数回の中間評価ラウンドのうちの少なくとも1回について、前記複数の人間の評価者の各々が他の人間の評価者に対して匿名である、請求項11、12、または13に記載の方法。
  15. 請求項1から14のいずれか一項に記載の方法を実行するための手段を備えたコンピューティングシステム。
  16. 請求項1から14のいずれか一項に記載の訓練データセットを使用して訓練された1つまたは複数の機械学習モデルを備えたコンピューティングシステム。
  17. 胸部X線写真上で機械学習モデルの性能を評価する際に逆確率重み付けを実行するための方法であって、
    参照データセットに含まれる複数の参照例のうちの1つまたは複数について、
    1つまたは複数のコンピューティングデバイスによって、参照胸部X線写真について1つまたは複数の機械学習モデルによって生成された出力を取得するステップであって、前記出力は、前記参照胸部X線写真が1つまたは複数の胸部状態を示すかどうかを示前記1つまたは複数の機械学習モデルが、請求項1~14のいずれか一項に記載の方法の各ステップを実行して訓練された機械学習モデルを含む、ステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記参照胸部X線写真に関連するラベルにアクセスするステップと、
    前記1つまたは複数のコンピューティングデバイスによって、前記出力と前記ラベルとの比較に少なくとも部分的に基づいて前記参照胸部X線写真について前記1つまたは複数の機械学習モデルの重み付き性能を評価するステップであって、前記重み付き性能は、前記参照例に関連するエンリッチメントの量に反比例する重み値を使用して重み付けされる、ステップとを含む方法。
  18. 前記参照データセットは親データセットのサブセットを含み、
    各参照例についての前記重み値は、前記参照例に関連するグループに含まれる前記親データセットに含まれる例の数を、前記参照データセットに含まれ、前記参照例に関連する前記グループに含まれる参照例の数で割った値に等しい、請求項17に記載の方法。
  19. 前記参照例に関連する前記グループは、前記参照例と同じラベルを有するすべての参照例を含む、請求項18に記載の方法。
  20. 前記参照データセットは、訓練プロセスの後に前記1つまたは複数の機械学習モデルの性能を試験するために使用される試験データセットを含む、請求項17または18または19に記載の方法。
  21. 前記参照データセットは、前記1つまたは複数の機械学習モデルを訓練するために使用される訓練データセットを含み、前記重み付き性能は重み付き損失を含む、請求項17または18または19または20に記載の方法。
  22. 前記1つまたは複数のコンピューティングデバイスによって、重み付き損失に少なくとも部分的に基づいて前記1つまたは複数の機械学習モデルを訓練するステップをさらに含む、請求項21に記載の方法。
  23. 前記親データセットは母集団-レベル分布を示す、請求項18または19に記載の方法。
JP2022526251A 2019-11-07 2020-10-13 胸部x線写真から胸部状態を診断するためのディープラーニングシステム Active JP7422873B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962931974P 2019-11-07 2019-11-07
US62/931,974 2019-11-07
PCT/US2020/055365 WO2021091661A1 (en) 2019-11-07 2020-10-13 Deep learning system and method for diagnosis of chest conditions from chest radiographs

Publications (2)

Publication Number Publication Date
JP2023500538A JP2023500538A (ja) 2023-01-06
JP7422873B2 true JP7422873B2 (ja) 2024-01-26

Family

ID=73040347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022526251A Active JP7422873B2 (ja) 2019-11-07 2020-10-13 胸部x線写真から胸部状態を診断するためのディープラーニングシステム

Country Status (5)

Country Link
US (1) US20220384042A1 (ja)
EP (1) EP4038627A1 (ja)
JP (1) JP7422873B2 (ja)
CN (1) CN115039184A (ja)
WO (1) WO2021091661A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048956A1 (en) 2013-04-13 2016-02-18 The Trustees Of The University Of Pennsylvania System and method for medical image analysis and probabilistic diagnosis
JP2019046058A (ja) 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム
US20190279761A1 (en) 2017-05-25 2019-09-12 Enlitic, Inc. Medical scan comparison system

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101874348B1 (ko) * 2017-11-21 2018-07-09 주식회사 뷰노 피검체의 흉부 pa 영상의 판독을 지원하는 방법 및 이를 이용한 장치

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160048956A1 (en) 2013-04-13 2016-02-18 The Trustees Of The University Of Pennsylvania System and method for medical image analysis and probabilistic diagnosis
US20190279761A1 (en) 2017-05-25 2019-09-12 Enlitic, Inc. Medical scan comparison system
JP2019046058A (ja) 2017-08-31 2019-03-22 キヤノン株式会社 情報処理装置、情報処理方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
FARNOUD, Farzad Hassanzadeh et al.,"Building consensus via iterative voting",2013 IEEE International Symposium on Information Theory [online],2013年07月,[2023年06月23日検索],インターネット<URL:https://ieeexplore.ieee.org/document/6620393>,DOI: 10.1109/ISIT.2013.6620393,ISSN: 2157-8095
HSU, Chia-Chien et al.,"The Delphi Technique: Making Sense of Consensus",Practical Assessment, Research, and Evaluation [online],Vol. 12,Article 10,2007年,[2023年06月23日検索],インターネット<URL:https://scholarworks.umass.edu/pare/vol12/iss1/10/>,DOI: 10.7275/pdz9-th90

Also Published As

Publication number Publication date
WO2021091661A1 (en) 2021-05-14
US20220384042A1 (en) 2022-12-01
EP4038627A1 (en) 2022-08-10
JP2023500538A (ja) 2023-01-06
CN115039184A (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
Rajpurkar et al. Deep learning for chest radiograph diagnosis: A retrospective comparison of the CheXNeXt algorithm to practicing radiologists
US11631175B2 (en) AI-based heat map generating system and methods for use therewith
US11200969B2 (en) Peer-review flagging system
Chapfuwa et al. Adversarial time-to-event modeling
Liz et al. Ensembles of convolutional neural network models for pediatric pneumonia diagnosis
US20210366106A1 (en) System with confidence-based retroactive discrepancy flagging and methods for use therewith
US20220051771A1 (en) Report generating system and methods for use therewith
US20200373003A1 (en) Automatic medical scan triaging system and methods for use therewith
Kim et al. Refining dataset curation methods for deep learning-based automated tuberculosis screening
Yang et al. An approach to automatic process deviation detection in a time-critical clinical process
WO2017017554A1 (en) Reliability measurement in data analysis of altered data sets
US20220005565A1 (en) System with retroactive discrepancy flagging and methods for use therewith
Lin et al. Deep learning for the dynamic prediction of multivariate longitudinal and survival data
Su et al. Prediction of acute appendicitis among patients with undifferentiated abdominal pain at emergency department
Enad et al. A Review on artificial intelligence and quantum machine learning for heart disease diagnosis: current techniques, challenges, and issues, recent developments, and future directions
US20220253592A1 (en) System with report analysis and methods for use therewith
CN112435745B (zh) 就诊策略推荐方法、装置、电子设备及存储介质
JP7422873B2 (ja) 胸部x線写真から胸部状態を診断するためのディープラーニングシステム
CN117012380A (zh) 事件预估方法、装置、设备、存储介质及程序产品
Mosquera et al. Integration of a deep learning system for automated chest x-ray interpretation in the emergency department: A proof-of-concept
Chen et al. A Regulatory Science Perspective on Performance Assessment of Machine Learning Algorithms in Imaging
Krones et al. From theoretical models to practical deployment: A perspective and case study of opportunities and challenges in AI-driven healthcare research for low-income settings
Abubakar et al. IoT-enabled machine learning for enhanced diagnosis of diabetes and heart disease in resource-limited settings
Hill AI in imaging: the regulatory landscape
US20240161035A1 (en) Multi-model medical scan analysis system and methods for use therewith

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220623

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220623

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230703

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230929

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240116

R150 Certificate of patent or registration of utility model

Ref document number: 7422873

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150