JP2022184272A - 情報処理装置、情報処理方法及びプログラム - Google Patents
情報処理装置、情報処理方法及びプログラム Download PDFInfo
- Publication number
- JP2022184272A JP2022184272A JP2021092026A JP2021092026A JP2022184272A JP 2022184272 A JP2022184272 A JP 2022184272A JP 2021092026 A JP2021092026 A JP 2021092026A JP 2021092026 A JP2021092026 A JP 2021092026A JP 2022184272 A JP2022184272 A JP 2022184272A
- Authority
- JP
- Japan
- Prior art keywords
- data
- correct
- selection
- unit
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Medical Treatment And Welfare Office Work (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
【課題】学習に効率的なデータを収集する。
【解決手段】正解データが付与されていない医用画像の正解なしデータを記憶するデータ記憶部(記憶装置)と、正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定部と、を備える情報処理装置において、データ選定部における選定方法が随時変更可能に予め設定されている。例えば、データ選定部は、正解なしデータのうち、当該正解なしデータを代表するデータを、学習に有効と推測されるデータとして選定する。より詳細には、データ選定部は、正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定する。
【選択図】図5
【解決手段】正解データが付与されていない医用画像の正解なしデータを記憶するデータ記憶部(記憶装置)と、正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定部と、を備える情報処理装置において、データ選定部における選定方法が随時変更可能に予め設定されている。例えば、データ選定部は、正解なしデータのうち、当該正解なしデータを代表するデータを、学習に有効と推測されるデータとして選定する。より詳細には、データ選定部は、正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定する。
【選択図】図5
Description
本発明は、情報処理装置、情報処理方法及びプログラムに関する。
近年、機械学習の発展に伴い、医療分野においても、医師によって行われていた画像診断が、機械学習結果に基づいて支援されるようになってきている。機械学習は、大量のデータを使用して、機械にデータのパターンや相関を学習させ、識別、分類、検出等を行うものである。患者を放射線等により撮影して得られた医用画像について、異常領域の検出や疾患の分類等を学習させることで、医師の診断を支援することができる。
機械学習では、学習に用いるデータの量が多くなるほど、学習に要する時間が増加してしまう。これに対し、蓄積された学習データの中から一部の学習データをサンプリングし、サンプリングされた学習データを用いて計算モデルの学習を行う学習制御システムにおいて、サンプリングされた学習データの最大数を制限する技術が提案されている(特許文献1参照)。
また、学習に用いるデータには、正しくラベル付けされる必要があるため、機械学習モデルを用いて、ラベル付けされていない目標データセットをモデリングする方法において、目標データセットの特徴を抽出し、特徴に基づいてラベルを提案する技術が利用されている(特許文献2参照)。
しかしながら、上記従来技術においても、限られたデータを用いつつ、機械学習の精度を向上させることは困難であった。
例えば、特許文献1に記載の技術では、サンプリングされた学習データが計算モデルの精度向上に効果的なものであるという確証はなく、効率良く学習を行うことは困難であった。
また、特許文献2に記載の技術では、ラベルの提案はしているが、モデルの精度向上に効果的なサンプルかどうかは不明のため、学習が非効率となるおそれがあった。
例えば、特許文献1に記載の技術では、サンプリングされた学習データが計算モデルの精度向上に効果的なものであるという確証はなく、効率良く学習を行うことは困難であった。
また、特許文献2に記載の技術では、ラベルの提案はしているが、モデルの精度向上に効果的なサンプルかどうかは不明のため、学習が非効率となるおそれがあった。
本発明は、上記の従来技術における問題に鑑みてなされたものであって、学習に効率的なデータを収集することを課題とする。
上記課題を解決するために、請求項1に記載の発明は、正解データが付与されていない医用画像の正解なしデータを記憶する記憶装置と、前記正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定部と、を備え、前記データ選定部における選定方法が随時変更可能に予め設定されている情報処理装置である。
請求項2に記載の発明は、請求項1に記載の情報処理装置において、ユーザーの操作に基づいて、前記選定されたデータに対する正解データを作成又は修正するアノテーション部を備える。
請求項3に記載の発明は、請求項2に記載の情報処理装置において、前記正解なしデータから計算モデルにより正解データを推論する推論部と、前記選定されたデータと当該選定されたデータに対する正解データとを用いて前記計算モデルの学習を行う学習部と、を備える。
請求項4に記載の発明は、請求項3に記載の情報処理装置において、前記選定されたデータに対して前記推論部により推論された正解データの候補を1種類以上ユーザーに提示する正解候補提示部を備える。
請求項5に記載の発明は、請求項3又は4に記載の情報処理装置において、前記記憶装置及び前記学習部がクラウドサーバーに搭載されている。
請求項6に記載の発明は、請求項1から5のいずれか一項に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのうち、当該正解なしデータを代表するデータを、前記学習に有効と推測されるデータとして選定する。
請求項7に記載の発明は、請求項6に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定する。
請求項8に記載の発明は、請求項1から7のいずれか一項に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのうち、正解データが付与されている医用画像の正解ありデータとの比較において希少なデータを、前記学習に有効と推測されるデータとして選定する。
請求項9に記載の発明は、請求項8に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのそれぞれを選定候補として、前記正解ありデータとの類似度を算出し、当該算出された類似度がより低い選定候補を優先して選定する。
請求項10に記載の発明は、請求項1から9のいずれか一項に記載の情報処理装置において、前記データ選定部は、前記正解なしデータに対するレポートから所見情報又は診断情報を抽出し、当該抽出された所見情報又は診断情報に基づいて、特定の症例に該当する医用画像を優先して選定する。
請求項11に記載の発明は、請求項1から10のいずれか一項に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのうち、問診情報に含まれる生活習慣情報が所定の条件に該当する患者の医用画像を優先して選定する。
請求項12に記載の発明は、請求項1から11のいずれか一項に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのうち、特定の施設において撮影された医用画像、又は、特定の医療従事者により撮影された医用画像を優先して選定する。
請求項13に記載の発明は、請求項1から12のいずれか一項に記載の情報処理装置において、前記データ選定部は、前記正解なしデータのうち、過去に病歴又は入院歴のない患者の医用画像を優先して選定する。
請求項14に記載の発明は、正解データが付与されていない医用画像の正解なしデータを記憶する記憶装置に記憶された正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定工程を含み、前記データ選定工程における選定方法が随時変更可能に予め設定されている情報処理方法である。
請求項15に記載の発明は、正解データが付与されていない医用画像の正解なしデータを記憶する記憶装置を備える情報処理装置のコンピューターを、前記正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定部として機能させるためのプログラムであって、前記データ選定部における選定方法が随時変更可能に予め設定されている。
本発明によれば、学習に効率的なデータを収集することができる。
以下、図面を参照して、本発明に係る情報処理装置の実施の形態について説明する。ただし、発明の範囲は、図示例に限定されない。
図1に、本実施の形態におけるアノテーション支援システム100のシステム構成を示す。
図1に示すように、アノテーション支援システム100は、情報処理装置10と、医師等の医療従事者が使用するクライアント端末20と、を備えて構成されている。情報処理装置10とクライアント端末20とは、インターネット等の通信ネットワークNを介してデータ通信可能に接続されている。アノテーション支援システム100では、一つ以上の医療施設内の一つ以上のクライアント端末20から、情報処理装置10にアクセス可能となっている。
図1に示すように、アノテーション支援システム100は、情報処理装置10と、医師等の医療従事者が使用するクライアント端末20と、を備えて構成されている。情報処理装置10とクライアント端末20とは、インターネット等の通信ネットワークNを介してデータ通信可能に接続されている。アノテーション支援システム100では、一つ以上の医療施設内の一つ以上のクライアント端末20から、情報処理装置10にアクセス可能となっている。
情報処理装置10は、クラウド環境に設けられたクラウドサーバーにより構成される。
情報処理装置10は、複数の医療施設において撮影された医用画像を蓄積し、医用画像に対して異常領域の検出、疾患の分類等を行う機能(機械学習結果)を提供する。医用画像には、静止画像、動画像が含まれる。
情報処理装置10は、医用画像について、正解データが付与されている正解ありデータと、正解データが付与されていない正解なしデータと、を保有している。情報処理装置10は、正解ありデータに基づく機械学習により得られた計算モデルを用いて、正解なしデータに対する正解データを推論する。また、情報処理装置10は、正解なしデータの中から、事後学習に用いるデータを自動的に選定し、選定されたデータと当該選定されたデータに対してアノテーションにより付与された正解データとに基づいて、計算モデルを学習させる。
情報処理装置10は、複数の医療施設において撮影された医用画像を蓄積し、医用画像に対して異常領域の検出、疾患の分類等を行う機能(機械学習結果)を提供する。医用画像には、静止画像、動画像が含まれる。
情報処理装置10は、医用画像について、正解データが付与されている正解ありデータと、正解データが付与されていない正解なしデータと、を保有している。情報処理装置10は、正解ありデータに基づく機械学習により得られた計算モデルを用いて、正解なしデータに対する正解データを推論する。また、情報処理装置10は、正解なしデータの中から、事後学習に用いるデータを自動的に選定し、選定されたデータと当該選定されたデータに対してアノテーションにより付与された正解データとに基づいて、計算モデルを学習させる。
情報処理装置10は、クライアント端末20からの医用画像の閲覧要求に応じて、要求元のクライアント端末20に医用画像のファイルを提供する。
クライアント端末20は、各医療施設内で使用されるPC(Personal Computer)、タブレット端末等のコンピューター装置である。クライアント端末20は、医療従事者が医用画像を読影する際や、正解なしデータに対してアノテーション(正解データの付与)を行う際に使用される。
図2に、情報処理装置10の機能的構成を示す。
図2に示すように、情報処理装置10は、制御部11、データ記憶部12、推論部13、学習部14、データ選定部15、アノテーション部16、正解候補提示部17、通信部18、記憶部19等を備えて構成されている。
図2に示すように、情報処理装置10は、制御部11、データ記憶部12、推論部13、学習部14、データ選定部15、アノテーション部16、正解候補提示部17、通信部18、記憶部19等を備えて構成されている。
制御部11は、CPU(Central Processing Unit)、RAM(Random Access Memory)等から構成され、情報処理装置10の各部の処理動作を統括的に制御する。具体的には、CPUは、記憶部19に記憶されている各種処理プログラムを読み出してRAMに展開し、当該プログラムとの協働により各種処理を行う。
データ記憶部12は、各医療施設において患者を放射線等により撮影して得られた医用画像の画像データ(正解ありデータ、正解なしデータ)、正解ありデータに対する正解データ(ラベル)等を記憶する。正解ありデータと正解データとは、ペアのデータとして記憶される。
アノテーション支援システム100の運用が開始された後、各医療施設にて患者を撮影して得られた新しい医用画像が、正解なしデータのデータセットとして、データ記憶部12に記憶される。すなわち、データ記憶部12は、正解なしデータを記憶する記憶装置である。
アノテーション支援システム100の運用が開始された後、各医療施設にて患者を撮影して得られた新しい医用画像が、正解なしデータのデータセットとして、データ記憶部12に記憶される。すなわち、データ記憶部12は、正解なしデータを記憶する記憶装置である。
医用画像には、付帯情報が付帯されている。
付帯情報には、検査ID、検査日時、モダリティー、部位、患者ID、患者氏名、生年月日、性別、施設ID、撮影者ID、画像ID等が含まれる。
検査IDは、医用画像に係る検査(撮影)の識別情報である。
検査日時は、検査が実施された日時である。
モダリティーは、検査に用いられたモダリティーである。
部位は、検査の対象とされた部位である。
患者ID、患者氏名、生年月日、性別は、それぞれ、検査の対象とされた患者の識別情報、氏名、生年月日、性別である。
施設IDは、医用画像が撮影された医療施設の識別情報である。
撮影者IDは、医用画像を撮影した医療従事者(撮影技師等)の識別情報である。
画像IDは、医用画像の識別情報である。
付帯情報には、検査ID、検査日時、モダリティー、部位、患者ID、患者氏名、生年月日、性別、施設ID、撮影者ID、画像ID等が含まれる。
検査IDは、医用画像に係る検査(撮影)の識別情報である。
検査日時は、検査が実施された日時である。
モダリティーは、検査に用いられたモダリティーである。
部位は、検査の対象とされた部位である。
患者ID、患者氏名、生年月日、性別は、それぞれ、検査の対象とされた患者の識別情報、氏名、生年月日、性別である。
施設IDは、医用画像が撮影された医療施設の識別情報である。
撮影者IDは、医用画像を撮影した医療従事者(撮影技師等)の識別情報である。
画像IDは、医用画像の識別情報である。
正解データは、医用画像を入力データとした機械学習における計算モデルの出力データとなる情報である。正解データには、機械学習におけるタスクに応じて、異常領域の画像や座標、所見・診断結果等が含まれる。また、正解データには、対象とする医用画像の画像IDが含まれている。これにより、正解データに含まれる画像IDから、正解データと医用画像(正解ありデータ)との対応関係を取得することができる。DICOM形式の医用画像であれば、SOPインスタンスUID、検査ID、患者IDと検査日時の組み合わせ等のタグ情報を正解データに付帯させることで、正解データと医用画像との対応関係を取得可能としてもよい。
例えば、タスクが「動画像に対する所見・疾患のクラス分類(classification)」である場合、正解データは「所見名・疾患名・良性/悪性等の分類」となる。
タスクが「異常領域の検出(detection)」である場合、正解データは「対象領域の座標、領域画像(segmentation画像)、バウンディングボックス(領域を含む最小矩形)」となる。対象領域の座標としては、領域を囲む境界を示す座標群でもよいし、領域の中心や重心を示す1点の座標でもよい。
タスクが「肺領域・骨領域等の解剖学的領域の領域分割(segmentation)」である場合、正解データは「領域に対する座標、領域画像(segmentation画像)」となる。
機械学習におけるタスクは、これらの例に限定されない。
タスクが「異常領域の検出(detection)」である場合、正解データは「対象領域の座標、領域画像(segmentation画像)、バウンディングボックス(領域を含む最小矩形)」となる。対象領域の座標としては、領域を囲む境界を示す座標群でもよいし、領域の中心や重心を示す1点の座標でもよい。
タスクが「肺領域・骨領域等の解剖学的領域の領域分割(segmentation)」である場合、正解データは「領域に対する座標、領域画像(segmentation画像)」となる。
機械学習におけるタスクは、これらの例に限定されない。
なお、正解ありデータは、タスク(推論の目的)に応じた正解データが付与されたものであるから、或るタスクについて正解ありデータであっても、別のタスクに対して用いる場合には、正解なしデータになる。
また、データ記憶部12には、読影が終了した医用画像については、医用画像に対するレポートが記憶されている。レポートには、レポートの対象とされた医用画像の画像ID、所見情報、診断情報、読影者ID等が含まれる。所見情報、診断情報には、異常や疾患のある部位、臓器、疾患名、症状等が含まれ得る。読影者IDは、医用画像を読影し、レポートを作成した医療従事者(読影医等)の識別情報である。
また、データ記憶部12には、データ記憶部12に記憶されている医用画像に係る患者のカルテ情報が記憶されている。カルテ情報には、カルテ情報の対象とされた患者の患者ID、病歴、入院歴、問診情報等が含まれる。病歴には、患者の現在又は過去の病気や手術の記録が含まれる。入院歴には、患者の入院に係る診療科、傷病名、入院期間等が含まれる。問診情報は、診察前に患者が問診票(紙)に記入した内容を示す情報であり、例えば、医療施設において問診票からカルテ情報内に転記されている。問診情報には、生活習慣情報(喫煙頻度、喫煙歴、食習慣、運動量、運動時間等)が含まれる。
推論部13は、計算モデル(機械学習結果)により、入力データ(正解なしデータ)から出力データ(正解データ)を推論する。なお、計算モデルを得るために用いる方法としては、ディープラーニング、従来の機械学習方法を問わない。
学習部14は、医用画像を入力データとし、医用画像内の異常領域の検出や疾患の分類等のアノテーション結果を出力データ(正解データ)として、機械学習を行う。学習部14は、正解なしデータの中から選定されたデータと当該選定されたデータに対する正解データとを用いて、計算モデルの学習(事後学習)を行う。具体的には、学習部14は、計算モデルと学習用データとを用いて、推論部13による推論結果と正解データとの差を算出し、計算モデルの学習を行うことにより、計算モデルの精度を向上させる。
データ選定部15は、データ記憶部12に記憶された正解なしデータの中から、学習に有効と推測されるデータを選定する。データ選定部15における選定方法は、ユーザーにより予め設定されており、随時変更可能となっている。ユーザーにより設定された選定方法は、記憶部19に記憶されている。
例えば、データ選定部15は、正解なしデータのうち、当該正解なしデータを代表するデータを、学習に有効と推測されるデータとして選定する。この選定方法は、「学習に有効なデータは、データセット全体からみて代表的なデータである」という考えを前提としている。正解なしデータを代表するデータとして、正解なしデータのうち平均的なデータや、例外的なものを除いたデータ等が挙げられる。
具体的には、データ選定部15は、正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定する。
具体的には、データ選定部15は、正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定する。
類似度とは、対象とする二つの情報(画像等)が似ている度合いを示す値であり、似ているほど値が大きくなる。類似度は、コサイン類似度、ユークリッド距離等を用いて算出することができる。例えば、図3(a)に示すように、「Q」を含む画像と「O」を含む画像との類似度は「0.92」と算出され、図3(b)に示すように、「W」を含む画像と「K」を含む画像との類似度は「0.14」と算出される。「Q」を含む画像と「O」を含む画像との類似度は、「W」を含む画像と「K」を含む画像との類似度より高い。
また、データ選定部15は、正解なしデータのうち、正解データが付与されている医用画像の正解ありデータとの比較において希少なデータを、学習に有効と推測されるデータとして選定する。この選定方法は、「学習に有効なデータは、データセット全体からみて希少なデータである」という考えを前提としている。正解ありデータと比較して希少なデータとして、これまでの学習に用いられなかった種類のデータ等が挙げられる。
具体的には、データ選定部15は、正解なしデータのそれぞれを選定候補として、正解ありデータとの類似度を算出し、当該算出された類似度がより低い選定候補を優先して選定する。
具体的には、データ選定部15は、正解なしデータのそれぞれを選定候補として、正解ありデータとの類似度を算出し、当該算出された類似度がより低い選定候補を優先して選定する。
また、データ選定部15は、正解なしデータに対するレポートから所見情報又は診断情報を抽出し、当該抽出された所見情報又は診断情報に基づいて、特定の症例に該当する医用画像を優先して選定する。症例には、疾患名、部位、症状等が含まれる。特定の症例として、例えば、ユーザーが指定した症例を用いる。また、特定の症例として、これまでの学習に用いられた正解ありデータにおいてデータの数が少ない症例(例えば、胸部画像において、腫瘤に比べて気胸の症例は少ない。)を用いることとしてもよい。
なお、データ選定部15は、レポートのデータを参照する際、レポートの文字情報を構造化し、構造化された情報から該当する所見情報・診断情報を取得する。
なお、データ選定部15は、レポートのデータを参照する際、レポートの文字情報を構造化し、構造化された情報から該当する所見情報・診断情報を取得する。
また、データ選定部15は、正解なしデータのうち、問診情報に含まれる生活習慣情報(喫煙頻度、喫煙歴、食習慣、運動量、運動時間等)が所定の条件に該当する患者の医用画像を優先して選定する。所定の条件として、喫煙頻度が高い、脂っこい食事を好む、運動量が少ない等の条件を用いることができる。例えば、喫煙頻度が高いと肺がんの罹患リスクが高くなるため、推論部13による肺がんの病変検出率を高くしたい場合、学習部14に喫煙者のデータをより多く学習させておく必要がある。問診情報については、医用画像に係る患者のカルテ情報から取得する。
また、データ選定部15は、正解なしデータのうち、特定の施設において撮影された医用画像、又は、特定の医療従事者により撮影された医用画像を優先して選定する。施設や撮影者によって、医用画像の撮影技術(上手・下手)に差があるため、ユーザーが指定した施設や医療従事者に係る医用画像を優先して学習に用いることで、学習に用いる医用画像の質を揃えることができる。
また、データ選定部15は、正解なしデータのうち、過去に病歴又は入院歴のない患者の医用画像を優先して選定する。病歴・入院歴がある場合、病気は完治しているが、医用画像上では正常とは言えない陰影が写っていることがある。したがって、ノイズが少ないデータを利用するために、医用画像に対するレポートや対象患者のカルテ情報等から病歴・入院歴の有無を確認し、過去に病歴又は入院歴のない患者の医用画像を採用する。
なお、データ選定部15は、レポートやカルテ情報のデータを参照する際、レポートやカルテ情報の文字情報を構造化し、構造化された情報から該当する病歴・入院歴を取得する。
なお、データ選定部15は、レポートやカルテ情報のデータを参照する際、レポートやカルテ情報の文字情報を構造化し、構造化された情報から該当する病歴・入院歴を取得する。
アノテーション部16は、クライアント端末20からのユーザーの操作に基づいて、データ選定部15により選定されたデータに対する正解データ(ラベル)を作成する。アノテーション部16は、クライアント端末20からのユーザーの操作に基づいて、選定されたデータに対して提示された正解データを修正する。正解データの修正には、複数の候補からいずれか一つの正解データを選択することや、異常領域の修正、分類の変更等が含まれる。
正解候補提示部17は、データ選定部15により選定されたデータに対して推論部13により推論された正解データの候補(推論結果)を1種類以上ユーザーに提示する。具体的には、正解候補提示部17は、クライアント端末20の表示部22(図4参照)に正解データの候補を表示させる。
正解候補提示部17は、推論部13に、選定されたデータ(正解なしデータ)に対する推論を行わせることで、正解データの候補を取得する。推論部13(計算モデル)に対する入力データとして、選定されたデータをそのまま用いてもよいが、推論部13は、一つのデータからは一つの候補しか出力できないため、正解候補提示部17は、選定されたデータにノイズを重畳させたり、選定されたデータを左右反転させたりした上で、推論部13に推論を実施させることで、二つ以上の正解データの候補を提示することができる。
正解候補提示部17は、推論部13に、選定されたデータ(正解なしデータ)に対する推論を行わせることで、正解データの候補を取得する。推論部13(計算モデル)に対する入力データとして、選定されたデータをそのまま用いてもよいが、推論部13は、一つのデータからは一つの候補しか出力できないため、正解候補提示部17は、選定されたデータにノイズを重畳させたり、選定されたデータを左右反転させたりした上で、推論部13に推論を実施させることで、二つ以上の正解データの候補を提示することができる。
通信部18は、ネットワークインターフェース等により構成され、通信ネットワークNを介して接続された外部装置との間でデータの送受信を行う。
記憶部19は、HDD(Hard Disk Drive)や不揮発性の半導体メモリー等により構成され、各種処理プログラム、当該プログラムの実行に必要なパラメーターやファイル等を記憶している。例えば、記憶部19には、クライアント端末20に搭載されたWebブラウザーとHTTPプロトコルによる通信を行ってWebブラウザーに各種Web画面を提供するWebサーバーとしての機能を実現させるためのWebサーバープログラムや、Webサーバー上で動作し、Webブラウザーを介してクライアント端末20のユーザーにアノテーション支援サービスや機械学習結果を提供するためのアプリケーションプログラム等が記憶されている。
推論部13、学習部14、データ選定部15、アノテーション部16、正解候補提示部17は、制御部11のCPUと記憶部19に記憶されている各種処理プログラムとの協働によってソフトウェア処理で実現される。
図4に、クライアント端末20の機能的構成を示す。
図4に示すように、クライアント端末20は、制御部21、表示部22、操作部23、通信部24、記憶部25等を備えて構成されている。
図4に示すように、クライアント端末20は、制御部21、表示部22、操作部23、通信部24、記憶部25等を備えて構成されている。
制御部21は、CPU、RAM等から構成され、クライアント端末20の各部の処理動作を統括的に制御する。具体的には、CPUは、記憶部25に記憶されている各種処理プログラムを読み出してRAMに展開し、当該プログラムとの協働により各種処理を行う。
表示部22は、LCD(Liquid Crystal Display)等のモニターを備えて構成されており、制御部21から入力される表示信号の指示に従って、各種画面を表示する。表示部22は、情報処理装置10から受信した各種Web画面の表示用データに基づいて各種Web画面を表示する。例えば、表示部22は、正解なしデータに対する正解データの候補をユーザーに提示する。また、表示部22は、医用画像に対するアノテーションにより付与された正解データを表示する。また、表示部22は、読影時に、読影対象の医用画像を表示する。
操作部23は、カーソルキー、文字入力キー及び各種機能キー等を備えたキーボードと、マウス等のポインティングデバイスを備えて構成され、キーボードに対するキー操作やマウス操作により入力された操作信号を制御部21に出力する。また、操作部23が、表示部22に積層されたタッチパネルを備え、ユーザーの指等によるタッチ操作の位置に応じた操作信号を制御部21に出力することとしてもよい。例えば、操作部23は、情報処理装置10のデータ記憶部12に記憶されている正解なしデータに対してアノテーション作業を行う際に用いられる。また、操作部23は、医用画像についてのレポート作成時に用いられる。
通信部24は、ネットワークインターフェース等により構成され、通信ネットワークNを介して接続された外部装置との間でデータの送受信を行う。
記憶部25は、HDDや不揮発性の半導体メモリー等により構成され、各種処理プログラム、当該プログラムの実行に必要なパラメーターやファイル等を記憶している。例えば、記憶部25には、Webブラウザーを実現するためのWebブラウザープログラム等が記憶されている。
図5は、本発明の概要を示す図である。
情報処理装置10のデータ選定部15は、複数の正解なしデータの中から、学習に有効と推測されるデータを選定する。図5では、データX,Y,Zが選定されている。
アノテーション部16は、選定されたデータX,Y,Zのそれぞれに対し、ユーザーの操作に基づいて、アノテーション(正解データの付与)を行う。
学習部14は、選定されたデータX,Y,Zと、アノテーションにより得られた正解データとの組み合わせを用いて、計算モデルを学習させる。
情報処理装置10のデータ選定部15は、複数の正解なしデータの中から、学習に有効と推測されるデータを選定する。図5では、データX,Y,Zが選定されている。
アノテーション部16は、選定されたデータX,Y,Zのそれぞれに対し、ユーザーの操作に基づいて、アノテーション(正解データの付与)を行う。
学習部14は、選定されたデータX,Y,Zと、アノテーションにより得られた正解データとの組み合わせを用いて、計算モデルを学習させる。
このように、システムを運用しながら、学習とアノテーション作業を交互に実行して計算モデルの精度を向上させる上で(アクティブラーニング)、限られたコストの下で効率良く学習用のデータセットを作成することが重要である。
次に、アノテーション支援システム100における動作について説明する。
〔事後学習処理〕
図6は、情報処理装置10において実行される事後学習処理を示すフローチャートである。事後学習処理は、新たな学習用データを用いて、学習済みの計算モデル(一度完成している計算モデル)の精度を向上させる処理である。
〔事後学習処理〕
図6は、情報処理装置10において実行される事後学習処理を示すフローチャートである。事後学習処理は、新たな学習用データを用いて、学習済みの計算モデル(一度完成している計算モデル)の精度を向上させる処理である。
事後学習処理は、計算モデルを有する製品がリリースされ、情報処理装置10において使用されたところから開始する(ステップS1)。この製品は、異常領域の検出、疾患の分類等を目的としたアプリケーションプログラムであり、ディープニューラルネットワーク等の計算モデルが用いられている。
各医療施設において患者に対する医用画像の撮影が行われると、各医療施設から情報処理装置10に医用画像(正解なしデータ)が送信される。
情報処理装置10の制御部11は、通信部18を介して各医療施設から正解なしデータを取得し、正解なしデータをデータ記憶部12に格納する(ステップS2)。このようにして、データ記憶部12に正解なしデータが蓄積されていく。健康診断等では、大量のデータを取得することが可能である。例えば、制御部11は、医療施設における1日分の撮影枚数等に相当する医用画像として、1000画像分の正解なしデータを取得する。なお、取得する正解なしデータの数は、1000に限定されない。
情報処理装置10の制御部11は、通信部18を介して各医療施設から正解なしデータを取得し、正解なしデータをデータ記憶部12に格納する(ステップS2)。このようにして、データ記憶部12に正解なしデータが蓄積されていく。健康診断等では、大量のデータを取得することが可能である。例えば、制御部11は、医療施設における1日分の撮影枚数等に相当する医用画像として、1000画像分の正解なしデータを取得する。なお、取得する正解なしデータの数は、1000に限定されない。
次に、データ選定部15は、1000画像の正解なしデータに対し、データ選定処理を行う(ステップS3)。データ選定処理では、各正解なしデータに対し、学習への有効度合いに基づいて順位付けを行い、順位が上位の正解なしデータを選定する。ここでは、データ選定処理により、学習への有効度合いが高い方から10画像分のデータを選定することとする。データ選定処理の詳細については、後述する。
次に、正解候補提示部17は、選定された10画像の正解なしデータのそれぞれに対し、推論部13により正解データの候補を推論させ、ユーザーに正解データの候補を提示する(ステップS4)。具体的には、正解候補提示部17は、選定されたデータに係る医用画像上に、正解データの候補を重畳表示させるための表示用データを生成し、通信部18を介してクライアント端末20に送信する。なお、情報処理装置10のWebサーバー機能によりクライアント端末20に送信される各種画面の表示用データには、HTML、スタイルシート、画像データ、クライアント端末20で所定の処理を実行させるためのスクリプト等が含まれる。
クライアント端末20では、表示部22に正解データの候補が表示される。
図7に、クライアント端末20の表示部22に表示される正解候補表示画面221の例を示す。正解候補表示画面221には、同一の医用画像30に対し、3種類の正解データ(異常領域)の候補31~33が表示されている。
図7に、クライアント端末20の表示部22に表示される正解候補表示画面221の例を示す。正解候補表示画面221には、同一の医用画像30に対し、3種類の正解データ(異常領域)の候補31~33が表示されている。
次に、アノテーション部16は、クライアント端末20からのユーザーの操作に基づいて、選定された10画像の正解なしデータに対し、アノテーションを実施する(ステップS5)。アノテーション部16は、クライアント端末20からのユーザーの操作に基づいて、選定されたデータに対して提示された正解データを修正する。具体的には、ユーザーは、クライアント端末20の表示部22に表示されている医用画像(選定されたデータ)に対して、操作部23からの操作により、タスクに応じて、異常領域を指定したり、所見・診断結果を入力したりする。
ステップS5でアノテーションを実施する際に、記憶部19に設定されている選定方法(データ選定処理に用いられた選定方法)を、クライアント端末20の表示部22(ユーザーの作業画面)に表示させることとしてもよい。これにより、ユーザーは、正解データを付与するにあたり、適切なルールで選定された医用画像であるか否かを把握することができる。
次に、アノテーション部16は、アノテーションの対象とされた10画像と、各画像に対する正解データ(アノテーション結果)と、を対応付けてデータ記憶部12に保存させる(ステップS6)。具体的には、アノテーション部16は、各正解データに、アノテーションの対象とされた医用画像の画像IDを含ませることで、医用画像と正解データとを対応付ける。選定されたデータ(正解なしデータ)は、正解データが付与されることで、正解ありデータとなる。
次に、学習部14は、正解ありデータとして追加された10画像(選定されたデータ)と、各画像に対する正解データと、を用いて、計算モデルを学習させる(ステップS7)。具体的には、学習部14は、選定されたデータに対する推論結果を推論部13から取得し、推論結果と選定されたデータに対する正解データ(アノテーション結果)との差に基づいて、計算モデルのパラメーターを更新する。
ステップS7の後、ステップS2に戻り、処理が繰り返される。
ステップS7の後、ステップS2に戻り、処理が繰り返される。
なお、正解なしデータのうち、選定されなかったデータについては、データ記憶部12に残しておいてもよいし、アノテーションの対象外とされた後にデータ記憶部12から削除してもよいし、一定期間の経過後にデータ記憶部12から削除してもよい。
また、事後学習処理では、ステップS4において、正解データの候補を提示することとしたが、正解データの候補を提示せずに、ステップS5において、ユーザーに一からアノテーションを行わせることとしてもよい。
〔第1のデータ選定処理〕
次に、図8を参照して、第1のデータ選定処理について説明する。第1のデータ選定処理は、ステップS3のデータ選定処理の一例であり、正解なしデータから「代表的な例」を選定する処理である。第1のデータ選定処理では、正解なしデータのみに基づいて、アノテーションの対象とするデータを選定する。データ選定部15における選定方法として、第1のデータ選定処理が示す選定方法を用いることが記憶部19に予め設定されている場合に、第1のデータ選定処理が採用される。
次に、図8を参照して、第1のデータ選定処理について説明する。第1のデータ選定処理は、ステップS3のデータ選定処理の一例であり、正解なしデータから「代表的な例」を選定する処理である。第1のデータ選定処理では、正解なしデータのみに基づいて、アノテーションの対象とするデータを選定する。データ選定部15における選定方法として、第1のデータ選定処理が示す選定方法を用いることが記憶部19に予め設定されている場合に、第1のデータ選定処理が採用される。
データ選定部15は、ステップS2で取得された正解なしデータのそれぞれ(選定候補)について、選定候補と他の正解なしデータとの類似度を算出する(ステップS11)。
次に、データ選定部15は、他の正解なしデータとの類似度が高い順に、正解なしデータ(選定候補)に順位付けを行う(ステップS12)。
次に、データ選定部15は、順位に基づいて、上位から所定数(例えば、10画像)の正解なしデータを選定する(ステップS13)。
以上で、第1のデータ選定処理が終了する。
以上で、第1のデータ選定処理が終了する。
<類似度算出方法1-1>
まず、類似度算出方法1-1として、正解なしデータのみに基づく選定方法(第1のデータ選定処理)のうち、オリジナルの医用画像の画像データをそのまま用いて類似度を算出する場合について説明する。
まず、類似度算出方法1-1として、正解なしデータのみに基づく選定方法(第1のデータ選定処理)のうち、オリジナルの医用画像の画像データをそのまま用いて類似度を算出する場合について説明する。
ここでは、10枚の正解なしデータA~Jから3枚の医用画像を選定することとする。
正解なしデータA~Jのそれぞれを選定候補として、当該選定候補と、自分自身を除く正解なしデータとの間の類似度を算出する。例えば、図9に示すように、正解なしデータAについては、正解なしデータB~Jとの類似度をそれぞれ算出し、正解なしデータBについては、正解なしデータA,C~Jとの類似度をそれぞれ算出する。
正解なしデータA~Jのそれぞれを選定候補として、当該選定候補と、自分自身を除く正解なしデータとの間の類似度を算出する。例えば、図9に示すように、正解なしデータAについては、正解なしデータB~Jとの類似度をそれぞれ算出し、正解なしデータBについては、正解なしデータA,C~Jとの類似度をそれぞれ算出する。
次に、選定候補(正解なしデータA~J)ごとに、選定候補と他の正解なしデータとの類似度の平均値を算出する。例えば、正解なしデータAについては、正解なしデータAと正解なしデータB~Jとの類似度の平均値を算出する。
次に、選定候補(正解なしデータA~J)に対し、他の正解なしデータとの類似度の平均値が高い順に、順位付けを行う。
次に、選定候補(正解なしデータA~J)に対し、他の正解なしデータとの類似度の平均値が高い順に、順位付けを行う。
図10に、選定候補(正解なしデータA~J)ごとに算出された他の正解なしデータとの類似度、平均値、順位の例を示す。
選定候補の順位に応じて、上位から3番目までの画像をアノテーションの対象(学習用データ)として選定する。図10に示す例では、順位が1番目の正解なしデータF、順位が2番目の正解なしデータJ、順位が3番目の正解なしデータEを採用する。
選定候補の順位に応じて、上位から3番目までの画像をアノテーションの対象(学習用データ)として選定する。図10に示す例では、順位が1番目の正解なしデータF、順位が2番目の正解なしデータJ、順位が3番目の正解なしデータEを採用する。
<類似度算出方法1-2>
次に、類似度算出方法1-2として、正解なしデータのみに基づく選定方法(第1のデータ選定処理)のうち、オリジナルの医用画像の画像データを加工し、加工後の情報を用いて類似度を算出する場合について説明する。例えば、画像のヒストグラム等、画像の特徴が表れたデータ同士で類似度を算出することとしてもよい。
次に、類似度算出方法1-2として、正解なしデータのみに基づく選定方法(第1のデータ選定処理)のうち、オリジナルの医用画像の画像データを加工し、加工後の情報を用いて類似度を算出する場合について説明する。例えば、画像のヒストグラム等、画像の特徴が表れたデータ同士で類似度を算出することとしてもよい。
正解なしデータのそれぞれを選定候補として、医用画像から特徴ベクトルを算出する。特徴ベクトルは、画像から特徴量を算出し、複数の特徴量をベクトル形式で表したものである。特徴ベクトルは、手動で算出してもよいし、一般的な機械学習やディープラーニングの手法を用いたモデルにより推論した結果を用いてもよい。
次に、各選定候補について、当該選定候補の特徴ベクトルと、当該選定候補を除く正解なしデータの特徴ベクトルと、の類似度を算出する。
次に、選定候補ごとに、他の正解なしデータの特徴ベクトルとの類似度の平均値を算出する。
次に、選定候補ごとに、他の正解なしデータの特徴ベクトルとの類似度の平均値を算出する。
例えば、図11に示すように、正解なしデータAの特徴ベクトルと、正解なしデータB,C,Dの特徴ベクトルとの類似度をそれぞれ算出し、類似度の平均値を算出する。この類似度の平均値を「正解なしデータAと他の正解なしデータとの類似度」とする。ここでは、特徴ベクトルとして、正規化された(肺面積,心臓面積,肺野内平均画素値)を用いる。
類似度の平均値が高い順に順位付けを行う点、順位に応じて上位から所定数の正解なしデータをアノテーションの対象(学習用データ)として選定する点については、類似度算出方法1-1と同様である。
あるいは、個々の正解なしデータ同士の特徴ベクトルの類似度を算出することに代えて、例えば、選定候補(正解なしデータA)以外の正解なしデータB,C,Dの特徴ベクトルの平均値を算出してから、選定候補(正解なしデータA)の特徴ベクトルと、正解なしデータB,C,Dの特徴ベクトルの平均値との類似度を算出し、この類似度を「正解なしデータAと他の正解なしデータとの類似度」としてもよい。
なお、特徴ベクトルとして、ディープラーニングモデルにおける中間層の画像(1枚以上)から算出したものを用いてもよい。具体的には、医用画像に対して、ディープラーニングにおける畳み込み積分(コンボリューション)やプーリングを行った後の画像から、特徴ベクトルを算出する。精度を改善したい対象のモデルの中間層の画像の特徴ベクトルを用いることが望ましい。類似度を算出する際には、医用画像を処理した同じ段階の画像同士の特徴ベクトルを用いる。
また、特徴ベクトルとして、医用画像の付帯情報や、医用画像に対するレポート、撮影対象とされた患者のカルテ情報等から取得した情報を用いてもよい。
また、特徴ベクトルとして、医用画像の付帯情報や、医用画像に対するレポート、撮影対象とされた患者のカルテ情報等から取得した情報を用いてもよい。
〔第2のデータ選定処理〕
次に、図12を参照して、第2のデータ選定処理について説明する。第2のデータ選定処理は、ステップS3のデータ選定処理の一例であり、正解なしデータから「希少な例」を選定する処理である。第2のデータ選定処理では、正解なしデータ及び正解ありデータに基づいて、アノテーションの対象とするデータを選定する。データ選定部15における選定方法として、第2のデータ選定処理が示す選定方法を用いることが記憶部19に予め設定されている場合に、第2のデータ選定処理が採用される。
次に、図12を参照して、第2のデータ選定処理について説明する。第2のデータ選定処理は、ステップS3のデータ選定処理の一例であり、正解なしデータから「希少な例」を選定する処理である。第2のデータ選定処理では、正解なしデータ及び正解ありデータに基づいて、アノテーションの対象とするデータを選定する。データ選定部15における選定方法として、第2のデータ選定処理が示す選定方法を用いることが記憶部19に予め設定されている場合に、第2のデータ選定処理が採用される。
データ選定部15は、ステップS2で取得された正解なしデータのそれぞれ(選定候補)について、選定候補と正解ありデータとの類似度を算出する(ステップS21)。
次に、データ選定部15は、正解ありデータとの類似度が低い順に、正解なしデータ(選定候補)に順位付けを行う(ステップS22)。
次に、データ選定部15は、順位に基づいて、上位から所定数(例えば、10画像)の正解なしデータを選定する(ステップS23)。
以上で、第2のデータ選定処理が終了する。
以上で、第2のデータ選定処理が終了する。
<類似度算出方法2-1>
まず、類似度算出方法2-1として、正解なしデータ及び正解ありデータに基づく選定方法(第2のデータ選定処理)のうち、オリジナルの医用画像の画像データをそのまま用いて類似度を算出する場合について説明する。
まず、類似度算出方法2-1として、正解なしデータ及び正解ありデータに基づく選定方法(第2のデータ選定処理)のうち、オリジナルの医用画像の画像データをそのまま用いて類似度を算出する場合について説明する。
ここでも、10枚の正解なしデータA~Jから3枚の医用画像を選定することとする。
正解なしデータA~Jのそれぞれを選定候補として、当該選定候補と、正解ありデータa~lとの間の類似度を総当たりで算出する。
正解なしデータA~Jのそれぞれを選定候補として、当該選定候補と、正解ありデータa~lとの間の類似度を総当たりで算出する。
次に、選定候補(正解なしデータA~J)ごとに、選定候補と正解ありデータa~lとの類似度の平均値を算出する。
次に、選定候補(正解なしデータA~J)に対し、正解ありデータa~lとの類似度の平均値が低い順に、順位付けを行う。
次に、選定候補(正解なしデータA~J)に対し、正解ありデータa~lとの類似度の平均値が低い順に、順位付けを行う。
図13に、選定候補(正解なしデータA~J)ごとに算出された正解ありデータa~lとの類似度、平均値、順位の例を示す。
選定候補の順位に応じて、上位から3番目までの画像をアノテーションの対象(学習用データ)として選定する。図13に示す例では、順位が1番目の正解なしデータG、順位が2番目の正解なしデータA、順位が3番目の正解なしデータIを採用する。
選定候補の順位に応じて、上位から3番目までの画像をアノテーションの対象(学習用データ)として選定する。図13に示す例では、順位が1番目の正解なしデータG、順位が2番目の正解なしデータA、順位が3番目の正解なしデータIを採用する。
<類似度算出方法2-2>
次に、類似度算出方法2-2として、正解なしデータ及び正解ありデータに基づく選定方法(第2のデータ選定処理)のうち、オリジナルの医用画像の画像データを加工し、加工後の情報を用いて類似度を算出する場合について説明する。
次に、類似度算出方法2-2として、正解なしデータ及び正解ありデータに基づく選定方法(第2のデータ選定処理)のうち、オリジナルの医用画像の画像データを加工し、加工後の情報を用いて類似度を算出する場合について説明する。
正解なしデータA~J、正解ありデータa~lのそれぞれについて、医用画像から特徴ベクトルを算出する。
なお、特徴ベクトルとして、ディープラーニングモデルにおける中間層の画像から算出したものを用いてもよい。
また、特徴ベクトルとして、医用画像の付帯情報や、医用画像に対するレポート、撮影対象とされた患者のカルテ情報等から取得した情報を用いてもよい。
なお、特徴ベクトルとして、ディープラーニングモデルにおける中間層の画像から算出したものを用いてもよい。
また、特徴ベクトルとして、医用画像の付帯情報や、医用画像に対するレポート、撮影対象とされた患者のカルテ情報等から取得した情報を用いてもよい。
次に、正解なしデータA~Jのそれぞれを選定候補として、当該選定候補の特徴ベクトルと、正解ありデータa~lの特徴ベクトルと、の総当たりで類似度を算出する。
次に、選定候補(正解なしデータA~J)ごとに、正解ありデータa~lの特徴ベクトルとの類似度の平均値を算出する。この類似度の平均値を「選定候補と正解ありデータとの類似度」とする。
次に、選定候補(正解なしデータA~J)ごとに、正解ありデータa~lの特徴ベクトルとの類似度の平均値を算出する。この類似度の平均値を「選定候補と正解ありデータとの類似度」とする。
類似度の平均値が低い順に順位付けを行う点、順位に応じて上位から所定数の正解なしデータをアノテーションの対象(学習用データ)として選定する点については、類似度算出方法2-1と同様である。
あるいは、全ての正解ありデータa~lの特徴ベクトルの平均値を算出してから、選定候補(正解なしデータA~J)ごとに、当該選定候補の特徴ベクトルと、正解ありデータa~lの特徴ベクトルの平均値との類似度を算出し、この類似度を「選定候補と正解ありデータとの類似度」としてもよい。
〔第3のデータ選定処理〕
次に、図14を参照して、第3のデータ選定処理について説明する。第3のデータ選定処理は、ステップS3のデータ選定処理の一例である。データ選定部15における選定方法として、第3のデータ選定処理が示す選定方法(複数の選定方法の組み合わせ)を用いることが記憶部19に予め設定されている場合に、第3のデータ選定処理が採用される。
次に、図14を参照して、第3のデータ選定処理について説明する。第3のデータ選定処理は、ステップS3のデータ選定処理の一例である。データ選定部15における選定方法として、第3のデータ選定処理が示す選定方法(複数の選定方法の組み合わせ)を用いることが記憶部19に予め設定されている場合に、第3のデータ選定処理が採用される。
データ選定部15は、ユーザーによる特定の施設の指定を受け付ける(ステップS31)。具体的には、データ選定部15は、通信部18を介して、クライアント端末20の表示部22に医療施設の指定画面を表示させ、クライアント端末20の操作部23において指定された施設を示す情報(施設ID等)を取得する。
次に、データ選定部15は、ユーザーによる特定の撮影者の指定を受け付ける(ステップS32)。具体的には、データ選定部15は、通信部18を介して、クライアント端末20の表示部22に撮影者の指定画面を表示させ、クライアント端末20の操作部23において指定された撮影者を示す情報(撮影者ID等)を取得する。
次に、データ選定部15は、ユーザーによるアノテーションの対象としたい症例(結節影を含む症例等)の指定を受け付ける(ステップS33)。具体的には、データ選定部15は、通信部18を介して、クライアント端末20の表示部22にアノテーションの対象としたい症例の指定画面を表示させ、クライアント端末20の操作部23において指定された症例を示す情報を取得する。
次に、データ選定部15は、データ記憶部12に記憶されている正解ありデータ及び正解なしデータから、指定された施設、指定された撮影者、指定された症例に該当する医用画像を抽出する(ステップS34)。
具体的には、データ選定部15は、医用画像(正解ありデータ、正解なしデータ)の付帯情報に含まれる施設ID、撮影者IDに基づいて、指定された施設、指定された撮影者に該当する医用画像を特定する。また、データ選定部15は、データ記憶部12に記憶されているレポートに含まれる所見情報又は診断情報に基づいて、指定された症例を含むレポートを特定し、特定されたレポートに含まれる画像IDに基づいて、指定された症例に該当する医用画像を特定する。データ選定部15は、指定された施設、指定された撮影者に該当する医用画像であって、かつ、指定された症例に該当する医用画像を抽出する。
なお、データ選定部15は、指定された症例を含むレポートに含まれる患者ID又は患者氏名、検査日時、モダリティー等から、レポートの対象とされた医用画像を特定することとしてもよい。
具体的には、データ選定部15は、医用画像(正解ありデータ、正解なしデータ)の付帯情報に含まれる施設ID、撮影者IDに基づいて、指定された施設、指定された撮影者に該当する医用画像を特定する。また、データ選定部15は、データ記憶部12に記憶されているレポートに含まれる所見情報又は診断情報に基づいて、指定された症例を含むレポートを特定し、特定されたレポートに含まれる画像IDに基づいて、指定された症例に該当する医用画像を特定する。データ選定部15は、指定された施設、指定された撮影者に該当する医用画像であって、かつ、指定された症例に該当する医用画像を抽出する。
なお、データ選定部15は、指定された症例を含むレポートに含まれる患者ID又は患者氏名、検査日時、モダリティー等から、レポートの対象とされた医用画像を特定することとしてもよい。
次に、データ選定部15は、ステップS34において抽出された正解ありデータ及び正解なしデータから、病歴・入院歴のあるものを除外する(ステップS35)。具体的には、データ選定部15は、抽出された医用画像の付帯情報から患者IDを取得し、取得された患者IDを含むカルテ情報に病歴又は入院歴が含まれるか否かを判断し、病歴又は入院歴がある患者の医用画像については、選定候補から除外する。
なお、データ選定部15は、医用画像に対するレポートから病歴・入院歴の有無を判断することとしてもよい。
なお、データ選定部15は、医用画像に対するレポートから病歴・入院歴の有無を判断することとしてもよい。
次に、データ選定部15は、ステップS34,S35の条件を満たす正解なしデータのそれぞれ(選定候補)について、選定候補と、ステップS34,S35の条件を満たす正解ありデータとの類似度(以下、第1類似度という。)を算出する(ステップS36)。第1類似度の算出方法については、正解なしデータ及び正解ありデータとして、ステップS34,S35の条件で絞り込まれたデータを用いることを除き、第2のデータ選定処理(図12参照)のステップS21、類似度算出方法2-1、類似度算出方法2-2と同様であるため、詳細な説明を省略する。
次に、データ選定部15は、ステップS34,S35の条件を満たす正解なしデータのそれぞれ(選定候補)について、選定候補と、ステップS34,S35の条件を満たす他の正解なしデータとの類似度(以下、第2類似度という。)を算出する(ステップS37)。第2類似度の算出方法については、正解なしデータとして、ステップS34,S35の条件で絞り込まれたデータを用いることを除き、第1のデータ選定処理(図8参照)のステップS11、類似度算出方法1-1、類似度算出方法1-2と同様であるため、詳細な説明を省略する。
次に、データ選定部15は、ステップS34,S35の条件を満たす正解なしデータのそれぞれ(選定候補)について、第2類似度-第1類似度を算出し、第2類似度-第1類似度の値が大きいものから優先して、所定数(例えば、10画像)の正解なしデータを選定する(ステップS38)。すなわち、第2類似度が高いほど優先され、第1類似度が低いほど優先される。
以上で、第3のデータ選定処理が終了する。
以上で、第3のデータ選定処理が終了する。
なお、選定方法の組み合わせについては、第3のデータ選定処理の例に限定されず、ユーザーが任意の選定方法を組み合わせて用いることができる。
例えば、正解なしデータの中から、ユーザーが指定した読影者(読影者ID)によりレポートが作成された医用画像に限定して、アノテーションの対象とするデータ(学習用データ)を選定することとしてもよい。
例えば、正解なしデータの中から、ユーザーが指定した読影者(読影者ID)によりレポートが作成された医用画像に限定して、アノテーションの対象とするデータ(学習用データ)を選定することとしてもよい。
また、問診情報を用いる例として、ユーザーが「喫煙頻度が所定値以上の患者の医用画像」を選定対象として指定した場合には、データ選定部15は、データ記憶部12に記憶されているカルテ情報に含まれる問診情報から生活習慣情報を抽出し、抽出された生活習慣情報に含まれる喫煙頻度が所定値以上の条件を満たす患者の患者IDをカルテ情報から特定する。そして、データ選定部15は、この特定された患者IDに基づいて、当該患者IDが付帯情報に含まれる医用画像(正解なしデータ)を選定する。
また、選定方法の設定については、ユーザーが任意の選定方法を組み合わせて随時変更することができる。具体的には、ユーザーが、クライアント端末20の表示部22に表示されている設定画面において、操作部23からの操作により、選定方法を変更すると、情報処理装置10の制御部11は、記憶部19に記憶されている選定方法を、変更後の内容に更新する。
図6に示す事後学習処理のデータ選定処理(ステップS3)の後においても、ユーザーの指示に応じて選定方法を変更し、変更後の内容でデータ選定処理を再実行することができる。例えば、「特定の施設」かつ「正解ありデータとの比較において希少なデータ」という条件で選定方法を設定していたが、「特定の施設」で絞り込むと、選定される医用画像の数が不足する結果となってしまった場合に、「正解ありデータとの比較において希少なデータ」という条件のみに設定し直し、選定される医用画像を増やす、といった使い方も可能である。
図6に示す事後学習処理のデータ選定処理(ステップS3)の後においても、ユーザーの指示に応じて選定方法を変更し、変更後の内容でデータ選定処理を再実行することができる。例えば、「特定の施設」かつ「正解ありデータとの比較において希少なデータ」という条件で選定方法を設定していたが、「特定の施設」で絞り込むと、選定される医用画像の数が不足する結果となってしまった場合に、「正解ありデータとの比較において希少なデータ」という条件のみに設定し直し、選定される医用画像を増やす、といった使い方も可能である。
〔初期学習処理〕
図15は、情報処理装置10において実行される初期学習処理を示すフローチャートである。初期学習処理は、開発段階で実行される処理であり、正解ありデータ(正解データ)がない状態から推論部13の計算モデルを作成する処理である。初期学習処理は、製品リリース前の処理であるが、ここでは、情報処理装置10において実行されるものとして説明する。
図15は、情報処理装置10において実行される初期学習処理を示すフローチャートである。初期学習処理は、開発段階で実行される処理であり、正解ありデータ(正解データ)がない状態から推論部13の計算モデルを作成する処理である。初期学習処理は、製品リリース前の処理であるが、ここでは、情報処理装置10において実行されるものとして説明する。
まず、情報処理装置10の制御部11は、通信部18を介して外部装置から100画像分の正解なしデータを取得し、正解なしデータをデータ記憶部12に格納する(ステップS41)。ここで取得される正解なしデータは、例えば、医療施設における1日分の撮影枚数等に相当する。なお、取得する正解なしデータの数は、100に限定されない。
次に、データ選定部15は、100画像の正解なしデータに対し、データ選定処理を行う(ステップS42)。ここでは、データ選定処理により、学習への有効度合いが高い方から10画像分のデータを選定することとする。データ選定処理の詳細については、第1のデータ選定処理(図8参照)、第2のデータ選定処理(図12参照)、第3のデータ選定処理(図14参照)等と同様である。ただし、初期学習処理の1回目のステップS42においては、正解ありデータが存在しないため、第2のデータ選定処理は採用されない。同様に、初期学習処理の1回目のステップS42においては、正解ありデータが存在しないため、第3のデータ選定処理を採用する場合には、ステップS36の処理を省略し、ステップS38では、第1類似度を0として、第2類似度-第1類似度を算出する。
次に、アノテーション部16は、クライアント端末20からのユーザー(開発設計者)の操作に基づいて、選定された10画像の正解なしデータに対し、アノテーションを実施する(ステップS43)。アノテーション部16は、クライアント端末20からのユーザーの操作に基づいて、選定されたデータに対して正解データを作成する。
次に、アノテーション部16は、アノテーションの対象とされた10画像と、各画像に対する正解データ(アノテーション結果)と、を対応付けてデータ記憶部12に保存させる(ステップS44)。選定されたデータ(正解なしデータ)は、正解データが付与されることで、正解ありデータとなる。
次に、学習部14は、正解ありデータとして追加された10画像(選定されたデータ)と、各画像に対する正解データと、を用いて、計算モデルを学習させる(ステップS45)。
ここで、制御部11は、推論部13における計算モデルの精度が十分であるか否かを判断する(ステップS46)。例えば、制御部11は、正解が分かっている医用画像の評価用データを用いて、推論部13に正解データを出力させ、この推論結果が目標精度に達しているか否かを判断する。
計算モデルの精度が十分でない場合には(ステップS46;NO)、ステップS41に戻り、処理が繰り返される。
ステップS46において、計算モデルの精度が十分である場合には(ステップS46;YES)、初期学習処理が終了する。
ステップS46において、計算モデルの精度が十分である場合には(ステップS46;YES)、初期学習処理が終了する。
以上説明したように、本実施の形態によれば、正解なしデータの中から、学習に有効と推測されるデータを選定するので、学習に効率的なデータを収集することができる。これにより、ユーザーが正解なしデータの全てに対してアノテーション(ラベル付け)を行わなくても、効率良く計算モデルの精度を向上させることができる。また、ユーザーの負担を軽減させ、データ収集及びアノテーションのコストを削減することができる。
また、大量の正解なしデータからアノテーション及び学習の対象とするデータを選定することは、リリース後の事後学習に対して有効な機能である。製品リリース後も、追加で収集されるデータを用いて、製品の性能向上を図ることができる。また、アノテーション支援システム100に新たな医療施設が参加し始めた場合(新たな医療施設の正解なしデータが追加された場合)にも、本発明は有効である。
また、ユーザーの操作に基づいて、選定されたデータに対する正解データを作成又は修正することで、選定されたデータ及び正解データを学習に利用することができる。
また、選定されたデータと当該選定されたデータに対する正解データとを用いて計算モデルの学習を行うことで、計算モデルの精度を向上させることができる。
また、選定されたデータに対して正解データの候補を提示することで、ユーザーは、何もないところから正解データを作成する場合と比較して、効率良くアノテーション作業を行うことができる。
また、データ選定部15における選定方法の一つとして、正解なしデータのうち、当該正解なしデータを代表するデータを、学習に有効と推測されるデータとして選定することができる。これにより、新たな正解なしデータ全般に対する推論の精度を向上させることができる。
例えば、正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定することで、正解なしデータを代表するデータを選定することができる。
例えば、正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定することで、正解なしデータを代表するデータを選定することができる。
また、データ選定部15における選定方法の一つとして、正解なしデータのうち、正解ありデータとの比較において希少なデータを、学習に有効と推測されるデータとして選定することができる。これにより、機械学習においてデータが不足している範囲の学習用データを追加することができる。
例えば、正解なしデータのそれぞれを選定候補として、正解ありデータとの類似度を算出し、当該算出された類似度がより低い選定候補を優先して選定することで、正解なしデータから希少なデータを選定することができる。
例えば、正解なしデータのそれぞれを選定候補として、正解ありデータとの類似度を算出し、当該算出された類似度がより低い選定候補を優先して選定することで、正解なしデータから希少なデータを選定することができる。
また、データ選定部15における選定方法の一つとして、正解なしデータに対するレポートから抽出された所見情報又は診断情報に基づいて、特定の症例に該当する医用画像を優先して選定することができる。
また、データ選定部15における選定方法の一つとして、問診情報に含まれる生活習慣情報が所定の条件に該当する患者の医用画像を優先して選定することができる。
また、データ選定部15における選定方法の一つとして、正解なしデータのうち、特定の施設において撮影された医用画像や、特定の医療従事者により撮影された医用画像を優先して選定することができる。
また、データ選定部15における選定方法の一つとして、正解なしデータのうち、過去に病歴又は入院歴のない患者の医用画像を優先して選定することができる。これにより、機械学習における学習用データとして適切でない医用画像を、アノテーションの対象から除外することができる。
また、アノテーション支援システム100では、大量の多様な医用画像に対し、多様な医療施設の複数の医療従事者が読影・アノテーション作業を行うため、データストレージ(データ記憶部12)及び学習部14を情報処理装置10(クラウドサーバー)に配置することで、医療施設内のクライアント端末20における読影・アノテーション時の負荷を軽減させることができ、読影・アノテーション作業を複数の作業者間で分担することができる。
また、この複数の作業者(ユーザー)ごとに、データ選定部15における選定方法を個別に設定可能としてもよい。ユーザーごとに、異なる条件で選定した医用画像に対してアノテーションを実施することにより、効率的にデータのバリエーションを増やすことができる。具体的には、経験年数が浅い医師においては、「正解なしデータを代表するデータ」かつ「一般的に検出性の高い特定の疾患」を選定条件とし、経験年数が多い医師においては、「正解なしデータを代表するデータ」かつ「正解ありデータとの比較において希少なデータ」かつ「一般的に検出性の低い特定の疾患」を選定条件とする等、ユーザーごとに異なる選定方法を保存しておく。
なお、上記実施の形態における記述は、本発明に係る情報処理装置の例であり、これに限定されるものではない。装置を構成する各部の細部構成及び細部動作に関しても本発明の趣旨を逸脱することのない範囲で適宜変更可能である。
正解なしデータを代表するデータの選定方法の一つとして、正解なしデータの付帯情報や画像の特徴量について、平均値を中心に指定された範囲内に含まれる医用画像を選定することとしてもよい。例えば、正解なしデータの撮影対象とされた患者の平均年齢を算出し、患者の年齢が平均年齢から所定範囲内の医用画像を、代表的なデータとして選定することとしてもよい。また、医用画像同士の類似度を算出する際に、撮影対象とされた患者の年齢を、医用画像の特徴ベクトルの一つとして用いてもよい。
また、正解なしデータのうち、正解ありデータとの比較において希少なデータを選定する選定方法の一つとして、正解ありデータにおいてデータの数が少ない症例の画像と類似した医用画像を選定することとしてもよい。
また、上記実施の形態では、レポートやカルテ情報がデータ記憶部12に記憶されている場合について説明したが、レポートやカルテ情報が情報処理装置10の外部の装置にて保管されている場合には、情報処理装置10においてレポートやカルテ情報が必要となった際に、適宜取得して参照すればよい。
また、上記実施の形態では、データ記憶部12に記憶されているカルテ情報に問診情報が含まれることとしたが、問診票(紙)をスキャンしたPDFデータがそのまま保管されている場合等、問診情報が単独で情報処理装置10又は外部の装置にて保管されている場合には、この問診情報を適宜利用すればよい。スキャンデータに対しては、OCR(Optical Character Recognition:光学文字認識)処理により、データを抽出することとしてもよい。
また、上記実施の形態では、情報処理装置10がクラウドサーバーであることとしたが、情報処理装置10は、クラウドサーバーでなくてもよく、医療施設の内部又は外部に設置されたサーバー装置であってもよい。
また、上記実施の形態では、情報処理装置10に対する操作や情報処理装置10からの情報の提示が、クライアント端末20において行われる場合について説明したが、情報処理装置10が操作部及び表示部を備え、情報処理装置10単体で処理を実行可能としてもよい。
また、上記実施の形態では、クライアント端末20を情報処理装置10に対する入出力端末としたが、クライアント端末20が情報処理装置10から情報を取得して処理の一部を実行することとしてもよい。
また、情報処理装置10(クラウドサーバー)は、最低限、データストレージ(データ記憶部12)及び学習部14を備えていればよく、クライアント端末20が推論部13、データ選定部15、アノテーション部16、正解候補提示部17の機能を有していてもよい。この場合、正解なしデータからのデータの選定、ユーザーへの正解データ候補の提示、ユーザーによるアノテーション作業は、ローカル(クライアント端末20)にて行う。クライアント端末20において、新規のデータに対する推論結果(病変検出結果等)を利用したい場合は、クライアント端末20に予め推論部(アプリケーションプログラム)をインストールしておき、この推論部を用いればよい。一方、新規のデータに対して作成したアノテーション結果(正解データ)を用いて計算モデルを事後学習させる際には、情報処理装置10の学習部14を用いる。ここで、クライアント端末20の推論部で用いられる計算モデルと、情報処理装置10の学習部14で用いられる計算モデルは同じものである。情報処理装置10の学習部14により計算モデルが更新される度に、クライアント端末20の計算モデルは情報処理装置10と同期され、最新版の計算モデルに更新される。
また、各装置において各処理を実行するためのプログラムは、可搬型記録媒体に格納されていてもよい。また、プログラムのデータを通信回線を介して提供する媒体として、キャリアウェーブ(搬送波)を適用することとしてもよい。
10 情報処理装置
11 制御部
12 データ記憶部
13 推論部
14 学習部
15 データ選定部
16 アノテーション部
17 正解候補提示部
18 通信部
19 記憶部
20 クライアント端末
21 制御部
22 表示部
23 操作部
24 通信部
25 記憶部
100 アノテーション支援システム
N 通信ネットワーク
11 制御部
12 データ記憶部
13 推論部
14 学習部
15 データ選定部
16 アノテーション部
17 正解候補提示部
18 通信部
19 記憶部
20 クライアント端末
21 制御部
22 表示部
23 操作部
24 通信部
25 記憶部
100 アノテーション支援システム
N 通信ネットワーク
Claims (15)
- 正解データが付与されていない医用画像の正解なしデータを記憶する記憶装置と、
前記正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定部と、
を備え、
前記データ選定部における選定方法が随時変更可能に予め設定されている情報処理装置。 - ユーザーの操作に基づいて、前記選定されたデータに対する正解データを作成又は修正するアノテーション部を備える請求項1に記載の情報処理装置。
- 前記正解なしデータから計算モデルにより正解データを推論する推論部と、
前記選定されたデータと当該選定されたデータに対する正解データとを用いて前記計算モデルの学習を行う学習部と、
を備える請求項2に記載の情報処理装置。 - 前記選定されたデータに対して前記推論部により推論された正解データの候補を1種類以上ユーザーに提示する正解候補提示部を備える請求項3に記載の情報処理装置。
- 前記記憶装置及び前記学習部がクラウドサーバーに搭載されている請求項3又は4に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのうち、当該正解なしデータを代表するデータを、前記学習に有効と推測されるデータとして選定する請求項1から5のいずれか一項に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのそれぞれを選定候補として、当該選定候補を除く正解なしデータとの類似度を算出し、当該算出された類似度がより高い選定候補を優先して選定する請求項6に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのうち、正解データが付与されている医用画像の正解ありデータとの比較において希少なデータを、前記学習に有効と推測されるデータとして選定する請求項1から7のいずれか一項に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのそれぞれを選定候補として、前記正解ありデータとの類似度を算出し、当該算出された類似度がより低い選定候補を優先して選定する請求項8に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータに対するレポートから所見情報又は診断情報を抽出し、当該抽出された所見情報又は診断情報に基づいて、特定の症例に該当する医用画像を優先して選定する請求項1から9のいずれか一項に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのうち、問診情報に含まれる生活習慣情報が所定の条件に該当する患者の医用画像を優先して選定する請求項1から10のいずれか一項に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのうち、特定の施設において撮影された医用画像、又は、特定の医療従事者により撮影された医用画像を優先して選定する請求項1から11のいずれか一項に記載の情報処理装置。
- 前記データ選定部は、前記正解なしデータのうち、過去に病歴又は入院歴のない患者の医用画像を優先して選定する請求項1から12のいずれか一項に記載の情報処理装置。
- 正解データが付与されていない医用画像の正解なしデータを記憶する記憶装置に記憶された正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定工程を含み、
前記データ選定工程における選定方法が随時変更可能に予め設定されている情報処理方法。 - 正解データが付与されていない医用画像の正解なしデータを記憶する記憶装置を備える情報処理装置のコンピューターを、
前記正解なしデータの中から、学習に有効と推測されるデータを選定するデータ選定部として機能させるためのプログラムであって、
前記データ選定部における選定方法が随時変更可能に予め設定されているプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021092026A JP2022184272A (ja) | 2021-06-01 | 2021-06-01 | 情報処理装置、情報処理方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021092026A JP2022184272A (ja) | 2021-06-01 | 2021-06-01 | 情報処理装置、情報処理方法及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022184272A true JP2022184272A (ja) | 2022-12-13 |
Family
ID=84437441
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021092026A Pending JP2022184272A (ja) | 2021-06-01 | 2021-06-01 | 情報処理装置、情報処理方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022184272A (ja) |
-
2021
- 2021-06-01 JP JP2021092026A patent/JP2022184272A/ja active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20190220978A1 (en) | Method for integrating image analysis, longitudinal tracking of a region of interest and updating of a knowledge representation | |
US7865004B2 (en) | System, method, and program for medical image interpretation support | |
US7962348B2 (en) | Apparatus, method and software for developing electronic documentation of imaging modalities, other radiological findings and physical examinations | |
JP5153281B2 (ja) | 診断支援装置及びその制御方法 | |
JP4906404B2 (ja) | 診断支援方法、診断支援装置、診断支援システム、及び診断支援プログラム | |
US20120020536A1 (en) | Image Reporting Method | |
JP2008506188A (ja) | ジェスチャ・ベース報告方法およびシステム | |
JP2011092286A (ja) | 情報処理装置、情報処理方法及びプログラム | |
JP2013511762A (ja) | プロトコルガイドイメージング手順 | |
WO2019146358A1 (ja) | 学習システム、方法及びプログラム | |
JP2019149005A (ja) | 医療文書作成支援装置、方法およびプログラム | |
US20130159022A1 (en) | Clinical state timeline | |
JP2019153249A (ja) | 医用画像処理装置、医用画像処理方法、及び医用画像処理プログラム | |
US20140172457A1 (en) | Medical information processing apparatus and recording medium | |
US20180032674A1 (en) | Diagnostic system, diagnostic method, and storage medium | |
JP2009078082A (ja) | 医用情報処理システム、医用情報処理方法、及びプログラム | |
JP2019091324A (ja) | 医療情報処理装置及びプログラム | |
WO2021157705A1 (ja) | 文書作成支援装置、方法およびプログラム | |
JP5151913B2 (ja) | 情報処理装置 | |
US20190341150A1 (en) | Automated Radiographic Diagnosis Using a Mobile Device | |
JP6258084B2 (ja) | 医用画像表示装置、医用画像表示システムおよび医用画像表示プログラム | |
JP7504987B2 (ja) | 情報処理装置、情報処理方法及び情報処理プログラム | |
JP2008073397A (ja) | 解剖図選択方法及び解剖図選択装置並びに医用ネットワークシステム | |
JP7238705B2 (ja) | 診療支援方法、診療支援システム、学習モデルの生成方法、および、診療支援プログラム | |
JP2022184272A (ja) | 情報処理装置、情報処理方法及びプログラム |