JP7027070B2 - 情報処理装置、情報処理方法、及びプログラム - Google Patents

情報処理装置、情報処理方法、及びプログラム Download PDF

Info

Publication number
JP7027070B2
JP7027070B2 JP2017167258A JP2017167258A JP7027070B2 JP 7027070 B2 JP7027070 B2 JP 7027070B2 JP 2017167258 A JP2017167258 A JP 2017167258A JP 2017167258 A JP2017167258 A JP 2017167258A JP 7027070 B2 JP7027070 B2 JP 7027070B2
Authority
JP
Japan
Prior art keywords
reliability
data
learning
information
target data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017167258A
Other languages
English (en)
Other versions
JP2019046058A (ja
Inventor
直紀 松木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2017167258A priority Critical patent/JP7027070B2/ja
Priority to CN201810952850.XA priority patent/CN109426834B/zh
Priority to US16/113,861 priority patent/US11636378B2/en
Publication of JP2019046058A publication Critical patent/JP2019046058A/ja
Application granted granted Critical
Publication of JP7027070B2 publication Critical patent/JP7027070B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3322Query formulation using system suggestions
    • G06F16/3323Query formulation using system suggestions using document space presentation or visualization, e.g. category, hierarchy or range presentation and selection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems

Description

本明細書の開示は、情報処理装置、情報処理方法、及びプログラムに関する。
所望のデータを分類するための分類モデルを機械学習により構築するためには、分類対象データと正解ラベルがセットとなった学習データが大量に必要となる。
学習データを大量に集める過程では、ラベルに誤りがある学習データが混入する場合があり、分類モデルによる分類の精度が落ちる原因となる。そのため、学習データの信頼度を評価し、その結果に基づいて学習への影響度を調整する手法がとられる。例えば特許文献1及び特許文献2には、学習データの作成者に関する情報に基づいて学習データの信頼度を評価し、その結果に基づいて学習への影響度を調整する方法が記載されている。
特開2009-282686号公報 特開2015-230570号公報
ここで、医療における画像診断や病理診断のように、判断に高度な専門性が必要な場合には、学習データの項目毎に作成者が異なる場合がある。すなわち、このような場合には学習データの項目毎に信頼度が異なってしまう。しかしながら、特許文献1や特許文献2の方法では、学習データの信頼度を正しく評価することができない。
そこで本発明は、学習データの項目毎に信頼度が異なる場合にも、学習データの信頼度を正しく評価することの可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。
なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本明細書の開示の他の目的の1つとして位置付けることができる。
上記課題を解決するため、本発明に係る情報処理装置は、分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段と、前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段と、複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段と、を備えることを特徴とする。
本発明によれば、学習データの項目毎に信頼度が異なる場合にも、学習データの信頼度を正しく評価することができる。
情報処理装置の機能構成の一例を示す図である。 医用情報の構成の一例を示す図である。 学習データを作成する処理の一例を示すフローチャートである。 学習データの構成の一例を示す図である。 学習データの信頼度を求める処理の一例を示すフローチャートである。 作成者の情報に基づく信頼度の一例を示す図である。 学習データの選択方法の一例を示すフローチャートである。 情報処理装置のハードウェア構成の一例を示す図である。
以下、本発明を実施するための形態について図面を用いて説明する。
<実施形態1>
実施形態1における情報処理装置は、病変画像を予め決められた種類の診断に分類するための分類器を構築する。分類器は、病変画像を分類対象データ、診断名を正解ラベルとする学習データを用いた機械学習により構築される。
なお、実施形態1では、肺癌の鑑別診断を例として説明する。肺癌の鑑別診断では、肺の異常陰影の読影に係る医用画像として胸部X線CT画像が撮影され、読影医による画像診断、病理医による病理診断を経て臨床医による確定診断が下される。実施形態1では、医用画像から異常陰影を切り出したものを病変画像とし、診断名を肺癌(原発癌)、肺転移(転移癌)、その他の3種類に分類するものとする。
もちろん、本発明は実施形態1で説明する内容に限定されるものではなく、以下に示す診断名や医用情報等は、いずれも情報処理装置の処理の工程を説明するための一例に過ぎない。例えば、肺癌の鑑別診断ではなく、肝臓癌の鑑別診断やその他の症例であっても良い。また、医用画像はコンピュータ断層撮影装置(CT装置)で撮影されたものに限らず、磁気共鳴断層撮影装置(MRI装置)や超音波画像診断装置(US装置)など、その他の撮影装置(モダリティ)で撮影されたものを用いても良い。また、診断名は原発癌、転移癌、その他の3種類ではなく、更に詳細に分類しても良いし、異なる診断名を追加しても良い。
(ハードウェア構成)
図8は、本実施形態の情報処理装置100のハードウェア構成図である。なお、本実施形態におけるハードウェア構成はあくまで一例であり、情報処理装置100が図8に示す各ハードウェアとは異なるハードウェアを備えていてもよい。また、図8に示す各ハードウェアを少なくとも1つ備えていればよく、情報処理装置100が各ハードウェアまたはいずれかのハードウェアを複数備えていてもよい。
図8において、記憶媒体801は、OS(Operating System)や本実施形態に係る各種処理を行うための処理プログラム、各種情報、各種データベースを記憶するHDD(Hard Disk Drive)等の記憶媒体である。ROM(Read Only Memory)802はBIOS(Basic Input Output System)等、ハードウェアを初期化しOSを起動するためのプログラムを記憶する。CPU(Central Processing Unit)803はBIOSやOS、処理プログラムを実行する際の演算処理を行う。RAM(Random Access Memory)804は、CPU803がプログラムを実行する際の情報を一時記憶する。LANインタフェース805は、IEEE(Institute of Electrical and Electronics Engineers)802.3ab等の規格に対応し、LAN810を介して通信を行うためのインタフェースである。807は表示画面を表示するディプレイ(表示部)であり、806はディスプレイ807に表示する画面情報を信号に変換し出力するディスプレイインタフェースである。808は、各ブロックが通信を行うための内部バスである。
(機能構成)
図1は、実施形態1における情報処理装置100の機能構成の一例を示す図である。なお、情報処理装置100の各構成要素は、コンピュータプログラムに従って機能する。例えば、CPU803がRAM804をワーク領域としてROM802又は記憶媒体801などに記憶されたコンピュータプログラムを読み込み、これを実行することで、各構成要素の機能が実現される。なお、情報処理装置100の構成要素の一部又は全ての機能が専用の回路を用いることで実現されてもよい。また、CPU803の構成要素の一部の機能が、クラウドコンピュータを用いることで実現されてもよい。
例えば、情報処理装置100とは異なる場所にある演算装置がネットワークを介して情報処理装置100に通信可能に接続される。そして、情報処理装置100と演算装置がデータの送受信を行うことで、情報処理装置100又はCPU803の構成要素の機能が実現されてもよい。
医用情報取得部101は、医用画像、読影レポート、臨床情報等の医用情報を不図示のデータベースから取得して、医用情報データベース200に格納する。不図示のデータベースは、病院内のデータベースであっても良いし、病院外のネットワーク上に公開されているデータベースであっても良い。なお、医用情報の構成については、図2を用いて後述する。
学習データ作成部102は、医用情報データベース200の内容に基づき、学習データを作成する。学習データ作成部102で作成された学習データは、学習データベース300に格納する。なお、学習データの作成方法については、図3を用いて後述する。
信頼度算出部103は、学習データ作成部102により作成された学習データの信頼度を算出し、学習データベース300に格納する。学習データの信頼度の算出方法については、図5を用いて後述する。すなわち、分類対象データの信頼度である第一信頼度と、分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段の一例に相当する。
分類モデル学習部104は、学習データベース300に格納された学習データを用いて、機械学習により分類器を構築する。構築した分類器は、分類器格納部400に格納する。すなわち、複数の学習データと学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段の一例に相当する。
医用情報取得部101の処理は、一日毎や一ヶ月毎など定期的な間隔で実行され、これにより医用情報データベース200の内容が追加・更新される。医用情報データベース200の内容が追加・更新されると、学習データ作成部102と信頼度算出部103の処理が実行され、これにより学習データベース300の内容が追加・更新される。学習データベース300の内容が追加・更新されると、分類モデル学習部104の処理が実行され、これにより分類器が更新される。
なお、医用情報取得部101、学習データ作成部102、信頼度算出部103、及び分類モデル学習部104の処理を実行するタイミングは、上記以外のタイミングでも良い。例えば学習データ作成部102については、既に電子カルテから確定診断が登録されている患者IDのデータは更新しないなど、処理をスキップするための工夫を加えても良い。
(医用情報の構成)
実施形態1において、医用情報データベース200には、電子カルテ、医用画像、読影レポートのデータが、図2に示すような表形式で格納されるものとする。
電子カルテには患者ID、既往歴、確定診断の情報が登録されている。また、登録されている情報の夫々に、作成者及び作成日時の情報が付属している。
医用画像には画像データに加え、患者ID、撮影した機器や撮影条件、作成(撮影)日時、スライス厚等の画像に関わる情報が併せて登録されている。
読影レポートには患者ID、レポートの作成者、レポートの作成日時、キー画像、画像所見、画像診断が登録されている。キー画像は異常陰影が現れている画像のスナップショットであり、医用画像へのリンクと、異常陰影の位置や大きさを示すROI(Regeion Of Interest)の情報を含む。画像所見は異常陰影の大きさや形状、濃度などの性状を表す情報であり、ROIと一対一に関係付けて作成される。画像診断は画像所見から導かれる診断名であり、ひとつ以上の画像所見と関係する。なお、キー画像、画像所見、画像診断の夫々には作成者,リンク元IDの情報が付属する。キー画像、画像所見、画像診断は互いに関連づいており、リンク元IDにより関連が分かるようになっている。キー画像、画像所見、画像診断は、ひとつの読影レポート中に複数登録されていても良い。
電子カルテに登録されている各情報、医用画像、読影レポートは、夫々に付与された患者IDや作成日時により、患者単位や時系列での関係性が分かるようになっている。
なお、図2ではデータを表形式で保存しているが、情報間の関係について同等の意味を持つXML等、他の形式で保存しても良い。
また、情報間の関係を明示的に持たない別の形式で保存しておき、学習データ作成部102で使用する際に図2に示す形式に変換するように構成しても良い。例えば、読影レポートを画像所見、診断が連続した自然文で記述された形式で保存しておき、自然言語処理等で各々の情報間の関係が分かるようにしても良い。
また、医用情報データベース200に保存する情報は、情報間の関係性が保たれるように匿名化されていても良い。
(学習データの作成方法)
実施形態1における学習データは、図3に示すフローチャートに従って作成する。下記の説明において、医用情報データベース200に格納されている全ての読影レポートに含まれる画像所見はリスト化されており、順番にアクセスできるものとする。
ステップS301では、学習データ作成部102が、リストの最初の項目から画像所見を取得する。なお、2回目以降にアクセスする際は、学習データ作成部102が、リストの次の項目から画像所見を取得する。
ステップS302では、学習データ作成部102が、分類対象データを取得する。実施形態1において、分類対象データは病変画像である。病変画像は、ROIの中心位置と同じ位置を中心としROIの2倍の大きさの領域を医用画像から自動的に切り出した画像とする。なお、病変画像は2次元のピクセルデータであっても良いし、3次元のボクセルデータであっても良い。なお、病変画像は医用情報に登録された時点で予め切り出されていても良い。また、病変部分を切り出さずに、ROIが含まれる画像をそのまま病変画像として用いても良い。
ステップS303では、学習データ作成部102が、正解ラベルを取得する。実施形態1において、正解ラベルは診断名である。診断名は、ステップS301で取得した画像所見を含む読影レポートと同じ患者IDを持つ電子カルテに含まれる確定診断のうち、読影レポートよりも作成日時が後であり、且つ読影レポートと作成日時が最も近いものを自動的に選択して使用する。なお、医用情報データベース200に病理レポートを保存しておき、病理レポートの直後に作成された確定診断を使用しても良い。また、該当する確定診断が存在しない場合には、画像診断を使用しても良い。その場合は、該当する確定診断が作成された時点で差し替えるようにする。
ステップS304では、学習データ作成部102が、ステップS302で取得した分類対象データとステップS303で取得した正解ラベルの間の関連を付与する。関連の情報は、医師が手動で付与しても良いし、自動で付与しても良い。例えば、読影レポートに含まれる医用画像と画像診断との関係から、分類対象データと確定診断の関係を類推して付与するようにしても良い。
ステップS305では、学習データ作成部102が、ステップS302で取得した分類対象データとステップS303で取得した正解ラベルとステップS304で付与した関連とをセットにして、学習データベース300に格納する。その際に、学習データ作成部102が、分類対象データ、正解ラベル、及びそれらの間の関連の作成者に関する情報を格納する。学習データに含まれる項目(例えば、分類対象データ、正解ラベル、及びそれらの間の関連)を自動的に作成した場合は作成者の情報として「AI」という情報を格納する。また、その項目を電子カルテより取得した場合は取得情報の作成者に関する情報を格納し、読影レポートより取得した場合は読影レポートの作成者に関する情報を格納する。
(学習データの構成)
図4は、実施形態1における学習データの例である。図4の例では、病変画像は、読影医が付与したROIの情報を元に、医用画像から自動的に切り出される。診断は、電子カルテに登録されている情報を用いる。また、病変画像と診断の関連は、研修医により手動で付与されたものとする。
図4(a)は、分類対象データ、正解ラベル、及びその間の関連の最終的な作成者に関する情報のみを保存する例である。図4(b)は、夫々のデータの作成に関わる項目を細分化し、細分化した項目夫々の作成者に関する情報を保存する例である。図4(c)は、夫々のデータの作成に関わった作成者に関する情報を履歴として保存する例である。
なお、作成者は個人名で保存しても良いし、臨床医、読影医、等の職能で保存しても良い。また、医用画像であれば、撮影により医用画像を生成したモダリティの種類、モダリティの型番、モダリティのメーカー名等、モダリティに関する情報を学習データの項目に保存してもよい。また、病変画像であれば、前述した医用画像と同様の情報や、更には病変画像を生成したコンピュータの種類、コンピュータの型番、コンピュータのメーカー名等、コンピュータに関する情報を学習データの項目に保存してもよい。
(学習データの信頼度算出方法)
学習データの信頼度は、図5に示すフローチャートに従って求められる。下記の説明において、作成者に関する情報に基づく信頼度は、作成者がAIか否か、また職能に応じて、図6に示す形態で予め定められているものとする。
ステップS501では、信頼度算出部103が、分類対象データの信頼度Rdataを求める。Rdataは、分類対象データの種類と作成者の情報(分類対象データに関する情報)に応じて、図6に示す表より取得される。作成者が個人名で保存されている場合は、作成者の職能を別途取得可能にしておき、信頼度算出部103が個人名を職能に変換した後にRdataを求める。なお、作成者が不明である場合には、信頼度算出部103が、情報の取得元のシステムから作成者の職能を推測しても良い。例えば、電子カルテから取得した診断の作成者は臨床医であり、病理レポートから取得した診断の作成者は病理医であると推測する。
なお、前述する図4(b)のように分類対象データが複数の項目に分かれている場合、また図4(c)のように履歴が保存されている場合には、各々の項目の作成者による信頼度を重み付き加算したものを、分類対象データの信頼度としても良い。例えば、図4(b)に示す分類対象データの信頼度Rdataは、医用画像の作成者による信頼度Rimg、ROIの作成者による信頼度Rroi、病変画像の作成者による信頼度Rles、データ毎の重みwを用いて、式1のように求める。
(式1)
data = w・Rimg + w・Rroi + w・Rles
重みはΣw=1.0となるように自由に設定する。ここでは例として、w=0.1、w=0.5、w=0.4とする。
ステップS502では、信頼度算出部103が、正解ラベルの信頼度Rlabelを求める。Rlabelは、正解ラベルの種類と作成者の情報(ラベルに関する情報)に基づき、ステップS501においてRdataを求めたものと同様の方法で求められる。
ステップS503では、信頼度算出部103が、分類対象データと正解ラベルの関連付けの信頼度Rrelを求める。すなわち、分類対象データとラベルと関連付けに関する情報の信頼度である第三信頼度を更に算出する項目別信頼度算出手段の一例に相当する。Rrelは、分類対象データと正解ラベルの関連の作成者の情報に基づき、ステップS501においてRdataを求めたものと同様の方法で求められる。
ステップS504では、信頼度算出部103が、ステップS501~S503で求めた各信頼度を重み付け加算し、学習データの信頼度Rtrを求める。すなわち、第一信頼度と第二信頼度とに基づいて、分類対象データとラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段の一例に相当する。また、更に第三信頼度に基づいて、学習データ信頼度を算出することを特徴とする学習データ信頼度算出手段の一例に相当する。Rtrは、Rdata、Rlabel、Rrel、及び夫々の重みwを用いて、式2のように求められる。
(式2)
tr = w・Rdata + w・Rlabel + w・Rrel
重みはΣw=1.0となるように自由に設定する。ここでは例として、w=0.3、w=0.3、w=0.4とする。
なお、学習データの信頼度Rtrは、分類対象データと正解ラベルの関連付けの信頼度Rrelを使用せずに、式3のように求めても良い。
(式3)
tr = w・Rdata + w・Rlabel
(分類モデル学習方法)
実施形態1では、分類モデルとして一般のCNN(Convolutional Newral Network)を用いるものとする。分類モデルの学習はミニバッチ学習で行われる。即ち、分類モデル学習部104は、全ての学習データから少数の学習データをミニバッチとして取得し、ミニバッチのデータで分類モデルを評価する。そして、分類モデル学習部104は、評価結果に基づいて分類モデルの各ノードの重みを変更し、別のミニバッチで評価する。これを繰り返して、分類モデルの精度を上げていく。
実施形態1では、分類モデル学習部104が、全ての学習データからミニバッチをランダムに選択する。また、分類モデル学習部104が、ミニバッチに含まれる学習データの数と繰り返し回数の積が学習データの総数を上回った時点で学習を終了させる。この場合、ミニバッチに一度も選ばれない、又は重複して選ばれる学習データが存在することになる。
ミニバッチの学習データは、図7に示すフローチャートに従って選択される。
ステップS701では、分類モデル学習部104が、全ての学習データの信頼度の合計値ΣRを求める。
ステップS702では、分類モデル学習部104が、全ての学習データの中から、ひとつの学習データをランダムに取得する。
ステップS703では、分類モデル学習部104が、ステップS702で取得した学習データがミニバッチに含まれる確率Ptrを求める。確率Ptrは、学習データの信頼度Rtrを用いて、式4のように求められる。
(式4)
tr = (Rtr/ΣR)・100
ステップS704では、分類モデル学習部104が、変数kに1から100の整数値をランダムで代入する。
ステップS705では、分類モデル学習部104が、変数kと確率Ptrを比較する。k≦Ptrの場合は、ステップS706へと処理を進める。それ以外の場合は、ステップS702へと処理を戻す。
ステップS706では、分類モデル学習部104が、ステップS702で取得した学習データを、ミニバッチに含める。
ステップS707では、分類モデル学習部104が、ミニバッチに含まれる学習データの数が規定値を超えたかどうかを判定する。規定値を超えた場合は処理を終了する。それ以外の場合は、ステップS702へと処理を戻す。
以上の処理により、信頼度が大きい学習データほどミニバッチに含まれやすくなる。なお、学習方法は上記の方法に限定するものではなく、学習データの信頼度に応じて学習への影響度を調整できれば、他の方法を用いても良い。例えば特許文献1に記載のAdaboostによる方法を用いても良い。
なお、CNNによる学習時には、正解ラベルである診断名は、同一のものをまとめた上で、いずれに属するかを表す数値に変換して用いる。分類する診断の数は予め定めておいても良いし、学習データに含まれる診断名を元に動的に定めても良い。
以上、実施形態1によれば、病変画像を予め決められた種類の診断名に分類する分類器の学習において、学習データを構成する項目毎に信頼度を評価し、それらを統合して学習データの信頼度を評価する。信頼度に基づいて学習への影響度を変えることで、質が異なる複数の学習データが混在する場合でも、精度の良い学習をすることができるようになる。
(実施形態1の変形例)
実施形態1では、学習データの信頼度を、学習データを構成する項目の作成者の情報により求めていたが、他の方法で求めても良い。
例えば、作成者が医師である場合に、信頼度算出部103は、診療における診断精度や経験年数など、より詳細な情報を元に信頼度を求めても良い。これにより、学習データの作成に関与した医師の能力に応じて、学習データの信頼度を変化させることができるようになる。
また例えば、信頼度算出部103は、データの作成者ではなく、公共データベースや院内システムなど、医用情報の取得元(提供者)に応じて信頼度を調整するようにしても良い。これにより、医用情報の取得元のデータベースの品質に応じて、学習データの信頼度を変化させることができるようになる。
また例えば、信頼度算出部103は、病理検査の後に記載された電子カルテの診断等、他の情報との時間関係に応じて信頼度を調整するようにしても良い。これにより、診断の根拠となる情報の量や質に応じて、学習データの信頼度を変化させることができるようになる。
また例えば、信頼度算出部103は、医用画像の画素数やスライス厚等、元となるデータの情報量に応じて信頼度を求めるようにしても良い。これにより、診断の根拠となる情報の量や質に応じて、学習データの信頼度を変化させることができるようになる。
また例えば、信頼度算出部103は、診断の判断基準が明確化されているかなど、データ作成に係る基準の有無や種類に応じて信頼度を求めるようにしても良い。これにより、基準に従って作成された情報に基づく学習データの信頼度を、他の学習データよりも高くすることができるようになる。すなわち、学習データを構成する各項目の作成方法または取得方法に関する情報に基づいて、各項目の第一信頼度または第二信頼度を算出することを特徴とする項目別信頼度算出手段の一例に相当する。
また例えば、信頼度算出部103は、分類対象データに対して関連付く可能性のある正解ラベルの候補の数など、学習データを作成する際にとり得るパターンの情報に応じて信頼度を求めるようにしても良い。これにより、データ作成の難易度に応じて、学習データの信頼度を変化させることができるようになる。
<実施形態2>
実施形態2における情報処理装置は、病変画像を予め決められた種類の所見名に分類するための分類器を構築する。分類器は、病変画像を分類対象データ、所見名を正解ラベルとする学習データを用いた機械学習により構築する。以下では、実施形態1における情報処理装置との差分のみ説明する。
実施形態2における学習データは、実施形態1と同様に図3に示すフローチャートに従って作成される。ただし、ステップS303で取得する正解ラベルが実施形態1とは異なり、所見名となる。所見名はステップS301で取得する画像所見の情報より取得する。所見名は病変の性状を表すものであり、性状の種類によって所見名の分類が異なる。病変の性状の種類としては例えば形状、濃度などがあり、対象とする性状により異なる学習データ、分類器となる。
以上、実施形態2によれば、病変画像を予め決められた種類の所見名に分類するための分類器の構築において、学習データを構成する項目毎に信頼度を評価し、それらを統合して学習データの信頼度を評価する。信頼度に基づいて学習への影響度を変えることで、質が異なる複数の学習データが混在する場合でも、精度の良い学習をすることができるようになる。
(その他の実施形態)
上述の実施形態では、病変画像を分類対象データとしたが、本発明はそれに限定するものではない。例えば、病理検査で得られる病理画像を分類対象データとし、病理画像を複数の診断に分類する分類器を構築しても良い。
また、電子カルテの症状の記述や、体温、血圧などのバイタルデータ、血液検査の結果などを分類対象データとし、それらの情報を複数の診断に分類する分類器を構築しても良い。その場合は、分類モデルとしてCNNではなく、一般のDNN(Deep Neural Network)を用いる。
上述の実施形態では、医療分野への適用例を述べたが、本発明は医療分野に限定するものではない。例えば、人の表情や声から感情を推測する、機械の微小な変化から故障を推測する、農作物の微小な変化から病気を推測するなど、分類対象データ又はラベルを作成する際に高度な知識や技術を必要とする場合に本発明は有効である。
<その他の実施形態>
上述した複数の変形例のうち少なくとも二つを組み合わせることも可能である。
また、開示の技術は例えば、システム、装置、方法、プログラム若しくは記録媒体(記憶媒体)等としての実施態様をとることが可能である。具体的には、複数の機器(例えば、ホストコンピュータ、インタフェース機器、撮像装置、webアプリケーション等)から構成されるシステムに適用しても良いし、また、1つの機器からなる装置に適用しても良い。
また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。すなわち、前述した実施形態の機能を実現するソフトウェアのプログラムコード(コンピュータプログラム)を記録した記録媒体(または記憶媒体)を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。
100 情報処理装置
101 医用情報取得部
102 学習データ作成部
103 信頼度算出部
104 分類モデル学習部
200 医用情報データベース
300 学習データベース
400 分類器格納部

Claims (8)

  1. 分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段と、
    前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段と、
    複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段と、
    を備えることを特徴とする情報処理装置。
  2. 前記項目別信頼度算出手段は、前記学習データに含まれる前記分類対象データに関する情報に基づいて、該分類対象データの前記第一信頼度を算出することを特徴とする請求項1に記載の情報処理装置。
  3. 前記分類対象データに関する情報は、前記学習データに含まれる前記分類対象データの作成者または提供者に関する情報であることを特徴とする請求項に記載の情報処理装置。
  4. 前記項目別信頼度算出手段は、前記学習データに含まれる前記ラベルに関する情報に基づいて、該ラベルの前記第二信頼度を算出することを特徴とする請求項1乃至のいずれか1項に記載の情報処理装置。
  5. 前記ラベルに関する情報は、前記学習データに含まれる前記ラベルの作成者または提供者に関する情報であることを特徴とする請求項に記載の情報処理装置。
  6. 前記項目別信頼度算出手段は、前記学習データを構成する各項目の作成方法または取得方法に関する情報に基づいて、前記各項目の第一信頼度または第二信頼度を算出することを特徴とする請求項1に記載の情報処理装置。
  7. 情報処理装置が実行する情報処理方法であって、
    分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出ステップと、
    前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出ステップと、
    複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習ステップと、
    を備えることを特徴とする情報処理方法。
  8. 情報処理装置を、
    分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段と、
    前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段と、
    複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段、
    として機能させることを特徴とするプログラム。
JP2017167258A 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及びプログラム Active JP7027070B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017167258A JP7027070B2 (ja) 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及びプログラム
CN201810952850.XA CN109426834B (zh) 2017-08-31 2018-08-21 信息处理装置、信息处理方法和信息处理系统
US16/113,861 US11636378B2 (en) 2017-08-31 2018-08-27 Information processing apparatus, information processing method, and information processing system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017167258A JP7027070B2 (ja) 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2019046058A JP2019046058A (ja) 2019-03-22
JP7027070B2 true JP7027070B2 (ja) 2022-03-01

Family

ID=65435219

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017167258A Active JP7027070B2 (ja) 2017-08-31 2017-08-31 情報処理装置、情報処理方法、及びプログラム

Country Status (3)

Country Link
US (1) US11636378B2 (ja)
JP (1) JP7027070B2 (ja)
CN (1) CN109426834B (ja)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11481578B2 (en) * 2019-02-22 2022-10-25 Neuropace, Inc. Systems and methods for labeling large datasets of physiological records based on unsupervised machine learning
KR102296420B1 (ko) * 2019-09-30 2021-09-01 한국과학기술원 개인정보보호 정책서 분석 기반 개인정보 수집/활용자의 신뢰도 평가 방법 및 장치
WO2021091661A1 (en) 2019-11-07 2021-05-14 Google Llc Deep learning system and method for diagnosis of chest conditions from chest radiographs
TWI762836B (zh) * 2019-11-27 2022-05-01 佳世達科技股份有限公司 重點照護式超音波裝置及操作方法
JP7440823B2 (ja) 2020-02-21 2024-02-29 オムロン株式会社 情報処理装置、情報処理方法及びプログラム
JP7467595B2 (ja) 2020-03-10 2024-04-15 オリンパス株式会社 画像処理システム、画像処理装置、内視鏡システム、画像処理方法及びプログラム
JP7359729B2 (ja) * 2020-03-24 2023-10-11 トヨタ自動車株式会社 分類装置及び分類方法
WO2021193025A1 (ja) * 2020-03-25 2021-09-30 パナソニックIpマネジメント株式会社 データ生成方法、判定方法、プログラム、及び、データ生成システム
US20230148243A1 (en) * 2020-04-06 2023-05-11 Niigata University Data generation apparatus, data generation method, and program
JP2022051008A (ja) 2020-09-18 2022-03-31 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282686A (ja) 2008-05-21 2009-12-03 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
WO2011036704A1 (ja) 2009-09-24 2011-03-31 株式会社 東芝 コンテンツ推薦装置
US20150332169A1 (en) 2014-05-15 2015-11-19 International Business Machines Corporation Introducing user trustworthiness in implicit feedback based search result ranking
JP2015230570A (ja) 2014-06-04 2015-12-21 日本電信電話株式会社 学習モデル作成装置、判定システムおよび学習モデル作成方法

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08314879A (ja) * 1995-05-16 1996-11-29 Sanyo Electric Co Ltd ニュ−ラルネットの学習方法及びニュ−ラルネット型パターン認識装置
US6907436B2 (en) * 2000-10-27 2005-06-14 Arizona Board Of Regents, Acting For And On Behalf Of Arizona State University Method for classifying data using clustering and classification algorithm supervised
US7577709B1 (en) * 2005-02-17 2009-08-18 Aol Llc Reliability measure for a classifier
KR100723873B1 (ko) * 2005-12-08 2007-05-31 한국전자통신연구원 멀티 프로토콜 레이블 스위칭 네트워크 시스템에서 고품질서비스 제공 방법 및 장치
CN102521227B (zh) * 2011-10-18 2013-07-31 中国科学院自动化研究所 基于用户信息建模的图像标注增强方法
US9189746B2 (en) * 2012-01-12 2015-11-17 Microsoft Technology Licensing, Llc Machine-learning based classification of user accounts based on email addresses and other account information
US9355359B2 (en) * 2012-06-22 2016-05-31 California Institute Of Technology Systems and methods for labeling source data using confidence labels
CN105359166B (zh) * 2013-02-08 2018-11-09 埃莫蒂安特公司 收集用于表情识别的机器学习训练数据
US10169686B2 (en) * 2013-08-05 2019-01-01 Facebook, Inc. Systems and methods for image classification by correlating contextual cues with images
KR101768438B1 (ko) * 2013-10-30 2017-08-16 삼성에스디에스 주식회사 데이터 분류 장치 및 방법과 이를 이용한 데이터 수집 시스템
CN104573359B (zh) * 2014-12-31 2017-08-08 浙江大学 一种基于任务难度与标注者能力的众包标注数据整合方法
CN106485528A (zh) * 2015-09-01 2017-03-08 阿里巴巴集团控股有限公司 检测数据的方法和装置
CN105426826A (zh) * 2015-11-09 2016-03-23 张静 一种基于标签噪声纠正的众包标注数据质量提升方法
CN105975980B (zh) * 2016-04-27 2019-04-05 百度在线网络技术(北京)有限公司 监控图像标注质量的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009282686A (ja) 2008-05-21 2009-12-03 Toshiba Corp 分類モデル学習装置および分類モデル学習方法
WO2011036704A1 (ja) 2009-09-24 2011-03-31 株式会社 東芝 コンテンツ推薦装置
US20150332169A1 (en) 2014-05-15 2015-11-19 International Business Machines Corporation Introducing user trustworthiness in implicit feedback based search result ranking
JP2015230570A (ja) 2014-06-04 2015-12-21 日本電信電話株式会社 学習モデル作成装置、判定システムおよび学習モデル作成方法

Also Published As

Publication number Publication date
JP2019046058A (ja) 2019-03-22
US11636378B2 (en) 2023-04-25
US20190065996A1 (en) 2019-02-28
CN109426834B (zh) 2022-05-31
CN109426834A (zh) 2019-03-05

Similar Documents

Publication Publication Date Title
JP7027070B2 (ja) 情報処理装置、情報処理方法、及びプログラム
US11069056B2 (en) Multi-modal computer-aided diagnosis systems and methods for prostate cancer
US10734107B2 (en) Image search device, image search method, and image search program
CN109074869B (zh) 医疗诊断支持装置、信息处理方法以及医疗诊断支持系统
US20190371439A1 (en) Similarity determining apparatus and method
WO2021128825A1 (zh) 三维目标检测及模型的训练方法及装置、设备、存储介质
EP3723042A1 (en) Artifical intelligence-based copd assessment
US20200342990A1 (en) Medical image processing apparatus, method, and program, and diagnosis support apparatus, method, and program
US11756292B2 (en) Similarity determination apparatus, similarity determination method, and similarity determination program
CN106462661B (zh) 用于自动选择针对医学研究的悬挂协议的系统和相关方法
CN111225614A (zh) 诊断辅助装置、信息处理方法、诊断辅助系统以及程序
JP7058988B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP6914233B2 (ja) 類似度決定装置、方法およびプログラム
US11610303B2 (en) Data processing apparatus and method
US11669960B2 (en) Learning system, method, and program
US20210279879A1 (en) Similarity determination apparatus, similarity determination method, and similarity determination program
WO2021167018A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
US11893735B2 (en) Similarity determination apparatus, similarity determination method, and similarity determination program
JP7321271B2 (ja) 学習用画像生成装置、方法及びプログラム、並びに学習方法、装置及びプログラム
CN115482936A (zh) 用于评估医学图像数据的方法和设备
Perepi et al. A deep learning computational approach for the classification of COVID-19 virus
JP7430314B2 (ja) 特徴マップを出力するための機械学習モデルを作成する方法
EP4339961A1 (en) Methods and systems for providing a template data structure for a medical report
CN113164142B (zh) 相似度确定装置、方法及程序
JP2023037850A (ja) 情報処理装置、方法およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200708

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211013

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220118

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220216

R151 Written notification of patent or utility model registration

Ref document number: 7027070

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151