JP7027070B2

JP7027070B2 - 情報処理装置、情報処理方法、及びプログラム

Info

Publication number: JP7027070B2
Application number: JP2017167258A
Authority: JP
Inventors: 直紀松木
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 2017-08-31
Filing date: 2017-08-31
Publication date: 2022-03-01
Anticipated expiration: 2037-08-31
Also published as: JP2019046058A; US11636378B2; US20190065996A1; CN109426834B; CN109426834A

Description

本明細書の開示は、情報処理装置、情報処理方法、及びプログラムに関する。

所望のデータを分類するための分類モデルを機械学習により構築するためには、分類対象データと正解ラベルがセットとなった学習データが大量に必要となる。

学習データを大量に集める過程では、ラベルに誤りがある学習データが混入する場合があり、分類モデルによる分類の精度が落ちる原因となる。そのため、学習データの信頼度を評価し、その結果に基づいて学習への影響度を調整する手法がとられる。例えば特許文献１及び特許文献２には、学習データの作成者に関する情報に基づいて学習データの信頼度を評価し、その結果に基づいて学習への影響度を調整する方法が記載されている。

特開２００９－２８２６８６号公報特開２０１５－２３０５７０号公報

ここで、医療における画像診断や病理診断のように、判断に高度な専門性が必要な場合には、学習データの項目毎に作成者が異なる場合がある。すなわち、このような場合には学習データの項目毎に信頼度が異なってしまう。しかしながら、特許文献１や特許文献２の方法では、学習データの信頼度を正しく評価することができない。

そこで本発明は、学習データの項目毎に信頼度が異なる場合にも、学習データの信頼度を正しく評価することの可能な情報処理装置、情報処理方法、及びプログラムを提供することを目的とする。

なお、前記目的に限らず、後述する発明を実施するための形態に示す各構成により導かれる作用効果であって、従来の技術によっては得られない作用効果を奏することも本明細書の開示の他の目的の１つとして位置付けることができる。

上記課題を解決するため、本発明に係る情報処理装置は、分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段と、前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段と、複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段と、を備えることを特徴とする。

本発明によれば、学習データの項目毎に信頼度が異なる場合にも、学習データの信頼度を正しく評価することができる。

情報処理装置の機能構成の一例を示す図である。医用情報の構成の一例を示す図である。学習データを作成する処理の一例を示すフローチャートである。学習データの構成の一例を示す図である。学習データの信頼度を求める処理の一例を示すフローチャートである。作成者の情報に基づく信頼度の一例を示す図である。学習データの選択方法の一例を示すフローチャートである。情報処理装置のハードウェア構成の一例を示す図である。

以下、本発明を実施するための形態について図面を用いて説明する。

＜実施形態１＞
実施形態１における情報処理装置は、病変画像を予め決められた種類の診断に分類するための分類器を構築する。分類器は、病変画像を分類対象データ、診断名を正解ラベルとする学習データを用いた機械学習により構築される。

なお、実施形態１では、肺癌の鑑別診断を例として説明する。肺癌の鑑別診断では、肺の異常陰影の読影に係る医用画像として胸部Ｘ線ＣＴ画像が撮影され、読影医による画像診断、病理医による病理診断を経て臨床医による確定診断が下される。実施形態１では、医用画像から異常陰影を切り出したものを病変画像とし、診断名を肺癌（原発癌）、肺転移（転移癌）、その他の３種類に分類するものとする。

もちろん、本発明は実施形態１で説明する内容に限定されるものではなく、以下に示す診断名や医用情報等は、いずれも情報処理装置の処理の工程を説明するための一例に過ぎない。例えば、肺癌の鑑別診断ではなく、肝臓癌の鑑別診断やその他の症例であっても良い。また、医用画像はコンピュータ断層撮影装置（ＣＴ装置）で撮影されたものに限らず、磁気共鳴断層撮影装置（ＭＲＩ装置）や超音波画像診断装置（ＵＳ装置）など、その他の撮影装置（モダリティ）で撮影されたものを用いても良い。また、診断名は原発癌、転移癌、その他の３種類ではなく、更に詳細に分類しても良いし、異なる診断名を追加しても良い。

（ハードウェア構成）
図８は、本実施形態の情報処理装置１００のハードウェア構成図である。なお、本実施形態におけるハードウェア構成はあくまで一例であり、情報処理装置１００が図８に示す各ハードウェアとは異なるハードウェアを備えていてもよい。また、図８に示す各ハードウェアを少なくとも１つ備えていればよく、情報処理装置１００が各ハードウェアまたはいずれかのハードウェアを複数備えていてもよい。

図８において、記憶媒体８０１は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）や本実施形態に係る各種処理を行うための処理プログラム、各種情報、各種データベースを記憶するＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）等の記憶媒体である。ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）８０２はＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）等、ハードウェアを初期化しＯＳを起動するためのプログラムを記憶する。ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）８０３はＢＩＯＳやＯＳ、処理プログラムを実行する際の演算処理を行う。ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）８０４は、ＣＰＵ８０３がプログラムを実行する際の情報を一時記憶する。ＬＡＮインタフェース８０５は、ＩＥＥＥ（ＩｎｓｔｉｔｕｔｅｏｆＥｌｅｃｔｒｉｃａｌａｎｄＥｌｅｃｔｒｏｎｉｃｓＥｎｇｉｎｅｅｒｓ）８０２．３ａｂ等の規格に対応し、ＬＡＮ８１０を介して通信を行うためのインタフェースである。８０７は表示画面を表示するディプレイ（表示部）であり、８０６はディスプレイ８０７に表示する画面情報を信号に変換し出力するディスプレイインタフェースである。８０８は、各ブロックが通信を行うための内部バスである。

（機能構成）
図１は、実施形態１における情報処理装置１００の機能構成の一例を示す図である。なお、情報処理装置１００の各構成要素は、コンピュータプログラムに従って機能する。例えば、ＣＰＵ８０３がＲＡＭ８０４をワーク領域としてＲＯＭ８０２又は記憶媒体８０１などに記憶されたコンピュータプログラムを読み込み、これを実行することで、各構成要素の機能が実現される。なお、情報処理装置１００の構成要素の一部又は全ての機能が専用の回路を用いることで実現されてもよい。また、ＣＰＵ８０３の構成要素の一部の機能が、クラウドコンピュータを用いることで実現されてもよい。

例えば、情報処理装置１００とは異なる場所にある演算装置がネットワークを介して情報処理装置１００に通信可能に接続される。そして、情報処理装置１００と演算装置がデータの送受信を行うことで、情報処理装置１００又はＣＰＵ８０３の構成要素の機能が実現されてもよい。

医用情報取得部１０１は、医用画像、読影レポート、臨床情報等の医用情報を不図示のデータベースから取得して、医用情報データベース２００に格納する。不図示のデータベースは、病院内のデータベースであっても良いし、病院外のネットワーク上に公開されているデータベースであっても良い。なお、医用情報の構成については、図２を用いて後述する。

学習データ作成部１０２は、医用情報データベース２００の内容に基づき、学習データを作成する。学習データ作成部１０２で作成された学習データは、学習データベース３００に格納する。なお、学習データの作成方法については、図３を用いて後述する。

信頼度算出部１０３は、学習データ作成部１０２により作成された学習データの信頼度を算出し、学習データベース３００に格納する。学習データの信頼度の算出方法については、図５を用いて後述する。すなわち、分類対象データの信頼度である第一信頼度と、分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段の一例に相当する。

分類モデル学習部１０４は、学習データベース３００に格納された学習データを用いて、機械学習により分類器を構築する。構築した分類器は、分類器格納部４００に格納する。すなわち、複数の学習データと学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段の一例に相当する。

医用情報取得部１０１の処理は、一日毎や一ヶ月毎など定期的な間隔で実行され、これにより医用情報データベース２００の内容が追加・更新される。医用情報データベース２００の内容が追加・更新されると、学習データ作成部１０２と信頼度算出部１０３の処理が実行され、これにより学習データベース３００の内容が追加・更新される。学習データベース３００の内容が追加・更新されると、分類モデル学習部１０４の処理が実行され、これにより分類器が更新される。

なお、医用情報取得部１０１、学習データ作成部１０２、信頼度算出部１０３、及び分類モデル学習部１０４の処理を実行するタイミングは、上記以外のタイミングでも良い。例えば学習データ作成部１０２については、既に電子カルテから確定診断が登録されている患者ＩＤのデータは更新しないなど、処理をスキップするための工夫を加えても良い。

（医用情報の構成）
実施形態１において、医用情報データベース２００には、電子カルテ、医用画像、読影レポートのデータが、図２に示すような表形式で格納されるものとする。

電子カルテには患者ＩＤ、既往歴、確定診断の情報が登録されている。また、登録されている情報の夫々に、作成者及び作成日時の情報が付属している。

医用画像には画像データに加え、患者ＩＤ、撮影した機器や撮影条件、作成（撮影）日時、スライス厚等の画像に関わる情報が併せて登録されている。

読影レポートには患者ＩＤ、レポートの作成者、レポートの作成日時、キー画像、画像所見、画像診断が登録されている。キー画像は異常陰影が現れている画像のスナップショットであり、医用画像へのリンクと、異常陰影の位置や大きさを示すＲＯＩ（ＲｅｇｅｉｏｎＯｆＩｎｔｅｒｅｓｔ）の情報を含む。画像所見は異常陰影の大きさや形状、濃度などの性状を表す情報であり、ＲＯＩと一対一に関係付けて作成される。画像診断は画像所見から導かれる診断名であり、ひとつ以上の画像所見と関係する。なお、キー画像、画像所見、画像診断の夫々には作成者，リンク元ＩＤの情報が付属する。キー画像、画像所見、画像診断は互いに関連づいており、リンク元ＩＤにより関連が分かるようになっている。キー画像、画像所見、画像診断は、ひとつの読影レポート中に複数登録されていても良い。

電子カルテに登録されている各情報、医用画像、読影レポートは、夫々に付与された患者ＩＤや作成日時により、患者単位や時系列での関係性が分かるようになっている。

なお、図２ではデータを表形式で保存しているが、情報間の関係について同等の意味を持つＸＭＬ等、他の形式で保存しても良い。

また、情報間の関係を明示的に持たない別の形式で保存しておき、学習データ作成部１０２で使用する際に図２に示す形式に変換するように構成しても良い。例えば、読影レポートを画像所見、診断が連続した自然文で記述された形式で保存しておき、自然言語処理等で各々の情報間の関係が分かるようにしても良い。

また、医用情報データベース２００に保存する情報は、情報間の関係性が保たれるように匿名化されていても良い。

（学習データの作成方法）
実施形態１における学習データは、図３に示すフローチャートに従って作成する。下記の説明において、医用情報データベース２００に格納されている全ての読影レポートに含まれる画像所見はリスト化されており、順番にアクセスできるものとする。

ステップＳ３０１では、学習データ作成部１０２が、リストの最初の項目から画像所見を取得する。なお、２回目以降にアクセスする際は、学習データ作成部１０２が、リストの次の項目から画像所見を取得する。

ステップＳ３０２では、学習データ作成部１０２が、分類対象データを取得する。実施形態１において、分類対象データは病変画像である。病変画像は、ＲＯＩの中心位置と同じ位置を中心としＲＯＩの２倍の大きさの領域を医用画像から自動的に切り出した画像とする。なお、病変画像は２次元のピクセルデータであっても良いし、３次元のボクセルデータであっても良い。なお、病変画像は医用情報に登録された時点で予め切り出されていても良い。また、病変部分を切り出さずに、ＲＯＩが含まれる画像をそのまま病変画像として用いても良い。

ステップＳ３０３では、学習データ作成部１０２が、正解ラベルを取得する。実施形態１において、正解ラベルは診断名である。診断名は、ステップＳ３０１で取得した画像所見を含む読影レポートと同じ患者ＩＤを持つ電子カルテに含まれる確定診断のうち、読影レポートよりも作成日時が後であり、且つ読影レポートと作成日時が最も近いものを自動的に選択して使用する。なお、医用情報データベース２００に病理レポートを保存しておき、病理レポートの直後に作成された確定診断を使用しても良い。また、該当する確定診断が存在しない場合には、画像診断を使用しても良い。その場合は、該当する確定診断が作成された時点で差し替えるようにする。

ステップＳ３０４では、学習データ作成部１０２が、ステップＳ３０２で取得した分類対象データとステップＳ３０３で取得した正解ラベルの間の関連を付与する。関連の情報は、医師が手動で付与しても良いし、自動で付与しても良い。例えば、読影レポートに含まれる医用画像と画像診断との関係から、分類対象データと確定診断の関係を類推して付与するようにしても良い。

ステップＳ３０５では、学習データ作成部１０２が、ステップＳ３０２で取得した分類対象データとステップＳ３０３で取得した正解ラベルとステップＳ３０４で付与した関連とをセットにして、学習データベース３００に格納する。その際に、学習データ作成部１０２が、分類対象データ、正解ラベル、及びそれらの間の関連の作成者に関する情報を格納する。学習データに含まれる項目（例えば、分類対象データ、正解ラベル、及びそれらの間の関連）を自動的に作成した場合は作成者の情報として「ＡＩ」という情報を格納する。また、その項目を電子カルテより取得した場合は取得情報の作成者に関する情報を格納し、読影レポートより取得した場合は読影レポートの作成者に関する情報を格納する。

（学習データの構成）
図４は、実施形態１における学習データの例である。図４の例では、病変画像は、読影医が付与したＲＯＩの情報を元に、医用画像から自動的に切り出される。診断は、電子カルテに登録されている情報を用いる。また、病変画像と診断の関連は、研修医により手動で付与されたものとする。

図４（ａ）は、分類対象データ、正解ラベル、及びその間の関連の最終的な作成者に関する情報のみを保存する例である。図４（ｂ）は、夫々のデータの作成に関わる項目を細分化し、細分化した項目夫々の作成者に関する情報を保存する例である。図４（ｃ）は、夫々のデータの作成に関わった作成者に関する情報を履歴として保存する例である。

なお、作成者は個人名で保存しても良いし、臨床医、読影医、等の職能で保存しても良い。また、医用画像であれば、撮影により医用画像を生成したモダリティの種類、モダリティの型番、モダリティのメーカー名等、モダリティに関する情報を学習データの項目に保存してもよい。また、病変画像であれば、前述した医用画像と同様の情報や、更には病変画像を生成したコンピュータの種類、コンピュータの型番、コンピュータのメーカー名等、コンピュータに関する情報を学習データの項目に保存してもよい。

（学習データの信頼度算出方法）
学習データの信頼度は、図５に示すフローチャートに従って求められる。下記の説明において、作成者に関する情報に基づく信頼度は、作成者がＡＩか否か、また職能に応じて、図６に示す形態で予め定められているものとする。

ステップＳ５０１では、信頼度算出部１０３が、分類対象データの信頼度Ｒ_ｄａｔａを求める。Ｒ_ｄａｔａは、分類対象データの種類と作成者の情報（分類対象データに関する情報）に応じて、図６に示す表より取得される。作成者が個人名で保存されている場合は、作成者の職能を別途取得可能にしておき、信頼度算出部１０３が個人名を職能に変換した後にＲ_ｄａｔａを求める。なお、作成者が不明である場合には、信頼度算出部１０３が、情報の取得元のシステムから作成者の職能を推測しても良い。例えば、電子カルテから取得した診断の作成者は臨床医であり、病理レポートから取得した診断の作成者は病理医であると推測する。

なお、前述する図４（ｂ）のように分類対象データが複数の項目に分かれている場合、また図４（ｃ）のように履歴が保存されている場合には、各々の項目の作成者による信頼度を重み付き加算したものを、分類対象データの信頼度としても良い。例えば、図４（ｂ）に示す分類対象データの信頼度Ｒ_ｄａｔａは、医用画像の作成者による信頼度Ｒ_ｉｍｇ、ＲＯＩの作成者による信頼度Ｒ_ｒｏｉ、病変画像の作成者による信頼度Ｒ_ｌｅｓ、データ毎の重みｗ_ｎを用いて、式１のように求める。

（式１）
Ｒ_ｄａｔａ＝ｗ_１・Ｒ_ｉｍｇ＋ｗ_２・Ｒ_ｒｏｉ＋ｗ_３・Ｒ_ｌｅｓ

重みはΣｗ_ｎ＝１．０となるように自由に設定する。ここでは例として、ｗ_１＝０．１、ｗ_２＝０．５、ｗ_３＝０．４とする。

ステップＳ５０２では、信頼度算出部１０３が、正解ラベルの信頼度Ｒ_{ｌａｂｅｌ}を求める。Ｒ_{ｌａｂｅｌ}は、正解ラベルの種類と作成者の情報（ラベルに関する情報）に基づき、ステップＳ５０１においてＲ_ｄａｔａを求めたものと同様の方法で求められる。

ステップＳ５０３では、信頼度算出部１０３が、分類対象データと正解ラベルの関連付けの信頼度Ｒ_ｒｅｌを求める。すなわち、分類対象データとラベルと関連付けに関する情報の信頼度である第三信頼度を更に算出する項目別信頼度算出手段の一例に相当する。Ｒ_ｒｅｌは、分類対象データと正解ラベルの関連の作成者の情報に基づき、ステップＳ５０１においてＲ_ｄａｔａを求めたものと同様の方法で求められる。

ステップＳ５０４では、信頼度算出部１０３が、ステップＳ５０１～Ｓ５０３で求めた各信頼度を重み付け加算し、学習データの信頼度Ｒ_ｔｒを求める。すなわち、第一信頼度と第二信頼度とに基づいて、分類対象データとラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段の一例に相当する。また、更に第三信頼度に基づいて、学習データ信頼度を算出することを特徴とする学習データ信頼度算出手段の一例に相当する。Ｒ_ｔｒは、Ｒ_ｄａｔａ、Ｒ_{ｌａｂｅｌ}、Ｒ_ｒｅｌ、及び夫々の重みｗ_ｎを用いて、式２のように求められる。

（式２）
Ｒ_ｔｒ＝ｗ_１・Ｒ_ｄａｔａ＋ｗ_２・Ｒ_{ｌａｂｅｌ} ＋ｗ_３・Ｒ_ｒｅｌ

重みはΣｗ_ｎ＝１．０となるように自由に設定する。ここでは例として、ｗ_１＝０．３、ｗ_２＝０．３、ｗ_３＝０．４とする。

なお、学習データの信頼度Ｒ_ｔｒは、分類対象データと正解ラベルの関連付けの信頼度Ｒ_ｒｅｌを使用せずに、式３のように求めても良い。

（式３）
Ｒ_ｔｒ＝ｗ_１・Ｒ_ｄａｔａ＋ｗ_２・Ｒ_{ｌａｂｅｌ}

（分類モデル学習方法）
実施形態１では、分類モデルとして一般のＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｗｒａｌＮｅｔｗｏｒｋ）を用いるものとする。分類モデルの学習はミニバッチ学習で行われる。即ち、分類モデル学習部１０４は、全ての学習データから少数の学習データをミニバッチとして取得し、ミニバッチのデータで分類モデルを評価する。そして、分類モデル学習部１０４は、評価結果に基づいて分類モデルの各ノードの重みを変更し、別のミニバッチで評価する。これを繰り返して、分類モデルの精度を上げていく。

実施形態１では、分類モデル学習部１０４が、全ての学習データからミニバッチをランダムに選択する。また、分類モデル学習部１０４が、ミニバッチに含まれる学習データの数と繰り返し回数の積が学習データの総数を上回った時点で学習を終了させる。この場合、ミニバッチに一度も選ばれない、又は重複して選ばれる学習データが存在することになる。

ミニバッチの学習データは、図７に示すフローチャートに従って選択される。

ステップＳ７０１では、分類モデル学習部１０４が、全ての学習データの信頼度の合計値ΣＲを求める。

ステップＳ７０２では、分類モデル学習部１０４が、全ての学習データの中から、ひとつの学習データをランダムに取得する。

ステップＳ７０３では、分類モデル学習部１０４が、ステップＳ７０２で取得した学習データがミニバッチに含まれる確率Ｐ_ｔｒを求める。確率Ｐ_ｔｒは、学習データの信頼度Ｒ_ｔｒを用いて、式４のように求められる。

（式４）
Ｐ_ｔｒ＝（Ｒ_ｔｒ／ΣＲ）・１００

ステップＳ７０４では、分類モデル学習部１０４が、変数ｋに１から１００の整数値をランダムで代入する。

ステップＳ７０５では、分類モデル学習部１０４が、変数ｋと確率Ｐ_ｔｒを比較する。ｋ≦Ｐ_ｔｒの場合は、ステップＳ７０６へと処理を進める。それ以外の場合は、ステップＳ７０２へと処理を戻す。

ステップＳ７０６では、分類モデル学習部１０４が、ステップＳ７０２で取得した学習データを、ミニバッチに含める。

ステップＳ７０７では、分類モデル学習部１０４が、ミニバッチに含まれる学習データの数が規定値を超えたかどうかを判定する。規定値を超えた場合は処理を終了する。それ以外の場合は、ステップＳ７０２へと処理を戻す。

以上の処理により、信頼度が大きい学習データほどミニバッチに含まれやすくなる。なお、学習方法は上記の方法に限定するものではなく、学習データの信頼度に応じて学習への影響度を調整できれば、他の方法を用いても良い。例えば特許文献１に記載のＡｄａｂｏｏｓｔによる方法を用いても良い。

なお、ＣＮＮによる学習時には、正解ラベルである診断名は、同一のものをまとめた上で、いずれに属するかを表す数値に変換して用いる。分類する診断の数は予め定めておいても良いし、学習データに含まれる診断名を元に動的に定めても良い。

以上、実施形態１によれば、病変画像を予め決められた種類の診断名に分類する分類器の学習において、学習データを構成する項目毎に信頼度を評価し、それらを統合して学習データの信頼度を評価する。信頼度に基づいて学習への影響度を変えることで、質が異なる複数の学習データが混在する場合でも、精度の良い学習をすることができるようになる。

（実施形態１の変形例）
実施形態１では、学習データの信頼度を、学習データを構成する項目の作成者の情報により求めていたが、他の方法で求めても良い。

例えば、作成者が医師である場合に、信頼度算出部１０３は、診療における診断精度や経験年数など、より詳細な情報を元に信頼度を求めても良い。これにより、学習データの作成に関与した医師の能力に応じて、学習データの信頼度を変化させることができるようになる。

また例えば、信頼度算出部１０３は、データの作成者ではなく、公共データベースや院内システムなど、医用情報の取得元（提供者）に応じて信頼度を調整するようにしても良い。これにより、医用情報の取得元のデータベースの品質に応じて、学習データの信頼度を変化させることができるようになる。

また例えば、信頼度算出部１０３は、病理検査の後に記載された電子カルテの診断等、他の情報との時間関係に応じて信頼度を調整するようにしても良い。これにより、診断の根拠となる情報の量や質に応じて、学習データの信頼度を変化させることができるようになる。

また例えば、信頼度算出部１０３は、医用画像の画素数やスライス厚等、元となるデータの情報量に応じて信頼度を求めるようにしても良い。これにより、診断の根拠となる情報の量や質に応じて、学習データの信頼度を変化させることができるようになる。

また例えば、信頼度算出部１０３は、診断の判断基準が明確化されているかなど、データ作成に係る基準の有無や種類に応じて信頼度を求めるようにしても良い。これにより、基準に従って作成された情報に基づく学習データの信頼度を、他の学習データよりも高くすることができるようになる。すなわち、学習データを構成する各項目の作成方法または取得方法に関する情報に基づいて、各項目の第一信頼度または第二信頼度を算出することを特徴とする項目別信頼度算出手段の一例に相当する。

また例えば、信頼度算出部１０３は、分類対象データに対して関連付く可能性のある正解ラベルの候補の数など、学習データを作成する際にとり得るパターンの情報に応じて信頼度を求めるようにしても良い。これにより、データ作成の難易度に応じて、学習データの信頼度を変化させることができるようになる。

＜実施形態２＞
実施形態２における情報処理装置は、病変画像を予め決められた種類の所見名に分類するための分類器を構築する。分類器は、病変画像を分類対象データ、所見名を正解ラベルとする学習データを用いた機械学習により構築する。以下では、実施形態１における情報処理装置との差分のみ説明する。

実施形態２における学習データは、実施形態１と同様に図３に示すフローチャートに従って作成される。ただし、ステップＳ３０３で取得する正解ラベルが実施形態１とは異なり、所見名となる。所見名はステップＳ３０１で取得する画像所見の情報より取得する。所見名は病変の性状を表すものであり、性状の種類によって所見名の分類が異なる。病変の性状の種類としては例えば形状、濃度などがあり、対象とする性状により異なる学習データ、分類器となる。

以上、実施形態２によれば、病変画像を予め決められた種類の所見名に分類するための分類器の構築において、学習データを構成する項目毎に信頼度を評価し、それらを統合して学習データの信頼度を評価する。信頼度に基づいて学習への影響度を変えることで、質が異なる複数の学習データが混在する場合でも、精度の良い学習をすることができるようになる。

（その他の実施形態）
上述の実施形態では、病変画像を分類対象データとしたが、本発明はそれに限定するものではない。例えば、病理検査で得られる病理画像を分類対象データとし、病理画像を複数の診断に分類する分類器を構築しても良い。

また、電子カルテの症状の記述や、体温、血圧などのバイタルデータ、血液検査の結果などを分類対象データとし、それらの情報を複数の診断に分類する分類器を構築しても良い。その場合は、分類モデルとしてＣＮＮではなく、一般のＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）を用いる。

上述の実施形態では、医療分野への適用例を述べたが、本発明は医療分野に限定するものではない。例えば、人の表情や声から感情を推測する、機械の微小な変化から故障を推測する、農作物の微小な変化から病気を推測するなど、分類対象データ又はラベルを作成する際に高度な知識や技術を必要とする場合に本発明は有効である。

＜その他の実施形態＞
上述した複数の変形例のうち少なくとも二つを組み合わせることも可能である。

また、開示の技術は例えば、システム、装置、方法、プログラム若しくは記録媒体（記憶媒体）等としての実施態様をとることが可能である。具体的には、複数の機器（例えば、ホストコンピュータ、インタフェース機器、撮像装置、ｗｅｂアプリケーション等）から構成されるシステムに適用しても良いし、また、１つの機器からなる装置に適用しても良い。

また、本発明の目的は、以下のようにすることによって達成されることはいうまでもない。すなわち、前述した実施形態の機能を実現するソフトウェアのプログラムコード（コンピュータプログラム）を記録した記録媒体（または記憶媒体）を、システムあるいは装置に供給する。係る記憶媒体は言うまでもなく、コンピュータ読み取り可能な記憶媒体である。そして、そのシステムあるいは装置のコンピュータ（またはＣＰＵやＭＰＵ）が記録媒体に格納されたプログラムコードを読み出し実行する。この場合、記録媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコードを記録した記録媒体は本発明を構成することになる。

１００情報処理装置
１０１医用情報取得部
１０２学習データ作成部
１０３信頼度算出部
１０４分類モデル学習部
２００医用情報データベース
３００学習データベース
４００分類器格納部

Claims

分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段と、
前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段と、
複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段と、
を備えることを特徴とする情報処理装置。
前記項目別信頼度算出手段は、前記学習データに含まれる前記分類対象データに関する情報に基づいて、該分類対象データの前記第一信頼度を算出することを特徴とする請求項１に記載の情報処理装置。
前記分類対象データに関する情報は、前記学習データに含まれる前記分類対象データの作成者または提供者に関する情報であることを特徴とする請求項２に記載の情報処理装置。
前記項目別信頼度算出手段は、前記学習データに含まれる前記ラベルに関する情報に基づいて、該ラベルの前記第二信頼度を算出することを特徴とする請求項１乃至３のいずれか１項に記載の情報処理装置。
前記ラベルに関する情報は、前記学習データに含まれる前記ラベルの作成者または提供者に関する情報であることを特徴とする請求項４に記載の情報処理装置。
前記項目別信頼度算出手段は、前記学習データを構成する各項目の作成方法または取得方法に関する情報に基づいて、前記各項目の第一信頼度または第二信頼度を算出することを特徴とする請求項１に記載の情報処理装置。
情報処理装置が実行する情報処理方法であって、
分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出ステップと、
前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出ステップと、
複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習ステップと、
を備えることを特徴とする情報処理方法。
情報処理装置を、
分類対象データの信頼度である第一信頼度と、前記分類対象データに関連付けられたラベルの信頼度である第二信頼度とを算出する項目別信頼度算出手段と、
前記第一信頼度と前記第二信頼度とに基づいて、前記分類対象データと前記ラベルとを含む学習データの信頼度である学習データ信頼度を算出する学習データ信頼度算出手段と、
複数の前記学習データと前記学習データ信頼度とに基づいて、所望の分類対象データにラベル付けを行う分類モデルを構築する分類モデル学習手段、
として機能させることを特徴とするプログラム。