JP6912788B2

JP6912788B2 - アノテーション作業の管理方法、それを支援する装置およびシステム

Info

Publication number: JP6912788B2
Application number: JP2020528015A
Authority: JP
Inventors: リー，キョン・ウォン; ペン，キュン・ヒュン
Original assignee: Lunit Inc
Current assignee: Lunit Inc
Priority date: 2018-11-09
Filing date: 2018-11-09
Publication date: 2021-08-04
Anticipated expiration: 2038-11-09
Also published as: EP3706128A4; US11062800B2; WO2020096098A1; EP3706128A1; US20200152316A1; JP2021502652A; US20200210926A1; US11335455B2; US20230335259A1

Description

本開示は、アノテーション作業の管理方法、それを支援する装置およびシステムに関する。より詳しく、アノテーション（ａｎｎｏｔａｔｉｏｎ）作業をより効率的に管理すると同時にアノテーション結果の正確性を担保できる方法、その方法を支援する装置およびシステムを提供するものにある。

教師あり学習（ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ）とは、図１に示すようにラベル情報（すなわち、正答情報）が与えられたデータセット２を学習して目的タスクを遂行するターゲットモデル３を構築する機械学習方法である。したがって、ラベル情報（タグアイコンで表す）が与えられていないデータセット１に対して教師あり学習を行うためには、アノテーション（ａｎｎｏｔａｔｉｏｎ）作業が必須的に先行しなければならない。

アノテーション作業は、学習データセットを生成するためにデータ別にラベル情報をタギングする作業を意味する。アノテーション作業は、一般に人によって行われるので、大量の学習データセットを生成するためには相当な人的コストと時間コストが消耗する。特に、病理画像で病変の種類または位置などを診断する機械学習モデルを構築する場合は、熟練した専門医によってアノテーション作業が行われなければならないので、他のドメインに比べてはるかに多くのコストがかかる。

従来には、体系的な作業プロセスが確立されていない状態でアノテーション作業が行われた。たとえば、従来の方式は管理者が各病理画像の特性を肉眼で確認してアノテーション遂行の可否を決定し、管理者が病理画像を分類した後、適宜のアノテータ（ａｎｎｏｔａｔｏｒ）に病理画像を割り当てる方式であった。それだけでなく、従来には管理者がいちいち病理画像上のアノテーション領域を指定した後、アノテータに作業を割り当てた。すなわち、従来には病理画像の分類、作業割り当て、アノテーション領域の指定などの諸過程が管理者によって手動で行われた。そのため、アノテーション作業に相当な時間コストと人的コストが消耗する問題があった。

さらに、機械学習技法自体は十分に高度化したにもかかわらず、アノテーション作業の時間的、費用的問題によって多様な分野に機械学習技法を適用するには多くの困難性があった。

したがって、機械学習技法の活用性をさらに増大させるために、より効率的、かつ体系的にアノテーション作業を遂行できる方法が求められる。

本開示のいくつかの実施形態により解決しようとする技術的課題は、アノテーション作業の自動化によりアノテーション作業をより効率的、かつ体系的に行い、管理できる方法、その方法を支援する装置およびシステムを提供することにある。

本開示のいくつかの実施形態により解決しようとする他の技術的課題は、アノテーション作業を体系的に管理できるデータ設計算出物またはデータモデリング算出物を提供することにある。

本開示が解決しようとするまた他の技術的課題は、アノテーション作業を適宜のアノテータに自動で割り当てる方法、その方法を支援する装置およびシステムを提供することにある。

本開示が解決しようとするまた他の技術的課題は、病理スライド画像でアノテーション作業が遂行されるパッチ画像を自動で抽出する方法、その方法を支援する装置およびシステムを提供することにある。

本開示が解決しようとするまた他の技術的課題は、アノテーション結果の正確性を担保できる方法、その方法を支援する装置およびシステムを提供することにある。

本開示の技術的課題は、以上で言及した技術的課題に制限されず、言及されていないまた他の技術的課題は、以下の記載から本開示の技術分野における通常の技術者に明確に理解されることができる。

前記技術的課題を解決するための本開示のいくつかの実施形態によるアノテーション作業管理方法は、コンピューティング装置によって行われる方法であって、新規の病理スライド画像に対する情報を取得する段階、前記病理スライド画像のデータセットタイプおよびパネルを決定する段階および前記病理スライド画像、前記決定されたデータセットタイプ、アノテーションタスク（ａｎｎｏｔａｔｉｏｎｔａｓｋ）および前記病理スライド画像の一部領域であるパッチで定義されるアノテーション作業（ｊｏｂ）をアノテータ（ａｎｎｏｔａｔｏｒ）アカウントに割り当てる段階を含み、前記アノテーションタスクは、前記決定されたパネルを含んで定義され、前記パネルは、細胞（ｃｅｌｌ）パネル、組織（ｔｉｓｓｕｅ）パネルおよびストラクチャ（ｓｔｒｕｃｔｕｒｅ）パネルのうちいずれか一つに指定され、前記データセットタイプは、前記病理スライド画像の用途を示し、機械学習モデルの学習（ｔｒａｉｎｉｎｇ）用途または前記機械学習モデルの検証（ｖａｌｉｄａｔｉｏｎ）用途のうちいずれか一つに指定されるものであり得る。

いくつかの実施形態において、前記アノテーションタスクは、タスククラスをさらに含んで定義され、前記タスククラスは、前記パネルの観点で定義されるアノテーション対象を示すものであり得る。

いくつかの実施形態において、前記データセットタイプは、前記機械学習モデルの学習（ｔｒａｉｎｉｎｇ）用途、前記機械学習モデルの検証（ｖａｌｉｄａｔｉｏｎ）用途またはＯＰＴ（ＯｂｓｅｒｖｅｒＰｅｒｆｏｒｍａｎｃｅＴｅｓｔ）用途のうちいずれか一つに指定されるものであり得る。

いくつかの実施形態において、前記データセットタイプおよびパネルを決定する段階は、前記病理スライド画像を機械学習モデルに入力し、その結果として出力された出力値に基づいて、前記病理スライド画像のデータセットタイプおよびパネルを決定する段階を含み得る。

いくつかの実施形態において、前記新規の病理スライド画像に対する情報を取得する段階は、指定された位置のストレージに病理スライド画像ファイルが追加されることを、前記ストレージをモニタリングするワーカーエージェントが感知する段階、前記ワーカーエージェントによって前記新規の病理スライド画像に対する情報がデータベースに挿入される段階および前記データベースから前記病理スライド画像に対する情報を取得する段階を含み得る。

いくつかの実施形態において、前記割り当てる段階は、前記アノテーション作業のデータセットタイプおよびアノテーションタスクのパネルの組み合わせと関連するアノテーション遂行履歴を基準に選定されたアノテータアカウントに前記アノテーション作業を自動割り当てる段階を含み得る。

いくつかの実施形態において、前記アノテーションタスクは、タスククラスをさらに含んで定義され、前記タスククラスは、前記パネルの観点で定義されるアノテーション対象を示し、前記割り当てる段階は、前記アノテーション作業のアノテーションタスクのパネルおよびタスククラスの組み合わせと関連するアノテーション遂行履歴を基準に選定されたアノテータアカウントに前記アノテーション作業を自動割り当てる段階を含み得る。

いくつかの実施形態において、前記割り当てる段階は、前記病理スライド画像の候補パッチを取得する段階およびそれぞれの候補パッチを前記機械学習モデルに入力し、その結果として出力された各クラス別の出力値に基づいて、前記候補パッチの中から前記アノテーション作業のパッチを自動で選定する段階を含み得る。

いくつかの実施形態において、前記アノテーション作業のパッチを前記候補パッチの中から自動で選定する段階は、前記それぞれの候補パッチに対する各クラス別の出力値を利用してエントロピー値を演算する段階および前記エントロピー値が基準値以上である候補パッチを、前記アノテーション作業のパッチとして選定する段階を含み得る。

いくつかの実施形態において、前記割り当てる段階は、前記病理スライド画像の候補パッチを得る段階、それぞれの候補パッチに対する前記機械学習モデルのミス予測（ｍｉｓｓ−ｐｒｅｄｉｃｔｉｏｎ）確率を算出する段階および前記算出されたミス予測確率が基準値以上である候補パッチを、前記アノテーション作業のパッチとして選定する段階を含み得る。

いくつかの実施形態において、前記アノテーション作業の割り当てを受けたアノテータアカウントの第１アノテーション結果データを取得する段階、前記第１アノテーション結果データと前記アノテーション作業のパッチを前記機械学習モデルに入力した結果とを比較する段階および前記比較結果、二つの結果の差が基準値を超えると前記アノテーション作業を他のアノテータアカウントに再割り当てする段階をさらに含み得る。

いくつかの実施形態において、前記アノテーション作業の割り当てを受けたアノテータアカウントの第１アノテーション結果データを取得する段階、他のアノテータアカウントの第２アノテーション結果データを取得する段階および前記第１アノテーション結果データと前記第２アノテーション結果データの類似度が基準値未満の場合、前記第１アノテーション結果データを未承認処理する段階をさらに含み得る。

上述した技術的課題を解決するための本開示のいくつかの実施形態によるアノテーション作業管理装置は、一つ以上のインストラクション（ｉｎｓｔｒｕｃｔｉｏｎｓ）を含むメモリおよび前記一つ以上のインストラクションを実行することによって、新規の病理スライド画像に対する情報を得、前記病理スライド画像のデータセットタイプおよびパネルを決定し、前記病理スライド画像、前記決定されたデータセットタイプ、アノテーションタスク（ａｎｎｏｔａｔｉｏｎｔａｓｋ）および前記病理スライド画像の一部領域であるパッチで定義されるアノテーション作業（ｊｏｂ）をアノテータ（ａｎｎｏｔａｔｏｒ）アカウントに割り当てるプロセッサを含み、前記アノテーションタスクは、前記決定されたパネルを含んで定義され、前記パネルは、細胞（ｃｅｌｌ）パネル、組織（ｔｉｓｓｕｅ）パネルおよびストラクチャ（ｓｔｒｕｃｔｕｒｅ）パネルのうちいずれか一つに指定され、前記データセットタイプは、前記病理スライド画像の用途を示し、機械学習モデルの学習（ｔｒａｉｎｉｎｇ）用途または前記機械学習モデルの検証（ｖａｌｉｄａｔｉｏｎ）用途のうちいずれか一つに指定されるものであり得る。

上述した技術的課題を解決するための本開示のいくつかの実施形態によるコンピュータプログラムを含む非一時的な（ｎｏｎ−ｔｒａｎｓｉｔｏｒｙ）コンピュータ読み取り可能な記録媒体は、前記コンピュータプログラムのコマンドがプロセッサによって実行されるとき、前記プロセッサが、新規の病理スライド画像に対する情報を得る段階、前記病理スライド画像のデータセットタイプおよびパネルを決定する段階および前記病理スライド画像、前記決定されたデータセットタイプ、アノテーションタスク（ａｎｎｏｔａｔｉｏｎｔａｓｋ）および前記病理スライド画像の一部領域であるパッチで定義されるアノテーション作業（ｊｏｂ）をアノテータ（ａｎｎｏｔａｔｏｒ）アカウントに割り当てる段階を行うようにすることができる。この時、前記アノテーションタスクは、前記決定されたパネルを含んで定義され、前記パネルは、細胞（ｃｅｌｌ）パネル、組織（ｔｉｓｓｕｅ）パネルおよびストラクチャ（ｓｔｒｕｃｔｕｒｅ）パネルのうちいずれか一つに指定され、前記データセットタイプは、前記病理スライド画像の用途を示し、機械学習モデルの学習（ｔｒａｉｎｉｎｇ）用途または前記機械学習モデルの検証（ｖａｌｉｄａｔｉｏｎ）用途のうちいずれか一つに指定されるものであり得る。

上述した本開示の多様な実施形態によれば、アノテーション作業が全般的に自動化されることにより管理者の便宜性が増大し、全般的な作業効率性が大きく向上できる。これに伴いアノテーション作業に所要する時間コストおよび人的コストを大きく節減することができる。また、アノテーション作業の負担が減少することにより、機械学習技法の活用性はさらに増大することができる。

また、データモデリング算出物に基づいてアノテーション作業と関連する各種データを体系的に管理することができる。これにより、データ管理コストは減少し、全般的なアノテーション作業プロセスが円滑に行われることができる。

また、アノテーション作業を適宜のアノテータに自動で割り当てることによって、管理者の業務負担が減少し得、アノテーション結果の正確性は向上することができる。

また、アノテーション作業結果を機械学習モデルまたは他のアノテータの結果と比較検証することによって、アノテーション結果の正確性を担保することができる。これにより、アノテーション結果を学習した機械学習モデルの性能も向上することができる。

また、アノテーションが遂行される領域を示すパッチが自動で抽出されることができる。したがって、管理者の業務負担を最小化することができる。

また、機械学習モデルのミス予測確率、エントロピー値などに基づいて複数の候補パッチのうち学習に効果的なパッチのみがアノテーション対象として選定される。これによりアノテーション作業量が減少し、良質の学習データセットを生成することができる。

本開示の技術的思想による効果は、以上で言及した効果に制限されず、言及されていないまた他の効果は、以下の記載から通常の技術者に明確に理解されるであろう。

教師あり学習とアノテーション作業間との関係を説明するための例示図である。本開示の多様な実施形態によるアノテーション作業管理システムを示す例示的な構成図である。本開示の多様な実施形態によるアノテーション作業管理システムを示す例示的な構成図である。本開示のいくつかの実施形態によるアノテーション作業管理のための例示的なデータモデルの設計図である。本開示のいくつかの実施形態によるアノテーション作業管理方法を示す例示的な流れ図である。本開示のいくつかの実施形態によるアノテータの選定方法を説明するための例示図である。本開示のいくつかの実施形態で参照できるアノテーションツールを示す例示図である。本開示のいくつかの実施形態によるアノテーション作業の生成方法を示す例示的な流れ図である。本開示のいくつかの実施形態による病理スライド画像に対するデータセットタイプの決定方法を示す例示的な流れ図である。本開示のいくつかの実施形態によるパネル類型の決定方法を説明するための図である。本開示のいくつかの実施形態によるパネル類型の決定方法を説明するための図である。本開示のいくつかの実施形態によるパネル類型の決定方法を説明するための図である。本開示のいくつかの実施形態によるパネル類型の決定方法を説明するための図である。本開示の第１実施形態によるパッチの自動抽出方法を示す例示的な流れ図である。本開示の第１実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第１実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第１実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第１実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第１実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第２実施形態によるパッチの自動抽出方法を示す例示的な流れ図である。本開示の第２実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第２実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の第２実施形態によるパッチの自動抽出方法を説明するための例示図である。本開示の多様な実施形態による装置／システムを具現できる例示的なコンピューティング装置を示す例示的なハードウェアの構成図である。

以下、添付する図面を参照して本開示の好ましい実施形態を詳細に説明する。本開示の利点および特徴、並びにこれらを達成する方法は、添付する図面と共に詳細に後述する実施形態を参照すれば明確になる。しかし、本開示の技術的思想は、以下の実施形態に限定されるものではなく、互いに異なる多様な形態で具現することができ、本実施形態は、単に本開示を完全にし、本開示が属する技術分野における通常の知識を有する者に本開示の範疇を完全に知らせるために提供するものであり、本開示の技術的思想は請求項の範疇によってのみ定義される。

各図面の構成要素に参照符号を付加するにあたって、同じ構成要素に対しては他の図面上に表示される場合でも同じ符号を有するようにしたので、留意しなければならない。また、本開示を説明するにあたって、関連する公知の構成または機能に対する具体的な説明が本開示の要旨を曖昧にすると判断される場合はその詳細な説明は省略する。

他に定義のない限り、本明細書において使われるすべての用語（技術的および科学的用語を含む）は本開示が属する技術分野における通常の知識を有する者に共通して理解される意味で使われる。また、一般に使われる辞典に定義されている用語は明白に特に定義しない限り理想的にまたは過度に解釈されない。本明細書において使われた用語は実施形態を説明するためのものであり、本開示を制限しようとするものではない。本明細書において、単数形は文面で特記しない限り、複数形も含む。

また、本開示の構成要素を説明するにあたって、第１、第２、Ａ、Ｂ、（ａ）、（ｂ）などの用語を使う。このような用語は、その構成要素を他の構成要素と区別するためであり、その用語によって該当構成要素の本質や順序または順番などが限定されない。ある構成要素が他の構成要素に「連結」、「結合」または「接続」されると記載された場合、その構成要素はその他の構成要素に直接的に連結されたりまたは接続されるが、各構成要素の間にまた他の構成要素が「連結」、「結合」または「接続」され得ると理解しなければならない。

明細書で使われる「含む（ｃｏｍｐｒｉｓｅｓ）」および／または「含み（ｃｏｍｐｒｉｓｉｎｇ）」は、言及された構成要素、段階、動作および／または素子は一つ以上の他の構成要素、段階、動作および／または素子の存在または追加を排除しない。

本明細書の説明に先立ち、本明細書で使われるいくつかの用語を明確にする。

本明細書において、ラベル情報（ｌａｂｅｌｉｎｆｏｒｍａｔｉｏｎ）とは、データサンプルの正答情報であり、アノテーション作業の結果として取得された情報である。前記ラベルは当該技術分野でアノテーション（ａｎｎｏｔａｔｉｏｎ）、タグなどの用語と混用して使われる。

本明細書において、アノテーション（ａｎｎｏｔａｔｉｏｎ）とは、データサンプルにラベル情報をタギングする作業またはタギングされた情報（すなわち、注釈）そのものを意味する。前記アノテーションは、当該技術分野でタギング（ｔａｇｇｉｎｇ）、ラベリング（ｌａｂｅｌｉｎｇ）などの用語と混用して使われる。

本明細書において、ミス予測（ｍｉｓｓ−ｐｒｅｄｉｃｔｉｏｎ）確率とは、与えられたデータサンプルに対する特定モデルが予測を行う時、前記予測結果に誤謬が含まれる確率（すなわち、予測が間違う確率）または可能性を意味する。

本明細書において、パネル（ｐａｎｅｌ）とは、病理スライド画像で抽出されるパッチ（ｐａｔｃｈ）または病理スライド画像のタイプを意味する。前記パネルは、細胞（ｃｅｌｌ）パネル、組織（ｔｉｓｓｕｅ）パネルおよびストラクチャ（ｓｔｒｕｃｔｕｒｅ）パネルに区分されるが、本開示の技術的範囲はこれに限定されるものではない。各パネル類型に対応するパッチの例は図１０ないし図１２を参照する。

本明細書においてインストラクション（ｉｎｓｔｒｕｃｔｉｏｎ）とは、機能を基準に集まった一連のコマンドであって、コンピュータプログラムの構成要素であり、プロセッサによって実行されるものを示す。

以下、本開示のいくつかの実施形態について添付する図面により詳細に説明する。

図２は本開示のいくつかの実施形態によるアノテーション作業管理システムを示す例示的な構成図である。

図２に示すように、前記アノテーション作業管理システムは、ストレージサーバ１０、少なくとも一つのアノテータ端末（２０−１〜２０−ｎ）およびアノテーション作業管理装置１００を含み得る。ただし、これは本開示の目的を達成するための好ましい実施形態であり、必要に応じて一部の構成要素を追加または削除できることはもちろんである。たとえば、他のいくつかの実施形態では、図３に示すように、前記アノテーション作業管理システムはアノテーション作業に対するレビュー（すなわち、評価）を担当するレビュー者端末３０をさらに含み得る。

図２または図３に示すシステムのそれぞれの構成要素は、機能的に区分される機能要素を示すものであり、実際の物理的環境では複数の構成要素が互いに統合される形態で具現することもできる。または、前記それぞれの構成要素は実際の物理的環境では複数の細部機能要素に分離する形態で具現することもできる。例えば、アノテーション作業管理装置１００の第１機能は、第１コンピューティング装置で具現され、第２機能は第２コンピューティング装置で具現されることもできる。以下、前記それぞれの構成要素について説明する。

前記アノテーション作業管理システムにおいて、ストレージサーバ１０は、アノテーション作業と関連する各種データを保存して管理するサーバである。データの効率的な管理のために、ストレージサーバ１０は、データベースを利用して前記各種データを保存して管理できる。

前記各種データは病理スライド画像のファイル、病理スライド画像のメタデータ（例：画像形式、関連する病名、関連する組織、関連する患者情報など）、アノテーション作業に関するデータ、アノテータに関するデータ、アノテーション作業結果物などを含み得るが、本開示の技術的範囲はこれに限定されるものではない。

いくつかの実施形態において、ストレージサーバ１０は、作業管理ウェブページを提供するウェブサーバとして動作することもできる。このような場合、管理者は前記作業管理ウェブページを介してアノテーション作業に対する割り当て、管理などを行って、アノテータは前記作業管理ウェブページを介して割り当てられた作業を確認して遂行できる。

いくつかの実施形態において、アノテーション作業管理のためのデータモデル（例：ＤＢスキーマ）は図４に示すように設計できる。図４でボックス型オブジェクトはエンティティー（ｅｎｔｉｔｙ）を示し、ボックス型オブジェクトを連結する線は関係（ｒｅｌａｔｉｏｎｓｈｉｐ）を示し、線の上の文字は関係類型を示す。図４に示すように、アノテーション作業エンティティー４４は多様なエンティティー（４３、４５、４６、４７、４９）と関連する。より理解の便宜のために、図４に示すデータモデルについて作業エンティティー４４を中心に簡略に説明する。

スライドエンティティー４５は、病理スライド画像に関するエンティティーである。スライドエンティティー４５は、病理スライド画像と関連する各種情報を属性（ａｔｔｒｉｂｕｔｅ）として有することができる。一つの病理スライド画像から多数のアノテーション作業が生成されるために、スライドエンティティー４５と作業エンティティー４４との間の関係は１：ｎである。

データセットエンティティー４９は、アノテーションが行われたデータの活用用途を示すエンティティーである。たとえば、前記活用用途は、学習（ｔｒａｉｎｉｎｇ）用途（すなわち、学習データセットとして活用される）、検証（ｖａｌｉｄａｔｉｏｎ）用途（すなわち、検証データセットとして活用される）、テスト用途（すなわち、テストデータセットとして活用される）またはＯＰＴ（ＯｂｓｅｒｖｅｒＰｅｒｆｏｒｍａｎｃｅＴｅｓｔ）用途（すなわち、ＯＰＴテストとして活用される）に区分されるが、本開示の技術的範囲はこれに限定されるものではない。

アノテータエンティティー４７は、アノテータを示すエンティティーである。アノテータエンティティー４７は、前記アノテータの現在の作業現況、過去の作業遂行履歴、既に行われた作業に対する評価結果、アノテータの人的情報（例：学歴、専攻など）などを属性として有することができる。一人のアノテータは多数の作業を遂行できるので、アノテータエンティティー４７と作業エンティティー４４との間の関係は１：ｎである。

パッチエンティティー４６は、病理スライド画像から派生したパッチに関するエンティティーである。前記パッチには複数のアノテーションが含まれるので、パッチエンティティー４６とアノテーションエンティティー４８との間の関係は１：ｎである。また、一つのアノテーション作業が複数のパッチに対して行われ得るので、パッチエンティティー４６と作業エンティティー４４との間の関係はｎ：１である。

アノテーションタスクエンティティー４３は、細部的なアノテーション作業類型であるアノテーションタスク（ａｎｎｏｔａｔｉｏｎｔａｓｋ）を示すエンティティーである。例えば、前記アノテーションタスクの有糸分裂細胞（ｍｉｔｏｓｉｓ）であるか否かをタギングするタスク、有糸分裂細胞の個数をタギングするタスク、病変の種類をタギングするタスク、病変の位置をタギングするタスク、病名をタギングするタスクなどのように多様に定義されて細分化することができる。前記アノテーション作業の細部類型は、パネルに応じて異なり（すなわち、細胞パネルと組織パネルにタギングされるアノテーションは異なる）、同じパネルでも互いに異なるタスクが行われ得るために、タスクエンティティー４３はパネルエンティティー４１とタスククラスエンティティー４２を属性として有することができる。ここで、タスククラスエンティティー４２はパネルの観点で定義されるアノテーション対象（例：有糸分裂細胞、病変の位置）またはパネルの観点で定義されるタスク類型を示すエンティティーである。一つのアノテーションタスクで複数のアノテーション作業が生成され得るので（すなわち、同じタスクを遂行する複数の作業が存在し得る）、アノテーションタスクエンティティー４３とアノテーション作業エンティティー４４との間の関係は１：ｎである。プログラミング的な観点から、アノテーションタスクエンティティー４３は、クラス（ｃｌａｓｓ）またはプログラム（ｐｒｏｇｒａｍ）に対応し、アノテーション作業エンティティー４４は、前記クラスのインスタンス（ｉｎｓｔａｎｃｅ）またはプログラムの実行によって生成されたプロセス（ｐｒｏｃｅｓｓ）に対応するものと理解することができる。

いくつかの実施形態において、ストレージサーバ１０は、前述したデータモデルに基づいてデータベースを構築し、アノテーション作業と関連する各種データを体系的に管理できる。これにより、データ管理コストは減少し、全般的なアノテーション作業プロセスが円滑に行われ得る。

以上、アノテーション作業管理のためのデータモデルについて説明した。再び図２および図３を参照してアノテーション作業管理システムの構成要素について説明を継続する。

前記アノテーション作業管理システムにおいて、アノテーション作業管理装置１００は、アノテータ端末（２０−１〜２０−ｎ）にアノテーション作業を割り当てるなどの諸管理機能を遂行するコンピューティング装置である。ここで、前記コンピューティング装置は、ノートブック、デスクトップ（ｄｅｓｋｔｏｐ）、ラップトップ（ｌａｐｔｏｐ）などであるが、これに限定されるものではなく、コンピューティング機能が備えられたすべての種類の装置を含み得る。前記コンピューティング装置の一例は図２４を参照する。以下では、説明の便宜上アノテーション作業管理装置１００を管理装置１００と略称する。また、以下では、アノテータ端末を総称したり区分せず任意のアノテータ端末を称する場合は参照番号２０を使う。

作業管理装置１００は、管理者によって利用される装置であり得る。たとえば、管理者は作業管理装置１００を介して作業管理ウェブページに接続し、管理者アカウントでログインした後、全般的な作業に対する管理を遂行できる。たとえば、管理者はアノテーション作業を特定アノテータのアカウントに割り当てたり、アノテーション結果をレビュー者のアカウントに伝送してレビューを要請するなどの管理行為を遂行できる。もちろん、前記のような諸管理過程は作業管理装置１００により自動で行われることもできるが、これに関する説明は図５以下の図面を参照して後述する。

前記アノテーション作業管理システムにおいて、アノテータ端末２０はアノテータによってアノテーション作業が遂行される端末である。端末２０にはアノテーションツール（ａｎｎｏｔａｔｉｏｎｔｏｏｌ）がインストールされている。もちろん、作業管理ウェブページを介してアノテーションのための各種機能が提供されることもできる。このような場合、アノテータは端末２０を介して前記作業管理ウェブページに接続した後、ウェブ上でアノテーション作業を遂行できる。前記アノテーションツールの一例示は図７を参照する。

前記アノテーション作業管理システムにおいて、レビュー者端末３０はアノテーション結果に対するレビューを行うレビュー者側の端末である。レビュー者はレビュー者端末３０を利用してアノテーション結果に対するレビューを行って、レビュー結果を管理装置１００に提供できる。

いくつかの実施形態において、アノテーション作業管理システムの少なくとも一部の構成要素はネットワークを介して通信できる。ここで、前記ネットワークは、ローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ；ＬＡＮ）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ；ＷＡＮ）、移動通信網（ｍｏｂｉｌｅｒａｄｉｏｃｏｍｍｕｎｉｃａｔｉｏｎｎｅｔｗｏｒｋ）、Ｗｉｂｒｏ（ＷｉｒｅｌｅｓｓＢｒｏａｄｂａｎｄＩｎｔｅｒｎｅｔ）などのようなべての種類の有線／無線ネットワークとして具現することができる。

以上図２ないし図４を参照して本開示のいくつかの実施形態によるアノテーション作業管理システムについて説明した。以下では、図５ないし図２３の図面を参照して本開示のいくつかの実施形態によるアノテーション作業管理方法について説明する。

前記アノテーション作業管理方法の各段階は、コンピューティング装置によって行われ得る。すなわち、前記アノテーション作業管理方法の各段階は、コンピューティング装置のプロセッサによって実行される一つ以上のインストラクションとして具現することができる。理解の便宜のために、前記アノテーション作業管理方法が図３または図４に示す環境で行われる場合を仮定して説明を継続する。

図５は本開示のいくつかの実施形態によるアノテーション作業管理方法を示す例示的な流れ図である。ただし、これは本開示の目的を達成するための好ましい実施形態であり、必要に応じて一部の段階が追加または削除できるのはもちろんである。

図５に示すように、前記アノテーション作業管理方法は、新規の病理スライド画像に対する情報を得る段階Ｓ１００から始まる。前記病理スライド画像に対する情報は、前記病理スライド画像のメタデータのみを含み得、病理スライド画像ファイルをさらに含むこともできる。

いくつかの実施形態において、ワーカーエージェント（ｗｏｒｋｅｒａｇｅｎｔ）を介して前記新規の病理スライド画像に対する情報がリアルタイムで取得され得る。具体的には、前記ワーカーエージェントによって指定された位置のストレージ（例：ストレージサーバ１０または病理スライド画像を提供する医療機関のストレージ）に病理スライド画像ファイルが追加されることが感知され得る。また、前記ワーカーエージェントによって前記新規の病理スライド画像に対する情報が作業管理装置１００またはストレージサーバ１０のデータベースに挿入され得る。そうすると、前記データベースから前記新規の病理スライド画像に対する情報が取得され得る。

段階Ｓ２００において、管理装置１００は前記病理スライド画像に対するアノテーション作業を生成する。ここで、前記アノテーション作業は、前記病理スライド画像、データセットタイプ、アノテーションタスクおよび前記病理スライド画像の一部領域（すなわち、アノテーション対象領域）のパッチなどの情報に基づいて定義される（図４参照）。本段階Ｓ２００に関する詳しい説明は図８ないし図２３を参照して後述する。

段階Ｓ３００において、管理装置１００は前記生成されたアノテーション作業を行うアノテータを選定する。

いくつかの実施形態において、図６に示すように、管理装置１００はアノテータ（５１〜５３）の作業遂行履歴（例：しばしば行っていたアノテーション作業など）、既に行った作業の評価結果（または検証結果）、現在の作業現況（例：現在の割り当てられた作業進行状態）などの管理情報（５４〜５６）に基づいてアノテータを自動で選定できる。例えば、管理装置１００は前記生成されたアノテーション作業と関連する作業をしばしば行っていた第１アノテータ、関連作業に対するアノテーション結果が優れていた第２アノテータ、現在の進行中の作業が多くない第３アノテータなどを前記生成されたアノテーション作業のアノテータとして選定できる。

ここで、作業遂行履歴に前記生成されたアノテーション作業と関連する作業が含まれているかどうかは各作業のデータセットタイプとアノテーションタスクのパネルの組み合わせが互いに類似するか否かに基づいて判定できる。または、アノテーションタスクのパネルおよびタスククラスの組み合わせが互いに類似するか否かに基づいて判定することもできる。もちろん、前記２種類組み合わせがすべて類似するか否に基づいて判定することもできる。

いくつかの実施形態において、前記新規の病理スライド画像が重要データ（例：奇病と関連するスライド画像、高品質のスライド画像など）の場合、複数のアノテータが選定され得る。また、アノテータの人数は前記重要度に比例して増加し得る。このような場合、前記複数のアノテータの作業結果を相互比較することによって、アノテーション結果に対する検証が行われ得る。本実施形態によれば、重要データに対してより厳格な検証が行われることによって、アノテーション結果の正確性が向上できる。

段階Ｓ４００において、管理装置１００は選定されたアノテータの端末２０にアノテーション作業を割り当てる。たとえば、管理装置１００は前記選定されたアノテータのアカウントにアノテーション作業を割り当てることができる。

段階Ｓ５００において、アノテータ端末２０でアノテーションが遂行される。アノテータは端末２０にインストールされたアノテータツールまたはウェブ（例：作業管理ウェブページ）を介して提供されるアノテーションサービスを利用してアノテーションを遂行できるが、本開示の技術的範囲はこれに限定されるものではない。

前記アノテータツールのいくつかの例示は図６に示されている。図６に示すように、アノテーションツール６０は第１領域６３と第２領域６１を含み得る。第２領域６１には実際のアノテーションが遂行されるパッチ領域６８と拡大／縮小インジケータ６５が含まれ得る。図６に示すように、パッチ領域６８にはボックスラインなどのハイライト処理がなされる。第１領域６３には作業情報６７が表示され、道具領域６９がさらに含まれ得る。道具領域６９には各アノテーションに対応する選択可能な道具が含まれ得る。したがって、アノテータはパッチ領域６８に直接アノテーションを記入せず、簡便に選定した道具を利用してパッチ領域６８にアノテーションをタギングすることができる（例：クリックにより第１道具を選択し、パッチ領域６８を再びクリックしてタギング実行）。道具領域６３に表示されるアノテーションの種類はアノテーション作業に応じて変わるので、アノテーションツール６０はアノテーション作業情報に基づいて適宜アノテーション道具をセッティングすることができる。

図６に示すアノテーションツール６０は、アノテータの便宜性のために考案されたツールの一例示を図示しているだけであることに留意しなければならない。すなわち、アノテーションツールはいかなる方式で具現されても構わない。再び図５を参照して説明を継続する。

段階Ｓ６００において、アノテータ端末２０はアノテーション作業の結果を提供する。アノテーション作業の結果は該当パッチにタギングされたラベル情報になる。

段階Ｓ７００において、管理装置１００は作業結果に対する検証（評価）を行う。前記検証結果は該当アノテータの評価結果として記録される。前記検証を行う具体的な方式は実施形態によって異なる。

いくつかの実施形態において、機械学習モデルの出力結果に基づいて自動で検証が行われ得る。具体的には、作業の割り当てを受けたアノテータから第１アノテーション結果データが取得されると、前記第１アノテーション結果データと前記アノテーション作業のパッチを前記機械学習モデルに入力した結果とを比較できる。前記比較結果、二つの結果の差が基準値を超えると前記第１アノテーション結果データの承認は保留するかあるいは未承認処理することができる。

ここで、前記基準値は既に設定した固定値または状況に応じて変動する変動値であり得る。たとえば、前記基準値は前記機械学習モデルの正確度が高いほどさらに小さい値に変動する値であり得る。

段階Ｓ８００において、管理装置１００はアノテーション作業の再遂行の可否を判定する。たとえば、段階Ｓ７００で検証が成功的に行われなかった場合、管理装置１００は再作業が必要であると決定をする。

段階Ｓ９００において、再作業の必要決定に応答し、管理装置１００は他のアノテータを選定し、前記他のアノテータにアノテーション作業を再割り当てする。この時、前記他のアノテータは段階Ｓ３００で説明した方式と類似の方式で選定できる。または、前記他のアノテータはレビュー者または性能が最も優れた機械学習モデルであり得る。

図５には示していないが、段階Ｓ９００以後に、前記他のアノテータの第２アノテーション結果データに基づいて前記第１アノテーション結果データに対する検証が再び行われ得る。具体的には、前記第２アノテーション結果データが取得されると、前記第１アノテーション結果データと前記第２アノテーション結果データの類似度が算出される。また、前記類似度が基準値未満の場合、前記第１アノテーション結果データは最終的に未承認処理される。このような処理結果は、該当アノテータの作業遂行履歴に記録され得る。

以上図４ないし図７を参照して本開示のいくつかの実施形態によるアノテーション作業管理方法について説明した。上述した方法によれば、アノテーション作業が全般的に自動化されることにより管理者の便宜性が増大し、全般的な作業効率性が大きく向上できる。これにより、アノテーション作業に所要する時間コストおよび人的コストが大きく節減することができる。また、アノテーション作業の負担が減少することにより、機械学習技法の活用性はさらに増大することができる。

さらに、アノテーション作業結果を機械学習モデルまたは他のアノテータの結果と比較検証することによって、アノテーション結果の正確性を担保することができる。これにより、アノテーション結果を学習した機械学習モデルの性能も向上できる。

以下では、図８ないし図２２を参照してアノテーション作業の生成段階であるＳ２００の細部過程について詳細に説明する。

図８は本開示のいくつかの実施形態によるアノテーション作業の生成方法を示す例示的な流れ図である。ただし、これは本開示の目的を達成するための好ましい実施形態であり、必要に応じて一部の段階が追加または削除できるのはもちろんである。

図８に示すように、前記アノテーション作業の生成方法は、新規の病理スライド画像のデータセットタイプを決定する段階Ｓ２１０から始まる。前述したように、前記データセットタイプは前記病理スライド画像の活用用途を示し、用途は、学習用途、検証用途、テスト用途またはＯＰＴ（ＯｂｓｅｒｖｅｒＰｅｒｆｏｒｍａｎｃｅＴｅｓｔ）用途などに区分できる。

いくつかの実施形態において、前記データセットタイプは管理者の選択によって決定できる。

他のいくつかの実施形態において、前記データセットタイプは病理スライド画像に対する機械学習モデルのコンフィデンススコアに基づいて決定できる。ここで、前記機械学習モデルは、病理スライド画像に基づいて特定タスク（例：病変分類、病変位置認識など）を行うモデル（すなわち、学習対象モデル）を意味する。本実施形態に関する詳しい内容は図９に示されている。図９に示すように、管理装置１００は、病理スライド画像を機械学習モデルに入力し、その結果としてコンフィデンススコアを取得し（Ｓ２１１）、前記コンフィデンススコアが基準値以上であるか否かを判定する（Ｓ２１３）。また、基準値未満である判定に応答し、管理装置１００は前記病理スライド画像のデータセットタイプを学習用途に決定する（Ｓ２１７）。コンフィデンススコアが基準値未満であることは、機械学習モデルが前記病理スライド画像を明確に判断できないことを意味するからである（すなわち、該当病理スライド画像に対する学習が必要であることを意味するからである）。反対の場合、前記病理スライド画像のデータセットタイプは、検証用途（またはテスト用途）に決定する（Ｓ２１５）。

また他のいくつかの実施形態において、前記データセットタイプは病理スライド画像に対する機械学習モデルのエントロピー（ｅｎｔｒｏｐｙ）値に基づいて決定できる。前記エントロピー値は不確実性（ｕｎｃｅｒｔａｉｎｔｙ）を示す指標であり、コンフィデンススコアがクラス別に均等に分布するほど大きい値を有する。本実施形態で、前記エントロピー値が基準値以上である判定に応答し、前記データセットタイプは学習用途に決定できる。反対の場合は、検証用途に決定できる。

再び図８を参照すると、段階Ｓ２３０において、管理装置１００は病理スライド画像のパネル類型を決定する。前述したように、前記パネル類型は、細胞パネル、組織パネルおよびストラクチャパネルなどに区分できる。前記細胞パネル類型の画像の例は図１０に示されており、前記組織パネルの画像の例は図１１に示されており、前記ストラクチャパネルの画像の例は図１２に示されている。図１０ないし図１２に示すように、細胞パネルは細胞レベルのアノテーションが遂行されるパッチ類型であり、組織パネルは組織レベルのアノテーションが遂行されるパッチ類型であり、ストラクチャパネルは細胞または組織などの構造と関連するアノテーションが遂行されるパッチ類型である。

いくつかの実施形態において、前記パネル類型は管理者の選択によって決定できる。

いくつかの実施形態において、前記パネル類型は機械学習モデルの出力値に基づいて決定できる。図１３を参照して説明すると、機械学習モデルには細胞パネルに対応する第１機械学習モデル（７５−１，すなわち細胞レベルのアノテーションを学習したモデル）、組織パネルに対応する第２機械学習モデル７５−２およびストラクチャパネルに対応する第３機械学習モデル７５−３が含まれ得る。このような場合、管理装置１００は与えられた病理スライド画像７１でそれぞれのパネルに対応する第１ないし第３画像（７３−１ないし７３−３）を抽出（またはサンプリング）し、各画像を対応するモデル（７５−１〜７５−３）に入力し、その結果として出力値（７７−１〜７７−３）を取得する。また、管理装置１００は出力値（７７−１〜７７−３）と基準値との比較結果に応じて病理スライド画像７１のパネル類型を決定できる。たとえば、第１出力値７７−１が前記基準値未満の場合、病理スライド画像７１のパネル類型は細胞パネルに決定できる。病理スライド画像７１で抽出される細胞パッチが第１機械学習モデル７５−１の学習性能を上げるのに効果的であるからである。

いくつかの実施形態において、病理スライド画像が複数のパネル類型を有することもできる。このような場合、前記病理スライド画像から各パネルに対応するパッチが抽出され得る。

再び図８を参照すると、段階Ｓ２５０において、管理装置１００はアノテーションタスクを決定する。前述したように、アノテーションタスクは細部作業の類型が定義しておいたエンティティーを意味する。

いくつかの実施形態において、前記アノテーションタスクは管理者の選択によって決定できる。

いくつかの実施形態において、前記アノテーションタスクは前記決定されたデータセットタイプとパネル類型の組み合わせに基づいて自動で決定することもできる。たとえば、データセットタイプとパネル類型の組み合わせにマッチするアノテーションタスクがあらかじめ定義されている場合、前記組み合わせに基づいて前記マッチするアノテーションタスクが自動で決定され得る。

段階Ｓ２７０において、管理装置１００は病理スライド画像で実際のアノテーションが遂行されるパッチを自動で抽出する。もちろん、管理者によって指定された領域がパッチとして抽出されることもできる。前記パッチを自動で抽出する具体的な方法は実施形態によって異なるが、パッチ抽出に関連する多様な実施形態は図１４ないし図２３を参照して後述する。

図８には示していないが、段階Ｓ２７０以後に、管理装置１００は段階Ｓ２１０ないしＳ２７０で決定されたデータセットタイプ、パネル類型、アノテーションタスクおよびパッチに基づいてアノテーション作業を生成できる。前述したように、生成されたアノテーション作業は適宜のアノテータのアカウントに割り当てられる。

以上図８ないし図１３を参照して本開示のいくつかの実施形態によるアノテーション作業の生成方法について説明した。以下では、図１４ないし図２３を参照してパッチの自動抽出に関連する本開示の多様な実施形態について説明する。

図１４は本開示の第１実施形態によるパッチの自動抽出方法を示す例示的な流れ図である。ただし、これは本開示の目的を達成するための好ましい実施形態であり、必要に応じて一部の段階が追加または削除できるのはもちろんである。

図１４に示すように、前記パッチの自動抽出方法は、新規の病理スライド画像で複数の候補パッチをサンプリングする段階Ｓ２７１から始まる。前記複数の候補パッチをサンプリングする具体的な方式は実施形態によって異なる。

いくつかの実施形態において、特定組織を構成する少なくとも細胞領域を候補パッチ（すなわち、細胞パネル類型のパッチ）としてサンプリングする場合、図１５に示すように、病理スライド画像８１で画像解析により組織領域８３を抽出し、抽出された領域８３内で複数の候補パッチ８５がサンプリングされる。サンプリング結果のいくつかの例示は図１６および図１７に示されている。図１６および図１７に示す病理スライド画像（８７、８９）において、各ポイントはサンプリングポイントを意味し、四角形の図形はサンプリング領域（すなわち、候補パッチ領域）を意味する。図１６および図１７に示すように、複数の候補パッチは少なくとも一部が重なる形態でサンプリングされることもできる。

いくつかの実施形態において、病理スライド画像の全体領域を均一に分割し、分割されたそれぞれの領域をサンプリングして候補パッチを生成できる。すなわち、均等分割方式でサンプリングが行われる。この時、各候補パッチの大きさは既に設定された固定値または病理スライド画像の大きさ、解像度、パネル類型などに基づいて決定される変動値であり得る。

いくつかの実施形態において、病理スライド画像の全体領域をランダムに分割し、分割されたそれぞれの領域をサンプリングして候補パッチを生成できる。

いくつかの実施形態において、オブジェクトの個数が基準値を超えるように候補パッチを形成できる。たとえば、前記病理スライド画像の全体領域に対してオブジェクト認識を行って、前記オブジェクト認識の結果、算出されたオブジェクトの個数が基準値を超える領域が候補パッチとしてサンプリングされ得る。このような場合、候補パッチの大きさは互いに異なってもよい。

いくつかの実施形態において、病理スライド画像のメタデータに基づいて決定されたポリシーに従い分割された候補パッチをサンプリングできる。ここで、前記メタデータは、前記病理スライド画像と関連する病名、組織（ｔｉｓｓｕｅ）、患者の人口統計学的情報、医療機関の位置、前記病理スライド画像の品質（例：解像度）、フォーマット形式などである。具体的に例えば、病理スライド画像が腫瘍患者の組織に関する画像である場合、有糸分裂細胞検出のための機械学習モデルの学習データに利用するために、細胞レベルで候補パッチをサンプリングできる。他の例としては、病理スライド画像と関連する病名の予後を診断する時組織内の病変の位置が重要である場合、組織レベルで候補パッチをサンプリングすることもできる。

いくつかの実施形態において、病理スライド画像でストラクチャパネル類型の候補パッチをサンプリングする場合、画像解析により前記病理スライド画像で外郭線が抽出され、前記抽出された外郭線の中で互いに連結された外郭線が一つの候補パッチを形成するようにサンプリングが行われることもできる。

このように、段階Ｓ２７１で複数の候補パッチをサンプリングする具体的な方式は実施形態によって異なる。再び図１４を参照して説明を継続する。

段階Ｓ２７３において、機械学習モデルの出力値に基づいてアノテーション対象パッチを選定できる。前記出力値は、例えばコンフィデンススコア（またはクラス別のコンフィデンススコア）であり得るが、前記コンフィデンススコアに基づいてパッチを選定する具体的な方式は実施形態によって異なる。

いくつかの実施形態において、クラス別のコンフィデンススコアによって算出されたエントロピー値に基づいてアノテーション対象パッチを選定できる。本実施形態に関する詳しい内容は図１８および図１９に示されている。

図１８に示すように、病理スライド画像９１でサンプリングされた候補パッチ９２からエントロピー値基盤の不確実性サンプリングによりアノテーション対象パッチ９３を選定できる。より具体的には、図１９に示すように、機械学習モデル９５から出力された各候補パッチ（９４−１〜９４−ｎ）のクラス別のコンフィデンススコア（９６−１〜９６−ｎ）に基づいてエントロピー値（９７−１〜９７−ｎ）が算出される。前述したように、エントロピー値はコンフィデンススコアがクラス別に均等に分布するほど大きい値を有する。たとえば、図１９に示す場合は、エントロピーＡ９７−１は最も大きい値で演算され、エントロピーＣ９７−ｎは最も小さい値で演算される。また、エントロピー値が基準値以上である候補パッチがアノテーション対象として自動で選定され得る。エントロピー値が高いことは、機械学習モデルの予測結果が不正確であることを意味し、これはすなわち学習により効果的なデータであることを意味するからである。

いくつかの実施形態において、前記コンフィデンススコア自体に基づいてアノテーション対象パッチを選定することもできる。たとえば、複数の候補パッチのうち、コンフィデンススコアが基準値未満の候補パッチが前記アノテーション対象パッチとして選定され得る。

図２０は本開示の第２実施形態によるパッチの自動抽出方法を示す例示的な流れ図である。ただし、これは本開示の目的を達成するための好ましい実施形態であり、必要に応じて一部の段階が追加または削除できるのはもちろんである。明細書を明瞭にするため、前述した実施形態と重複する説明は省略する。

図２０に示すように、前記第２実施形態も複数の候補パッチをサンプリングする段階Ｓ２７１から始まる。ただし、前記第２実施形態では機械学習モデルのミス予測確率に基づいてアノテーション対象パッチが選定される点で（Ｓ２７５参照）、前述した実施形態とは差がある。

前記機械学習モデルのミス予測確率は、機械学習により構築されたミス予測確率算出モデル（以下、「算出モデル」と略称する）により算出されるが、理解の便宜のために、先に前記算出モデルを構築する方法について図２１および図２２を参照して説明する。

図２１に示すように、前記算出モデルは前記機械学習モデルの評価結果（例：検証結果、テスト結果）を学習することによって構築できる（Ｓ２９１ないしＳ２９５）。具体的には、評価用データで前記機械学習モデルを評価し（Ｓ２９１）、評価結果が前記評価用データにラベル情報としてタギングされると（Ｓ２９３）、前記評価用データを前記ラベル情報として学習することによって前記算出モデルを構築できる（Ｓ２９５）。

評価用データにラベル情報をタギングするいくつかの例示は図２２に示されている。図２２は混同行列（ｃｏｎｆｕｓｉｏｎｍａｔｒｉｘ）を示しているが、前記機械学習モデルが分類タスクを遂行するモデルである場合、評価結果は混同行列内の特定セルに対応できる。図２２に示すように、評価結果がＦＰ（ｆａｌｓｅｐｏｓｉｔｉｖｅ）またはＦＮ（ｆａｌｓｅｎｅｇａｔｉｖｅ）の画像１０１には第１値（例：１）がラベル値１０２としてタギングされ、評価結果がＴＰ（ｔｒｕｅｐｏｓｉｔｉｖｅ）またはＴＮ（ｔｒｕｅｎｅｇａｔｉｖｅ）の画像１０３には第２値（例：０）がラベル値１０４としてタギングされ得る。すなわち、機械学習モデルの予測が正答と一致した場合には「１」がタギングされ、不一致の場合には「０」がタギングされる。

上記のような画像（１０１、１０２）とラベル情報を学習すると、算出モデルは機械学習モデルが正確に予測した画像と類似の画像が入力される時、高いコンフィデンススコアを出力する。また、逆の場合、算出モデルは低いコンフィデンススコアを出力する。したがって、算出モデルは入力された画像に対する機械学習モデルのミス予測確率を算出できる。

一方、図２２はラベル情報をタギングするいくつかの例示を図示しているだけであることに留意しなければならない。本開示の他のいくつかの実施形態によれば、予測誤差がラベル情報としてタギングされることもできる。ここで、前記予測誤差は予測値（すなわち、コンフィデンススコア）と実際の値（すなわち、正答情報）との差を意味する。

また、本開示のまた他のいくつかの実施形態によれば、評価用画像の予測誤差が臨界値以上の場合、第１値（例：０）がタギングされ、前記予測誤差が前記臨界値未満の場合、第２値（例：１）がラベル情報としてタギングされ得る。

再び図２０を参照して説明を継続する。

前述した方法により算出モデルが構築されると、段階Ｓ２７５において、管理装置１００は複数の候補パッチのそれぞれに対するミス予測確率を算出できる。たとえば、図２３に示すように、管理装置１００は各データサンプル（１１１−１〜１１１−ｎ）を算出モデル１１３に入力して算出モデル１１３のコンフィデンススコア（１１５−１〜１１５−ｎ）を取得し、取得されたコンフィデンススコア（１１５−１〜１１５−ｎ）に基づいて前記ミス予測確率を算出できる。

ただし、図２３に示すように、候補パッチ（１１−１〜１１１−ｎ）が入力される時、正答および誤答クラスに対するコンフィデンススコア（１１５−１〜１１５−ｎ）を出力するように算出モデル１１３が学習された場合（例：正答と一致時ラベル１で学習し、不一致時ラベル０で学習した場合）は、誤答クラスのコンフィデンススコア（下線で図示）がミス予測確率として利用されることもできる。

各候補パッチのミス予測確率が算出されると、管理装置１００は複数の候補パッチのうち前記算出されたミス予測確率が基準値以上である候補パッチをアノテーション対象として選定できる。ミス予測確率が高いことは前記機械学習モデルの予測結果が間違う可能性が高いことを意味し、これは、すなわち該当パッチが前記機械学習モデルの性能を改善するために重要なデータであることを意味するからである。このように、ミス予測確率に基づいてパッチを選定すると、学習に効果的なパッチがアノテーション対象として選定されることによって良質の学習データセットが生成できる。

以上、図１４ないし図２３を参照して本開示の多様な実施形態によるパッチの自動抽出方法について説明した。上述した方法によれば、アノテーションが遂行される領域を示すパッチを自動で抽出できる。したがって、管理者の業務負担を最小化することができる。また、機械学習モデルのミス予測確率、エントロピー値などに基づいて複数の候補パッチのうち学習に効果的なパッチのみがアノテーション対象として選定される。これにより、アノテーション作業量が減少し、良質の学習データセットを生成できる。

以下では、図２４を参照して本開示の多様な実施形態による装置（例：管理装置１００）／システムを具現できる例示的なコンピューティング装置２００について説明する。

図２４は本開示の多様な実施形態による装置を具現できる例示的なコンピューティング装置２００を示す例示的なハードウェアの構成図である。

図２４に示すように、コンピューティング装置２００は一つ以上のプロセッサ２１０、バス２５０、通信インターフェース２７０、プロセッサ２１０によって行われるコンピュータプログラムをロード（ｌｏａｄ）するメモリ２３０とコンピュータプログラム２９１を保存するストレージ２９０を含み得る。ただし、図２４には本開示の実施形態と関連する構成要素のみが図示されている。したがって、本開示が属する技術分野における通常の技術者であれば、図２４に示す構成要素の他に他の汎用的な構成要素がさらに含まれ得ることがわかる。

プロセッサ２１０は、コンピューティング装置２００の各構成の全般的な動作を制御する。プロセッサ２１０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＭＰＵ（ＭｉｃｒｏＰｒｏｃｅｓｓｏｒＵｎｉｔ）、ＭＣＵ（ＭｉｃｒｏＣｏｎｔｒｏｌｌｅｒＵｎｉｔ）、ＧＰＵ（ＧｒａｐｈｉｃＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）または本開示の技術分野に良く知られた任意の形態のプロセッサを含んで構成できる。また、プロセッサ２１０は本開示の実施形態による方法を実行するための少なくとも一つのアプリケーションまたはプログラムに対する演算を遂行できる。コンピューティング装置２００は一つ以上のプロセッサを備えることができる。

メモリ２３０は、各種データ、命令および／または情報を保存する。メモリ２３０は、本開示の多様な実施形態による方法／動作を実行するためにストレージ２９０から一つ以上のプログラム２９１をロードできる。メモリ２３０は、ＲＡＭのような揮発性メモリに具現できるが、本開示の技術的範囲はこれに限定されない。

バス２５０は、コンピューティング装置２００の構成要素間の通信機能を提供する。バス２５０は、住所バス（ＡｄｄｒｅｓｓＢｕｓ）、データバス（ＤａｔａＢｕｓ）および制御バス（ＣｏｎｔｒｏｌＢｕｓ）など多様な形態のバスに具現できる。

通信インターフェース２７０は、コンピューティング装置２００の有無線インターネット通信をサポートする。また、通信インターフェース２７０はインターネット通信以外の多様な通信方式をサポートすることもできる。このために、通信インターフェース２７０は本開示の技術分野に良く知られた通信モジュールを含んで構成できる。

ストレージ２９０は、前記一つ以上のプログラム２９１を非臨時的に保存できる。ストレージ２９０は、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲＯＭ）、フラッシュメモリなどのような不揮発性メモリ、ハードディスク、着脱型ディスク、または本開示が属する技術分野で良く知られた任意の形態のコンピュータで読み取り可能な記録媒体を含んで構成できる。

コンピュータプログラム２９１は、メモリ２３０にロードされる時、プロセッサ２１０が本開示の多様な実施形態による動作／方法を行うようにする一つ以上のインストラクション（ｉｎｓｔｒｕｃｔｉｏｎｓ）を含み得る。すなわち、プロセッサ２１０は、前記一つ以上のインストラクションを実行することによって、本開示の多様な実施形態による動作／方法を遂行できる。

例えば、コンピュータプログラム２９１は、新規の病理スライド画像に対する情報を得る動作、前記病理スライド画像のデータセットタイプおよびパネルを決定する動作および前記病理スライド画像、前記決定されたデータセットタイプ、アノテーションタスク（ａｎｎｏｔａｔｉｏｎｔａｓｋ）および前記病理スライド画像の一部領域であるパッチで定義されるアノテーション作業（ｊｏｂ）をアノテータ（ａｎｎｏｔａｔｏｒ）アカウントに割り当てる動作を行うようにする一つ以上のインストラクションを含み得る。このような場合、コンピューティング装置２００を介して本開示のいくつかの実施形態による管理装置１００が具現できる。

以上、図２４を参照して本開示の多様な実施形態による装置を具現できる例示的なコンピューティング装置について説明した。

以上、図１ないし図２４を参照して説明した本開示の技術的思想は、コンピュータが読み取り可能な媒体上にコンピュータが読み取り可能なコードに具現することができる。前記コンピュータで読み取り可能な記録媒体は、例えば、移動型記録媒体（ＣＤ、ＤＶＤ、ブルーレイディスク、ＵＳＢ記録装置、リムーバブルハードディスク）や、固定式記録媒体（ＲＯＭ、ＲＡＭ、コンピュータ付きハードディスク）であり得る。前記コンピュータで読み取り可能な記録媒体に記録された前記コンピュータプログラムはインターネットなどのネットワークを介して他のコンピューティング装置に転送されて前記他のコンピューティング装置にインストールでき、これにより前記他のコンピューティング装置で使うことができる。

以上、本開示の実施形態を構成するすべての構成要素が一つに結合されたり結合されて動作することについて説明した。しかし、本開示の技術的思想は必ずしもこのような実施形態に限定されるものではない。すなわち、本開示の目的範囲内であれば、そのすべての構成要素が一つ以上に選択的に結合して動作することもできる。

図面では動作を特定の順序により示しているが、必ずしも動作が図示した特定の順序または順次的順序により実行されなければならないか、またはすべての図示する動作が実行された場合にのみ所望する結果が得られるものとして理解されてはならない。特定の状況では、マルチタスキングおよび並列処理が有利な場合もある。さらに、上述した一実施形態で多様な構成の分離は、そのような分離が必ず必要であると理解されてはならず、説明したプログラムコンポーネントおよびシステムは一般的に単一ソフトウェア製品に共に統合されたり多数のソフトウェア製品にパッケージできるものと理解しなければならない。

以上、添付する図面を参照して本開示の実施形態を説明したが、本開示が属する技術分野における通常の知識を有する者は、その技術的思想や必須の特徴を変更せず本開示が他の具体的な形態に実施できることを理解することができる。したがって、上記一実施形態はすべての面で例示的なものであり、限定的なものではないと理解しなければならない。本開示の保護範囲は、下記の請求範囲によって解釈されるべきであり、それと等しい範囲内にあるすべての技術思想は本開示によって定義される技術的思想の権利範囲に含まれると解釈しなければならない。

Claims

少なくとも一つのコンピューティング装置によって行われるアノテーション作業管理方法であって、
細胞及び組織のうちの少なくとも一方の画像を含む、アノテーション対象である病理スライド画像を取得する段階；
前記取得された病理スライド画像のデータセットタイプおよびパネル類型のうち少なくとも一つを決定する段階；および
前記決定されたデータセットタイプおよびパネル類型のうち少なくとも一つに基づいて、前記病理スライド画像に含まれる複数の候補パッチのうちから少なくとも一つのアノテーション作業対象パッチを選定する段階を含み、
前記データセットタイプおよび前記パネル類型のうち少なくとも一つを決定するとき、前記パネル類型は、細胞（ｃｅｌｌ）パネル、組織（ｔｉｓｓｕｅ）パネルおよびストラクチャ（ｓｔｒｕｃｔｕｒｅ）パネルを含む複数のパネルのうちの少なくとも一つに決定される、アノテーション作業管理方法。
前記少なくとも一つのアノテーション作業対象パッチを選定する段階は、
前記病理スライド画像でサンプリングされた複数の候補パッチを選定し、
前記選定された複数の候補パッチそれぞれのコンフィデンススコアおよびエントロピー値のうち少なくとも一つを算出し、
前記複数の候補パッチそれぞれに対して算出された少なくとも一つのコンフィデンススコアおよびエントロピー値に基づいて、前記複数の候補パッチのうちから少なくとも一つのアノテーション作業対象パッチを選定する段階を含む、請求項１に記載のアノテーション作業管理方法。
前記複数の候補パッチを選定する段階は、
前記病理スライド画像と関連する情報に基づいて、前記病理スライド画像の少なくとも一部を分割し、
前記分割された少なくとも一部で前記複数の候補パッチを選定する段階を含む、請求項２に記載のアノテーション作業管理方法。
前記少なくとも一つのアノテーション作業対象パッチを選定する段階は、
前記病理スライド画像でサンプリングされた複数の候補パッチを選定し、
前記選定された複数の候補パッチそれぞれに対する機械学習モデルのミス予測確率（ｍｉｓｓ−ｐｒｅｄｉｃｔｉｏｎ）を算出し、
前記算出されたミス予測確率に基づいて、前記複数の候補パッチのうちから前記少なくとも一つのアノテーション作業対象パッチを選定する段階を含む、請求項１に記載のアノテーション作業管理方法。
前記選定された少なくとも一つのアノテーション作業対象パッチを少なくとも一つのアノテータアカウントに割り当てる段階をさらに含む、請求項１に記載のアノテーション作業管理方法。
前記少なくとも一つのアノテータアカウントに割り当てる段階は、
前記決定されたデータセットタイプおよびパネル類型のうち少なくとも一つと、アノテータのアノテーション遂行履歴に基づいて、前記少なくとも一つのアノテーション作業対象パッチを少なくとも一つのアノテータアカウントに割り当てる段階を含む、請求項５に記載のアノテーション作業管理方法。
前記割り当てられたアノテーションアカウントから、前記少なくとも一つのアノテーション作業対象パッチに対するアノテーション結果を取得する段階；
前記少なくとも一つのアノテーション作業対象パッチに対する機械学習モデルの結果と前記取得されたアノテーション結果を比較する段階；および
比較結果に基づいて、前記少なくとも一つのアノテーション作業対象パッチの再割り当ての可否を判断する段階をさらに含む、請求項５に記載のアノテーション作業管理方法。
前記少なくとも一つのアノテーション作業パッチに対して割り当てられた複数のアノテーションアカウントから、前記少なくとも一つのアノテーション作業対象パッチに対するアノテーション結果を取得する段階；
前記複数のアノテーションアカウントそれぞれのアノテーション結果を比較する段階；および
比較結果に基づいて、前記少なくとも一つのアノテーション作業対象パッチの再割り当ての可否を判断する段階をさらに含む、請求項５に記載のアノテーション作業管理方法。
前記データセットタイプは、
前記病理スライド画像の用途を示し、前記病理スライド画像の用途は、機械学習モデルの学習（ｔｒａｉｎｉｎｇ）用途および前記機械学習モデルの検証（ｖａｌｉｄａｔｉｏｎ）用途のうち一つ以上を含む、請求項１に記載のアノテーション作業管理方法。
前記決定する段階は、
前記病理スライド画像を機械学習モデルに入力して出力された出力値に基づいて、前記病理スライド画像のデータセットタイプおよびパネル類型のうち少なくとも一つを決定する段階を含む、請求項１に記載のアノテーション作業管理方法。
一つ以上のインストラクション（ｉｎｓｔｒｕｃｔｉｏｎｓ）を保存するメモリ；および
前記保存された一つ以上のインストラクションを実行することによって、
細胞及び組織のうちの少なくとも一方の画像を含む、アノテーション対象である病理スライド画像を取得し、前記取得された病理スライド画像のデータセットタイプおよびパネル類型のうち少なくとも一つを決定し、前記決定されたデータセットタイプおよびパネル類型のうち少なくとも一つに基づいて、前記病理スライド画像に含まれる複数の候補パッチのうちから少なくとも一つのアノテーション作業対象パッチを選定するようにするプロセッサを含み、
前記データセットタイプおよび前記パネル類型のうち少なくとも一つを決定するとき、前記パネル類型は、細胞（ｃｅｌｌ）パネル、組織（ｔｉｓｓｕｅ）パネルおよびストラクチャ（ｓｔｒｕｃｔｕｒｅ）パネルを含む複数のパネルのうちの少なくとも一つに決定される、アノテーション作業管理装置。
前記プロセッサは、
前記病理スライド画像でサンプリングされた複数の候補パッチを選定し、
前記選定された複数の候補パッチそれぞれのコンフィデンススコアおよびエントロピー値のうち少なくとも一つを算出し、
前記複数の候補パッチそれぞれに対して算出された少なくとも一つのコンフィデンススコアおよびエントロピー値に基づいて、前記複数の候補パッチのうちから少なくとも一つのアノテーション作業対象パッチを選定するようにする、請求項１１に記載のアノテーション作業管理装置。
前記プロセッサは、
前記病理スライド画像と関連する情報に基づいて、前記病理スライド画像の少なくとも一部を分割し、
前記分割された少なくとも一部で前記複数の候補パッチを選定するようにする、請求項１２に記載のアノテーション作業管理装置。
前記プロセッサは、
前記病理スライド画像でサンプリングされた複数の候補パッチを選定し、
前記選定された複数の候補パッチそれぞれに対する機械学習モデルのミス予測確率（ｍｉｓｓ−ｐｒｅｄｉｃｔｉｏｎ）を算出し、
前記算出されたミス予測確率に基づいて、前記複数の候補パッチのうちから前記少なくとも一つのアノテーション作業対象パッチを選定するようにする、請求項１１に記載のアノテーション作業管理装置。
前記プロセッサは、
前記選定された少なくとも一つのアノテーション作業対象パッチを少なくとも一つのアノテータアカウントに割り当てるようにする、請求項１１に記載のアノテーション作業管理装置。
前記プロセッサは、
前記決定されたデータセットタイプおよびパネル類型のうち少なくとも一つと、アノテータのアノテーション遂行履歴に基づいて、前記少なくとも一つのアノテーション作業対象パッチを少なくとも一つのアノテータアカウントに割り当てるようにする、請求項１５に記載のアノテーション作業管理装置。
前記プロセッサは、
前記割り当てられたアノテーションアカウントから、前記少なくとも一つのアノテーション作業対象パッチに対するアノテーション結果を取得し、
前記少なくとも一つのアノテーション作業対象パッチに対する機械学習モデルの結果と前記取得されたアノテーション結果を比較し、
比較結果に基づいて、前記少なくとも一つのアノテーション作業対象パッチの再割り当ての可否を判断するようにする、請求項１５に記載のアノテーション作業管理装置。
前記プロセッサは、
前記少なくとも一つのアノテーション作業パッチに対して割り当てられた複数のアノテーションアカウントから、前記少なくとも一つのアノテーション作業対象パッチに対するアノテーション結果を取得し、
前記複数のアノテーションアカウントそれぞれのアノテーション結果を比較し、
比較結果に基づいて、前記少なくとも一つのアノテーション作業対象パッチの再割り当ての可否を判断するようにする、請求項１５に記載のアノテーション作業管理装置。
前記データセットタイプは、
前記病理スライド画像の用途を示し、前記病理スライド画像の用途は、機械学習モデルの学習（ｔｒａｉｎｉｎｇ）用途および前記機械学習モデルの検証（ｖａｌｉｄａｔｉｏｎ）用途のうち一つ以上を含む、請求項１１に記載のアノテーション作業管理装置。
前記プロセッサは、
前記病理スライド画像を機械学習モデルに入力して出力された出力値に基づいて、前記病理スライド画像のデータセットタイプおよびパネル類型のうち少なくとも一つを決定するようにする、請求項１１に記載のアノテーション作業管理装置。