JP2022505138A

JP2022505138A - 汎用バイオマーカモデル

Info

Publication number: JP2022505138A
Application number: JP2021521051A
Authority: JP
Inventors: イー．バーンバウム，ベンジャミン; アムブワニ，ギートゥ
Original assignee: フラティロンヘルス，インコーポレイテッド
Priority date: 2018-10-29
Filing date: 2019-10-29
Publication date: 2022-01-14
Also published as: EP3874513A1; WO2020092316A1; US20210257106A1

Abstract

バイオマーカに基づいてコホートの候補を識別するためのモデル支援システムが少なくとも１つのプロセッサを含み得る。プロセッサは、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第１のバイオマーカを汎用バイオマーカモデルに提供することであって、汎用バイオマーカモデルは情報を使用して１つ又は複数の第２のバイオマーカに基づいて訓練され、第１のバイオマーカは１つ又は複数の第２のバイオマーカと異なる、提供すること、第１のバイオマーカの検査を受けている第１の尤度閾値を上回る個人集団の第１のグループを示す第１の出力を汎用バイオマーカモデルから得ること、及び個人集団の第１のグループの中の個人がコホートの候補かどうかを第１の出力に基づいて判定することを行うようにプログラムされ得る。

Description

関連出願の相互参照
[001] 本願は、２０１８年１０月２９日に出願された米国仮特許出願第６２／７５１，９９０号の優先権の利益を主張する。上記の出願の内容は参照によりその全体を本明細書に援用する。

背景
技術分野
[002] 本開示はコホートの選択に関し、より詳細にはコホートを自動選択するために１つ又は複数の汎用モデルを使用することに関する。

背景情報
[003] 癌を治療する際及び他の様々な病気を治療する際、患者向けの個別化治療を提供する動きが増している。一例として、より効果的な治療を提供するために、個人の腫瘍細胞のゲノムマーカに基づいて特定の形態の癌（例えば肺癌、乳癌等）を有する患者に個別化治療計画を提供することができる。腫瘍細胞のそれぞれは、体内の他の細胞とどのように相互作用するのかを定め、最も効果的な治療を可能にし得る生物学的経路の種類を定める特定の遺伝子プロファイルを有する場合がある。

[004] 従って医療業界がより個別化された治療計画へと移行するにつれ、特定の治療歴及び／又は特性を有する患者を識別できるようになることが益々重要になり得る。癌患者の例に戻り、特定のバイオマーカを示す患者を識別することが望ましい場合がある。例えば患者は、特定のバイオマーカの検査を受けているかどうか及び治療の結果に基づいて特定の治療、特定の臨床検査、又は他の同様のグループの候補として識別することができる。しかし、特定のバイオマーカを有する患者を識別することは大量の医療データを調べる場合に困難であり得る。例えばかかる識別は、患者がバイオマーカの検査を受けているかどうかの指示を求めて及び検査の結果を見出すために数千件の医療記録をくまなく探すことを必要とし得る。問題を更に複雑にするのは、個々の患者がしばしば数百の異なるバイオマーカの検査を受け、その多くが患者の治療の基礎として使用されていないことである。加えて、医療記録はしばしば手書きのメモ又は他のテキストを含み、そのことはこのプロセスの自動化をより困難にし得る。一部の解決策は、特定のバイオマーカについて患者が検査されているかどうかを判定するための機械学習モデルを開発することを含み得る。例えば患者が特定のバイオマーカの検査を受けているかどうかが分かっている場合、１組の医療記録に基づいてモデルを訓練することができる。しかし、かかる解決策はバイオマーカごとに個別化されたモデルを必要とし、それは検査される可能性があるバイオマーカが多岐にわたること及び特定のバイオマーカについて入手可能なデータが限られていることを理由に実現可能でない場合がある。

[005] 従って、特定の治療特性を有する患者を識別するための改善された手法が求められている。解決策は、モデルを訓練するために使用された特定のバイオマーカ（又は他の特性）に依存しない機械学習モデルを開発できるようにするものとする。従って、汎用バイオマーカモデルを使用し、特定のバイオマーカに関連する医療データの可用性にかかわらずその特定のバイオマーカに関連する患者を識別することができる。

概要
[006] 本開示と合致する実施形態は、特定のバイオマーカに関連する候補を識別するためのシステム及び方法を含む。一実施形態では、モデル支援システムが少なくとも１つのプロセッサを含み得る。プロセッサは、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第１のバイオマーカを汎用バイオマーカモデルに提供することであって、汎用バイオマーカモデルは情報を使用して１つ又は複数の第２のバイオマーカに基づいて訓練され、第１のバイオマーカは１つ又は複数の第２のバイオマーカと異なる、提供すること、第１のバイオマーカの検査を受けている第１の尤度閾値を上回る個人集団の第１のグループを示す第１の出力を汎用バイオマーカモデルから得ること、及び個人集団の第１のグループの中の個人がコホートの候補かどうかを第１の出力に基づいて判定することを行うようにプログラムされ得る。

[007] 別の実施形態では、コンピュータによって実装される方法がバイオマーカに基づいてコホートの候補を識別することができる。この方法は、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第１のバイオマーカを汎用バイオマーカモデルに提供することであって、汎用バイオマーカモデルは情報を使用して１つ又は複数の第２のバイオマーカに基づいて訓練され、第１のバイオマーカは１つ又は複数の第２のバイオマーカと異なる、提供すること、第１のバイオマーカの検査を受けている第１の尤度閾値を上回る個人集団の第１のグループを示す第１の出力を汎用バイオマーカモデルから得ること、及び個人集団の第１のグループの中の個人がコホートの候補かどうかを第１の出力に基づいて判定することを含み得る。

[008] 別の実施形態では、モデル支援システムが少なくとも１つのプロセッサを含み得る。プロセッサは、個人集団に関連する情報を導出することができるデータベースにアクセスすること、コホートに関連する第１の特性を汎用モデルに提供することであって、汎用モデルは情報を使用して１つ又は複数の第２の特性に基づいて訓練され、第１の特性は１つ又は複数の第２の特性と異なる、提供すること、第１の特性に関連している第１の尤度閾値を上回る個人集団の第１のグループを示す第１の出力を汎用モデルから得ること、及び個人集団の第１のグループの中の個人がコホートの候補かどうかを第１の出力に基づいて判定することを行うようにプログラムされ得る。

[009] 開示する他の実施形態と合致し、非一時的コンピュータ可読記憶媒体が、少なくとも１つの処理装置によって実行され本明細書に記載する方法の何れかを実行するプログラム命令を含み得る。

図面の簡単な説明
[010] 本明細書に組み込まれ本明細書の一部を構成する添付図面は説明と共に、様々な例示的実施形態の原理を示しそれを説明する役割を果たす。

[011]本開示と合致する実施形態を実装するための例示的なシステム環境を示すブロック図である。 [012]本開示と合致する、患者の例示的な医療記録を示すブロック図である。 [013]本開示と合致する実施形態を実装するための例示的な機械学習プロセスを示すブロック図である。 [014]本開示と合致する汎用バイオマーカモデルを構築するためのプロセスの一例を示すブロック図である。 [015]本開示と合致する汎用バイオマーカモデルを構築するための特徴を抽出するための技法の一例を示すブロック図である。 [016]本開示と合致する、バイオマーカに基づいてコホートの候補を識別するための例示的プロセスを示す流れ図である。

詳細な説明
[017] 以下の詳細な説明は添付図面を参照する。可能な限り、図面及び以下の説明の中で同じ参照番号を使用して同じ又は同様の部分を指す。幾つかの例示的実施形態を本明細書に記載するが、修正形態、適応形態、及び他の実装形態が可能である。例えば図中に示すコンポーネントに置換、追加、又は修正を加えることができ、開示する方法についてステップを置換し、並べ替え、除去し、又は追加することにより、本明細書に記載の例示的方法を修正することができる。従って、以下の詳細な説明は開示する実施形態及び例に限定されない。むしろ適切な範囲は添付の特許請求の範囲によって定められる。

[018] 本明細書の実施形態は、コンピュータによって実装される方法、有形の非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータによって実装される方法は、例えば非一時的コンピュータ可読記憶媒体から命令を受信する少なくとも１つのプロセッサ（例えば処理装置）によって実行され得る。同様に、本開示と合致するシステムは少なくとも１つのプロセッサ（例えば処理装置）及びメモリを含むことができ、メモリは非一時的コンピュータ可読記憶媒体であり得る。本明細書で使用するとき、非一時的コンピュータ可読記憶媒体は、少なくとも１つのプロセッサによって読み出し可能な情報又はデータが記憶され得る任意の種類の物理メモリを指す。例はランダムアクセスメモリ（ＲＡＭ）、読取専用メモリ（ＲＯＭ）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク、及び他の任意の知られている物理記憶媒体を含む。「メモリ（memory）」及び「コンピュータ可読記憶媒体（computer-readable storage medium）」等の単数形の用語は、複数のメモリ及び／又はコンピュータ可読記憶媒体等の複数の構造を更に指す場合がある。本明細書で言及するとき、「メモリ」は別段の定めがない限り任意の種類のコンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、本明細書の実施形態と合致するステップ又は段階をプロセッサに行わせるための命令を含む、少なくとも１つのプロセッサによって実行するための命令を記憶することができる。加えて、コンピュータによって実装される方法を実装する際に１つ又は複数のコンピュータ可読記憶媒体を利用することができる。「コンピュータ可読記憶媒体」という用語は有形のアイテムを含み、搬送波及び過渡信号を除去するものと理解すべきである。

[019] 本開示の実施形態は、汎用モデルに基づいて患者を識別するためのシステム及び方法を提供する。開示するシステム及び方法のユーザは、患者データにアクセスし及び／又はそれを分析すること、及び／又は選択された患者コホートを使用して実験を行うことを望み得る任意の個人を包含し得る。従って本開示の全体を通して、開示するシステム及び方法の「ユーザ」への言及は医師、研究者、健康管理機関における品質保証部門、及び／又は他の任意の個人を包含し得る。

[020] 図１は、以下で詳細に説明する、本開示と合致する実施形態を実装するための例示的なシステム環境１００を示す。図１に示すように、システム環境１００は、クライアント装置１１０、データソース１２０、システム１３０、及び／又はネットワーク１４０を含む幾つかのコンポーネントを含む。これらのコンポーネントの数及び配置は例示であり、説明目的で示していることが本開示から理解されよう。本開示の教示及び実施形態から逸脱することなしにコンポーネントの他の配置及び数も使用することができる。

[021] 図１に示すように、例示的なシステム環境１００はシステム１３０を含む。システム１３０は、ネットワーク上でエンティティから情報を受信し、情報を処理し、情報を記憶し、ネットワーク上で他のエンティティに情報を表示／伝送するように構成される１つ又は複数のサーバシステム、データベース、及び／又は計算システムを含み得る。従って一部の実施形態では、ネットワークがクラウドによる共有、記憶、及び／又は計算を促進し得る。一実施形態では、システム１３０が処理エンジン１３１及び１つ又は複数のデータベース１３２を含むことができ、それらは図１のシステム１３０を表す破線によって境界を付けられた領域内に図示されている。処理エンジン１４０は、１つ又は複数の汎用プロセッサ、例えば中央処理装置（ＣＰＵ）、グラフィックス処理装置（ＧＰＵ）等、及び／又は１つ若しくは複数の専用プロセッサ、例えば特定用途向け集積回路（ＡＳＩＣ）、書換可能ゲートアレイ（ＦＰＧＡ）等の少なくとも１つの処理装置を含み得る。

[022] 環境１００のコンポーネント（システム１３０、クライアント装置１１０、及びデータソース１２０を含む）は、ネットワーク１４０を介して互いに又は他のコンポーネントと通信することができる。ネットワーク１４０は、インターネット、広域ネットワーク（ＷＡＮ）、有線ローカルエリアネットワーク（ＬＡＮ）、無線ＷＡＮ（例えばＷｉＭＡＸ）、無線ＬＡＮ（例えばＩＥＥＥ８０２．１１等）、メッシュネットワーク、モバイル／セルラネットワーク、企業又は私設データネットワーク、ストレージエリアネットワーク、公衆ネットワークを用いた仮想私設ネットワーク、近距離無線通信技法（例えばBluetooth、赤外線等）、又は他の様々な種類のネットワーク通信を含み得る。一部の実施形態では、これらの形態のネットワーク及びプロトコルの２つ以上にわたって通信が行われ得る。

[023] システム１３０は、患者及び／又は患者が受ける治療に関連する特定の性質又は特性に基づいて患者を識別するように構成され得る。一部の実施形態では、特性が特定のバイオマーカに基づき得る。例えばシステム１３０は、特定のバイオマーカの検査を受けているかどうか、バイオマーカに関連する具体的な検査結果（陽性反応、陰性反応が出ていること等）、又は他の様々な特性に基づいて患者を識別するように構成され得る。本開示の全体を通してバイオマーカ又はバイオマーカの状態に基づく患者の選択を使用するが、開示するシステム、方法、及び／又は技法は他の患者識別手段にも同様に使用できることが理解されよう（例えば患者が特定の薬を処方されているかどうか、患者が特定の治療を受けたかどうか等）。同様に他の実施形態では、開示するシステム、方法、及び／又は技法は汎用モデルに基づいて他の個人、対象、エンティティ等を識別するために同様に使用することができることが理解されよう。

[024] システム１３０は、データソース１２０又はネットワーク１４０内の他のソースから患者の医療情報及び他の情報を受信するように構成することができる。一部の実施形態では、医療情報は１つ又は複数の医療記録の形で記憶することができ、各医療記録は患者に関連する。より具体的にはシステム１３０は、データソース１２０を含む様々なデータソースからネットワーク１４０を介して伝送されるデータを受信し記憶し、受信したデータを処理し、処理に基づくデータ及び結果をクライアント装置１１０に伝送するように構成され得る。データソース１２０は患者に関する医療情報の多岐にわたるソースを含み得る。例えばデータソース１２０は、医師、看護師、専門家、相談員、病院、クリニック等、患者の医療提供者を含み得る。データソース１２０は、放射線又は他のイメージング検査室、血液学検査室、病理検査室等の検査室も含み得る。データソース１２０は保険会社又は他の任意の患者データソースも含み得る。

[025] システム１３０は、医療記録に基づいて特定の特性を有する患者を識別するための１つ又は複数のモデルを開発し使用するように構成され得る。例えばシステム１３０は、訓練データに基づいてモデルを開発するために機械学習技法を使用することができる。一部の実施形態では、システム１３０が汎用モデルを開発することができ、汎用モデルは１組の特定の特性又は性質に基づいて訓練することができるが、同様に扱うことができる他の特性を患者医療記録内で有する患者を識別するためにより広く使用され得る。例えば特定のバイオマーカに関連する患者を識別するためにシステム１３０が使用される場合、システム１３０は汎用バイオマーカモデルを開発し又は実装することができる。バイオマーカごとに別個のモデルを開発することが望ましい可能性があるが、それは実現可能でない場合がある。例えば一部のバイオマーカは広範な患者群の中で一般に検査され得るが、他のバイオマーカは少数の患者サンプルに対して相対的に低頻度で検査され得る。従って、サンプルデータが容易に入手可能であるより一般的なバイオマーカについては特定のバイオマーカモデルを開発することが可能であり得るが、検査され得るバイオマーカが膨大な量あること及び一部のバイオマーカについて入手可能であり得るデータセットが限られていることを理由に、全てのバイオマーカについて特定のバイオマーカを開発することは困難過ぎる又は費用がかかり過ぎる場合がある。

[026] 従って、第１の組に含まれる１つ又は複数のバイオマーカを使用して訓練され得る汎用バイオマーカモデルを開発することができる。第１の組のバイオマーカは、正確な又は高信頼の機械学習モデルを開発するために医療記録又は他のデータ内で十分な情報を入手できるバイオマーカであり得る。医療記録は多くのバイオマーカを同様のやり方で（例えば同様の構造を用いて、共通の用語を使用して等）記述する及び／又は論じることができるので、汎用バイオマーカモデルは第１の組に含まれるバイオマーカ以外のバイオマーカに使用することができる。例えば一般的なバイオマーカ（例えば第１の組に含まれるもの）に関する検査結果を記述する医師は、他のバイオマーカに関連する検査結果を同様のやり方で記述し得る。その結果、第１の組のバイオマーカの検査を受けている患者だけでなく、第１の組の中のバイオマーカ以外のバイオマーカの検査を受けている患者も識別するように汎用バイオマーカモデルを構成することができる。システム１３０は受信した医療結果に対して１つ又は複数の汎用モデルを適用して、特定の特性に関連する（例えば特定のバイオマーカの検査を受けている、特定のバイオマーカの陽性反応が出た等の）患者を識別することができる。汎用バイオマーカモデルを使用することは、所与のバイオマーカ識別子についてテキスト検索を単に行うよりも正確な結果をもたらし得る。例えば「ＥＧＦＲの検査を見合わせる」を含む医師のメモは患者がＥＧＦＲバイオマーカの検査を受けていないことを示し得るが、テキスト検索では結果が依然として表示される。これは一例であり、バイオマーカと周囲のテキストとの間にはより複雑な関係が生じ得ることが理解されよう。汎用モデルをバイオマーカに関して説明するが、これは例として示しており、汎用モデルは他の特性（例えば処方薬、施された治療、他の形式の検査等）に基づいて患者を識別するために開発できることが理解されよう。

[027] システム１３０は、ネットワーク１４０を介して１つ又は複数のクライアント装置１１０と更に通信することができる。例えばシステム１３０は、データソース１２０からの情報を分析することに基づく結果をクライアント装置１１０に提供することができる。クライアント装置１１０は、ネットワーク１４０を介してデータを送受信できる任意のエンティティ又は装置を含み得る。例えばクライアント装置１１０は、サーバ又はデスクトップ又はラップトップコンピュータ等の計算装置を含み得る。クライアント装置１１０は、モバイル装置、タブレット、ウェアラブルデバイス（即ちスマートウォッチ、埋め込み型装置、フィットネストラッカ等）、仮想マシン、ＩｏＴ装置、又は他の様々な技術等の他の装置も含み得る。一部の実施形態では、クライアント装置１１０はネットワーク１４０を介して、特定のバイオマーカの検査を受けている患者のクエリ又は患者に関する他の様々な情報のクエリ等、１人又は複数人の患者に関する情報のクエリをシステム１３０に伝送することができる。

[028] 一部の実施形態では、システム１３０が１つ又は複数のコホートを選択するように構成され得る。本明細書で使用するとき、コホートは少なくとも１つの共通の特性を共有する又は１組の既定の基準を満たす属性を示す情報の任意のグループ（人、物、対象等）を含み得る。一部の実施形態では、コホートは医療的見地から少なくとも１つの共通の特性（例えば人口学的特性又は臨床的特性）を示す個人を含み得る。個人は、１つ又は複数のグループ（例えば対象、人、物等）の任意の要素を含み得る。例えば特定の種類の病気を有すると判定された母集団からの個人、又はより具体的にはその病気に関連する特定のバイオマーカの検査を受けている母集団からの個人を識別し、共通のコホートに入れることができる。コホートは様々な目的で構築することができる。一部の例では、特定の病気の疫学、治療法、病気の死亡率又は進行等の結果が特定の変数にどのように依存するのか等、特定の病気の特性を分析するために使用されるグループを形成するためにコホートを構築することができる。

[029] システム環境１００の様々なコンポーネントは、メモリ、中央処理装置（ＣＰＵ）、及び／又はユーザインタフェースを含むハードウェア、ソフトウェア、及び／又はファームウェアのアセンブリを含み得る。メモリは、フロッピディスク、ハードディスク、又は磁気テープを含む磁気記憶域、ソリッドステートディスク（ＳＳＤ）又はフラッシュメモリ等の半導体記憶域、光ディスク記憶域、又は光磁気ディスク記憶域等の物理記憶媒体によって実装される任意の種類のＲＡＭ又はＲＯＭを含み得る。ＣＰＵは、メモリ内に記憶される１組のプログラム可能命令又はソフトウェアに従ってデータを処理するための１つ又は複数のプロセッサを含み得る。各プロセッサの機能は、単一の専用プロセッサによって又は複数のプロセッサによって提供され得る。更にプロセッサは、デジタル信号プロセッサ（ＤＳＰ）ハードウェア、又はソフトウェアを実行可能な他の任意のハードウェアを制限なしに含み得る。任意選択的なユーザインタフェースは、ディスプレイモニタ、キーボード、及び／又はマウス等の任意の種類の又は組み合わせの入力／出力装置を含み得る。

[030] システム環境１００内で伝送され及び／又はやり取りされるデータはデータインタフェース上で生じ得る。本明細書で使用するとき、データインタフェースはシステム環境１００の２つ以上のコンポーネントがデータをやり取りする任意の境界を含み得る。例えば環境１００は、ソフトウェア、ハードウェア、データベース、装置、人間、又は上記のものの任意の組み合わせの間でデータをやり取りすることができる。更に、システム環境１００のコンポーネント及び関係する実施形態の特徴を実装するためにソフトウェア、プロセッサ、データ記憶装置、及びネットワークの任意の適切な構成を選択できることが理解されよう。

[031] 図２は、患者に関する例示的な医療記録２００を示す。医療記録２００はデータソース１２０から受信され、上記で説明したように患者を識別するためにシステム１３０によって処理され得る。図２に示すように、データソース１２０（又は他の場所）から受信される記録は構造化データ２１０及び非構造化データ２２０の両方を含み得る。構造化データ２１０は、性別、年齢、人種、体重、生命兆候、検査結果、診断日、診断の種類、病期（例えば請求コード）、治療のタイミング、行われた処置、訪問日、診療の種類、保険業者及び開始日、投薬指示、投薬管理、又は患者に関する他の任意の測定可能データ等、患者に関する定量化可能な又は分類可能なデータを含み得る。非構造化データは、医師のメモ又は患者の検査報告書等の定量化不能な又は容易に分類できない患者に関する情報を含み得る。非構造化データ２２０は、治療計画についての医師の記述、訪問時に何が起きたのかを説明するメモ、患者の調子についての記述、放射線治療報告書、病理報告書等の情報を含み得る。一部の実施形態では、非構造化データは１つ又は複数のバイオマーカに関連するデータを含み得る。例えば非構造化データは、特定のバイオマーカに関連する検査結果（例えば患者が検査を受けているかどうか、検査の結果、結果の分析等）について論じる（例えば医師、看護師、実験助手等の）メモを含み得る。

[032] データソース１２０から受信されるデータ内では、各患者が１人又は複数人の医療専門家又は患者によって生成される１つ又は複数の記録によって表され得る。例えば患者に関連する医者、患者に関連する看護師、患者に関連する理学療法士等が患者の医療記録をそれぞれ生成することができる。一部の実施形態では、１つ又は複数の記録を同じデータベース内で照合し及び／又は記憶することができる。他の実施形態では、１つ又は複数の記録を複数のデータベースにわたって分散させることができる。一部の実施形態では、記録が記憶され及び／又は複数の電子データ表現を与えられ得る。例えば患者記録はテキストファイル、ポータブルドキュメントフォーマット（ＰＤＦ）ファイル、拡張マーク付け言語（ＸＭＬ）ファイル等の１つ又は複数の電子ファイルとして表され得る。文書がＰＤＦファイル、画像、又はテキストのない他のファイルとして記憶される場合、電子データ表現は光学的文字認識プロセスから導出される文書に関連するテキストも含み得る。一部の実施形態では、非構造化データは抽出プロセスによって捕捉され得るのに対し、構造化データは医療専門家によって入力され又はアルゴリズムを使用して計算され得る。

[033] 図３は、本開示と合致する実施形態を実装するための例示的な機械学習システム３００を示す。機械学習システム３００は、システム１３０（図１）の一部として実装することができる。例えば機械学習システム３００は処理エンジン１３１のコンポーネントとすることができ、又は処理エンジン１３１を使用して実行されるプロセスであり得る。開示する実施形態によれば、機械学習システム３００は患者に関連する１組の訓練データに基づいて汎用モデル（例えば教師あり機械学習システム）を生成することができ、そのモデルを使用して特定の特性に関連する患者を識別することができる。例えば図３に示すように、機械学習システム３００は検査バイオマーカ３１５に関連する患者を識別するための汎用バイオマーカモデル３３０を構築することができる。機械学習システム３００は訓練プロセスによって、例えば訓練アルゴリズム３２０を使用してモデル３３０を開発することができる。

[034] モデル３３０の訓練は訓練データセット３１０を使用することを含むことができ、訓練データセット３１０はモデルを開発するために訓練アルゴリズム３２０内に入力され得る。訓練データ３１０は、様々な訓練バイオマーカ３１１に関連する結果が既に知られている可能性がある複数の患者医療記録３１２（例えば「医療記録１」、「医療記録２」等）を含むことができる。例えば訓練バイオマーカ３１１は、患者が訓練バイオマーカ３１１の検査を受けている１つ又は複数の医療記録３１２に関連することができる。一部の実施形態では、各訓練バイオマーカ３１１が１つ又は複数の医療記録３１２に関連し得る。例えば図３に示すように、訓練バイオマーカＡは複数の医療記録３１２（例えば医療記録１及び医療記録２）に関連し得る。訓練バイオマーカ３１１は、汎用バイオマーカモデル３３０を正確に構築するのに十分なデータが入手可能なバイオマーカを表すことができる。

[035] 一部の実施形態では、訓練データ３１０を訓練アルゴリズム３２０内への入力前にクリーニングし、調整し、及び／又は操作して訓練プロセスを促進することもできる。機械学習システム３００は１つ又は複数の特徴（又は特徴ベクトル）を記録から抽出し、訓練アルゴリズム３２０を適用して特定のバイオマーカについて論じるテキストと、患者がそのバイオマーカの検査を受けているかどうか及び検査結果が何を示し得るのかとの間の相関関係を求めることができる。これらの特徴は、図２に関して上記で説明した構造化データ及び／又は非構造化データから抽出することができる。例えば訓練プロセスは、非構造化データ内のバイオマーカ識別子にまつわる単語又は単語の組み合わせを、患者がバイオマーカの検査を受けているかどうか、検査の結果等に相関させることができる。汎用モデル３３０を構築するためのプロセスを図４Ａに関して以下でより詳細に説明する。

[036] モデル３３０が構築されると、検査バイオマーカ３３１等の検査データ及び医療記録３３２が汎用バイオマーカモデル３３０に入力され得る。医療記録４４０は上記の医療記録２００に対応し得る。各患者に１つ又は複数の医療記録が関連するように、例えば医療記録４４０は複数の患者に関連する構造化データ及び非構造化データを含むことができる。汎用モデル３３０は医療記録４４０から特徴を抽出して出力３５０を生成することができる。出力３５０は、検査バイオマーカ３３１にも関連する、患者に関連する医療記録３３２を識別することができる。例えば出力３５０は、検査バイオマーカ３１１の検査を受けている患者を識別することができる。一部の実施形態では、出力３５０は検査バイオマーカ３１１に関連する他の患者群を示し得る。例えば出力３５０は、患者が検査バイオマーカ３３１の陽性反応が出たこと、検査バイオマーカ３３１の陰性反応が出たこと、バイオマーカ３３１に基づいて特定の病状を診断されたこと、検査バイオマーカ３３１に基づいて特定の治療を施されたこと等を示し得る。異なるグループ３５１のそれぞれは別個の汎用バイオマーカモデル３３０によって決定することができ、又は複数の出力３５０及び／又は患者群３５１を提供するように１つの汎用バイオマーカモデル３３０を構成することができる。

[037] 一部の実施形態では、患者が特定の尤度閾値を上回ることに基づいて患者を１つ又は複数のグループのために選択することができる。例えば汎用バイオマーカモデル３３０は、バイオマーカの検査を受けている、バイオマーカの陽性反応が出ている等の各患者の尤度値又は信頼値を生成することができる。汎用バイオマーカモデル３３０は、患者が特定の尤度閾値（例えば５０％、６０％、７０％、８０％、９０％、９９％等）又は信頼値の閾値を上回るかどうかに基づいてグループ３５１の１つ又は複数に含めるための患者を選択することができる。一部の実施形態では、効率及び性能の所望の水準に基づいて閾値が調節可能であり得る。例えば上記で説明したように、モデルは（モデルを開発するために使用されていないデータベースからの記録を含み得る）検査データに基づいて再訓練することができる。閾値を調節するために１つ又は複数の損失関数を使用することができる。

[038] 一部の実施形態では、上記で説明したようにコホートに含めるための患者を識別するために出力３５０を使用することができる。例えば、検査バイオマーカ３３１の検査を受けている患者、検査バイオマーカ３３１の陽性反応が出ている患者等を識別するために汎用バイオマーカモデル３３０を使用することができる。従って、患者がコホートの候補かどうかを更なる分析が判定し得る。一部の実施形態では、かかる分析は、個人がバイオマーカの検査を受けていること又はバイオマーカの陽性反応が出ていること等を個人に関連する医療記録に基づいてコホートに応じて確認することを含み得る。一部の実施形態では、確認が（例えば訓練された医療専門家によって行われる）人手によるプロセスであり得る。

[039] 一部の実施形態では、訓練データ３１０の残りの部分を使用して訓練済みのモデル３３０を検査し、その性能を評価することができる。例えば訓練データセット３１０の残りの部分内の各個人について、その患者に関連する医療記録から特徴ベクトルを抽出することができる。特徴ベクトルはモデル３３０に与えることができ、その個人に関する出力をその個人に関する既知の結果（例えばその個人が特定の訓練バイオマーカ３１１の陽性反応が出ているかどうか）と比較することができる。図３に示すように、モデル３３０の出力と訓練データセット３１０内の任意の個人について検査している既知のバイオマーカとの間の偏差を使用して性能測度３６０を生成することができる。性能測度３６０は、モデル３３０を更新して（例えばモデルを再訓練して）出力３５０と既知の患者の結果との間の偏差を減らすために使用することができる。例えばモデルの１つ又は複数の関数を追加し、除去し、又は修正することができる（例えば二次関数を三次関数に修正することができ、指数関数を多項式関数に修正すること等ができる）。従って、偏差は、モデル３３０内に入れられる特徴がどのように構築されるか、又はどのタイプのモデルが使用されるかを修正する決定を通知するために使用されてもよい。代替策として、一部の実施形態では回帰の１つ又は複数の重み（又はモデルがニューラルネットワークを含む場合はノードの１つ又は複数の重み）を調節して偏差を減らすことができる。偏差の水準が所望の限度内（例えば１０％、５％、又はそれ未満）である場合、患者の結果が未知であるデータセットに対して作用するのに適していると１つ又は複数のモデル３３０を見なすことができる。上記では「偏差」に関して説明したが、モデルの精度を測定するために１つ又は複数の損失関数を使用することもできる。例えば二乗損失関数、ヒンジ損失関数、ロジスティック損失関数、クロスエントロピ損失関数、又は他の任意の損失関数を使用することができる。かかる実施形態では、１つ又は複数の損失関数を減らす（更には少なくとも局所的に最小化する）ようにモデルの更新を構成することができる。

[040] 汎用バイオマーカモデル３３０の精度は他の様々なやり方で評価することができる。一部の実施形態では、汎用バイオマーカモデル３３０の精度は１つ又は複数のバイオマーカ固有モデルに基づいて評価することができる。例えば特定の訓練バイオマーカ３１１について特定のバイオマーカモデルを生成することができる。バイオマーカ固有モデルは上記の技法を使用して開発できるが、患者がその特定のバイオマーカの検査を受けたかどうかが分かっている医療記録に基づいて訓練され得る。汎用バイオマーカモデル３３０は、特定のバイオマーカの検査を受けている患者をバイオマーカ固有モデルと同程度に正確に又はバイオマーカ固有モデルと同様の精度で識別できるものとする。従って処理エンジン１３１は、バイオマーカ固有モデルからの出力を出力３５０と比較して汎用バイオマーカモデル３３０の精度を評価するように構成され得る。

[041] 他の実施形態では、汎用バイオマーカモデル３３０の精度はバイオマーカに関するテキスト検索に基づいて評価することができる。例えば処理エンジン１３１は、医療記録内の検査バイオマーカ３３１に対してベーシックテキスト検索を行い、汎用バイオマーカの検査を受けている患者群を識別することができる。汎用バイオマーカモデル３３０は、情報片から追加情報を収集できるのでベーシックテキスト検索よりも性能が優れているはずである。従って、汎用バイオマーカモデル３３０の精度を評価するためにテキスト検索の結果と出力３５０との間の比較を使用することができる。更に、汎用バイオマーカモデル３３０が、テキスト検索において識別されなかった医療記録を識別したかどうかを判定すること等、汎用バイオマーカモデル３３０の不正確さを示す可能性のある他の様々な診断クエリを実行することができる。

[042] 図４Ａは、本開示と合致する汎用バイオマーカモデルを構築するためのプロセス４００の一例を示すブロック図である。例えばプロセス４００は、図３に関して上記で論じたように訓練データセット３３０を使用して汎用バイオマーカモデル３３０を構築するために使用することができる。

[043] 図４Ａに示すように、モデルを構築する際に使用するための関連する訓練バイオマーカ４１０を選択することができる。例えば訓練バイオマーカ４１０は、患者が特定のバイオマーカに関連するかどうかの人手による主観的な判断を行うように訓練された医療専門家によって選択され得る。「ＥＧＦＲ」及び「ＡＬＫ」のバイオマーカを例として示すが、汎用バイオマーカモデル３３０は任意の適切なバイオマーカ又は他のデータを使用して構築できることが理解されよう。訓練バイオマーカ４１０は、汎用バイオマーカモデル３３０を正確に構築するのに十分なデータが入手可能なバイオマーカを表すことができる。訓練バイオマーカ４１０は上記で論じた訓練バイオマーカ３１１に対応し得る。

[044] 訓練バイオマーカ４１０は情報片抽出４１２に入力することができ、情報片抽出４１２ではバイオマーカ４１０に関連するテキストが患者医療記録から抽出される。患者の医療記録の文書の幾つか又は一部は電子的に入手できる場合があるが、記録内のタイプ入力されたテキスト、手書きのテキスト、又は印刷されたテキストは（例えば光学的文字認識（ＯＣＲ）によって）機械符号化テキストに変換することができる。次いで、特定のバイオマーカに関連する特定のキーワード又はフレーズを求めて電子テキストを検索することができる。一部の実施形態では、識別された訓練バイオマーカ４１０の近くのテキストの情報片を検査して単語又はフレーズの脈絡に関する追加情報を収集することができる。バイオマーカ単独ではなく訓練バイオマーカ４１０にまつわる情報片を評価することにより、著しく異なる意味を有し得る「ＡＬＫ未検査」等と「ＡＬＫ」を区別するようにモデルを訓練することができる。

[045] 情報片抽出４１２の後、抽出した情報片に対して特徴のベクトル化４１４を実行して１組の特徴ベクトルを識別することができる。一部の実施形態では、情報片の抽出元である医療記録内に含まれる構造化データも情報片と共に評価され得る。例えば抽出されるフレーズ並びに検討される任意の構造化データは、フレーズ及び他の構造化データにスコアを相関させる多次元ベクトルへと変換することができる。各フレーズ及び／又は構造化データの一部に関するスコアは、対応するフレーズ及び／又は部分に関連する次元に沿った大小を表し得る。一部の実施形態ではスコアを二値とすることができ、そのためフレーズがあることはフレーズに関連する次元に沿って１の大きさをもたらす一方、フレーズがないことはフレーズに関連する次元に沿って０の大きさをもたらす。例えば抽出された情報片が「ＥＧＦＲ検査済み」のフレーズを含む場合、ベクトルは「ＥＧＦＲ」の次元に沿って１の成分の大きさを有し、抽出された情報片が「ＥＧＦＲ未検査」のフレーズだけを含み、「未」の修飾語とは別に「ＥＧＦＲ」のフレーズを含まない場合、ベクトルは「ＥＧＦＲ」の次元に沿って０の成分の大きさを有し得る。他の実施形態ではスコアが非二値でもよく、例えばフレーズに関連する発生率を示し得る。例えば抽出された情報片が「ＥＧＦＲ」のフレーズのインスタンスを５つ含む場合、ベクトルは「ＥＧＦＲ」の次元に沿って５の成分の大きさを有し、抽出された情報片「ＡＬＫ」のフレーズの２つだけのインスタンス場合、ベクトルは「ＡＬＫ」の次元に沿って２の成分の大きさを有し得る。特定の文字数、特定の単語数、特定の文の数、特定の段落数、特定のページ数等当たりの合計インスタンス等、発生率はインスタンスの正規化された測度を表し得る。

[046] 機械学習システム３００は、特徴ベクトルに基づいてモデル３３０を開発するために任意の適切な機械学習アルゴリズムを使用することができる。例えば訓練アルゴリズム３２０は、特徴ベクトルに基づいてスコアを決定するためのロジスティック回帰４１６を含み得る。スコアは、医療記録に関連する患者がバイオマーカの検査を受けているかどうか等に相関することができ或いはそれを示し得る。加えて又は或いは、訓練アルゴリズム３２０は１つ又は複数のノードの重みを調節する１つ又は複数のニューラルネットワークを含むことができ、そのため特徴の入力層が１つ又は複数の隠れ層を通り、次いで（関連する確率と共に）患者の結果の出力層を通る。ロジスティック回帰４１６と組み合わせて又はそれとは別に、線形回帰モデル、ラッソ回帰分析、ランダムフォレストモデル、Ｋ近傍法（ＫＮＮ）モデル、Ｋ平均モデル、決定木、コックス比例ハザード回帰モデル、ナイーブベイズモデル、サポートベクタマシン（ＳＶＭ）モデル、又は勾配ブースティングアルゴリズム等の他の種類の機械学習技法も使用することができる。モデルは、人手による訓練が不要である教師なし機械学習プロセス又は強化機械学習プロセスを使用して開発することもできる。ロジスティック回帰４１６の適用に基づき、結果として生じるモデルをステップ４１８で開発することができる。例えば上記で説明したように、訓練バイオマーカ３１１に基づいて汎用バイオマーカモデル３３０を構築することができる。

[047] 図４Ｂは、本開示と合致する汎用バイオマーカモデルを構築するための特徴を抽出するための技法の一例を示すブロック図である。図４Ｂに示すブロックはプロセス４００に対応し得る。

[048] 上記で説明したように、訓練バイオマーカ４１０が情報片抽出４１２内に入力される。ブロック４２０によって示すように、システム１３０は患者医療記録内から訓練バイオマーカ４１０（例えば「ＥＧＦＲ」）を識別することができる。一部の実施形態では、このブロックは患者医療記録の非構造化データ内のタイプ入力されたテキスト、手書きのテキスト、又は印刷されたテキストを（例えば光学的文字認識（ＯＣＲ）等によって）機械符号化テキストに変換することを含み得る。一部の実施形態では、ブロック４３０に示すように、バイオマーカのテキストがテキスト内の訓練バイオマーカ４１０を表す字句（token）４３１（例えば「［バイオマーカ］」）によって置換され得る。１つ又は複数の訓練バイオマーカ４１０の代わりに字句４３１を使用することにより、医療記録のテキスト内でバイオマーカがどのように扱われているのかに基づいて個々のバイオマーカに基づくモデルではなく汎用モデルを構築することができる。識別された字句４３１の近くのテキストの情報片４３２を検査して単語又はフレーズの脈絡に関する追加情報を収集することができる。例えば情報片４３１は、字句４３１の前の又は後の所定の文字数又は単語数、字句４３１と同じ段落内の全てのテキスト、又は他の様々な技法に基づき得る。

[049] 情報片４３１に基づいて複数の特徴ベクトル４４０を抽出することができる。例えば特徴は、Term-Frequency Inverse-Document-Frequency（ＴＦＩＤＦ）ベクトル化又は他の手段に基づいて抽出することができる。図４Ｂに示すように、特徴は個々の単語とすることができ又はバイグラム（例えば「肺［バイオマーカ］」等）とすることができる。他の様々な形の特徴（例えばトリグラム、Ｎグラム等）も使用することができる。次いで、システム１３０は特徴を選択し、ロジスティック回帰（又は上記の他の様々なアルゴリズム）を実行して汎用バイオマーカ３３０を構築することができる。

[050] 図５は、開示する実施形態と合致する、バイオマーカに基づいてコホートの候補を識別するための例示的プロセス５００を示す。方法５００は、例えば図１に示すシステム１００の処理エンジン１３１の少なくとも１つのプロセッサによって実装され得る。一部の実施形態では、プロセス５００が、クライアント装置１１０又はシステム１３０にアクセスできる他の装置等、システム１００内の他の装置によって実行され得る。

[051] ステップ５１０で、方法５００は個人集団に関連する情報を導出可能なデータベースにアクセスすることを含み得る。一部の実施形態では、その情報が個人集団に関連する医療記録を含み得る。例えば処理エンジン１３１は、データソース１２０又は他の様々なソースからネットワーク１４０を介して医療記録にアクセスすることができる。上記で説明したように、データソース１２０は例えば医療従事者、検査室、保険会社等を含む患者医療データの様々なソースを含み得る。或いは又は加えて、処理エンジンは患者医療記録にアクセスするためにデータベース１３２等のローカルデータベースにアクセスすることができる。

[052] 医療記録は、テキストファイル、画像ファイル、ＰＤＦファイル、ＸＬＭファイル、ＹＡＭＬファイル等の１つ又は複数の電子ファイルを含み得る。一部の実施形態では、医療記録（例えば医療記録２００）が上記のように個人集団に関連する構造化情報（例えば構造化データ２１２）及び非構造化情報（例えば非構造化データ２１１）を含み得る。例えば構造化情報は、性別、誕生日、人種、体重、検査結果、生命兆候、診断日、訪問日、投薬指示、診断コード、処置コード、薬剤コード、過去の治療、又は投薬管理を含み得る。非構造化情報は、医療従事者によって書かれたテキスト、放射線治療報告書、病理報告書、又は患者に関連する他の様々な形のテキストを含み得る。一部の実施形態では、上記で論じたように非構造化情報の少なくとも一部が光学的文字認識プロセスにかけられている。各医療記録は特定の患者に関連することができ、一部の実施形態では複数の医療記録が特定の患者に関連し得る。医療記録は医療機関からのデータに限定されなくてもよく、（例えば保険会社からの）保険査定データ、患者によって報告されるデータ、又は患者の治療若しくは健康に関連する他の情報等、関係する他のデータ形式を含み得る。

[053] ステップ５２０で、方法５００は、コホートに関連する第１のバイオマーカを汎用バイオマーカモデルに提供することを含み、汎用バイオマーカモデルは情報を使用して１つ又は複数の第２のバイオマーカに基づいて訓練され、第１のバイオマーカは１つ又は複数の第２のバイオマーカと異なる。例えば１つ又は複数の第２のバイオマーカは、図３に関して上記で論じた訓練バイオマーカ３１１に対応することができ、第１のバイオマーカは検査バイオマーカ３３１に対応し得る。従って、１つ又は複数の第２のバイオマーカを使用して汎用バイオマーカモデル３３０を構築することができる。一部の実施形態では、１つ又は複数の第２のバイオマーカは、汎用バイオマーカモデル３３０を構築するのに十分なデータが入手可能なバイオマーカを表すことができる。例えば１つ又は複数の第２のバイオマーカは、第１のバイオマーカよりも情報内で多く現れ得る。一部の実施形態では、上記で論じたように汎用バイオマーカモデルを非構造化情報に基づいて訓練することができる。一部の実施形態では、汎用バイオマーカモデルは、１つ又は複数の第２のバイオマーカに基づく情報から抽出される特徴ベクトルに基づいて少なくとも部分的に開発することができる。例えば汎用バイオマーカモデル３３０は、図４Ｂに記載した特徴ベクトル４４０に基づいて開発することができる。更に一部の実施形態では、特徴ベクトルは、少なくとも１つの第２のバイオマーカに関連するテキストを表す少なくとも１つのバイオマーカ字句（例えば字句４３１）を含み得る。

[054] ステップ５２０は、記録内の情報を調整すること又は変更すること等、医療記録の分析を促進するための追加のサブステップを含み得る。処理エンジン１３１は構造化情報又は非構造化情報を解釈するための様々な技法を使用することができる。例えば、医療記録内のタイプ入力されたテキスト、手書きのテキスト、又は印刷されたテキストは（例えば光学的文字認識（ＯＣＲ）によって）機械符号化テキストに変換することができる。

[055] ステップ５３０で、方法５００は、第１のバイオマーカの検査を受けている第１の尤度閾値を上回る個人集団の第１のグループを示す第１の出力をバイオマーカモデルから得ることを含み得る。例えば汎用バイオマーカモデル３３０は、第１のバイオマーカの検査を受けている患者を示すグループ３５１を含み得る出力３５０を生成することができる。一部の実施形態では、モデルの効率及び性能の水準に基づいて尤度閾値を調節することができる。一部の実施形態では、バイオマーカモデルがバイナリ分類アルゴリズムを使用して第１の出力を生成することができる。例えばバイナリ分類アルゴリズムは、ロジスティック回帰、ランダムフォレスト、勾配ブースティング木、サポートベクタマシン、又はニューラルネットワークの少なくとも１つを含み得る。一部の実施形態では、分類アルゴリズムは上記の他の様々なアルゴリズム（例えばコックス比例ハザード回帰、ラッソ回帰分析ネットワーク等）を含み得る。一部の実施形態では、ステップ５３０が、汎用バイオマーカモデルのユーザによるアクセスのために第１の出力を記憶すること等の更なるステップを含み得る。一部の実施形態では、ステップ５３０が、１人若しくは複数人のユーザ又は１つ若しくは複数の装置に第１の出力を伝送することを含み得る。例えばシステム１２０は、ネットワーク１４０を介して第１の出力をクライアント装置１００に伝送することができる。

[056] 一部の実施形態では、プロセス５００が、第１のバイオマーカの陽性反応が出ている第２の尤度閾値を上回る個人集団の第２のグループを示す第２の出力を汎用バイオマーカモデルから得ることであって、個人は第２のグループ内に含まれる、汎用バイオマーカモデルから得ることを更に含み得る。一部の実施形態では、患者の第１のグループと共に患者の第２のグループが第１の出力内で識別され得る。例えば汎用バイオマーカモデルは、バイオマーカの検査を受けている患者の第１のグループ及びバイオマーカの陽性反応が出ている患者の第２のグループの両方を決定するように構成され得る。他の実施形態では、患者の第２のグループを識別するために別個の汎用バイオマーカモデルを使用することができる。

[057] ステップ５４０で、方法５００は、個人集団の第１のグループの中の個人がコホートの候補かどうかを第１の出力に基づいて判定することを含み得る。例えば個人がコホートの候補かどうかを判定することは、個人がバイオマーカの検査を受けていることを個人に関連する医療記録に基づいて確認することを含み得る。上記で論じたように、これは個人が第１のバイオマーカの検査を実際に受けていたかどうかを判定するための人手による（例えば訓練された医療専門家による）プロセスであり得る。患者が特定の検査結果に関連する（例えば患者が第１のバイオマーカの陽性反応が出ている）かどうかを判定するように汎用バイオマーカモデルが構成される実施形態では、個人がコホートの候補かどうかを判定することは、個人がバイオマーカの陽性反応が出ていることを個人に関連する医療記録に基づいて確認することを含み得る。

[058] 一部の実施形態では、プロセス５００が追加のステップを更に含み得る。例えばプロセス５００は、汎用バイオマーカモデルの精度を確認するように構成され得る。一部の実施形態では、汎用バイオマーカモデルの精度が第１のバイオマーカに固有のバイオマーカモデルに基づいて評価され得る。従ってプロセス５００は、バイオマーカ固有モデルに第１のバイオマーカを与えることを含むことができ、バイオマーカ固有モデルは医療記録を使用して第１のバイオマーカに基づいて訓練される。プロセス５００は、少なくとも１つのバイオマーカの検査を受けている尤度閾値を上回る個人集団の第３のグループを示す第３の出力をバイオマーカ固有モデルから得ることを更に含み得る。更にプロセス５００は、第１の出力を第３の出力と比較することによって汎用バイオマーカモデルの精度を確認することを含み得る。例えば汎用バイオマーカモデルの結果とバイオマーカ固有モデルの結果との差異は、多岐にわたる異なるバイオマーカの検査を受けている患者を識別するのに汎用バイオマーカモデルが効果的かどうかを示すことができる。

[059] 他の実施形態では、結果を検索機能と比較することによって汎用バイオマーカモデルの精度を確認することができる。従って、プロセス５００は第１のバイオマーカについて医療記録を検索して、少なくとも１つのバイオマーカの検査を受けている個人集団の第４のグループを示す第４の出力を生成することを含み得る。例えばシステム１３０は、平文検索機能を使用して医療記録内の第１のバイオマーカに関連する単語を検索することができる。プロセス５００は、第１の出力を第４の出力と比較することによって汎用バイオマーカモデルの精度を確認することを更に含み得る。理想的には、コホート内に含めるための患者を識別することに関して、第１のバイオマーカについてのベーシックテキスト検索よりも汎用バイオマーカモデルの方が優れた成果を出す。汎用バイオマーカモデルの精度を検査するための他の様々な手段も使用され得る。更にプロセス５００は、求めた精度に基づいて汎用バイオマーカモデルを更新すること等の追加のステップを含み得る。

[060] 一部の実施形態では、プロセス５００はバイオマーカに加えて他の特性に適用され得る。従って一部の実施形態では、プロセス５００は、個人集団に関連する情報を導出することができるデータベースにアクセスすること（ステップ５２０）、コホートに関連する第１の特性を汎用モデルに提供することであって、汎用モデルは情報を使用して１つ又は複数の第２の特性に基づいて訓練され、第１の特性は１つ又は複数の第２の特性と異なる、提供すること（ステップ５４０）、第１の特性に関連している第１の尤度閾値を上回る個人集団の第１のグループを示す第１の出力を汎用モデルから得ること（ステップ５６０）、及び個人集団の第１のグループの中の個人がコホートの候補かどうかを第１の出力に基づいて判定すること（ステップ５８０）を含み得る。一部の実装形態では、上記で論じたように特性がバイオマーカに該当し得る。従って、第１の特性は第１のバイオマーカを含むことができ、１つ又は複数の第２の特性は１つ又は複数の第２のバイオマーカを含むことができ、第１の出力は第１のバイオマーカの検査を受けている個人の第１のグループを示し得る。他の実施形態では、第１の特性が第１の薬を含むことができ、１つ又は複数の第２の特性が１つ又は複数の第２の薬を含むことができ、第１の出力は第１の薬を使用して治療されている個人の第１のグループを示し得る。

[061] 上記の説明は例示目的で示してきた。上記の説明は網羅的ではなく開示した厳密な形態又は実施形態に限定されない。本明細書を検討すること及び開示した実施形態を実践することによって修正及び適応が当業者に明らかになる。加えて、開示した実施形態の側面はメモリ内に記憶されるものとして説明したが、それらの側面は二次記憶装置、例えばハードディスク、又はＣＤＲＯＭ、又は他の形式のＲＡＭ若しくはＲＯＭ、ＵＳＢメディア、ＤＶＤ、Blu-ray、4K Ultra HD Blu-ray、又は他の光ドライブメディア等の他の種類のコンピュータ可読媒体の上にも記憶できることを当業者なら理解されよう。

[062] 記載した説明及び開示した方法に基づくコンピュータプログラムは経験を積んだ開発者の技能に含まれる。様々なプログラム又はプログラムモジュールは当業者に知られている技法の何れかを使用して作成することができ、又は既存のソフトウェアに関連して設計することができる。例えばプログラムセクション又はプログラムモジュールは、.Net Framework、.Net Compact Framework（及びVisual Basic、C等の関係する言語）、Java、Python、R、C++、Objective-C、ＨＴＭＬ、ＨＴＭＬ／ＡＪＡＸの組み合わせ、ＸＭＬ、又は含まれたJavaアプレットを有するＨＴＭＬの中で又はそれらによって設計され得る。

[063] 更に、本明細書では例示的実施形態を記載してきたが、本開示に基づいて当業者によって理解されるように、等価の要素、修正、省略、（例えば様々な実施形態にわたる側面の）組み合わせ、適応及び／又は変更を有する任意の及び全ての実施形態の範囲。特許請求の範囲における制限は、特許請求の範囲の中で使用する言語に基づいて広く解釈されるべきであり、本明細書に記載した例又は本願の遂行中の例に限定されない。それらの例は非排他的と解釈すべきである。更に、開示した方法のステップはステップを並べ替えること及び／又はステップを挿入すること若しくは削除することを含む任意のやり方で修正することができる。従って、本明細書及び例は専ら例示として検討され、真の範囲及び趣旨は添付の特許請求の範囲及びその等価物の全ての範囲によって示されることを意図する。

Claims

個人集団に関連する情報を導出することができるデータベースにアクセスすること、
コホートに関連する第１のバイオマーカを汎用バイオマーカモデルに提供することであって、前記汎用バイオマーカモデルは前記情報を使用して１つ又は複数の第２のバイオマーカに基づいて訓練され、前記第１のバイオマーカは前記１つ又は複数の第２のバイオマーカと異なる、提供すること、
前記第１のバイオマーカの検査を受けている第１の尤度閾値を上回る前記個人集団の第１のグループを示す第１の出力を前記汎用バイオマーカモデルから得ること、及び
前記個人集団の前記第１のグループの中の個人が前記コホートの候補かどうかを前記第１の出力に基づいて判定すること
を行うようにプログラムされる少なくとも１つのプロセッサ
を含む、モデル支援システム。
前記情報が前記個人集団に関連する医療記録を含む、請求項１に記載のモデル支援システム。
前記医療記録が前記個人集団に関連する構造化情報及び非構造化情報を含む、請求項２に記載のモデル支援システム。
前記非構造化情報が、医療従事者によって書かれたテキスト、放射線治療報告書、又は病理報告書を含む、請求項３に記載のモデル支援システム。
前記汎用バイオマーカモデルが前記非構造化情報に基づいて訓練される、請求項４に記載のモデル支援システム。
前記非構造化情報の少なくとも一部が光学的文字認識プロセスにかけられている、請求項５に記載のモデル支援システム。
前記個人が前記コホートの候補かどうかを判定することは、前記個人が前記バイオマーカの検査を受けていることを前記個人に関連する医療記録に基づいて確認することを含む、請求項１に記載のモデル支援システム。
前記少なくとも１つのプロセッサが、
前記第１のバイオマーカの陽性反応が出ている第２の尤度閾値を上回る前記個人集団の第２のグループを示す第２の出力を前記汎用バイオマーカモデルから得ることであって、前記個人は前記第２のグループ内に含まれる、前記汎用バイオマーカモデルから得ること
を行うように更にプログラムされる、請求項１に記載のモデル支援システム。
前記個人が前記コホートの候補かどうかを判定することは、前記個人が前記バイオマーカの陽性反応が出ていることを前記個人に関連する医療記録に基づいて確認することを含む、請求項８に記載のモデル支援システム。
前記少なくとも１つのプロセッサが、前記汎用バイオマーカモデルのユーザによるアクセスのために前記第１の出力を記憶するように更にプログラムされる、請求項１に記載のモデル支援システム。
前記汎用バイオマーカモデルがバイナリ分類アルゴリズムを使用して前記第１の出力を生成する、請求項１に記載のモデル支援選択システム。
前記バイナリ分類アルゴリズムが、ロジスティック回帰、ランダムフォレスト、勾配ブースティング木、サポートベクタマシン、又はニューラルネットワークの少なくとも１つを含む、請求項１１に記載のモデル支援選択システム。
前記汎用バイオマーカモデルが、前記１つ又は複数の第２のバイオマーカに基づく前記情報から抽出される特徴ベクトルに基づいて少なくとも部分的に開発される、請求項１に記載のモデル支援システム。
前記特徴ベクトルが、前記少なくとも１つの第２のバイオマーカに関連するテキストを表す少なくとも１つのバイオマーカ字句を含む、請求項１３に記載のモデル支援システム。
前記１つ又は複数の第２のバイオマーカが前記第１のバイオマーカよりも多く前記情報内に現れる、請求項１に記載のモデル支援選択システム。
前記少なくとも１つのプロセッサが、
バイオマーカ固有モデルに前記第１のバイオマーカを与えることであって、前記バイオマーカ固有モデルは前記情報を使用して前記第１のバイオマーカに基づいて訓練される、与えること、
前記少なくとも１つのバイオマーカの検査を受けている尤度閾値を上回る前記個人集団の第３のグループを示す第３の出力を前記バイオマーカ固有モデルから得ること、及び
前記第１の出力を前記第３の出力と比較することによって前記汎用バイオマーカモデルの精度を確認すること
を行うように更にプログラムされる、請求項１に記載のモデル支援システム。
前記少なくとも１つのプロセッサが、
前記第１のバイオマーカについて前記情報を検索して、前記少なくとも１つのバイオマーカの検査を受けている前記個人集団の第４のグループを示す第４の出力を生成すること、及び
前記第１の出力を前記第４の出力と比較することによって前記汎用バイオマーカモデルの精度を確認すること
を行うように更にプログラムされる、請求項１に記載のモデル支援システム。
バイオマーカに基づいてコホートの候補を識別する、コンピュータによって実装される方法であって、
個人集団に関連する情報を導出することができるデータベースにアクセスすること、
コホートに関連する第１のバイオマーカを汎用バイオマーカモデルに提供することであって、前記汎用バイオマーカモデルは前記情報を使用して１つ又は複数の第２のバイオマーカに基づいて訓練され、前記第１のバイオマーカは前記１つ又は複数の第２のバイオマーカと異なる、提供すること、
前記第１のバイオマーカの検査を受けている第１の尤度閾値を上回る前記個人集団の第１のグループを示す第１の出力を前記汎用バイオマーカモデルから得ること、及び
前記個人集団の前記第１のグループの中の個人が前記コホートの候補かどうかを前記第１の出力に基づいて判定すること
を含む、コンピュータによって実装される方法。
前記情報が前記個人集団に関連する医療記録を含む、請求項１８に記載のコンピュータによって実装される方法。
前記医療記録が前記個人集団に関連する構造化情報及び非構造化情報を含む、請求項１９に記載のコンピュータによって実装される方法。
前記非構造化情報が、医療従事者によって書かれたテキスト、放射線治療報告書、又は病理報告書を含む、請求項２０に記載のコンピュータによって実装される方法。
前記汎用バイオマーカモデルが前記非構造化情報に基づいて訓練される、請求項２１に記載のコンピュータによって実装される方法。
前記個人が前記コホートの候補かどうかを判定することは、前記個人が前記バイオマーカの検査を受けていることを前記個人に関連する医療記録に基づいて確認することを含む、請求項１８に記載のコンピュータによって実装される方法。
前記モデルの効率及び性能の水準に基づいて前記尤度閾値が調節可能である、請求項１８に記載のコンピュータによって実装される方法。
個人集団に関連する情報を導出することができるデータベースにアクセスすること、
コホートに関連する第１の特性を汎用モデルに提供することであって、前記汎用モデルは前記情報を使用して１つ又は複数の第２の特性に基づいて訓練され、前記第１の特性は前記１つ又は複数の第２の特性と異なる、提供すること、
前記第１の特性に関連している第１の尤度閾値を上回る前記個人集団の第１のグループを示す第１の出力を前記汎用モデルから得ること、及び
前記個人集団の前記第１のグループの中の個人が前記コホートの候補かどうかを前記第１の出力に基づいて判定すること
を行うようにプログラムされる少なくとも１つのプロセッサ
を含む、モデル支援システム。
前記第１の特性が第１のバイオマーカを含み、
前記１つ又は複数の第２の特性が１つ又は複数の第２のバイオマーカを含み、
前記第１の出力は前記第１のバイオマーカの検査を受けている個人の前記第１のグループを示す、
請求項２５に記載のモデル支援システム。
前記第１の特性が第１の薬を含み、
前記１つ又は複数の第２の特性が１つ又は複数の第２の薬を含み、
前記第１の出力は前記第１の薬を使用して治療されている個人の前記第１のグループを示す、
請求項２５に記載のモデル支援システム。