JP7476181B2

JP7476181B2 - モデル支援型事象予測のためのシステム及び方法

Info

Publication number: JP7476181B2
Application number: JP2021519558A
Authority: JP
Inventors: バーンバウム，ベンジャミン，イー．; ヘイムソン，ジョシュア，ディー．
Original assignee: フラティロンヘルス，インコーポレイテッド
Priority date: 2018-10-18
Filing date: 2019-10-15
Publication date: 2024-04-30
Anticipated expiration: 2039-10-15
Also published as: WO2020081495A1; US20210090747A1; EP3867918A1; JP2022504508A

Description

関連出願の相互参照
[0001] 本出願は２０１８年１０月１８日出願の米国特許仮出願第６２／７４７，４２８号からの優先権の便宜を主張する。前述の出願の全内容をそのまま参照により本明細書に援用する。

背景
技術分野
[0002] 本開示は事象に関係する日を予測するためのモデル支援型システム及び方法に関する。

背景情報
[0003] 特にその治療景観が急速に進化している病気のための現実世界設定における治療（例えば経口投与される薬）の有効性を理解することが重要である。１つのこのような病気は腎細胞癌（ＲＣＣ：renal cell carcinoma）である。経口薬は癌介護においてますます一般的になっている。２００６年以来、１０個の新しい標的薬がＲＣＣに関して承認されており、これは現実世界証拠を使用する研究の恩恵を受ける可能性があるガイドラインにおける不確定性に繋がる。診療所において施されそして構造化（structured）電子健康記録（ＥＨＲ：electronic health record）を介し注意深く追跡される静脈化学療法とは対照的に、経口薬物治療は通常は自己管理され、したがって余りうまく追跡されない。電子健康記録（ＥＨＲ）に関するこのような研究を行うことにおける挑戦的課題は、治療情報が通常は家で自己管理される非構造化臨床ノート内の自由テキストだけにおいてしばしば出現する（口腔癌治療に関し特に広まっている現象）ということである。この情報を識別し構造化することは患者の治療履歴を理解する際の重要なタスクである。加えて、ＥＨＲから薬を抽出することに関する大抵の既存作業は退院時要約に集中してきた。しかし、癌などの慢性病に関して、薬物治療情報は、臨床ノート全体にわたって経時的に散乱しており、したがって患者記録全体にわたる合成を必要とする。

[0004] したがって、臨床ノートから薬物治療情報を抽出する自動手法の必要性がある。

概要
[0005] 本開示に合致するいくつかの実施形態は、患者に関連する事象の日を予測するためのシステム及び方法を含む。本開示のいくつかの実施形態は、日予測ベース非構造化データのモデルベース自動化技術を提供することにより、事象の日を予測するための既存技術の１つ又は複数の態様を克服し得る。例えば、トレーニングされたモデルが複数の非構造化文書を受信及びラベル付けし得る。モデルはまた、患者に関連する事象（例えば、患者が薬を服用すること）の開始データを予測し出力し得る。したがって、本開示のいくつかの実施形態によるモデルの使用は、事象の日のより早期且つより効率的な予測を可能にする。加えて、本開示のいくつかの実施形態による規則の使用は現存技術より精確であり得る。

[0006] 一実施形態では、患者に関係する事象の日を予測するためのモデル支援型選択システムは、患者の医療記録をストレージ装置から取得するように構成された少なくとも１つのプロセッサを含み得る。医療記録は複数の非構造化文書を含み得る。少なくとも１つのプロセッサはまた、事象の日を予測するためのモデルを取得するように構成され得る。少なくとも１つのプロセッサはさらに、医療記録をモデルへ入力するようにそして複数の非構造化文書の文書毎にモデルからラベルを割り当てるように構成される。ラベルは、「事象前」ラベル、「事象中」ラベル、「事象後」ラベル、「非事象」ラベルを含む４つのラベルの中から判断され得る。「事象前」ラベルは文書が事象前の日に関係するということを指示し得る。「事象中」ラベルは文書が事象中の日に関係するということを指示し得る。「事象後」ラベルは文書が事象後の日に関係するということを指示し得る。「非事象」ラベルは文書が事象に対し非決定的又は無関係であるということを指示し得る。少なくとも１つのプロセッサはまた、複数の非構造化文書のラベルに基づき事象の開始日を予測しそして予測された開始日を出力するように構成され得る。

[0007] 一実施形態では、患者に関係する事象の日を予測するためのモデル支援型システムは、患者の医療記録を取得するように構成された少なくとも１つのプロセッサを含み得る。医療記録は複数の非構造化文書を含む。少なくとも１つのプロセッサはさらに、事象を予測するためのモデルを取得するように構成される。少なくとも１つのプロセッサはまた、医療記録をモデルへ入力するように構成され得る。モデル及び医療記録に従って、複数の非構造化文書の文書毎に、少なくとも１つのプロセッサはさらに、複数の非構造化文書の各文書内の１つ又は複数の時間表現を識別するように構成され得る。少なくとも１つのプロセッサはまた、識別された１つ又は複数の時間表現に関係する１つ又は複数の日を判断するように構成され得る。少なくとも１つのプロセッサはさらに、事象の開始、事象の終了又は非事象日に関連付けられるための判断された１つ又は複数の日の確率スコアを判断するように構成される。少なくとも１つのプロセッサはまた事象の開始日を確率スコアに基づき予測するように構成され得る。少なくとも１つのプロセッサはさらに、予測された開始日を出力するように構成される。

[0008] 一実施形態では、患者に関係する事象の日を予測するためのモデル支援型システムは、事象を予測するための第１のモデルを取得するように構成された少なくとも１つのプロセッサを含み得る。少なくとも１つのプロセッサはまた、特許の医療記録を第１のモデルへ入力するように構成され得る。医療記録は複数の非構造化文書を含み得る。少なくとも１つのプロセッサはさらに、複数の非構造化文書の文書毎に、第１のモデルからラベルを取得するように構成される。ラベルは、「事象前」ラベル、「事象中」ラベル、「事象後」ラベル、「非事象」ラベルを含む４つのラベルの中から第１のモデルにより判断され得る。「事象前」ラベルは文書が事象前の日に関係するということを指示し得る。「事象中」ラベルは文書が事象中の日に関係するということを指示し得る。「事象後」ラベルは文書が事象後の日に関係するということを指示し得る。「非事象」ラベルは文書が事象に対し非決定的又は無関係であるということを指示し得る。少なくとも１つのプロセッサはまた、複数の非構造化文書のラベルに基づき事象の第１の暫定開始日を予測するように構成され得る。少なくとも１つのプロセッサはさらに、第１のモデルから第１の暫定開始日の確率スコアを取得するように構成される。少なくとも１つのプロセッサはまた、事象を予測するための第２のモデルを取得するように構成され得る。少なくとも１つのプロセッサはさらに、医療記録を第２のモデルへ入力するように構成され得る。第２のモデル及び医療記録に従って、複数の非構造化文書の文書毎に、少なくとも１つのプロセッサはまた、複数の非構造化文書の各文書内の１つ又は複数の時間表現を識別するように構成され得る。少なくとも１つのプロセッサはさらに、識別された１つ又は複数の時間表現に関係する１つ又は複数の日を判断するように、そして事象の開始、事象の終了又は非事象日に関連付けられるための判断された１つ又は複数の日付けの確率スコアを判断するように構成され得る。少なくとも１つのプロセッサはまた、判断された確率スコアに基づき事象の第２の暫定開始日を予測するように構成され得る。少なくとも１つのプロセッサはさらに、第２の暫定開始日の確率スコアを判断するように構成され得る。少なくとも１つのプロセッサはまた、第１の暫定開始日、第１の暫定開始日の確率スコア、第２の暫定開始日、及び第２の暫定開始日の確率スコアに基づき、事象の開始日を判断するように構成され得る。

[0009] 他の開示された実施形態に合致して、非一時的コンピュータ可読ストレージ媒体が、少なくとも１つの処理装置により実行されるプログラム命令であって本明細書において説明される方法のうちの任意のものを行い得るプログラム命令を格納し得る。

図面の簡単な説明
[0010] 本明細書に援用され本明細書の一部を構成する添付図面は本明細書と共に、様々な実施形態の原理を示しており、その原理を説明する役目を果たす。

[0011]本開示に合致する、患者に関連する事象の日を予測するための例示的システムを示すブロック図である。 [0012]本開示に合致する、患者に関連する事象の日を予測するための例示的処理装置を示すブロック図である。 [0013]本開示に合致する例示的医療記録を示すフローチャートである。 [0014]本開示に合致するモデルをトレーニングするための例示的処理を示すフローチャートである。 [0015]本開示に合致する例示的ニューラルネットワークを示す線図である。 [0016]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートである。 [0017]本開示に合致する例示的文書タイムラインを示す線図である。 [0018]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートを示すフローチャートである。 [0019]本開示に合致する例示的マップ日（mapped date）を示す線図である。 [0020]本開示に合致する例示的な改版された文章を示す線図である。 [0021]本開示に合致する例示的文書タイムラインを示す線図である。 [0022]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートを示すフローチャートである。 [0023]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートを示すフローチャートである。

詳細な説明
[0024] 以下の詳細説明は添付図面を参照する。可能な限り、同じ参照符号が、同じ又は同様な部分を参照するために添付図面及び以下の明細書を通して使用される。いくつかの例示的実施形態が本明細書において説明されるが、修正、適応化及び他の実施が可能である。例えば、置換、追加又は修正が添付図面内に示された部品に対しなされ得、本明細書において説明される例示的方法は、本開示方法に対して工程を置換、再順序付け、除去、又は追加することにより修正され得る。したがって、以下の詳細説明は開示された実施形態及び例に限定されない。その代わり、適切な範囲が添付の特許請求の範囲により定義される。

[0025] 本明細書における実施形態はコンピュータ実施方法、有形な非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータ実施方法は、非一時的コンピュータ可読ストレージ媒体から指示を受信する例えば少なくとも１つのプロセッサ（例えば処理装置）により実行され得る。同様に、本開示に合致するシステムは少なくとも１つのプロセッサ（例えば処理装置）及びメモリを含み得、メモリは非一時的コンピュータ可読ストレージ媒体であり得る。本明細書で使用されるように、非一時的コンピュータ可読ストレージ媒体は、少なくとも１つのプロセッサにより読み取り可能な情報又はデータが格納され得る任意のタイプの物理メモリを指す。この例はランダムアクセスメモリ（ＲＡＭ：random access memory）、読み出し専用メモリ（ＲＯＭ：read-only memory）、揮発性メモリ、不揮発性メモリ、ハードドライブ、ＣＤＲＯＭ、ＤＶＤ、フラッシュドライブ、ディスク及び任意の他の公知の物理的ストレージ媒体を含む。「メモリ」及び「コンピュータ可読ストレージ媒体」などの単数用語は、複数のメモリ及び／又はコンピュータ可読ストレージ媒体などのような複数の構造を追加的に指し得る。本明細書で参照されるように、「メモリ」は別途規定しない限り任意のタイプのコンピュータ可読ストレージ媒体を含み得る。コンピュータ可読ストレージ媒体は少なくとも１つのプロセッサによる実行のための命令（プロセッサに本明細書内の実施形態に合致する工程又は段階を行わせるための命令を含む）を格納し得る。加えて、１つ又は複数のコンピュータ可読ストレージ媒体はコンピュータ実施方法を実施する際に利用され得る。用語「コンピュータ可読ストレージ媒体」は、有形アイテムを含むが搬送波及び一時的信号を除外するものと理解されるべきである。

[0026] 本開示では、「治療間隔のための時間的統合フレームワーク（ＴＩＦＴＩ：Temporally Integrated Framework for Treatment Interval）」（患者の非構造化ノートから経口薬物治療間隔を抽出するための頑強かつ一般化可能なフレームワーク）が提示される。ＴＩＦＴＩは、問題を文書レベルシーケンスラベル付け（document-level sequence labeling）タスク及び日付け抽出タスクに分解することにより時間的情報の別個のソースを活用し得る。

[0027] 一実施形態によると、システムは患者が薬を服用する開始日を予測するように構成され得る。本システムは、薬の名前及び複数の非構造化データ（診療所訪問ノートなど）をモデルへ入力し得、モデルは、患者が薬を服用したかどうかを予測し、そしてそうであれば患者が薬を服用した時間間隔を予測し得る。開示されたシステム及び方法のユーザは、患者の臨床経験にアクセスしたい及び／又は患者データを分析したいかもしれないいかなる個人も包含し得る。したがって、本開示を通じて、本開示システム及び方法の「ユーザ」への言及は医師、ヘルスケア機関における品質保証部及び／又は患者などのいかなる個人も包含し得る。

[0028] 図１Ａは以下に詳細に説明される本開示に合致するいくつかの実施形態を実施するための例示的システム１００を示す。図１Ａに示すように、システム１００は１つ又は複数のデータソース１０１、コンピュータ装置１０２、データベース１０３及びネットワーク１０４を含み得る。本開示から、これらの部品の数及び配置は例示的であり、例示のために提供されるということが理解されることになる。部品の他の配置及び数が、本開示の教示及び実施形態から逸脱することなく使用され得る。

[0029] １つ又は複数のデータソース１０１は患者の医療記録（又はその医療データ）を取得又は生成し得る。例えば、データソースは、患者の医療記録を生成するように構成された診療所内のコンピュータ（例えば図１Ａに示されるコンピュータ１０１－１）であり得る。医療記録は患者に関連する医療データを含み得る。医療データは構造化データ及び／又は非構造化データを含み得る。構造化データは患者に関する定量化可能又は分類可能データ（例えば、性別、年齢、人種、体重）を含み得る。非構造化データは、定量化可能でない又は容易に分類されない患者に関する情報（例えば医師のノート又は患者の実験室報告）を含み得る。データソース１０１はさらに、ネットワーク１０４を介し医療記録（又は医療データ）をコンピュータ装置１０２及び／又はデータベース１０３へ送信するように構成される。

[0030] データソース１０１は、コンピュータ（例えばコンピュータ１０１－１）、モバイル装置（例えばスマートフォン１０１－２）、スキャナ（例えばスキャナ１０１－３）、複写機、ファックス機、多機能機、タブレットコンピュータ、携帯情報端末（ＰＤＡ：personal digital assistant）など又はそれらの組み合わせを含み得る。

[0031] コンピュータ装置１０２は、ネットワーク１０４を介し１つ又は複数のデータソース１０１から患者の医療記録（又は医療データ）を受信し得る。いくつかの実施形態では、コンピュータ装置１０２は、１つ又は複数のデータソース１０１から患者の医療データを受信し、そしてこの医療データを患者の医療記録へコンパイルし得る。コンピュータ装置１０２はまた、患者に関連する事象に関係する日を予測するために医療記録（又は医療データ）を処理するように構成され得る。例えば、コンピュータ装置１０２は、患者の医療記録と、患者が特定薬を服用する開始日を予測するためのモデル（例えばトレーニングされたニューラルネットワーク）とを取得し得る。コンピュータ装置１０２はさらに、医療記録をモデルへ入力し、そして（例えばモデルの出力層を介し）モデルからデータの予測を取得し得る。コンピュータ装置１０２はさらに、データの予測を例えば出力装置へ出力し得る。いくつかの実施形態では、コンピュータ装置１０２は予測を患者に関連する医師又は医療関係者へ送信し得る。例えば、コンピュータ装置１０２は予測を診療所内に在るコンピュータ１０１－１へ送信し得る。

[0032] いくつかの実施形態では、コンピュータ装置１０２は、トレーニングアルゴリズム及びトレーニングデータに基づき、事象に関係する日を予測するためのモデルをトレーニングし得る。その代わりに又は追加的に、コンピュータ装置１０２はデータベース（例えば、データベース１０３及び／又はデータベース１６０）からモデルを取得し得る。

[0033] データベース１０３はシステム１００の１つ又は複数の部品の情報及びデータを格納するように構成され得る。例えば、データベース１０３は、例えばネットワーク１０４を介し１つ又は複数のデータソース１０１及び／又はコンピュータ装置１０２から１つ又は複数の医療記録（又はその医療データ）を受信し、この受信データを格納し得る。その代わりに又は追加的に、データベース１０３は１つ又は複数の（トレーニングされていない及び／又はトレーンイングされた）モデルを格納し、これらのモデルをネットワーク１０４を介しコンピュータ装置１０２へ送信し得る（例えばモデルの要求が受信されたら）。いくつかの実施形態では、データベース１０３は、トレーニングデータを格納し、そしてこのトレーニングデータを例えばネットワーク１０４を介しコンピュータ装置１０２へ送信し得る。

[0034] ネットワーク１０４はシステム１００の部品間の通信を容易にするように構成され得る。ネットワーク１０４は、ローカルエリアネットワーク（ＬＡＮ：local area network）、広域ネットワーク（ＷＡＮ：wide area network）、インターネットの一部、イントラネット、セルラーネットワーク、短距離ネットワーク（例えばＢｌｕｅｔｏｏｔｈ（商標）ベースネットワーク）など又はそれらの組み合わせを含み得る。

[0035] 図１Ｂは例示的コンピュータ装置１０２を示すブロック図である。コンピュータ装置１０２は少なくとも１つのプロセッサ（例えばプロセッサ１５１）、メモリ１５２、入力装置１５３、出力装置１５４及びデータベース１６０を含み得る。

[0036] プロセッサは本開示において説明される１つ又は複数の機能を行うように構成され得る。プロセッサは、少なくとも１つの処理装置（１つ又は複数の汎用プロセッサ：例えば中央処理ユニット（ＣＰＵ：central processing unit）、グラフィック処理ユニット（ＧＰＵ：graphics processing unit）など、及び／又は１つ又は複数の特殊プロセッサ：例えば特定用途向け集積回路（ＡＳＩＣ：application-specific integrated circuit）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ：field-programmable gate array））などを含み得る。

[0037] コンピュータ装置１０２はまた、コンピュータ装置１０２の様々な部品のための命令を格納し得るメモリ１５２を含み得る。例えば、メモリ１５２は、プロセッサ１５１により実行されるとプロセッサ１５１に本明細書において説明される１つ又は複数の機能を行わせるように構成され得る命令を格納し得る。

[0038] 入力装置１５３はコンピュータ装置１０２のユーザから入力を受信するように構成され得、コンピュータ装置１０２の１つ又は複数の部品は受信された入力に応答して１つ又は複数の機能を行い得る。出力装置１５４は情報及び／又はデータをユーザへ出力するように構成され得る。例えば、出力装置１５４は、事象の予測された日をユーザへ表示するように構成されたディスプレイを含み得る。

[0039] データベース１６０はコンピュータ装置１０２の１つ又は複数の部品のための様々なデータ及び情報を格納するように構成され得る。例えば、データベース１６０は、患者の医療記録を格納するように構成された医療記録データベース１６１を含み得る。医療記録データベース１６１から、プロセッサ１５１は１つ又は複数の医療記録を受信し得る。データベース１６０はまた、事象の日を予測するための１つ又は複数のモデルを格納するように構成されたモデルデータベース１６２を含み得る。モデルはトレーニングされたモデルであってもよいしトレーニングされていないモデルであってもよい。例えば、プロセッサ１５１は、モデルデータベース１６２から、事象の日を予測するためのトレーニングされたモデルを受信し得る。別の例として、プロセッサ１５１は、トレーニングされていないモデルを受信し、トレーニングデータ（トレーニングデータデータベース１６３内に格納され得る）に基づきモデルをトレーニングし得る。データベース１６０はさらに、トレーニングデータを格納するように構成されたトレーニングデータデータベース１６３を含み得、トレーニングデータデータベース１６３から、プロセッサ１５１はモデルをトレーニング又は修正するためのトレーニングデータを受信し得る。

[0040] 図２は患者の例示的医療記録２００を示す。医療記録２００（又はその一部）は上述のようにデータソース１０１から受信され、コンピュータ装置１０２により処理され得る。その代わりに又は追加的に、医療記録２００は１つ又は複数のデータベース（例えばデータベース１０３、データベース１６０）内に格納され得る。コンピュータ装置１０２は、さらなる処理のために１つ又は複数の医療記録にアクセスしこれを受信し得る。

[0041] 医療記録２００は構造化データ２１０と非構造化データ２２０との両方を含み得る。構造化データ２１０は、性別、年齢、人種、体重、バイタルサイン、実験室報告、診断の日、診断タイプ、病期分類（例えば課金コード）、治療タイミング、行われた手順、訪問日、診療タイプ、保険会社及び開始日、投薬指示、投薬管理、又は患者に関する任意の他の測定可能データなど患者に関する定量化可能又は分類可能データを含み得る。非構造化データ２２０は、医師のノート又は患者の実験室報告など定量化可能でない又は容易に分類されない患者に関する情報を含み得る。非構造化データ２２０は、治療計画の医師の記述、訪問時に何が発生したかを記述するノート、患者の具合に関する記述、放射線学的報告、病理報告などの情報を含み得る。いくつかの実施形態では、非構造化データは抽象化処理により捕捉され得、構造化データは、ヘルスケア専門家により入力され、そして１つ又は複数のアルゴリズムを使用して計算され得る。非構造化データ２２０は複数の非構造化文書（例えば図２に示す例示的非構造化文書２２１、２２２）を含み得る。

[0042] データソース１０１から受信されるデータにおいて、各患者は、１人又は複数の医療従事者により又は患者により生成される１つ又は複数の記録により表現され得る。例えば、患者に関連する医者、患者に関連する看護婦、患者に関連する理学療法士などはそれぞれ、患者の医療記録（又はその一部）を生成し得る。いくつかの実施形態では、１つ又は複数の記録が同じデータベース内で照合及び／又はその中に格納され得る。その代わりに又は追加的に、１つ又は複数の記録は複数のデータベースにわたって分散され得る。いくつかの実施形態では、これらの記録は複数の電子データ表現で格納され得る及び／又はそれを備え得る。例えば、患者記録は、テキストファイル、ポータブル文書フォーマット（ＰＤＦ：portable document format）ファイル、拡張可能マークアップ言語（ＸＭＬ：extensible markup language）ファイルなどの１つ又は複数の電子ファイルとして表現され得る。文書がＰＤＦファイル、画像、又は他のテキスト無しファイルとして格納された場合、電子データ表現はまた、光学式文字認識処理から導出される文書に関連するテキストを含み得る。

[0043] 図３は図１Ａのシステム１００に従って１つ又は複数のモデルをトレーニングするための例示的処理３００を示す。処理３００は本開示において説明される１つ又は複数のモデルをトレーニングするために実施され得る（例えばトレーニングされたシステム、ニューラルネットワークなど）。例えば、非構造化文書をラベル付けし、このラベルに基づき患者に関連する事象の日を判断するためのモデルは処理３００に基づきトレーニングされ得る。別の例として、非構造化文書内の１つ又は複数の時間表現を識別し、この識別された時間表現に基づき日付けを判断するためのモデルが処理３００に基づきトレーニングされ得る。

[0044] ラベル付き記録３１０が特徴抽出部３２１へ入力され得る。例えば、ラベル付き記録３１０は１つ又は複数のデータベース内に格納され得る。ラベル付き記録３１０は、各患者が１つ又は複数の医療記録に関連付けられるように、複数の患者に関連するデータを含み得る。いくつかの実施形態では、ラベル付き記録は、複数の非構造化文書（元文書又は前処理された文書）とこれら文書のそれぞれに関連するラベルとを含み得る。その代わりに又は追加的に、ラベル付き記録は事象の日及び／又は期間（例えば開始日、終了日、期間、又はそれらの組み合わせなど）を含み得る。その代わりに又は追加的に、ラベル付き記録は、非構造化文書に関連する１つ又は複数の時間表現及び／又はこれらの時間表現に関連する改版された非構造化文書（本開示内の他の場所で説明されたような）を含み得る。

[0045] 特徴抽出部３２１は、ラベル付き記録３１０から特徴（キーワード、キーフレーズなど）を抽出し得、そしてこれらの特徴を、事象の日に対する妥当性のレベルに関しスコア付けし得る。したがって、いくつかの実施形態では、特徴はベクトルとして表現され得る。

[0046] 特徴抽出部３２１により抽出された特徴の一部は記録３１０の対応ラベルと照合され、そしてトレーニングデータ３２３として格納され得る。トレーニングデータ３２３は１つ又は複数のトレーニングアルゴリズム３２５により使用され得る。例えば、トレーニングアルゴリズム３２５は、グラウンドトルース（ground truth）として働き得る抽出された特徴と特定ラベル（例えば文書へ割り当てられたラベル、事象のラベル付き日、事象のラベル付き期間、ラベル付き時間表現、ラベル付き改版された非構造化文書）とを関係付ける１つ又は複数の関数（又は規則）を生成し得るロジスティックス回帰を含み得る。例えば、トレーニングアルゴリズム３２５は、ｎ字列（ngram）により特徴付けられ得る単純ｌ２正規化ロジスティックス回帰を含み得る。追加的に又はその代わりに、トレーニングアルゴリズム３２５は、特徴の入力層を１つ又は複数の隠れ層に挿通させ、次に（関連確率を有する）ラベルの出力層に挿通させるように１つ又は複数のノードの重み付けを調整する１つ又は複数のニューラルネットワークを含み得る。例えば、ニューラルネットワークは明示的カスケードモデル、長短期記憶（ＬＳＴＭ：long short-term memory）など又はそれらの組み合わせを含み得る。トレーニングアルゴリズム３２５は１つ又は複数のモデル３３０を出力する。

[0047] 図４は例示的ニューラルネットワーク４００を示す。ニューラルネットワーク４００は入力層、１つ又は複数の隠れ層、及び出力層を含み得る。これらの層のそれぞれは１つ又は複数のノードを含み得る。いくつかの実施形態では、出力層は１つのノードを含み得る。代替的に、出力層は複数のノードを含み得、ノードのそれぞれは異なるデータを出力し得る。入力層は入力（例えば医療記録）を受信するように構成され得る。いくつかの実施形態では、モデルの１つ又は複数の隠れ層は、本開示において説明される規則又は制約を実施するために少なくとも１つの抑止モジュールを含み得る。

[0048] いくつかの実施形態では、１つの層内のあらゆるノードが次の層内の一つおきのノードへ接続される。ノードは、その入力の加重和を取り、この加重和を非線形活性化関数に通し、この結果は次の層内の別のノードの入力として出力され得る。トレーニングデータは左から右へ流れ得、最終出力はすべてのノードの計算に基づき出力層において計算され得る。

[0049] 図３を参照すると、特徴抽出部３２１により抽出された特徴の他の部分は、記録３１０の対応ラベルと照合され、試験データ３４０として格納され得る。試験データ３４０は、過少包含からの偏り又は過剰包含からの偽陽性を検出するために１つ又は複数のモデル３３０を精緻化するために使用され得る。次に、照合されたデータ３４０は、１つ又は複数のモデル３３０に通され得る。１つ又は複数のモデル３３０は、試験データ３４０の予測（又はスコア）３５０を生成し得る。性能測度３６０は、例えば予測３５０と試験データ３４０のラベルとを比較することにより１つ又は複数のモデル３３０を精緻化するために使用され得る。例えば、上に説明したように、１つ又は複数のモデル３３０はラベルと予測３５０間の偏差を低減するために再トレーニング（例えば、修正）され得る。この修正は１つ又は複数の損失関数に基づき得る。

[0050] 図５は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の１つ又は複数の日を予測するための例示的処理５００のフローチャートである。処理５００（及び以下の処理７００、１０００、１１００）の説明は例示的事象として患者が特定薬を服用することに言及するが、当業者は、事象が本開示において説明される例に限定されないということを理解するだろう。例えば、事象は患者が受ける治療に関係し得る。

[0051] 工程５０１では、コンピュータ装置１０２はストレージ装置（例えば、データベース１０３及び／又はデータベース１０３）から患者の医療記録を取得するように構成され得る。医療記録は複数の非構造化文書を含み得る。いくつかの実施形態では、医療記録はまた、患者に関する定量化可能又は分類可能データなどの構造化データを含み得る。非構造化文書は定量化可能でない又は容易に分類されない患者に関する情報を含み得る。例示的非構造化文書は、患者のノート、診療所訪問ノート、治療計画の医師の記述、実験室報告、患者の具合に関する記述、放射線学的報告、病理報告など又はそれらの組み合わせを含み得る。非構造化文書は、患者、看護婦、医師、実験室技師など又はそれらの組み合わせにより作成され得る。

[0052] いくつかの実施形態では、コンピュータ装置１０２は受信された医療記録を再処理し得る。例えば、非構造化文書に関して、コンピュータ装置１０２は、薬への言及（ジェネリック又はブランド名のいずれかによる）の無い文書（群）及び文章（群）を除去し得る。その代わりに又は追加的に、コンピュータ装置１０２は医療記録に含まれる情報の冗長性を除去し得る。例えば、コンピュータ装置１０２は、文書（例えば現在のノートに先立って発生した臨床ノート）内に出現する１つ又は複数の文章を除去し得る。その代わりに又は追加的に、コンピュータ装置１０２は、薬の各言及をプレースホールダ「ＤＲＵＧ」でそして他の一般的に服用される薬の各言及をプレースホールダ「ＯＴＨＥＲ－ＤＲＵＧ」で置換し得る。この前処理は、モデルにより学習された特徴が薬全体にわたって一般化可能であるということを保証し得る。

[0053] コンピュータ装置１０２はまた、前処理された医療記録を生成し得る。前処理された医療記録は、元の非構造化文書に基づく複数の前処理された非構造化文書を含み得る。いくつかの実施形態では、２つ以上の前処理された非構造化文書が文書タイムラインを形成し得る。文書タイムラインは、文書が作成された時に従ってソートされた前処理済み非構造化文書、又は文書に関連するタイムスタンプを含み得る。

[0054] 図６は例示的文書タイムライン６００を示す。文書タイムライン６００は前処理された非構造化文書６０１、６０３、６０５、６０７、６０９を含み得る。前処理された非構造化文書６０１、６０３、６０５、６０７、６０９は、非構造化文書（例えば複数の臨床ノート）を前処理することによりコンピュータ装置１０２により取得され得る。例えば、前処理された非構造化文書６０１は、特許がノートの日から次の月曜日に薬の処置を開始するということを指示する臨床ノートを医師により前処理することにより生成され得る。ノートの前処理中、コンピュータ装置１０２は、前処理された非構造化文書６０１を提示するために非標的薬の名前をプレースホールダ「ＯＴＨＥＲ＿ＤＲＵＧ」でそして標的薬の名前をプレースホールダ「ＤＲＵＧ」で置換し得る。いくつかの実施形態では、非構造化文書を前処理することは、事象への言及の無い１つ又は複数の文章を除去すること、又は重複情報を除去することなど、又はそれらの組み合わせを含み得る。

[0055] いくつかの実施形態では、コンピュータ装置１０２は、元の非構造化文書を前処理のためにモデルへ入力し、そして前処理された非構造化文書をモデルから取得し得る。いくつかの実施形態では、コンピュータ装置１０２は元の非構造化文書を、事象の日を前処理及び予測するためにモデルへ入力し得（すなわち、モデルは医療記録を前処理するとともに日付けを予測するように構成され得る）、コンピュータ装置１０２はこの予測をモデルから受信し得る。

[0056] いくつかの実施形態では、再処理は、処理７００の工程７０１、処理１０００の工程１００１、及び／又は処理１１００の工程１１０１の一部であり得る。

[0057] 工程５０３では、コンピュータ装置１０２は事象の日を予測するためのモデルを取得するように構成され得る。いくつかの実施形態では、モデルは、トレーニング処理（例えば本開示の他の場所で説明されたトレーニング処理３００）に基づき生成されたトレーニングされたモデルを含み得る。いくつかの実施形態では、モデルは、ｎ字列により特徴付けられ得る単純ｌ２正規化ロジスティックス回帰であり得る。その代わりに又は追加的に、モデルは１つ又は複数のニューラルネットワークを含み得る。ニューラルネットワークは明示的カスケードモデル、長短期記憶（ＬＳＴＭ）など又はそれらの組み合わせを含み得る。

[0058] いくつかの実施形態では、コンピュータ装置１０２は関心のある特定事象に基づきモデルを取得し得る。例えば、コンピュータ装置１０２は第１の薬の第１のモデルを取得し得るが、第２の薬の第２のモデルを取得してもよい。その代わりに又は追加的に、コンピュータ装置１０２は、関心のある患者に関係する人口学的情報（例えば年齢、性別）に基づくモデルを取得し得る。

[0059] いくつかの実施形態では、モデルは入力層、１つ又は複数の隠れ層、及び出力層を含み得る。各層は１つ又は複数のノードを含み得る。入力層は入力（例えば薬名、医療記録、前処理された医療記録、非構造化文書、前処理された非構造化文書など又はそれらの組み合わせ）を受信し得る。いくつかの実施形態では、出力層は、データ（例えば事象の予測開始日）又は一組のデータ（複数の候補日及び候補日に関連する確率スコア）を出力するように構成された１つのノードを含み得る。代替的に、出力層は複数のノードを含み得、ノードのそれぞれは異なるデータを出力し得る。いくつかの実施形態では、１つの層内のあらゆるノードが次の層内の一つおきのノードへ接続される。ノードは、その入力の加重和を取り、この加重和を非線形活性化関数に通し、この結果は次の層内の別のノードの入力として出力され得る。入力データはこれらの層中を流れ得、最終出力はすべてのノードの計算に基づき出力層において計算され得る。

[0060] 工程５０５では、コンピュータ装置１０２は医療記録をモデルへ入力するように構成され得る。例えば、ユーザはモデルへ入力される医療記録を入力装置１５３を介し選択し得る。いくつかの実施形態では、モデルは入力層を含み得、コンピュータ装置１０２は医療記録をモデルの入力層へ入力し得る。いくつかの実施形態では、医療記録は少なくとも１つの前処理された非構造化文書を含み得る。

[0061] 工程５０７では、コンピュータ装置１０２は複数の非構造化文書の文書毎にモデルからラベルを割り当てるように構成され得る。いくつかの実施形態では、モデルは、本明細書において（明示的に又は暗黙的に）指示されるタイムスタンプ及び／又は時間表現に基づきラベルを非構造化文書へ割り当て得る。その代わりに又は追加的に、モデルは、別の文書（又は複数の文書）において指示されるタイムスタンプ及び／又は時間表現を、非構造化データのラベルを判断する際に考慮し得る。例えば、モデルは、出力層からの出力としてラベルを非構造化文書へ割り当てるように構成された分類アルゴリズムを含み得る。一例として、モデルは、「事象前」ラベル（又は本明細書では「ＰＲＥ」ラベルと呼ばれる）、「事象中」ラベル（又は本明細書では「ＭＩＤ」ラベルと呼ばれる）、「事象後」ラベル（又は本明細書では「ＰＯＳＴ」ラベルと呼ばれる）、「非事象」ラベル（又は本明細書では「ＯＴＨＥＲ」ラベルと呼ばれる）を含む４つのラベルのうちの１つのラベルを非構造化文書へ割り当て得る。「ＰＲＥ」ラベルは文書が事象前の日に関係するということを指示し得る。「ＭＩＤ」ラベルは文書が事象中の日に関係するということを指示し得る。「ＰＯＳＴ」ラベルは文書が事象後の日に関係するということを指示し得る。「ＯＴＨＥＲ」ラベルは文書が事象に非決定的又は無関係であるということを指示し得る。

[0062] いくつかの実施形態では、モデルはラベルを非構造化文書へ割り当てるための規則又は制約を実施し得る。例えば、規則又は制約は、ＭＩＤとラベル付けられたいかなる文書もＰＲＥに先行し得ないように、そしてＰＯＳＴとラベル付けられたいかなる文書もＭＩＤとラベル付けられた文書に先行し得ないように構成され得る。いくつかの実施形態では、モデルの１つ又は複数の隠れ層は、本開示において説明される規則又は制約を実施するための少なくとも１つの抑止モジュールを含み得る。

[0063] いくつかの実施形態では、モデルは出力層を含み得、コンピュータ装置１０２は複数の非構造化文書の文書毎にモデルの出力層からラベルを割り当てるように構成され得る。

[0064] 一例として、図６を参照すると、モデルは「ＰＲＥ」ラベルを非構造化文書６０１、６０３へ割り当て得る。モデルはまた、「ＭＩＤ」ラベルを非構造化文書６０５、６０７へ割り当て、そして「ＰＯＳＴ」ラベルを非構造化文書６０９へ割り当て得る。

[0065] いくつかの実施形態では、モデルはまた、非構造化文書へのラベルの割り当てのための確率スコアを判断し得る。その代わりに又は追加的に、モデルは、文書毎に、２つ以上のラベルにわたる確率分布を判断し得る。モデルはまた、最高確率スコアを有するラベルを文書のラベルとして割り当て得る。

[0066] 工程５０９では、モデル（又はコンピュータ装置１０２）は複数の非構造化文書のラベルに基づき事象の開始日（又は終了日、期間など又はそれらの組み合わせ）を予測するように構成され得る。

[0067] いくつかの実施形態では、モデルは事象の日を予測するための規則又は制約を実施し得る。例えば、モデルの１つ又は複数の隠れ層は、ＭＩＤ又はＰＯＳＴとラベル付けられたいかなる文書も存在しなければモデルが「薬が服用されなかった」という指標を出力し得るように規則又は制約を実施するための少なくとも１つの抑止モジュールを含み得る。別の例として、規則は、「ＭＩＤ」ラベル（存在すれば）を有する第１の文書のタイムスタンプ（又は時間表現）と「ＰＯＳＴ」ラベル（存在すれば）を有する第１の文書のタイムスタンプ（又は時間表現）とへ開始日が設定され得るように実施され得る。一例として、図６を参照すると、モデルは「ＭＩＤ」ラベルを、文書タイムライン６００内の「ＭＩＤ」ラベルを有する第１の文書であり得る非構造化文書６０５へ割り当て得る。モデルはまた、患者が薬を服用する開始日として非構造化文書６０５のタイムスタンプ２０１８年１２月１５日を設定し得る。その代わりに又は追加的に、モデルは、文書タイムライン６００内の「ＰＯＳＴ」ラベルを有する第１の文書であり得る非構造化文書６０９へ「ＰＯＳＴ」ラベルを割り当て得る。モデルは、患者が薬を服用する最終日として非構造化文書６０９のタイムスタンプ２０１９年１月２８日を設定し得る。その代わりに又は追加的に、モデルは開始日及び終了日に基づき事象の期間を判断し得る。

[0068] いくつかの実施形態では、モデルはまた、予測された日（群）の確率スコアを判断し得る。例えば、モデルは２０１８年１２月１５日の予測開始日の確率スコア及び２０１９年１月２８日の断定終了日の確率スコアを判断し得る。モデルはまた、日及びそれらの対応確率スコアを出力し得る。いくつかの実施形態では、モデルは出力層を含み得、モデルは出力層を介し日及びそれらの対応確率スコアを出力し得る。

[0069] いくつかの実施形態では、コンピュータ装置１０２はモデルによる入力の処理の結果を受信し得る。例えば、コンピュータ装置１０２は予測された日（群）及び対応確率スコア（群）をモデルから受信し得る。その代わりに又は追加的に、コンピュータ装置１０２は１つ又は複数のラベル付き文書（例えば割り当てられたラベル（群）を有する文書６０１、６０３、６０５、６０７、６０９のうちの１つ又は複数の文書）と同ラベルに関連する確率スコアとをモデルから受信し得る。

[0070] 工程５１１では、コンピュータ装置１０２は予測された日（群）を出力するように構成され得る。例えば、コンピュータ装置１０２は予測された開始及び終了日を出力装置１５４（例えばディスプレイ）を介し出力するように構成され得る。いくつかの実施形態では、コンピュータ装置１０２はまた、モデルによる医療記録の処理の１つ又は複数の結果を出力するように構成され得る。例えば、コンピュータ装置１０２は予測された日に関連する確率スコアを出力するように構成され得る。

[0071] 図７は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の１つ又は複数の日を予測するための例示的処理７００のフローチャートである。

[0072] 工程７０１では、コンピュータ装置１０２は患者の医療記録を取得し得る。いくつかの実施形態では、コンピュータ装置１０２は、本開示の他の場所で説明された処理５００の５０１の工程に関連して説明されたものと同様な１つ又は複数の操作に基づき医療記録を取得し得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。

[0073] 工程７０３では、コンピュータ装置１０２は患者に関連する事象の日を予測するためのモデルを取得し得る。いくつかの実施形態では、コンピュータ装置１０２は、本開示の他の場所で説明された処理５００の工程５０３に関連して説明したものと同様な１つ又は複数の操作に基づきモデルを取得し得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。

[0074] 工程７０５では、コンピュータ装置１０２はさらに、医療記録をモデルへ入力するように構成される。例えば、ユーザはモデルへ入力される医療記録を入力装置１５３を介し選択し得る。いくつかの実施形態では、医療記録は少なくとも１つの前処理された非構造化文書を含み得る。いくつかの実施形態では、モデルは入力層を含み得、コンピュータ装置１０２は医療記録をモデルの入力層へ入力し得る。

[0075] 工程７０７では、モデル及び医療データに従って、複数の非構造化文書の文書毎に、コンピュータ装置１０２は複数の非構造化文書の各文書内の１つ又は複数の時間表現を識別するように構成され得る。時間表現は、定義された用語（例えば「２０１９年１月２８日」）、相対語（例えば「次の月曜日」）、別の日又は事象（例えば「最後の訪問以来の」）など又はそれらの組み合わせかを参照する用語であり得る。一例として、図９を参照すると、コンピュータ装置１０２は、非構造化文書６０１、６０３、６０５、６０７、６０９を含み得る文書タイムライン６００を含む医療記録を入力し得る。モデルは非構造化文書内の１つ又は複数の時間表現を識別するように構成され得る。モデルは非構造化文書６０１内の時間表現「次の月曜日」を識別し得る。モデルはまた、文書のタイムスタンプを２０１８年１１月２３日として識別し得る。別の例として、モデルは非構造化文書６０５内の時間表現「一週間の間」を識別し得る。別の例として、モデルは非構造化文書６０９内の時間表現「今日」を識別し得る。

[0076] 工程７０９では、モデルは、識別された１つ又は複数の時間表現に関係する１つ又は複数の日を判断し得る。一例として、図８Ａを参照すると、非構造化文書６０１、６０５、６０７（図９に示す）それぞれに含まれる時間表現「次の月曜日」、「一週間の間」及び「今日」の表現毎に、モデルは時間表現（本明細書ではマップ日と呼ばれる）に関連付けられた日を判断し得る。いくつかの実施形態では、モデルは、あり得る時間表現タイプをいくつかのバケット（特定日（例えば「１１月２７日」）及び相対日（例えば「この前の火曜日」）などの）のうちの１つへ類別化する正規表現ベース時間タグ付け子を使用し得る。モデルはさらに、識別された日情報に基づきマップ日を判断する。

[0077] いくつかの実施形態では、モデルは、時間表現が識別される文書の日付けに基づき時間表現のマップ日を判断し得る。例えば、図８Ａに示すように、モデルは、１１月２３日（金曜である）の文書日付けに基づき、非構造化文書６０１内で識別された時間表現「次の月曜日」の「２０１８年１１月２６日」のマップ日を判断し得る。別の例として、モデルは、２０１８年１２月１５日の文書日付けに基づき、非構造化文書６０５内で識別された時間表現「一週間の間」の「２０１８年１２月８日」のマップ日を判断し得る。別の例として、モデルは、２０１９年１月３日の文書日付けに基づき、非構造化文書６０７内の識別された時間表現「今日」の２０１９年１月３日のマップ日を判断し得る。

[0078] いくつかの実施形態では、モデルは、時間表現が識別される文書の日付け及び別の文書の日付けに基づき時間表現のマップ日を判断し得る。例えば、文書は、以前の診療所訪問を参照する時間表現（例えば「最後の訪問からこの前の月曜日まで」）を含み得る。モデルは、本文書では時間表現「最後の訪問以来」を識別し、そして本文書の日付けと以前の訪問（すなわち、時間表現を含む文書内で参照される「最後の訪問」）に関連付けられる文書の日付けとに基づき時間表現のマップ日（又は期間）を判断し得る。

[0079] いくつかの実施形態では、モデルは識別された時間表現とそのマップ日とに基づき文書の内容を改版するように構成され得る。一例として、図９を参照すると、非構造化文書６０１に含まれる「ＯＴＨＥＲ＿ＤＲＵＧでの進展後、患者は次の月曜日にＤＲＵＧの処置を開始する」文章では、時間表現「次の月曜日」は時間表現タイプ名（本明細書では、「ＴＩＭＥＲＥＬＡＴＩＶＥ」、「ＴＩＭＥＤＵＲＡＴＩＯＮ」など又はそれらの組み合わせなど「ＴＩＭＥＢＵＣＫＥＴ－ＮＡＭＥ」と呼ばれる）で置換され得る。例えば、時間表現「次の月曜日」は図８Ｂに示すように「ＴＩＭＥＲＥＬＡＴＩＶＥ」で置換され得る。別の例として、時間表現「今日」は非構造化文書６０７に含まれる「ＴＩＭＥＲＥＬＡＴＩＶＥ＿ＤＡＹ」で置換され得る。いくつかの実施形態では、モデルは、マップ日と、マップ日に関連付けられた時間表現を置換する用語との間の関係式（例えば図８Ｂに示される表と同様な参照表）を生成し得る。

[0080] いくつかの実施形態では、モデルは、受信された医療記録を更新するように、そして改版された又は新しい内容を有する少なくとも１つの文書を含む更新された医療記録を生成するように構成され得る。一例として、図９を参照すると、モデルは、文書タイムライン６００を更新し、模擬文書タイムライン９００を生成し得る。モデルはその内容の少なくとも一部を受信することにより文書６０１を更新し（本開示の他の場所で説明されたように）、そして更新された文書９０１を生成するように構成され得る。モデルはまた、元文書６０３、６０７、６０９を文書９０３、９０７、９０９として維持するように構成され得る。代替的に、モデルは、時間表現「今日」を「ＴＩＭＥＲＥＬＡＴＩＶＥ＿ＤＡＹ」で置換することにより文書６０７を更新し得る（図８Ｂに示すように）。いくつかの実施形態では、モデルは文書からいくつかの情報を除去し得る。その代わりに又は追加的に、モデルは１つ又は複数の文書に基づき「疑似」文書を生成し得る。一例として、図９を参照すると、モデルは、文書から語句「患者はＤＲＵＧを一週間服用してきた」を除去することにより文書６０５を更新し、そして文書９０５を生成するように構成され得る。モデルはまた、文書６０５から除去された語句及び文書６０５内の識別された時間表現に基づき新しい「疑似」文書９０４を生成し得る。例えば、モデルは、語句「患者はＤＲＵＧをＴＩＭＥＤＵＲＡＴＩＯＮ間服用してきた」を含む文書９０４を生成し得る。モデルはさらに、時間表現「一週間の間」の「２０１８年１２月８日」のマップ日（及びタイプ名「ＴＩＭＥＤＵＲＡＴＩＯＮ」）を判断し得る。モデルはまた、マップ日を文書９０５の日付け（又はタイムスタンプ）として設定し得る。

[0081] いくつかの実施形態では、モデルはまた、事象の開始（例えば開始日）、事象の終了（例えば終了日）、又は非事象日に関連付けられるための文書に関連付けられる日付け（例えば文書のタイムスタンプ、文書の日付け、文書に関連付けられたマップ日など又はそれらの組み合わせ）の確率スコアを判断するように構成され得る。一例として、モデルは、患者による薬の服用の開始に関連付けられるための２０１８年１２月８日のマップ日（文書９０４に関連付けられる）の確率スコアを判断し得る。その代わりに又は追加的に、モデルは、図８Ｂに示すように文書９０４（及び／又はマップ日）を「Ｓｔａｒｔ」とラベル付けするように構成され得る。別の例として、モデルは、２０１８年１１月２６日及び２０１９年１月３日のマップ日（及び／又は関連付けられた文書）を「Ｏｔｈｅｒ」とラベル付けし得る。

[0082] いくつかの実施形態では、モデルは、文書を事象の開始（例えば開始日）、事象の終了（例えば終了日）、又は非事象日に関連付けられるための文書の日付けの確率スコアに基づき更新すべきかどうかを判断し得る。例えば、図９を参照すると、モデルは、事象の開始に関連付けられるための文書６０５に関係する日付けの確率スコアが閾値（例えば７０～９９％の数字）より高いかどうかを判断し得る。そうであれば、モデルは文書６０５を更新しなくてもよい（すなわち、文書９０４の生成及び／又は改版はしない）。そうでなければ、モデルは、本開示の他の場所で説明されたように文書６０５を更新することに進み得る。

[0083] 工程７１１では、モデル（又はコンピュータ装置１０２）は、事象に関連付けられた１つ又は複数の日（及び／又は期間）を文書の日付けに関連付けられた確率スコアに基づき予測するように構成され得る。例えば、モデルは、患者が薬を服用する開始（又は終わり）に関連付けられるための最高確率スコアを有する文書に関連付けられる日付け（例えば文書のタイムスタンプ、文書の日付け、文書のマップ日）を判断するように構成され得る。一例として、モデルは、２０１９年１２月８日（文書９０４に関連付けられる）が、開始日として、事象の開始に関連付けられるための最高確率スコアを有するということを判断し得る。

[0084] いくつかの実施形態では、モデル（又はコンピュータ装置１０２）は、事象に関連付けられた１つ又は複数の日（及び／又は期間）を、文書に関連付けられた日と、事象の開始又は終了に関連付けられるための日付けの確率スコアとに基づき予測するように構成され得る。例えば、モデルは閾値より高い事象の開始に関連付けられるための確率スコアを有する文書タイムライン内の最も初期の文書（例えば最も初期のタイムスタンプを有する文書）を判断するように構成され得る。別の例として、医療データは、複数の非構造化文書の中から、「事象中」ラベルを有する１つ又は複数の文書を識別し、「事象中」ラベルを有する１つ又は複数の文書の中から、最も初期のタイムスタンプを有する文書を選択し、そして選択された文書のタイムスタンプの日付けを事象の開始日として割り当て得る。

[0085] 工程７１３では、コンピュータ装置１０２は予測された日（群）を出力するように構成され得る。例えば、コンピュータ装置１０２は予測された開始及び終了日を出力装置１５４（例えばディスプレイ）を介し出力するように構成され得る。いくつかの実施形態では、コンピュータ装置１０２はまた、モデルによる医療記録の処理の１つ又は複数の結果を出力するように構成され得る。例えば、コンピュータ装置１０２はまた、日付けに関連付けられた確率スコアを出力するように構成され得る。別の例として、コンピュータ装置１０２は更新された文書タイムライン（例えば更新された文書タイムライン９００）を出力するように構成され得る。いくつかの実施形態では、モデルは、モデルによる医療記録の処理の１つ又は複数の結果（例えば１つ又は複数の予測された日付け、確率スコア、更新された文書など又はそれらの組み合わせ）を出力するように構成された出力層を含み得る。

[0086] 図１０は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の１つ又は複数の日を予測するための例示的処理１０００のフローチャートである。工程１００１では、コンピュータ装置１０２は医療記録を取得し得る。いくつかの実施形態では、コンピュータ装置１０２は、処理５００の工程５０１に関連して説明したものと同様な１つ又は複数の操作に基づき医療記録を取得し得、したがってその詳細説明は簡潔さの目的からここでは繰り返されない。

[0087] 工程１００３では、コンピュータ装置１０２は第１のモデルを取得し得る。いくつかの実施形態では、コンピュータ装置１０２は、処理７００の工程７０３において取得されたモデルと同様な第１のモデルを取得し得、したがってその詳細説明は簡潔さの目的からここでは繰り返されない。

[0088] 工程１００５では、コンピュータ装置１０２は医療記録を第１のモデルへ入力し得る。いくつかの実施形態では、コンピュータ装置１０２は、処理７００の工程７０５（又は処理５００の工程５０５）に関連して説明したものと同様な１つ又は複数の操作に基づき医療記録を第１のモデルへ入力し得、したがってその詳細説明は簡潔さの目的からここでは繰り返されない。

[0089] 工程１００７では、第１のモデルは、コンピュータ装置１０２により受信され得る更新された医療記録を生成し出力し得る。更新された医療記録はマップ日を有する少なくとも１つの更新された非構造化文書を含み得る。いくつかの実施形態では、第１のモデルは、１つ又は複数の更新された非構造化文書を処理７００の工程７０７～７１１に関連して説明したものと同様な１つ又は複数の操作に基づき生成し得る。例えば、第１のモデルは医療記録の非構造化文書内の１つ又は複数の時間表現を識別するように構成され得る（処理７００の工程７０７に関連して説明した１つ又は複数の操作と同様に）。第１のモデルはまた、識別された時間表現（群）に関係する１つ又は複数の日（すなわちマップ日）を判断するように構成され得る（処理７００の工程７０９に関連して説明された１つ又は複数の操作と同様に）。第１のモデルはさらに、時間表現に関係する判断された日付けに関連付けられた内容を受信することにより非構造化文書を更新するように構成される（処理７００の工程７０９に関連して説明された１つ又は複数の操作と同様に）。いくつかの実施形態では、第１のモデルはまた、元文書の判断された日付け及び内容に基づき「疑似」文書を生成するように構成され得る。一例として、第１のモデルは、図９に示す文書９０４を生成し、そして更新された文書タイムライン９００を生成し得る。

[0090] いくつかの実施形態では、第１のモデルは、事象に関連付けられた１つ又は複数の暫定日（及び／又は期間）を文書の日付けに関連付けられた確率スコアに基づき予測するように構成され得る。例えば、第１のモデルは、患者が薬を服用する開始（又は終わり）に関連付けられるための最高確率スコアを有する文書に関連付けられた日（例えば文書のタイムスタンプ、文書の日付け、文書のマップ日）を判断するように構成され得る。第１のモデルはまた、事象に関連付けられた１つ又は複数の暫定日（及び／又は期間）を、文書に関連付けられた日と事象の開始又は終了に関連付けられるための日付けの確率スコアとに基づき予測するように構成され得る。第１のモデルはさらに、予測された暫定日（群）の確率スコアを判断するように構成され得る。予測された暫定日（群）の確率スコアが閾値（例えば７０％～９９％の数字）より高ければ、暫定日（群）は事象に関連付けられた日（例えば開始日、終了日）として設定され得、処理１０００は工程１００５へ進み得、ここでコンピュータ装置１０２は予測日（群）を出力し得る。

[0091] 工程１００９では、コンピュータ装置１０２は第２のモデルを取得し得る。いくつかの実施形態では、コンピュータ装置１０２は処理５００の工程５０３において取得されたモデルと同様な第２のモデルを取得し得、したがってその詳細説明は簡潔さの目的のためここでは繰り返されない。

[0092] 工程１０１１では、コンピュータ装置１０２は更新された医療記録を第２のモデルへ入力し得る。一例として、コンピュータ装置１０２は、更新された文書タイムライン９００を含む更新された医療記録を第２のモデルへ入力し得る。

[0093] 工程１０１３では、コンピュータ装置１０２は、第２のモデルから、事象に関連付けられた１つ又は複数の断定された日付けを取得し得る。いくつかの実施形態では、第２のモデルは事象に関連付けられた１つ又は複数の日を処理５００の工程５０７、５０９に関連して説明したものと同様な１つ又は複数の操作に基づき予測し得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。一例として、第２のモデルは、更新された文書（及び／又は更新されていなければ元文書）の文書毎に、ラベルを、更新された文書に関連付けられた日（例えばマップ日、タイムスタンプ、時間表現など又はそれらの組み合わせ）に基づき割り当て得る。例えば、第２のモデルは、ＰＲＥ、ＭＩＤ、ＰＯＳＴ、及び／又はＯＴＨＥＲラベルのうちの１つのラベルを、更新された（又は元の）文書へ割り当て得る。第２のモデルはさらに、これらのラベルに基づき事象の開始日（又は終了日、期間など又はそれらの組み合わせ）を予測するように構成され得る。

[0094] 工程１０１５では、コンピュータ装置１０２は予測された日（群）を例えば出力装置１５４を介し出力し得る。例えば、コンピュータ装置１０２は、患者が薬を服用する予測開始及び終了日をディスプレイ上に提示し得る。いくつかの実施形態では、コンピュータ装置１０２はまた、医療記録の処理の１つ又は複数の結果及び／又は第１及び／又は第２のモデルにより更新された医療記録を提示し得る。一例として、コンピュータ装置１０２は文書タイムライン５００及び／又は更新された文書タイムライン９００を提示し得る。別の例として、コンピュータ装置１０２は予測された日（群）の確率スコアを出力し得る。

[0095] 図１１は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の１つ又は複数の日を予測するための例示的処理１１００のフローチャートである。

[0096] １１０１では、コンピュータ装置１０２は医療記録を取得するように構成され得る。いくつかの実施形態では、コンピュータ装置１０２は、本開示の他の場所で説明された処理５００の工程５０１に関連して説明したものと同様な１つ又は複数の操作に基づき医療記録を取得するように構成され得、したがって詳細説明は簡潔さの目的のためにここでは再加熱されない。一例として、コンピュータ装置１０２は複数の非構造化文書を含む医療記録をデータベースから取得し得る。非構造化文書は前処理された文書を含み得る。その代わりに又は追加的に、非構造化文書は更新された文書を含み得る。

[0097] １１０３では、コンピュータ装置１０２は事象に関連付けられた日を予測するための第１のモデル及び第２のモデルを取得するように構成され得る。いくつかの実施形態では、第１のモデルは処理７００において取得されたモデルと同様なモデルを含み得、第２のモデルは処理５００において取得されたモデルと同様なモデルを含み得、したがって詳細説明は簡潔さの目的のためにここでは繰り返されない。

[0098] １１０５では、コンピュータ装置１０２は医療記録を第１のモデルへ入力するように構成され得る。いくつかの実施形態では、コンピュータ装置１０２は医療記録を本開示の他の場所で説明された処理７００の工程７０５に関連して説明したものと同様な１つ又は複数の操作に基づき第１のモデルへ入力するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。

[0099] １１０７では、コンピュータ装置１０２は事象に関連付けられた第１の暫定日を第１のモデルから取得するように構成され得る。第１の暫定日は事象の開始日及び／又は終了日含み得る。いくつかの実施形態では、コンピュータ装置１０２は本開示の他の場所で説明された処理７００の工程７０７～７１１に関連して説明したものと同様な１つ又は複数の操作に基づき第１の暫定日を予測するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。

[0100] 一例として、第１のモデルは医療記録の非構造化文書内の１つ又は複数の時間表現を識別するように構成され得る（処理７００の工程７０７に関連して説明された１つ又は複数の操作と同様に）。第１のモデルはまた、識別された時間表現（群）に関係する１つ又は複数の日（すなわちマップ日）を判断するように構成され得る（処理７００の工程７０９に関連して説明された１つ又は複数の操作と同様に）。第１のモデルはさらに、時間表現に関係する判断された日付けに関連付けられた内容を受信することにより非構造化文書を更新するように構成される（処理７００の工程７０９に関連して説明された１つ又は複数の操作と同様に）。第１のモデルはまた、事象の開始（例えば開始日）、事象の終了（例えば終了日）、又は非事象日に関連付けられるための文書に関連付けられた日の確率スコアを判断するように構成され得る。第１のモデル（又はコンピュータ装置１０２）は、事象に関連付けられた第１の暫定日（及び／又は期間）を、文書に関連付けられた日と事象の開始又は終了に関連付けられるための日付けの確率スコアとに基づき予測するように構成され得る。

[0101] １１０９では、コンピュータ装置１０２は医療記録を第２のモデルへ入力するように構成され得る。いくつかの実施形態では、コンピュータ装置１０２は本開示の他の場所で説明された処理５００の工程５０５に関連して説明したものと同様な１つ又は複数の操作に基づき医療記録を第２のモデルへ入力するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。

[0102] １１１１では、コンピュータ装置１０２は第２のモデルから第２の暫定日を取得するように構成され得る。第１の暫定日は事象の開始日及び／又は終了日を含み得る。いくつかの実施形態では、コンピュータ装置１０２は本開示の他の場所で説明された処理５００の工程５０７及び５０９に関連して説明したものと同様な１つ又は複数の操作に基づき第２のモデルから第２の暫定日を取得するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。一例として、第２のモデルは、文書内で（明示的に又は暗黙的に）指示されるタイムスタンプ及び／又は時間表現に基づきラベルを非構造化文書へ割り当てるように構成され得る。コンピュータ装置１０２又は第２のモデルはまた、非構造化文書のラベルに基づき事象の第２の暫定日（例えば開始日又は終了日）を予測するように構成され得る。いくつかの実施形態では、モデルはまた、第２の暫定日の確率スコアを判断し得る。

[0103] １１１３では、コンピュータ装置１０２は第１及び第２の暫定日に基づき事象の日を予測するように構成され得る。例えば、第１の暫定日は患者が薬を服用する第１の暫定開始日を含み得、第２の暫定日は第２の暫定開始日を含み得る。コンピュータ装置１０２は第１及び第２のモデルから第１及び第２の暫定開始日及びそれらの対応確率スコアを受信し得る。コンピュータ装置１０２は第１及び第２の暫定日に基づき開始日を判断し得る。例えば、コンピュータ装置１０２は、より高い確率スコアを有する第１及び第２の暫定日のうちの１つを事象の日として選択し得る。別の例として、コンピュータ装置１０２は、第１暫定日と第２の暫定日との間の日を、例えば第１暫定日と第２の暫定日との中間日周囲の日を選択することにより判断し、そしてこの判断された日を事象の日として割り当て得る。

[0104] １１１５では、コンピュータ装置１０２は当該日をユーザへ出力するように構成され得る。例えば、コンピュータ装置１０２は当該日を出力装置１５４（例えばディスプレイ）を介しユーザへ提示し得る。

実施例
実験セットアップ
[0105] トレーニングデータは、電子健康記録（ＥＨＲ）データから導出される経時的且つ人口統計学的且つ地理学的に多様性のあるデータベースであるデータベースから取得された転移性ＲＣＣを有する一組の患者の診療所訪問ノートに基づき取得された。経口薬投薬計画がそれらの開始日及び終了日と共にチャート精査を介し臨床専門家により抽出された。これらの日はラベル付けのために使用され、グラウンドトルースとして保持された。観察の単位は患者－薬ペアだった。臨床ノートが薬の少なくとも１つの記載（ジェネリック又はブランド名のいずれかによる）を含む患者－薬ペアだけが考慮された。１７２の様々な診療から８，２５９件のこのような患者－薬例があった。これらのうち、薬は、４，４１０件（５３％）の例において実際に服用されたが、残りの例では、薬は臨床ノート内に記載されていたが服用されなかった。

[0106] ラベル付きデータ（又はトレーニングデータ）のうちの８０％がトレーニングモデルのために使用され、２０％が試験のために使用された。データセットは、トレーニングセット内に出現したいかなる患者も試験セット内に存在しないように分割された。

[0107] 患者が薬を服用したかどうかを予測する２進タスクの性能はＦ１スコアを使用することにより判断される。真陽性例（患者が薬を服用したということをモデルが正しく予測した例）に関し、開始日及び終了日の一致は次のように測定された。Ｓｔａｒｔｉ（ｔ）及びＳｔｏｐｉ（ｔ）を第ｉ番目例に関し、予測された開始日又は終了日がｔ日の窓内のグラウンドトルース日に整合するかどうかを表す指示子変数とする。例えば、患者が依然として薬を服用しており且つモデルがこれを正しく識別すれば又はモデルにより識別された最後に服用された日がグラウンドトルースの週内であればのいずれかであれば、Ｓｔｏｐｉ（７）＝１。日付け一致全体を測定するために、我々は、Ｓｔａｒｔｉ（ｔ）及びＳｔｏｐｉ（ｔ）値の真陽性全体にわたる平均値であるように定義されたＳｔａｒｔｉ（ｔ）及びＳｔｏｐｉ（ｔ）を使用した。

[0108] データセットサイズに対して柔軟且つ敏感なままであるために、ＴＩＦＴＩフレームワークは、いずれのサブタスクの分類アルゴリズムも規定しない。我々はサブタスク毎に複数のアルゴリズムを試した。文書タイムラインシーケンスラベル付けタスクに関して、我々は、ｎ字列により特徴付けられた文書全体にわたる双方向ＬＳＴＭにより最高性能を見た。時間表現分類タスクに関して、我々は、ｎ字列により又特徴付けられる単純ｌ２正規化ロジスティックス回帰により最高性能を見た。これらの最適化は、他のハイパーパラメータチューニングと共に、開発セットに関し５重相互検証を使用しＦ１スコアとＳｔａｒｔ（０）とＳｔｏｐ（０）との組み合わせに関し最適化することにより行われた。

[0109] 希少薬にうまく対応しそして病気全体にわたり一般化するために、ＴＩＦＴＩは特徴生成中に薬名を取り除き、各薬を独立にモデル化する。この設計が、意図された効果を有したかどうかを試験するために、我々は、進行した肺非小細胞癌（ＮＳＣＬＣ：non-small cell lung cancer）例のデータセット（開発セット内の一部と試験セット内の一部）をＲＣＣと同じデータ前処理及び特徴生成処理を使用することにより生成した。次に、我々は、ＲＣＣに関してトレーニングされた最終ＴＩＦＴＩモデル及びＮＳＣＬＣ例に関してトレーニングされたＴＩＦＴＩモデルのＮＳＣＬＣ試験セットに関する性能を測定した。

結果
[0110] ＲＣＣ試験セットに関して、モデルは、０．９４４のＦ１スコア、４５．８％のＳｔａｒｔ（０）スコア、５２．４％のＳｔｏｐ（０）スコア、８５．９％のＳｔａｒｔ（３０）スコア、及び７７．６％のＳｔｏｐ（３０）スコアを有した。アブレーション研究（表１）では、２つの最良性能モデルは明示的にカスケードされたモデルだった。模擬文書タイムラインを有するモデルは、０日及び３０日の両方で、元文書タイムラインを有するそのカウンターパートより性能が若干上回り、模擬タイムラインの疑似文書が有用文脈を追加したということを確認した。この効果は開始日統計に関してだけ見られ、このことは、開始日が終了日よりテキストで明示的に記載される可能性が高いという事実に合致する。

[0111] ＮＳＣＬＣ試験セットに関して、ＲＣＣデータに関してトレーニングされたモデルは、０．９３６のＦ１スコア、４９．１％のＳｔａｒｔ（０）スコア、及び５７．１％のＳｔｏｐ（０）スコアを有した。この性能は、ＲＣＣ試験セットに関する性能に匹敵しており、そしてＮＳＣＬＣ例に関してトレーニングされたモデルと同程度に高く（Ｆ１：０．９４７、Ｓｔａｒｔ（０）：５０．３％、Ｓｔｏｐ（０）：５７．８％）、本フレームワークが目的どおり一般化されたということを指示した。

[0112] ＴＩＦＴＩは経時的診療所訪問ノートから投薬計画の範囲を抽出するためのフレームワークである。ＴＩＦＴＩは、自由テキスト及び文書タイムスタンプの両方からの時間的情報を合成することにより形成される模擬患者タイムライン全体にわたる治療間隔を予測する。ＴＩＦＴＩは、３０日以内の日の約８０％を予測し、そして新しいタイプの癌に対して十分に一般化された。

[0113] これまでの説明は、例示を目的として提示された。これは、網羅的ではなく、したがって、開示された実施形態の精密な形式に限定されない。修正及び適応化は、本明細書の考察と開示された実施形態の実行とから当業者に明らかになる。加えて、開示された実施形態の態様はメモリ内に格納されるとして説明されたが、当業者は、これらの態様が例えばハードディスク又はＣＤＲＯＭ、又は他の形式のＲＡＭ又はＲＯＭ、ＵＳＢ媒体、ＤＶＤ、ブルーレイ、４ＫウルトラＨＤブルーレイ、又は他の光ドライブ媒体などの二次ストレージ装置などの他のタイプのコンピュータ可読媒体上にも格納され得るということを理解することになる。

[0114] 本明細書及び開示方法に基づくコンピュータプログラムは経験を積んだ開発者のスキル範囲内である。様々なプログラム又はプログラムモジュールは、当業者に知られた技術のうちの任意のものを使用して生成され得る又は既存ソフトウェアと接続して設計され得る。例えば、プログラム部又はプログラムモジュールは、．ＮｅｔＦｒａｍｅｗｏｒｋ、．ＮｅｔＣｏｍｐａｃｔＦｒａｍｅｗｏｒｋ（そしてＶｉｓｕａｌＢａｓｉｃ、Ｃなどの関連言語）、Ｊａｖａ、Ｐｙｔｈｏｎ、Ｒ、Ｃ＋＋、Ｏｂｊｅｃｔｉｖｅ－Ｃ、ＨＴＭＬ、ＨＴＭＬ／ＡＪＡＸ組み合わせ、ＸＭＬ、又は包含型Ｊａｖａアプレットを有するＨＴＭＬで又はこれにより設計され得る。

[0115] さらに、例示的実施形態が本明細書において説明されたが、等価的要素、修正、省略、組み合わせ（例えば様々な実施形態全体にわたる態様の）、適応化、及び／又は代替形態を有するありとあらゆる実施形態の範囲は、本開示に基づき当業者により理解されるだろう。特許請求の範囲における制限は、特許請求の範囲において採用される言語に基づき広く解釈されるべきであり、そして本明細書内で又は本出願の審査中に説明された例に限定されない。これらの例は非排他的であると解釈されるべきである。さらに、本開示方法の工程は、工程を再順序付けすることにより及び／又は工程を挿入又は削除することを含む任意のやり方で修正され得る。したがって、本明細書と例は単なる例示と考えられ得、真の範囲及び精神は以下の特許請求の範囲及びそれらの等価物の全範囲により示されるということが意図されている。

Claims

患者に関係する事象の日を予測するためのモデル支援型システムであって、
複数の非構造化文書を含む前記患者の医療記録をストレージ装置から取得し；
前記事象の前記日を予測するためのモデルを取得し；
前記医療記録を前記モデルへ入力し；
前記複数の非構造化文書の文書毎に、文書が前記事象前の日に関係するということを指示する「事象前」ラベル、文書が前記事象中の日に関係するということを指示する「事象中」ラベル、文書が前記事象後の日に関係するということを指示する「事象後」ラベル、及び文書が前記事象に対して非決定的又は無関係であるということを指示する「非事象」ラベルを含む４つのラベルの中から判断されたラベルを前記モデルから割り当て；
前記複数の非構造化文書の前記ラベルに基づき前記事象の開始日を予測し；
前記予測された開始日を出力するように構成された少なくとも１つのプロセッサを含むシステム。
前記少なくとも１つのプロセッサはさらに、前記複数の非構造化文書の前記ラベルに基づき前記事象の終了日を予測するように構成される、請求項１に記載のシステム。
前記少なくとも１つのプロセッサはさらに、
「事象前」ラベル、「事象中」ラベル又は「事象後」ラベルを有するいかなる文書も識別されなかったということを前記複数の非構造化文書の前記ラベルに基づき判断し；
前記複数の非構造化文書に関連付けられた複数の期間中にいかなる事象も発生しなかったということを判断するように構成される、請求項１に記載のシステム。
前記事象は前記患者により服用される薬に関係する、請求項１に記載のシステム。
前記事象は前記患者が受ける治療に関係する、請求項１に記載のシステム。
前記少なくとも１つのプロセッサはさらに、前記複数の非構造化文書の文書毎に前記モデルから前記４つのラベルのそれぞれの確率スコアを取得するように構成される、請求項１に記載のシステム。
前記少なくとも１つのプロセッサはさらに、前記複数の非構造化文書の文書毎に前記モデル及び前記複数の非構造化文書の１つ又は複数の文書に基づきタイムスタンプを判断するように構成される、請求項１に記載のシステム。
前記複数の非構造化文書の前記ラベルに基づき前記事象の前記開始日を予測することは、
前記複数の非構造化文書の中から「事象中」ラベルを有する１つ又は複数の文書を識別すること；
「事象中」ラベルを有する前記１つ又は複数の文書の中から最も早期のタイムスタンプを有する文書を選択すること；及び
前記選択された文書の前記タイムスタンプの日を前記事象の前記開始日として割り当てることを含む、請求項７に記載のシステム。
前記少なくとも１つのプロセッサはさらに、
前記複数の非構造化文書の中から「事象後」ラベルを有する１つ又は複数の文書を識別し；
「事象後」ラベルを有する前記１つ又は複数の文書の中から最も早期のタイムスタンプを有する文書を選択し；
前記選択された文書の前記タイムスタンプの日を前記事象の終了日として割り当てるように構成される、請求項７に記載のシステム。
前記少なくとも１つのプロセッサはさらに、前記複数の非構造化文書の各文書の前処理を行うように構成され、
前記前処理は前記事象に言及しない１つ又は複数の文章を除去すること又は重複情報を除去することのうちの少なくとも１つを含む、請求項１に記載のシステム。
前記モデルは入力層、１つ又は複数の隠れ層、及び出力層を含む、請求項１に記載のシステム。
患者に関係する事象の日を予測するためのモデル支援型システムであって、前記システムは、
複数の非構造化文書を含む前記患者の医療記録を取得し；
前記事象の日を予測するためのモデルを取得し；
前記医療記録を前記モデルへ入力し；
前記モデル及び前記医療記録に基づき、前記複数の非構造化文書の文書毎に：
前記複数の非構造化文書の各文書内の１つ又は複数の時間表現を識別し；
前記識別された１つ又は複数の時間表現に関係する１つ又は複数の日を判断し；
前記事象の開始、前記事象の終了又は非事象日に関連付けられるための前記判断された１つ又は複数の日の確率スコアを判断し；
前記確率スコアに基づき前記事象の開始日を予測し；及び
前記予測された開始日を出力するように構成される少なくとも１つのプロセッサを含むシステム。
前記少なくとも１つのプロセッサはさらに、前記確率スコアに基づき前記事象の終了日を予測するように構成される請求項１２に記載のシステム。
前記事象は前記患者により服用される薬に関係する、請求項１２に記載のシステム。
前記少なくとも１つのプロセッサはさらに、前記複数の非構造化文書の各文書の前処理を行うように構成され、
前記前処理は前記事象に言及しない１つ又は複数の文章を除去すること又は重複情報を除去することのうちの少なくとも１つを含む、請求項１２に記載のシステム。
前記複数の非構造化文書の少なくとも１つの文書に関し、前記識別された１つ又は複数の時間表現に関係する前記１つ又は複数の日を判断することは、
前記複数の非構造化文書の前記少なくとも１つの文書内の相対時間表現を識別すること；及び
前記識別された相対時間表現に基づきマップ日を前記複数の非構造化文書の前記少なくとも１つの文書の日付けとして判断することを含む、請求項１２に記載のシステム。
前記マップ日を前記識別された相対時間表現に基づき前記複数の非構造化文書の前記少なくとも１つの文書の日付けとして判断することは、
前記識別された相対時間表現及び前記医療記録の別の文書に基づき前記複数の非構造化文書の前記少なくとも１つの文書の日付けとして前記マップ日を判断することを含む、請求項１６に記載のシステム。
少なくとも１つのプロセッサはさらに、更新された医療記録を前記モデルから取得するように構成され、
前記更新された医療記録は前記複数の非構造化文書の改版された少なくとも１つの文書を含み、
前記複数の非構造化文書の前記改版された少なくとも１つの文書は前記相対時間表現を置換する前記マップ日を含む、請求項１６に記載のシステム。
前記少なくとも１つのプロセッサはさらに、
前記事象を予測するための第２のモデルを取得し；
前記更新された医療記録を前記第２のモデルへ入力し；
前記医療記録の文書の文書毎に、
文書が前記事象前の日に関係するということを指示する「事象前」ラベル、文書が前記事象中の日に関係するということを指示する「事象中」ラベル、文書が前記事象後の日に関係するということを指示する「事象後」ラベル、及び文書が前記事象に対して非決定的又は無関係であるということを指示する「非事象」ラベルを含む４つのラベルの中から前記第２のモデルにより判断されたラベルを前記第２のモデルから取得し；
前記更新された医療記録の前記文書の前記ラベルに基づき前記事象の第２の開始日を予測し；そして
前記予測された第２の開始日を出力することにより、前記更新された医療記録を処理するように構成される、請求項１８に記載のシステム。
患者に関係する事象の日を予測するためのモデル支援型システムであって、前記システムは、
前記事象の日を予測するための第１のモデルを取得し；
複数の非構造化文書を含む前記患者の医療記録を前記第１のモデルへ入力し；
前記複数の非構造化文書の文書毎に、文書が前記事象前の日に関係するということを指示する「事象前」ラベル、文書が前記事象中の日に関係するということを指示する「事象中」ラベル、文書が前記事象後の日に関係するということを指示する「事象後」ラベル、及び文書が前記事象に対して非決定的又は無関係であるということを指示する「非事象」ラベルを含む４つのラベルの中から前記第１のモデルにより判断されたラベルを前記第１のモデルから取得し；
前記複数の非構造化文書の前記ラベルに基づき前記事象の第１の暫定開始日を予測し；
前記第１のモデルから前記第１の暫定開始日の確率スコアを取得し；
前記事象の日を予測するための第２のモデルを取得し；
前記医療記録を前記第２のモデルへ入力し；
前記第２のモデル及び前記医療記録に基づき、前記複数の非構造化文書の文書毎に：
前記複数の非構造化文書の各文書内の１つ又は複数の時間表現を識別し；
前記識別された１つ又は複数の時間表現に関係する１つ又は複数の日を判断し；
前記事象の開始、前記事象の終了又は非事象日に関連付けられるための前記判断された１つ又は複数の日の確率スコアを判断し；
前記判断された確率スコアに基づき前記事象の第２の暫定開始日を予測し；
前記第２の暫定開始日の確率スコアを判断し；そして
前記第１の暫定開始日、前記第１の暫定開始日の前記確率スコア、前記第２の暫定開始日、及び前記第２の暫定開始日の前記確率スコアに基づき前記事象の開始日を判断する
ように構成された少なくとも１つのプロセッサを含む、システム。