JP7476181B2 - モデル支援型事象予測のためのシステム及び方法 - Google Patents

モデル支援型事象予測のためのシステム及び方法 Download PDF

Info

Publication number
JP7476181B2
JP7476181B2 JP2021519558A JP2021519558A JP7476181B2 JP 7476181 B2 JP7476181 B2 JP 7476181B2 JP 2021519558 A JP2021519558 A JP 2021519558A JP 2021519558 A JP2021519558 A JP 2021519558A JP 7476181 B2 JP7476181 B2 JP 7476181B2
Authority
JP
Japan
Prior art keywords
event
document
model
date
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021519558A
Other languages
English (en)
Other versions
JP2022504508A (ja
Inventor
バーンバウム,ベンジャミン,イー.
ヘイムソン,ジョシュア,ディー.
Original Assignee
フラティロン ヘルス,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by フラティロン ヘルス,インコーポレイテッド filed Critical フラティロン ヘルス,インコーポレイテッド
Publication of JP2022504508A publication Critical patent/JP2022504508A/ja
Application granted granted Critical
Publication of JP7476181B2 publication Critical patent/JP7476181B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H20/00ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance
    • G16H20/10ICT specially adapted for therapies or health-improving plans, e.g. for handling prescriptions, for steering therapy or for monitoring patient compliance relating to drugs or medications, e.g. for ensuring correct administration to patients
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4848Monitoring or testing the effects of treatment, e.g. of medication
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/20ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the management or administration of healthcare resources or facilities, e.g. managing hospital staff or surgery rooms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Chemical & Material Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Medicinal Chemistry (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Description

関連出願の相互参照
[0001] 本出願は2018年10月18日出願の米国特許仮出願第62/747,428号からの優先権の便宜を主張する。前述の出願の全内容をそのまま参照により本明細書に援用する。
背景
技術分野
[0002] 本開示は事象に関係する日を予測するためのモデル支援型システム及び方法に関する。
背景情報
[0003] 特にその治療景観が急速に進化している病気のための現実世界設定における治療(例えば経口投与される薬)の有効性を理解することが重要である。1つのこのような病気は腎細胞癌(RCC:renal cell carcinoma)である。経口薬は癌介護においてますます一般的になっている。2006年以来、10個の新しい標的薬がRCCに関して承認されており、これは現実世界証拠を使用する研究の恩恵を受ける可能性があるガイドラインにおける不確定性に繋がる。診療所において施されそして構造化(structured)電子健康記録(EHR:electronic health record)を介し注意深く追跡される静脈化学療法とは対照的に、経口薬物治療は通常は自己管理され、したがって余りうまく追跡されない。電子健康記録(EHR)に関するこのような研究を行うことにおける挑戦的課題は、治療情報が通常は家で自己管理される非構造化臨床ノート内の自由テキストだけにおいてしばしば出現する(口腔癌治療に関し特に広まっている現象)ということである。この情報を識別し構造化することは患者の治療履歴を理解する際の重要なタスクである。加えて、EHRから薬を抽出することに関する大抵の既存作業は退院時要約に集中してきた。しかし、癌などの慢性病に関して、薬物治療情報は、臨床ノート全体にわたって経時的に散乱しており、したがって患者記録全体にわたる合成を必要とする。
[0004] したがって、臨床ノートから薬物治療情報を抽出する自動手法の必要性がある。
概要
[0005] 本開示に合致するいくつかの実施形態は、患者に関連する事象の日を予測するためのシステム及び方法を含む。本開示のいくつかの実施形態は、日予測ベース非構造化データのモデルベース自動化技術を提供することにより、事象の日を予測するための既存技術の1つ又は複数の態様を克服し得る。例えば、トレーニングされたモデルが複数の非構造化文書を受信及びラベル付けし得る。モデルはまた、患者に関連する事象(例えば、患者が薬を服用すること)の開始データを予測し出力し得る。したがって、本開示のいくつかの実施形態によるモデルの使用は、事象の日のより早期且つより効率的な予測を可能にする。加えて、本開示のいくつかの実施形態による規則の使用は現存技術より精確であり得る。
[0006] 一実施形態では、患者に関係する事象の日を予測するためのモデル支援型選択システムは、患者の医療記録をストレージ装置から取得するように構成された少なくとも1つのプロセッサを含み得る。医療記録は複数の非構造化文書を含み得る。少なくとも1つのプロセッサはまた、事象の日を予測するためのモデルを取得するように構成され得る。少なくとも1つのプロセッサはさらに、医療記録をモデルへ入力するようにそして複数の非構造化文書の文書毎にモデルからラベルを割り当てるように構成される。ラベルは、「事象前」ラベル、「事象中」ラベル、「事象後」ラベル、「非事象」ラベルを含む4つのラベルの中から判断され得る。「事象前」ラベルは文書が事象前の日に関係するということを指示し得る。「事象中」ラベルは文書が事象中の日に関係するということを指示し得る。「事象後」ラベルは文書が事象後の日に関係するということを指示し得る。「非事象」ラベルは文書が事象に対し非決定的又は無関係であるということを指示し得る。少なくとも1つのプロセッサはまた、複数の非構造化文書のラベルに基づき事象の開始日を予測しそして予測された開始日を出力するように構成され得る。
[0007] 一実施形態では、患者に関係する事象の日を予測するためのモデル支援型システムは、患者の医療記録を取得するように構成された少なくとも1つのプロセッサを含み得る。医療記録は複数の非構造化文書を含む。少なくとも1つのプロセッサはさらに、事象を予測するためのモデルを取得するように構成される。少なくとも1つのプロセッサはまた、医療記録をモデルへ入力するように構成され得る。モデル及び医療記録に従って、複数の非構造化文書の文書毎に、少なくとも1つのプロセッサはさらに、複数の非構造化文書の各文書内の1つ又は複数の時間表現を識別するように構成され得る。少なくとも1つのプロセッサはまた、識別された1つ又は複数の時間表現に関係する1つ又は複数の日を判断するように構成され得る。少なくとも1つのプロセッサはさらに、事象の開始、事象の終了又は非事象日に関連付けられるための判断された1つ又は複数の日の確率スコアを判断するように構成される。少なくとも1つのプロセッサはまた事象の開始日を確率スコアに基づき予測するように構成され得る。少なくとも1つのプロセッサはさらに、予測された開始日を出力するように構成される。
[0008] 一実施形態では、患者に関係する事象の日を予測するためのモデル支援型システムは、事象を予測するための第1のモデルを取得するように構成された少なくとも1つのプロセッサを含み得る。少なくとも1つのプロセッサはまた、特許の医療記録を第1のモデルへ入力するように構成され得る。医療記録は複数の非構造化文書を含み得る。少なくとも1つのプロセッサはさらに、複数の非構造化文書の文書毎に、第1のモデルからラベルを取得するように構成される。ラベルは、「事象前」ラベル、「事象中」ラベル、「事象後」ラベル、「非事象」ラベルを含む4つのラベルの中から第1のモデルにより判断され得る。「事象前」ラベルは文書が事象前の日に関係するということを指示し得る。「事象中」ラベルは文書が事象中の日に関係するということを指示し得る。「事象後」ラベルは文書が事象後の日に関係するということを指示し得る。「非事象」ラベルは文書が事象に対し非決定的又は無関係であるということを指示し得る。少なくとも1つのプロセッサはまた、複数の非構造化文書のラベルに基づき事象の第1の暫定開始日を予測するように構成され得る。少なくとも1つのプロセッサはさらに、第1のモデルから第1の暫定開始日の確率スコアを取得するように構成される。少なくとも1つのプロセッサはまた、事象を予測するための第2のモデルを取得するように構成され得る。少なくとも1つのプロセッサはさらに、医療記録を第2のモデルへ入力するように構成され得る。第2のモデル及び医療記録に従って、複数の非構造化文書の文書毎に、少なくとも1つのプロセッサはまた、複数の非構造化文書の各文書内の1つ又は複数の時間表現を識別するように構成され得る。少なくとも1つのプロセッサはさらに、識別された1つ又は複数の時間表現に関係する1つ又は複数の日を判断するように、そして事象の開始、事象の終了又は非事象日に関連付けられるための判断された1つ又は複数の日付けの確率スコアを判断するように構成され得る。少なくとも1つのプロセッサはまた、判断された確率スコアに基づき事象の第2の暫定開始日を予測するように構成され得る。少なくとも1つのプロセッサはさらに、第2の暫定開始日の確率スコアを判断するように構成され得る。少なくとも1つのプロセッサはまた、第1の暫定開始日、第1の暫定開始日の確率スコア、第2の暫定開始日、及び第2の暫定開始日の確率スコアに基づき、事象の開始日を判断するように構成され得る。
[0009] 他の開示された実施形態に合致して、非一時的コンピュータ可読ストレージ媒体が、少なくとも1つの処理装置により実行されるプログラム命令であって本明細書において説明される方法のうちの任意のものを行い得るプログラム命令を格納し得る。
図面の簡単な説明
[0010] 本明細書に援用され本明細書の一部を構成する添付図面は本明細書と共に、様々な実施形態の原理を示しており、その原理を説明する役目を果たす。
[0011]本開示に合致する、患者に関連する事象の日を予測するための例示的システムを示すブロック図である。 [0012]本開示に合致する、患者に関連する事象の日を予測するための例示的処理装置を示すブロック図である。 [0013]本開示に合致する例示的医療記録を示すフローチャートである。 [0014]本開示に合致するモデルをトレーニングするための例示的処理を示すフローチャートである。 [0015]本開示に合致する例示的ニューラルネットワークを示す線図である。 [0016]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートである。 [0017]本開示に合致する例示的文書タイムラインを示す線図である。 [0018]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートを示すフローチャートである。 [0019]本開示に合致する例示的マップ日(mapped date)を示す線図である。 [0020]本開示に合致する例示的な改版された文章を示す線図である。 [0021]本開示に合致する例示的文書タイムラインを示す線図である。 [0022]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートを示すフローチャートである。 [0023]本開示に合致する、患者に関連する事象の日を予測するための例示的処理を示すフローチャートを示すフローチャートである。
詳細な説明
[0024] 以下の詳細説明は添付図面を参照する。可能な限り、同じ参照符号が、同じ又は同様な部分を参照するために添付図面及び以下の明細書を通して使用される。いくつかの例示的実施形態が本明細書において説明されるが、修正、適応化及び他の実施が可能である。例えば、置換、追加又は修正が添付図面内に示された部品に対しなされ得、本明細書において説明される例示的方法は、本開示方法に対して工程を置換、再順序付け、除去、又は追加することにより修正され得る。したがって、以下の詳細説明は開示された実施形態及び例に限定されない。その代わり、適切な範囲が添付の特許請求の範囲により定義される。
[0025] 本明細書における実施形態はコンピュータ実施方法、有形な非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータ実施方法は、非一時的コンピュータ可読ストレージ媒体から指示を受信する例えば少なくとも1つのプロセッサ(例えば処理装置)により実行され得る。同様に、本開示に合致するシステムは少なくとも1つのプロセッサ(例えば処理装置)及びメモリを含み得、メモリは非一時的コンピュータ可読ストレージ媒体であり得る。本明細書で使用されるように、非一時的コンピュータ可読ストレージ媒体は、少なくとも1つのプロセッサにより読み取り可能な情報又はデータが格納され得る任意のタイプの物理メモリを指す。この例はランダムアクセスメモリ(RAM:random access memory)、読み出し専用メモリ(ROM:read-only memory)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク及び任意の他の公知の物理的ストレージ媒体を含む。「メモリ」及び「コンピュータ可読ストレージ媒体」などの単数用語は、複数のメモリ及び/又はコンピュータ可読ストレージ媒体などのような複数の構造を追加的に指し得る。本明細書で参照されるように、「メモリ」は別途規定しない限り任意のタイプのコンピュータ可読ストレージ媒体を含み得る。コンピュータ可読ストレージ媒体は少なくとも1つのプロセッサによる実行のための命令(プロセッサに本明細書内の実施形態に合致する工程又は段階を行わせるための命令を含む)を格納し得る。加えて、1つ又は複数のコンピュータ可読ストレージ媒体はコンピュータ実施方法を実施する際に利用され得る。用語「コンピュータ可読ストレージ媒体」は、有形アイテムを含むが搬送波及び一時的信号を除外するものと理解されるべきである。
[0026] 本開示では、「治療間隔のための時間的統合フレームワーク(TIFTI:Temporally Integrated Framework for Treatment Interval)」(患者の非構造化ノートから経口薬物治療間隔を抽出するための頑強かつ一般化可能なフレームワーク)が提示される。TIFTIは、問題を文書レベルシーケンスラベル付け(document-level sequence labeling)タスク及び日付け抽出タスクに分解することにより時間的情報の別個のソースを活用し得る。
[0027] 一実施形態によると、システムは患者が薬を服用する開始日を予測するように構成され得る。本システムは、薬の名前及び複数の非構造化データ(診療所訪問ノートなど)をモデルへ入力し得、モデルは、患者が薬を服用したかどうかを予測し、そしてそうであれば患者が薬を服用した時間間隔を予測し得る。開示されたシステム及び方法のユーザは、患者の臨床経験にアクセスしたい及び/又は患者データを分析したいかもしれないいかなる個人も包含し得る。したがって、本開示を通じて、本開示システム及び方法の「ユーザ」への言及は医師、ヘルスケア機関における品質保証部及び/又は患者などのいかなる個人も包含し得る。
[0028] 図1Aは以下に詳細に説明される本開示に合致するいくつかの実施形態を実施するための例示的システム100を示す。図1Aに示すように、システム100は1つ又は複数のデータソース101、コンピュータ装置102、データベース103及びネットワーク104を含み得る。本開示から、これらの部品の数及び配置は例示的であり、例示のために提供されるということが理解されることになる。部品の他の配置及び数が、本開示の教示及び実施形態から逸脱することなく使用され得る。
[0029] 1つ又は複数のデータソース101は患者の医療記録(又はその医療データ)を取得又は生成し得る。例えば、データソースは、患者の医療記録を生成するように構成された診療所内のコンピュータ(例えば図1Aに示されるコンピュータ101-1)であり得る。医療記録は患者に関連する医療データを含み得る。医療データは構造化データ及び/又は非構造化データを含み得る。構造化データは患者に関する定量化可能又は分類可能データ(例えば、性別、年齢、人種、体重)を含み得る。非構造化データは、定量化可能でない又は容易に分類されない患者に関する情報(例えば医師のノート又は患者の実験室報告)を含み得る。データソース101はさらに、ネットワーク104を介し医療記録(又は医療データ)をコンピュータ装置102及び/又はデータベース103へ送信するように構成される。
[0030] データソース101は、コンピュータ(例えばコンピュータ101-1)、モバイル装置(例えばスマートフォン101-2)、スキャナ(例えばスキャナ101-3)、複写機、ファックス機、多機能機、タブレットコンピュータ、携帯情報端末(PDA:personal digital assistant)など又はそれらの組み合わせを含み得る。
[0031] コンピュータ装置102は、ネットワーク104を介し1つ又は複数のデータソース101から患者の医療記録(又は医療データ)を受信し得る。いくつかの実施形態では、コンピュータ装置102は、1つ又は複数のデータソース101から患者の医療データを受信し、そしてこの医療データを患者の医療記録へコンパイルし得る。コンピュータ装置102はまた、患者に関連する事象に関係する日を予測するために医療記録(又は医療データ)を処理するように構成され得る。例えば、コンピュータ装置102は、患者の医療記録と、患者が特定薬を服用する開始日を予測するためのモデル(例えばトレーニングされたニューラルネットワーク)とを取得し得る。コンピュータ装置102はさらに、医療記録をモデルへ入力し、そして(例えばモデルの出力層を介し)モデルからデータの予測を取得し得る。コンピュータ装置102はさらに、データの予測を例えば出力装置へ出力し得る。いくつかの実施形態では、コンピュータ装置102は予測を患者に関連する医師又は医療関係者へ送信し得る。例えば、コンピュータ装置102は予測を診療所内に在るコンピュータ101-1へ送信し得る。
[0032] いくつかの実施形態では、コンピュータ装置102は、トレーニングアルゴリズム及びトレーニングデータに基づき、事象に関係する日を予測するためのモデルをトレーニングし得る。その代わりに又は追加的に、コンピュータ装置102はデータベース(例えば、データベース103及び/又はデータベース160)からモデルを取得し得る。
[0033] データベース103はシステム100の1つ又は複数の部品の情報及びデータを格納するように構成され得る。例えば、データベース103は、例えばネットワーク104を介し1つ又は複数のデータソース101及び/又はコンピュータ装置102から1つ又は複数の医療記録(又はその医療データ)を受信し、この受信データを格納し得る。その代わりに又は追加的に、データベース103は1つ又は複数の(トレーニングされていない及び/又はトレーンイングされた)モデルを格納し、これらのモデルをネットワーク104を介しコンピュータ装置102へ送信し得る(例えばモデルの要求が受信されたら)。いくつかの実施形態では、データベース103は、トレーニングデータを格納し、そしてこのトレーニングデータを例えばネットワーク104を介しコンピュータ装置102へ送信し得る。
[0034] ネットワーク104はシステム100の部品間の通信を容易にするように構成され得る。ネットワーク104は、ローカルエリアネットワーク(LAN:local area network)、広域ネットワーク(WAN:wide area network)、インターネットの一部、イントラネット、セルラーネットワーク、短距離ネットワーク(例えばBluetooth(商標)ベースネットワーク)など又はそれらの組み合わせを含み得る。
[0035] 図1Bは例示的コンピュータ装置102を示すブロック図である。コンピュータ装置102は少なくとも1つのプロセッサ(例えばプロセッサ151)、メモリ152、入力装置153、出力装置154及びデータベース160を含み得る。
[0036] プロセッサは本開示において説明される1つ又は複数の機能を行うように構成され得る。プロセッサは、少なくとも1つの処理装置(1つ又は複数の汎用プロセッサ:例えば中央処理ユニット(CPU:central processing unit)、グラフィック処理ユニット(GPU:graphics processing unit)など、及び/又は1つ又は複数の特殊プロセッサ:例えば特定用途向け集積回路(ASIC:application-specific integrated circuit)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array))などを含み得る。
[0037] コンピュータ装置102はまた、コンピュータ装置102の様々な部品のための命令を格納し得るメモリ152を含み得る。例えば、メモリ152は、プロセッサ151により実行されるとプロセッサ151に本明細書において説明される1つ又は複数の機能を行わせるように構成され得る命令を格納し得る。
[0038] 入力装置153はコンピュータ装置102のユーザから入力を受信するように構成され得、コンピュータ装置102の1つ又は複数の部品は受信された入力に応答して1つ又は複数の機能を行い得る。出力装置154は情報及び/又はデータをユーザへ出力するように構成され得る。例えば、出力装置154は、事象の予測された日をユーザへ表示するように構成されたディスプレイを含み得る。
[0039] データベース160はコンピュータ装置102の1つ又は複数の部品のための様々なデータ及び情報を格納するように構成され得る。例えば、データベース160は、患者の医療記録を格納するように構成された医療記録データベース161を含み得る。医療記録データベース161から、プロセッサ151は1つ又は複数の医療記録を受信し得る。データベース160はまた、事象の日を予測するための1つ又は複数のモデルを格納するように構成されたモデルデータベース162を含み得る。モデルはトレーニングされたモデルであってもよいしトレーニングされていないモデルであってもよい。例えば、プロセッサ151は、モデルデータベース162から、事象の日を予測するためのトレーニングされたモデルを受信し得る。別の例として、プロセッサ151は、トレーニングされていないモデルを受信し、トレーニングデータ(トレーニングデータデータベース163内に格納され得る)に基づきモデルをトレーニングし得る。データベース160はさらに、トレーニングデータを格納するように構成されたトレーニングデータデータベース163を含み得、トレーニングデータデータベース163から、プロセッサ151はモデルをトレーニング又は修正するためのトレーニングデータを受信し得る。
[0040] 図2は患者の例示的医療記録200を示す。医療記録200(又はその一部)は上述のようにデータソース101から受信され、コンピュータ装置102により処理され得る。その代わりに又は追加的に、医療記録200は1つ又は複数のデータベース(例えばデータベース103、データベース160)内に格納され得る。コンピュータ装置102は、さらなる処理のために1つ又は複数の医療記録にアクセスしこれを受信し得る。
[0041] 医療記録200は構造化データ210と非構造化データ220との両方を含み得る。構造化データ210は、性別、年齢、人種、体重、バイタルサイン、実験室報告、診断の日、診断タイプ、病期分類(例えば課金コード)、治療タイミング、行われた手順、訪問日、診療タイプ、保険会社及び開始日、投薬指示、投薬管理、又は患者に関する任意の他の測定可能データなど患者に関する定量化可能又は分類可能データを含み得る。非構造化データ220は、医師のノート又は患者の実験室報告など定量化可能でない又は容易に分類されない患者に関する情報を含み得る。非構造化データ220は、治療計画の医師の記述、訪問時に何が発生したかを記述するノート、患者の具合に関する記述、放射線学的報告、病理報告などの情報を含み得る。いくつかの実施形態では、非構造化データは抽象化処理により捕捉され得、構造化データは、ヘルスケア専門家により入力され、そして1つ又は複数のアルゴリズムを使用して計算され得る。非構造化データ220は複数の非構造化文書(例えば図2に示す例示的非構造化文書221、222)を含み得る。
[0042] データソース101から受信されるデータにおいて、各患者は、1人又は複数の医療従事者により又は患者により生成される1つ又は複数の記録により表現され得る。例えば、患者に関連する医者、患者に関連する看護婦、患者に関連する理学療法士などはそれぞれ、患者の医療記録(又はその一部)を生成し得る。いくつかの実施形態では、1つ又は複数の記録が同じデータベース内で照合及び/又はその中に格納され得る。その代わりに又は追加的に、1つ又は複数の記録は複数のデータベースにわたって分散され得る。いくつかの実施形態では、これらの記録は複数の電子データ表現で格納され得る及び/又はそれを備え得る。例えば、患者記録は、テキストファイル、ポータブル文書フォーマット(PDF:portable document format)ファイル、拡張可能マークアップ言語(XML:extensible markup language)ファイルなどの1つ又は複数の電子ファイルとして表現され得る。文書がPDFファイル、画像、又は他のテキスト無しファイルとして格納された場合、電子データ表現はまた、光学式文字認識処理から導出される文書に関連するテキストを含み得る。
[0043] 図3は図1Aのシステム100に従って1つ又は複数のモデルをトレーニングするための例示的処理300を示す。処理300は本開示において説明される1つ又は複数のモデルをトレーニングするために実施され得る(例えばトレーニングされたシステム、ニューラルネットワークなど)。例えば、非構造化文書をラベル付けし、このラベルに基づき患者に関連する事象の日を判断するためのモデルは処理300に基づきトレーニングされ得る。別の例として、非構造化文書内の1つ又は複数の時間表現を識別し、この識別された時間表現に基づき日付けを判断するためのモデルが処理300に基づきトレーニングされ得る。
[0044] ラベル付き記録310が特徴抽出部321へ入力され得る。例えば、ラベル付き記録310は1つ又は複数のデータベース内に格納され得る。ラベル付き記録310は、各患者が1つ又は複数の医療記録に関連付けられるように、複数の患者に関連するデータを含み得る。いくつかの実施形態では、ラベル付き記録は、複数の非構造化文書(元文書又は前処理された文書)とこれら文書のそれぞれに関連するラベルとを含み得る。その代わりに又は追加的に、ラベル付き記録は事象の日及び/又は期間(例えば開始日、終了日、期間、又はそれらの組み合わせなど)を含み得る。その代わりに又は追加的に、ラベル付き記録は、非構造化文書に関連する1つ又は複数の時間表現及び/又はこれらの時間表現に関連する改版された非構造化文書(本開示内の他の場所で説明されたような)を含み得る。
[0045] 特徴抽出部321は、ラベル付き記録310から特徴(キーワード、キーフレーズなど)を抽出し得、そしてこれらの特徴を、事象の日に対する妥当性のレベルに関しスコア付けし得る。したがって、いくつかの実施形態では、特徴はベクトルとして表現され得る。
[0046] 特徴抽出部321により抽出された特徴の一部は記録310の対応ラベルと照合され、そしてトレーニングデータ323として格納され得る。トレーニングデータ323は1つ又は複数のトレーニングアルゴリズム325により使用され得る。例えば、トレーニングアルゴリズム325は、グラウンドトルース(ground truth)として働き得る抽出された特徴と特定ラベル(例えば文書へ割り当てられたラベル、事象のラベル付き日、事象のラベル付き期間、ラベル付き時間表現、ラベル付き改版された非構造化文書)とを関係付ける1つ又は複数の関数(又は規則)を生成し得るロジスティックス回帰を含み得る。例えば、トレーニングアルゴリズム325は、n字列(ngram)により特徴付けられ得る単純l2正規化ロジスティックス回帰を含み得る。追加的に又はその代わりに、トレーニングアルゴリズム325は、特徴の入力層を1つ又は複数の隠れ層に挿通させ、次に(関連確率を有する)ラベルの出力層に挿通させるように1つ又は複数のノードの重み付けを調整する1つ又は複数のニューラルネットワークを含み得る。例えば、ニューラルネットワークは明示的カスケードモデル、長短期記憶(LSTM:long short-term memory)など又はそれらの組み合わせを含み得る。トレーニングアルゴリズム325は1つ又は複数のモデル330を出力する。
[0047] 図4は例示的ニューラルネットワーク400を示す。ニューラルネットワーク400は入力層、1つ又は複数の隠れ層、及び出力層を含み得る。これらの層のそれぞれは1つ又は複数のノードを含み得る。いくつかの実施形態では、出力層は1つのノードを含み得る。代替的に、出力層は複数のノードを含み得、ノードのそれぞれは異なるデータを出力し得る。入力層は入力(例えば医療記録)を受信するように構成され得る。いくつかの実施形態では、モデルの1つ又は複数の隠れ層は、本開示において説明される規則又は制約を実施するために少なくとも1つの抑止モジュールを含み得る。
[0048] いくつかの実施形態では、1つの層内のあらゆるノードが次の層内の一つおきのノードへ接続される。ノードは、その入力の加重和を取り、この加重和を非線形活性化関数に通し、この結果は次の層内の別のノードの入力として出力され得る。トレーニングデータは左から右へ流れ得、最終出力はすべてのノードの計算に基づき出力層において計算され得る。
[0049] 図3を参照すると、特徴抽出部321により抽出された特徴の他の部分は、記録310の対応ラベルと照合され、試験データ340として格納され得る。試験データ340は、過少包含からの偏り又は過剰包含からの偽陽性を検出するために1つ又は複数のモデル330を精緻化するために使用され得る。次に、照合されたデータ340は、1つ又は複数のモデル330に通され得る。1つ又は複数のモデル330は、試験データ340の予測(又はスコア)350を生成し得る。性能測度360は、例えば予測350と試験データ340のラベルとを比較することにより1つ又は複数のモデル330を精緻化するために使用され得る。例えば、上に説明したように、1つ又は複数のモデル330はラベルと予測350間の偏差を低減するために再トレーニング(例えば、修正)され得る。この修正は1つ又は複数の損失関数に基づき得る。
[0050] 図5は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の1つ又は複数の日を予測するための例示的処理500のフローチャートである。処理500(及び以下の処理700、1000、1100)の説明は例示的事象として患者が特定薬を服用することに言及するが、当業者は、事象が本開示において説明される例に限定されないということを理解するだろう。例えば、事象は患者が受ける治療に関係し得る。
[0051] 工程501では、コンピュータ装置102はストレージ装置(例えば、データベース103及び/又はデータベース103)から患者の医療記録を取得するように構成され得る。医療記録は複数の非構造化文書を含み得る。いくつかの実施形態では、医療記録はまた、患者に関する定量化可能又は分類可能データなどの構造化データを含み得る。非構造化文書は定量化可能でない又は容易に分類されない患者に関する情報を含み得る。例示的非構造化文書は、患者のノート、診療所訪問ノート、治療計画の医師の記述、実験室報告、患者の具合に関する記述、放射線学的報告、病理報告など又はそれらの組み合わせを含み得る。非構造化文書は、患者、看護婦、医師、実験室技師など又はそれらの組み合わせにより作成され得る。
[0052] いくつかの実施形態では、コンピュータ装置102は受信された医療記録を再処理し得る。例えば、非構造化文書に関して、コンピュータ装置102は、薬への言及(ジェネリック又はブランド名のいずれかによる)の無い文書(群)及び文章(群)を除去し得る。その代わりに又は追加的に、コンピュータ装置102は医療記録に含まれる情報の冗長性を除去し得る。例えば、コンピュータ装置102は、文書(例えば現在のノートに先立って発生した臨床ノート)内に出現する1つ又は複数の文章を除去し得る。その代わりに又は追加的に、コンピュータ装置102は、薬の各言及をプレースホールダ「DRUG」でそして他の一般的に服用される薬の各言及をプレースホールダ「OTHER-DRUG」で置換し得る。この前処理は、モデルにより学習された特徴が薬全体にわたって一般化可能であるということを保証し得る。
[0053] コンピュータ装置102はまた、前処理された医療記録を生成し得る。前処理された医療記録は、元の非構造化文書に基づく複数の前処理された非構造化文書を含み得る。いくつかの実施形態では、2つ以上の前処理された非構造化文書が文書タイムラインを形成し得る。文書タイムラインは、文書が作成された時に従ってソートされた前処理済み非構造化文書、又は文書に関連するタイムスタンプを含み得る。
[0054] 図6は例示的文書タイムライン600を示す。文書タイムライン600は前処理された非構造化文書601、603、605、607、609を含み得る。前処理された非構造化文書601、603、605、607、609は、非構造化文書(例えば複数の臨床ノート)を前処理することによりコンピュータ装置102により取得され得る。例えば、前処理された非構造化文書601は、特許がノートの日から次の月曜日に薬の処置を開始するということを指示する臨床ノートを医師により前処理することにより生成され得る。ノートの前処理中、コンピュータ装置102は、前処理された非構造化文書601を提示するために非標的薬の名前をプレースホールダ「OTHER_DRUG」でそして標的薬の名前をプレースホールダ「DRUG」で置換し得る。いくつかの実施形態では、非構造化文書を前処理することは、事象への言及の無い1つ又は複数の文章を除去すること、又は重複情報を除去することなど、又はそれらの組み合わせを含み得る。
[0055] いくつかの実施形態では、コンピュータ装置102は、元の非構造化文書を前処理のためにモデルへ入力し、そして前処理された非構造化文書をモデルから取得し得る。いくつかの実施形態では、コンピュータ装置102は元の非構造化文書を、事象の日を前処理及び予測するためにモデルへ入力し得(すなわち、モデルは医療記録を前処理するとともに日付けを予測するように構成され得る)、コンピュータ装置102はこの予測をモデルから受信し得る。
[0056] いくつかの実施形態では、再処理は、処理700の工程701、処理1000の工程1001、及び/又は処理1100の工程1101の一部であり得る。
[0057] 工程503では、コンピュータ装置102は事象の日を予測するためのモデルを取得するように構成され得る。いくつかの実施形態では、モデルは、トレーニング処理(例えば本開示の他の場所で説明されたトレーニング処理300)に基づき生成されたトレーニングされたモデルを含み得る。いくつかの実施形態では、モデルは、n字列により特徴付けられ得る単純l2正規化ロジスティックス回帰であり得る。その代わりに又は追加的に、モデルは1つ又は複数のニューラルネットワークを含み得る。ニューラルネットワークは明示的カスケードモデル、長短期記憶(LSTM)など又はそれらの組み合わせを含み得る。
[0058] いくつかの実施形態では、コンピュータ装置102は関心のある特定事象に基づきモデルを取得し得る。例えば、コンピュータ装置102は第1の薬の第1のモデルを取得し得るが、第2の薬の第2のモデルを取得してもよい。その代わりに又は追加的に、コンピュータ装置102は、関心のある患者に関係する人口学的情報(例えば年齢、性別)に基づくモデルを取得し得る。
[0059] いくつかの実施形態では、モデルは入力層、1つ又は複数の隠れ層、及び出力層を含み得る。各層は1つ又は複数のノードを含み得る。入力層は入力(例えば薬名、医療記録、前処理された医療記録、非構造化文書、前処理された非構造化文書など又はそれらの組み合わせ)を受信し得る。いくつかの実施形態では、出力層は、データ(例えば事象の予測開始日)又は一組のデータ(複数の候補日及び候補日に関連する確率スコア)を出力するように構成された1つのノードを含み得る。代替的に、出力層は複数のノードを含み得、ノードのそれぞれは異なるデータを出力し得る。いくつかの実施形態では、1つの層内のあらゆるノードが次の層内の一つおきのノードへ接続される。ノードは、その入力の加重和を取り、この加重和を非線形活性化関数に通し、この結果は次の層内の別のノードの入力として出力され得る。入力データはこれらの層中を流れ得、最終出力はすべてのノードの計算に基づき出力層において計算され得る。
[0060] 工程505では、コンピュータ装置102は医療記録をモデルへ入力するように構成され得る。例えば、ユーザはモデルへ入力される医療記録を入力装置153を介し選択し得る。いくつかの実施形態では、モデルは入力層を含み得、コンピュータ装置102は医療記録をモデルの入力層へ入力し得る。いくつかの実施形態では、医療記録は少なくとも1つの前処理された非構造化文書を含み得る。
[0061] 工程507では、コンピュータ装置102は複数の非構造化文書の文書毎にモデルからラベルを割り当てるように構成され得る。いくつかの実施形態では、モデルは、本明細書において(明示的に又は暗黙的に)指示されるタイムスタンプ及び/又は時間表現に基づきラベルを非構造化文書へ割り当て得る。その代わりに又は追加的に、モデルは、別の文書(又は複数の文書)において指示されるタイムスタンプ及び/又は時間表現を、非構造化データのラベルを判断する際に考慮し得る。例えば、モデルは、出力層からの出力としてラベルを非構造化文書へ割り当てるように構成された分類アルゴリズムを含み得る。一例として、モデルは、「事象前」ラベル(又は本明細書では「PRE」ラベルと呼ばれる)、「事象中」ラベル(又は本明細書では「MID」ラベルと呼ばれる)、「事象後」ラベル(又は本明細書では「POST」ラベルと呼ばれる)、「非事象」ラベル(又は本明細書では「OTHER」ラベルと呼ばれる)を含む4つのラベルのうちの1つのラベルを非構造化文書へ割り当て得る。「PRE」ラベルは文書が事象前の日に関係するということを指示し得る。「MID」ラベルは文書が事象中の日に関係するということを指示し得る。「POST」ラベルは文書が事象後の日に関係するということを指示し得る。「OTHER」ラベルは文書が事象に非決定的又は無関係であるということを指示し得る。
[0062] いくつかの実施形態では、モデルはラベルを非構造化文書へ割り当てるための規則又は制約を実施し得る。例えば、規則又は制約は、MIDとラベル付けられたいかなる文書もPREに先行し得ないように、そしてPOSTとラベル付けられたいかなる文書もMIDとラベル付けられた文書に先行し得ないように構成され得る。いくつかの実施形態では、モデルの1つ又は複数の隠れ層は、本開示において説明される規則又は制約を実施するための少なくとも1つの抑止モジュールを含み得る。
[0063] いくつかの実施形態では、モデルは出力層を含み得、コンピュータ装置102は複数の非構造化文書の文書毎にモデルの出力層からラベルを割り当てるように構成され得る。
[0064] 一例として、図6を参照すると、モデルは「PRE」ラベルを非構造化文書601、603へ割り当て得る。モデルはまた、「MID」ラベルを非構造化文書605、607へ割り当て、そして「POST」ラベルを非構造化文書609へ割り当て得る。
[0065] いくつかの実施形態では、モデルはまた、非構造化文書へのラベルの割り当てのための確率スコアを判断し得る。その代わりに又は追加的に、モデルは、文書毎に、2つ以上のラベルにわたる確率分布を判断し得る。モデルはまた、最高確率スコアを有するラベルを文書のラベルとして割り当て得る。
[0066] 工程509では、モデル(又はコンピュータ装置102)は複数の非構造化文書のラベルに基づき事象の開始日(又は終了日、期間など又はそれらの組み合わせ)を予測するように構成され得る。
[0067] いくつかの実施形態では、モデルは事象の日を予測するための規則又は制約を実施し得る。例えば、モデルの1つ又は複数の隠れ層は、MID又はPOSTとラベル付けられたいかなる文書も存在しなければモデルが「薬が服用されなかった」という指標を出力し得るように規則又は制約を実施するための少なくとも1つの抑止モジュールを含み得る。別の例として、規則は、「MID」ラベル(存在すれば)を有する第1の文書のタイムスタンプ(又は時間表現)と「POST」ラベル(存在すれば)を有する第1の文書のタイムスタンプ(又は時間表現)とへ開始日が設定され得るように実施され得る。一例として、図6を参照すると、モデルは「MID」ラベルを、文書タイムライン600内の「MID」ラベルを有する第1の文書であり得る非構造化文書605へ割り当て得る。モデルはまた、患者が薬を服用する開始日として非構造化文書605のタイムスタンプ2018年12月15日を設定し得る。その代わりに又は追加的に、モデルは、文書タイムライン600内の「POST」ラベルを有する第1の文書であり得る非構造化文書609へ「POST」ラベルを割り当て得る。モデルは、患者が薬を服用する最終日として非構造化文書609のタイムスタンプ2019年1月28日を設定し得る。その代わりに又は追加的に、モデルは開始日及び終了日に基づき事象の期間を判断し得る。
[0068] いくつかの実施形態では、モデルはまた、予測された日(群)の確率スコアを判断し得る。例えば、モデルは2018年12月15日の予測開始日の確率スコア及び2019年1月28日の断定終了日の確率スコアを判断し得る。モデルはまた、日及びそれらの対応確率スコアを出力し得る。いくつかの実施形態では、モデルは出力層を含み得、モデルは出力層を介し日及びそれらの対応確率スコアを出力し得る。
[0069] いくつかの実施形態では、コンピュータ装置102はモデルによる入力の処理の結果を受信し得る。例えば、コンピュータ装置102は予測された日(群)及び対応確率スコア(群)をモデルから受信し得る。その代わりに又は追加的に、コンピュータ装置102は1つ又は複数のラベル付き文書(例えば割り当てられたラベル(群)を有する文書601、603、605、607、609のうちの1つ又は複数の文書)と同ラベルに関連する確率スコアとをモデルから受信し得る。
[0070] 工程511では、コンピュータ装置102は予測された日(群)を出力するように構成され得る。例えば、コンピュータ装置102は予測された開始及び終了日を出力装置154(例えばディスプレイ)を介し出力するように構成され得る。いくつかの実施形態では、コンピュータ装置102はまた、モデルによる医療記録の処理の1つ又は複数の結果を出力するように構成され得る。例えば、コンピュータ装置102は予測された日に関連する確率スコアを出力するように構成され得る。
[0071] 図7は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の1つ又は複数の日を予測するための例示的処理700のフローチャートである。
[0072] 工程701では、コンピュータ装置102は患者の医療記録を取得し得る。いくつかの実施形態では、コンピュータ装置102は、本開示の他の場所で説明された処理500の501の工程に関連して説明されたものと同様な1つ又は複数の操作に基づき医療記録を取得し得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。
[0073] 工程703では、コンピュータ装置102は患者に関連する事象の日を予測するためのモデルを取得し得る。いくつかの実施形態では、コンピュータ装置102は、本開示の他の場所で説明された処理500の工程503に関連して説明したものと同様な1つ又は複数の操作に基づきモデルを取得し得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。
[0074] 工程705では、コンピュータ装置102はさらに、医療記録をモデルへ入力するように構成される。例えば、ユーザはモデルへ入力される医療記録を入力装置153を介し選択し得る。いくつかの実施形態では、医療記録は少なくとも1つの前処理された非構造化文書を含み得る。いくつかの実施形態では、モデルは入力層を含み得、コンピュータ装置102は医療記録をモデルの入力層へ入力し得る。
[0075] 工程707では、モデル及び医療データに従って、複数の非構造化文書の文書毎に、コンピュータ装置102は複数の非構造化文書の各文書内の1つ又は複数の時間表現を識別するように構成され得る。時間表現は、定義された用語(例えば「2019年1月28日」)、相対語(例えば「次の月曜日」)、別の日又は事象(例えば「最後の訪問以来の」)など又はそれらの組み合わせかを参照する用語であり得る。一例として、図9を参照すると、コンピュータ装置102は、非構造化文書601、603、605、607、609を含み得る文書タイムライン600を含む医療記録を入力し得る。モデルは非構造化文書内の1つ又は複数の時間表現を識別するように構成され得る。モデルは非構造化文書601内の時間表現「次の月曜日」を識別し得る。モデルはまた、文書のタイムスタンプを2018年11月23日として識別し得る。別の例として、モデルは非構造化文書605内の時間表現「一週間の間」を識別し得る。別の例として、モデルは非構造化文書609内の時間表現「今日」を識別し得る。
[0076] 工程709では、モデルは、識別された1つ又は複数の時間表現に関係する1つ又は複数の日を判断し得る。一例として、図8Aを参照すると、非構造化文書601、605、607(図9に示す)それぞれに含まれる時間表現「次の月曜日」、「一週間の間」及び「今日」の表現毎に、モデルは時間表現(本明細書ではマップ日と呼ばれる)に関連付けられた日を判断し得る。いくつかの実施形態では、モデルは、あり得る時間表現タイプをいくつかのバケット(特定日(例えば「11月27日」)及び相対日(例えば「この前の火曜日」)などの)のうちの1つへ類別化する正規表現ベース時間タグ付け子を使用し得る。モデルはさらに、識別された日情報に基づきマップ日を判断する。
[0077] いくつかの実施形態では、モデルは、時間表現が識別される文書の日付けに基づき時間表現のマップ日を判断し得る。例えば、図8Aに示すように、モデルは、11月23日(金曜である)の文書日付けに基づき、非構造化文書601内で識別された時間表現「次の月曜日」の「2018年11月26日」のマップ日を判断し得る。別の例として、モデルは、2018年12月15日の文書日付けに基づき、非構造化文書605内で識別された時間表現「一週間の間」の「2018年12月8日」のマップ日を判断し得る。別の例として、モデルは、2019年1月3日の文書日付けに基づき、非構造化文書607内の識別された時間表現「今日」の2019年1月3日のマップ日を判断し得る。
[0078] いくつかの実施形態では、モデルは、時間表現が識別される文書の日付け及び別の文書の日付けに基づき時間表現のマップ日を判断し得る。例えば、文書は、以前の診療所訪問を参照する時間表現(例えば「最後の訪問からこの前の月曜日まで」)を含み得る。モデルは、本文書では時間表現「最後の訪問以来」を識別し、そして本文書の日付けと以前の訪問(すなわち、時間表現を含む文書内で参照される「最後の訪問」)に関連付けられる文書の日付けとに基づき時間表現のマップ日(又は期間)を判断し得る。
[0079] いくつかの実施形態では、モデルは識別された時間表現とそのマップ日とに基づき文書の内容を改版するように構成され得る。一例として、図9を参照すると、非構造化文書601に含まれる「OTHER_DRUGでの進展後、患者は次の月曜日にDRUGの処置を開始する」文章では、時間表現「次の月曜日」は時間表現タイプ名(本明細書では、「TIME RELATIVE」、「TIME DURATION」など又はそれらの組み合わせなど「TIME BUCKET-NAME」と呼ばれる)で置換され得る。例えば、時間表現「次の月曜日」は図8Bに示すように「TIME RELATIVE」で置換され得る。別の例として、時間表現「今日」は非構造化文書607に含まれる「TIME RELATIVE_DAY」で置換され得る。いくつかの実施形態では、モデルは、マップ日と、マップ日に関連付けられた時間表現を置換する用語との間の関係式(例えば図8Bに示される表と同様な参照表)を生成し得る。
[0080] いくつかの実施形態では、モデルは、受信された医療記録を更新するように、そして改版された又は新しい内容を有する少なくとも1つの文書を含む更新された医療記録を生成するように構成され得る。一例として、図9を参照すると、モデルは、文書タイムライン600を更新し、模擬文書タイムライン900を生成し得る。モデルはその内容の少なくとも一部を受信することにより文書601を更新し(本開示の他の場所で説明されたように)、そして更新された文書901を生成するように構成され得る。モデルはまた、元文書603、607、609を文書903、907、909として維持するように構成され得る。代替的に、モデルは、時間表現「今日」を「TIME RELATIVE_DAY」で置換することにより文書607を更新し得る(図8Bに示すように)。いくつかの実施形態では、モデルは文書からいくつかの情報を除去し得る。その代わりに又は追加的に、モデルは1つ又は複数の文書に基づき「疑似」文書を生成し得る。一例として、図9を参照すると、モデルは、文書から語句「患者はDRUGを一週間服用してきた」を除去することにより文書605を更新し、そして文書905を生成するように構成され得る。モデルはまた、文書605から除去された語句及び文書605内の識別された時間表現に基づき新しい「疑似」文書904を生成し得る。例えば、モデルは、語句「患者はDRUGをTIME DURATION間服用してきた」を含む文書904を生成し得る。モデルはさらに、時間表現「一週間の間」の「2018年12月8日」のマップ日(及びタイプ名「TIME DURATION」)を判断し得る。モデルはまた、マップ日を文書905の日付け(又はタイムスタンプ)として設定し得る。
[0081] いくつかの実施形態では、モデルはまた、事象の開始(例えば開始日)、事象の終了(例えば終了日)、又は非事象日に関連付けられるための文書に関連付けられる日付け(例えば文書のタイムスタンプ、文書の日付け、文書に関連付けられたマップ日など又はそれらの組み合わせ)の確率スコアを判断するように構成され得る。一例として、モデルは、患者による薬の服用の開始に関連付けられるための2018年12月8日のマップ日(文書904に関連付けられる)の確率スコアを判断し得る。その代わりに又は追加的に、モデルは、図8Bに示すように文書904(及び/又はマップ日)を「Start」とラベル付けするように構成され得る。別の例として、モデルは、2018年11月26日及び2019年1月3日のマップ日(及び/又は関連付けられた文書)を「Other」とラベル付けし得る。
[0082] いくつかの実施形態では、モデルは、文書を事象の開始(例えば開始日)、事象の終了(例えば終了日)、又は非事象日に関連付けられるための文書の日付けの確率スコアに基づき更新すべきかどうかを判断し得る。例えば、図9を参照すると、モデルは、事象の開始に関連付けられるための文書605に関係する日付けの確率スコアが閾値(例えば70~99%の数字)より高いかどうかを判断し得る。そうであれば、モデルは文書605を更新しなくてもよい(すなわち、文書904の生成及び/又は改版はしない)。そうでなければ、モデルは、本開示の他の場所で説明されたように文書605を更新することに進み得る。
[0083] 工程711では、モデル(又はコンピュータ装置102)は、事象に関連付けられた1つ又は複数の日(及び/又は期間)を文書の日付けに関連付けられた確率スコアに基づき予測するように構成され得る。例えば、モデルは、患者が薬を服用する開始(又は終わり)に関連付けられるための最高確率スコアを有する文書に関連付けられる日付け(例えば文書のタイムスタンプ、文書の日付け、文書のマップ日)を判断するように構成され得る。一例として、モデルは、2019年12月8日(文書904に関連付けられる)が、開始日として、事象の開始に関連付けられるための最高確率スコアを有するということを判断し得る。
[0084] いくつかの実施形態では、モデル(又はコンピュータ装置102)は、事象に関連付けられた1つ又は複数の日(及び/又は期間)を、文書に関連付けられた日と、事象の開始又は終了に関連付けられるための日付けの確率スコアとに基づき予測するように構成され得る。例えば、モデルは閾値より高い事象の開始に関連付けられるための確率スコアを有する文書タイムライン内の最も初期の文書(例えば最も初期のタイムスタンプを有する文書)を判断するように構成され得る。別の例として、医療データは、複数の非構造化文書の中から、「事象中」ラベルを有する1つ又は複数の文書を識別し、「事象中」ラベルを有する1つ又は複数の文書の中から、最も初期のタイムスタンプを有する文書を選択し、そして選択された文書のタイムスタンプの日付けを事象の開始日として割り当て得る。
[0085] 工程713では、コンピュータ装置102は予測された日(群)を出力するように構成され得る。例えば、コンピュータ装置102は予測された開始及び終了日を出力装置154(例えばディスプレイ)を介し出力するように構成され得る。いくつかの実施形態では、コンピュータ装置102はまた、モデルによる医療記録の処理の1つ又は複数の結果を出力するように構成され得る。例えば、コンピュータ装置102はまた、日付けに関連付けられた確率スコアを出力するように構成され得る。別の例として、コンピュータ装置102は更新された文書タイムライン(例えば更新された文書タイムライン900)を出力するように構成され得る。いくつかの実施形態では、モデルは、モデルによる医療記録の処理の1つ又は複数の結果(例えば1つ又は複数の予測された日付け、確率スコア、更新された文書など又はそれらの組み合わせ)を出力するように構成された出力層を含み得る。
[0086] 図10は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の1つ又は複数の日を予測するための例示的処理1000のフローチャートである。工程1001では、コンピュータ装置102は医療記録を取得し得る。いくつかの実施形態では、コンピュータ装置102は、処理500の工程501に関連して説明したものと同様な1つ又は複数の操作に基づき医療記録を取得し得、したがってその詳細説明は簡潔さの目的からここでは繰り返されない。
[0087] 工程1003では、コンピュータ装置102は第1のモデルを取得し得る。いくつかの実施形態では、コンピュータ装置102は、処理700の工程703において取得されたモデルと同様な第1のモデルを取得し得、したがってその詳細説明は簡潔さの目的からここでは繰り返されない。
[0088] 工程1005では、コンピュータ装置102は医療記録を第1のモデルへ入力し得る。いくつかの実施形態では、コンピュータ装置102は、処理700の工程705(又は処理500の工程505)に関連して説明したものと同様な1つ又は複数の操作に基づき医療記録を第1のモデルへ入力し得、したがってその詳細説明は簡潔さの目的からここでは繰り返されない。
[0089] 工程1007では、第1のモデルは、コンピュータ装置102により受信され得る更新された医療記録を生成し出力し得る。更新された医療記録はマップ日を有する少なくとも1つの更新された非構造化文書を含み得る。いくつかの実施形態では、第1のモデルは、1つ又は複数の更新された非構造化文書を処理700の工程707~711に関連して説明したものと同様な1つ又は複数の操作に基づき生成し得る。例えば、第1のモデルは医療記録の非構造化文書内の1つ又は複数の時間表現を識別するように構成され得る(処理700の工程707に関連して説明した1つ又は複数の操作と同様に)。第1のモデルはまた、識別された時間表現(群)に関係する1つ又は複数の日(すなわちマップ日)を判断するように構成され得る(処理700の工程709に関連して説明された1つ又は複数の操作と同様に)。第1のモデルはさらに、時間表現に関係する判断された日付けに関連付けられた内容を受信することにより非構造化文書を更新するように構成される(処理700の工程709に関連して説明された1つ又は複数の操作と同様に)。いくつかの実施形態では、第1のモデルはまた、元文書の判断された日付け及び内容に基づき「疑似」文書を生成するように構成され得る。一例として、第1のモデルは、図9に示す文書904を生成し、そして更新された文書タイムライン900を生成し得る。
[0090] いくつかの実施形態では、第1のモデルは、事象に関連付けられた1つ又は複数の暫定日(及び/又は期間)を文書の日付けに関連付けられた確率スコアに基づき予測するように構成され得る。例えば、第1のモデルは、患者が薬を服用する開始(又は終わり)に関連付けられるための最高確率スコアを有する文書に関連付けられた日(例えば文書のタイムスタンプ、文書の日付け、文書のマップ日)を判断するように構成され得る。第1のモデルはまた、事象に関連付けられた1つ又は複数の暫定日(及び/又は期間)を、文書に関連付けられた日と事象の開始又は終了に関連付けられるための日付けの確率スコアとに基づき予測するように構成され得る。第1のモデルはさらに、予測された暫定日(群)の確率スコアを判断するように構成され得る。予測された暫定日(群)の確率スコアが閾値(例えば70%~99%の数字)より高ければ、暫定日(群)は事象に関連付けられた日(例えば開始日、終了日)として設定され得、処理1000は工程1005へ進み得、ここでコンピュータ装置102は予測日(群)を出力し得る。
[0091] 工程1009では、コンピュータ装置102は第2のモデルを取得し得る。いくつかの実施形態では、コンピュータ装置102は処理500の工程503において取得されたモデルと同様な第2のモデルを取得し得、したがってその詳細説明は簡潔さの目的のためここでは繰り返されない。
[0092] 工程1011では、コンピュータ装置102は更新された医療記録を第2のモデルへ入力し得る。一例として、コンピュータ装置102は、更新された文書タイムライン900を含む更新された医療記録を第2のモデルへ入力し得る。
[0093] 工程1013では、コンピュータ装置102は、第2のモデルから、事象に関連付けられた1つ又は複数の断定された日付けを取得し得る。いくつかの実施形態では、第2のモデルは事象に関連付けられた1つ又は複数の日を処理500の工程507、509に関連して説明したものと同様な1つ又は複数の操作に基づき予測し得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。一例として、第2のモデルは、更新された文書(及び/又は更新されていなければ元文書)の文書毎に、ラベルを、更新された文書に関連付けられた日(例えばマップ日、タイムスタンプ、時間表現など又はそれらの組み合わせ)に基づき割り当て得る。例えば、第2のモデルは、PRE、MID、POST、及び/又はOTHERラベルのうちの1つのラベルを、更新された(又は元の)文書へ割り当て得る。第2のモデルはさらに、これらのラベルに基づき事象の開始日(又は終了日、期間など又はそれらの組み合わせ)を予測するように構成され得る。
[0094] 工程1015では、コンピュータ装置102は予測された日(群)を例えば出力装置154を介し出力し得る。例えば、コンピュータ装置102は、患者が薬を服用する予測開始及び終了日をディスプレイ上に提示し得る。いくつかの実施形態では、コンピュータ装置102はまた、医療記録の処理の1つ又は複数の結果及び/又は第1及び/又は第2のモデルにより更新された医療記録を提示し得る。一例として、コンピュータ装置102は文書タイムライン500及び/又は更新された文書タイムライン900を提示し得る。別の例として、コンピュータ装置102は予測された日(群)の確率スコアを出力し得る。
[0095] 図11は、本開示において説明されるいくつかの実施形態による、患者に関連する事象の1つ又は複数の日を予測するための例示的処理1100のフローチャートである。
[0096] 1101では、コンピュータ装置102は医療記録を取得するように構成され得る。いくつかの実施形態では、コンピュータ装置102は、本開示の他の場所で説明された処理500の工程501に関連して説明したものと同様な1つ又は複数の操作に基づき医療記録を取得するように構成され得、したがって詳細説明は簡潔さの目的のためにここでは再加熱されない。一例として、コンピュータ装置102は複数の非構造化文書を含む医療記録をデータベースから取得し得る。非構造化文書は前処理された文書を含み得る。その代わりに又は追加的に、非構造化文書は更新された文書を含み得る。
[0097] 1103では、コンピュータ装置102は事象に関連付けられた日を予測するための第1のモデル及び第2のモデルを取得するように構成され得る。いくつかの実施形態では、第1のモデルは処理700において取得されたモデルと同様なモデルを含み得、第2のモデルは処理500において取得されたモデルと同様なモデルを含み得、したがって詳細説明は簡潔さの目的のためにここでは繰り返されない。
[0098] 1105では、コンピュータ装置102は医療記録を第1のモデルへ入力するように構成され得る。いくつかの実施形態では、コンピュータ装置102は医療記録を本開示の他の場所で説明された処理700の工程705に関連して説明したものと同様な1つ又は複数の操作に基づき第1のモデルへ入力するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。
[0099] 1107では、コンピュータ装置102は事象に関連付けられた第1の暫定日を第1のモデルから取得するように構成され得る。第1の暫定日は事象の開始日及び/又は終了日含み得る。いくつかの実施形態では、コンピュータ装置102は本開示の他の場所で説明された処理700の工程707~711に関連して説明したものと同様な1つ又は複数の操作に基づき第1の暫定日を予測するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。
[0100] 一例として、第1のモデルは医療記録の非構造化文書内の1つ又は複数の時間表現を識別するように構成され得る(処理700の工程707に関連して説明された1つ又は複数の操作と同様に)。第1のモデルはまた、識別された時間表現(群)に関係する1つ又は複数の日(すなわちマップ日)を判断するように構成され得る(処理700の工程709に関連して説明された1つ又は複数の操作と同様に)。第1のモデルはさらに、時間表現に関係する判断された日付けに関連付けられた内容を受信することにより非構造化文書を更新するように構成される(処理700の工程709に関連して説明された1つ又は複数の操作と同様に)。第1のモデルはまた、事象の開始(例えば開始日)、事象の終了(例えば終了日)、又は非事象日に関連付けられるための文書に関連付けられた日の確率スコアを判断するように構成され得る。第1のモデル(又はコンピュータ装置102)は、事象に関連付けられた第1の暫定日(及び/又は期間)を、文書に関連付けられた日と事象の開始又は終了に関連付けられるための日付けの確率スコアとに基づき予測するように構成され得る。
[0101] 1109では、コンピュータ装置102は医療記録を第2のモデルへ入力するように構成され得る。いくつかの実施形態では、コンピュータ装置102は本開示の他の場所で説明された処理500の工程505に関連して説明したものと同様な1つ又は複数の操作に基づき医療記録を第2のモデルへ入力するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。
[0102] 1111では、コンピュータ装置102は第2のモデルから第2の暫定日を取得するように構成され得る。第1の暫定日は事象の開始日及び/又は終了日を含み得る。いくつかの実施形態では、コンピュータ装置102は本開示の他の場所で説明された処理500の工程507及び509に関連して説明したものと同様な1つ又は複数の操作に基づき第2のモデルから第2の暫定日を取得するように構成され得、したがってその詳細説明は簡潔さの目的のためにここでは繰り返されない。一例として、第2のモデルは、文書内で(明示的に又は暗黙的に)指示されるタイムスタンプ及び/又は時間表現に基づきラベルを非構造化文書へ割り当てるように構成され得る。コンピュータ装置102又は第2のモデルはまた、非構造化文書のラベルに基づき事象の第2の暫定日(例えば開始日又は終了日)を予測するように構成され得る。いくつかの実施形態では、モデルはまた、第2の暫定日の確率スコアを判断し得る。
[0103] 1113では、コンピュータ装置102は第1及び第2の暫定日に基づき事象の日を予測するように構成され得る。例えば、第1の暫定日は患者が薬を服用する第1の暫定開始日を含み得、第2の暫定日は第2の暫定開始日を含み得る。コンピュータ装置102は第1及び第2のモデルから第1及び第2の暫定開始日及びそれらの対応確率スコアを受信し得る。コンピュータ装置102は第1及び第2の暫定日に基づき開始日を判断し得る。例えば、コンピュータ装置102は、より高い確率スコアを有する第1及び第2の暫定日のうちの1つを事象の日として選択し得る。別の例として、コンピュータ装置102は、第1暫定日と第2の暫定日との間の日を、例えば第1暫定日と第2の暫定日との中間日周囲の日を選択することにより判断し、そしてこの判断された日を事象の日として割り当て得る。
[0104] 1115では、コンピュータ装置102は当該日をユーザへ出力するように構成され得る。例えば、コンピュータ装置102は当該日を出力装置154(例えばディスプレイ)を介しユーザへ提示し得る。
実施例
実験セットアップ
[0105] トレーニングデータは、電子健康記録(EHR)データから導出される経時的且つ人口統計学的且つ地理学的に多様性のあるデータベースであるデータベースから取得された転移性RCCを有する一組の患者の診療所訪問ノートに基づき取得された。経口薬投薬計画がそれらの開始日及び終了日と共にチャート精査を介し臨床専門家により抽出された。これらの日はラベル付けのために使用され、グラウンドトルースとして保持された。観察の単位は患者-薬ペアだった。臨床ノートが薬の少なくとも1つの記載(ジェネリック又はブランド名のいずれかによる)を含む患者-薬ペアだけが考慮された。172の様々な診療から8,259件のこのような患者-薬例があった。これらのうち、薬は、4,410件(53%)の例において実際に服用されたが、残りの例では、薬は臨床ノート内に記載されていたが服用されなかった。
[0106] ラベル付きデータ(又はトレーニングデータ)のうちの80%がトレーニングモデルのために使用され、20%が試験のために使用された。データセットは、トレーニングセット内に出現したいかなる患者も試験セット内に存在しないように分割された。
[0107] 患者が薬を服用したかどうかを予測する2進タスクの性能はF1スコアを使用することにより判断される。真陽性例(患者が薬を服用したということをモデルが正しく予測した例)に関し、開始日及び終了日の一致は次のように測定された。Starti(t)及びStopi(t)を第i番目例に関し、予測された開始日又は終了日がt日の窓内のグラウンドトルース日に整合するかどうかを表す指示子変数とする。例えば、患者が依然として薬を服用しており且つモデルがこれを正しく識別すれば又はモデルにより識別された最後に服用された日がグラウンドトルースの週内であればのいずれかであれば、Stopi(7)=1。日付け一致全体を測定するために、我々は、Starti(t)及びStopi(t)値の真陽性全体にわたる平均値であるように定義されたStarti(t)及びStopi(t)を使用した。
[0108] データセットサイズに対して柔軟且つ敏感なままであるために、TIFTIフレームワークは、いずれのサブタスクの分類アルゴリズムも規定しない。我々はサブタスク毎に複数のアルゴリズムを試した。文書タイムラインシーケンスラベル付けタスクに関して、我々は、n字列により特徴付けられた文書全体にわたる双方向LSTMにより最高性能を見た。時間表現分類タスクに関して、我々は、n字列により又特徴付けられる単純l2正規化ロジスティックス回帰により最高性能を見た。これらの最適化は、他のハイパーパラメータチューニングと共に、開発セットに関し5重相互検証を使用しF1スコアとStart(0)とStop(0)との組み合わせに関し最適化することにより行われた。
[0109] 希少薬にうまく対応しそして病気全体にわたり一般化するために、TIFTIは特徴生成中に薬名を取り除き、各薬を独立にモデル化する。この設計が、意図された効果を有したかどうかを試験するために、我々は、進行した肺非小細胞癌(NSCLC:non-small cell lung cancer)例のデータセット(開発セット内の一部と試験セット内の一部)をRCCと同じデータ前処理及び特徴生成処理を使用することにより生成した。次に、我々は、RCCに関してトレーニングされた最終TIFTIモデル及びNSCLC例に関してトレーニングされたTIFTIモデルのNSCLC試験セットに関する性能を測定した。
結果
[0110] RCC試験セットに関して、モデルは、0.944のF1スコア、45.8%のStart(0)スコア、52.4%のStop(0)スコア、85.9%のStart(30)スコア、及び77.6%のStop(30)スコアを有した。アブレーション研究(表1)では、2つの最良性能モデルは明示的にカスケードされたモデルだった。模擬文書タイムラインを有するモデルは、0日及び30日の両方で、元文書タイムラインを有するそのカウンターパートより性能が若干上回り、模擬タイムラインの疑似文書が有用文脈を追加したということを確認した。この効果は開始日統計に関してだけ見られ、このことは、開始日が終了日よりテキストで明示的に記載される可能性が高いという事実に合致する。
Figure 0007476181000001
[0111] NSCLC試験セットに関して、RCCデータに関してトレーニングされたモデルは、0.936のF1スコア、49.1%のStart(0)スコア、及び57.1%のStop(0)スコアを有した。この性能は、RCC試験セットに関する性能に匹敵しており、そしてNSCLC例に関してトレーニングされたモデルと同程度に高く(F1:0.947、Start(0):50.3%、Stop(0):57.8%)、本フレームワークが目的どおり一般化されたということを指示した。
[0112] TIFTIは経時的診療所訪問ノートから投薬計画の範囲を抽出するためのフレームワークである。TIFTIは、自由テキスト及び文書タイムスタンプの両方からの時間的情報を合成することにより形成される模擬患者タイムライン全体にわたる治療間隔を予測する。TIFTIは、30日以内の日の約80%を予測し、そして新しいタイプの癌に対して十分に一般化された。
[0113] これまでの説明は、例示を目的として提示された。これは、網羅的ではなく、したがって、開示された実施形態の精密な形式に限定されない。修正及び適応化は、本明細書の考察と開示された実施形態の実行とから当業者に明らかになる。加えて、開示された実施形態の態様はメモリ内に格納されるとして説明されたが、当業者は、これらの態様が例えばハードディスク又はCD ROM、又は他の形式のRAM又はROM、USB媒体、DVD、ブルーレイ、4KウルトラHDブルーレイ、又は他の光ドライブ媒体などの二次ストレージ装置などの他のタイプのコンピュータ可読媒体上にも格納され得るということを理解することになる。
[0114] 本明細書及び開示方法に基づくコンピュータプログラムは経験を積んだ開発者のスキル範囲内である。様々なプログラム又はプログラムモジュールは、当業者に知られた技術のうちの任意のものを使用して生成され得る又は既存ソフトウェアと接続して設計され得る。例えば、プログラム部又はプログラムモジュールは、.Net Framework、.Net Compact Framework(そしてVisual Basic、Cなどの関連言語)、Java、Python、R、C++、Objective-C、HTML、HTML/AJAX組み合わせ、XML、又は包含型Javaアプレットを有するHTMLで又はこれにより設計され得る。
[0115] さらに、例示的実施形態が本明細書において説明されたが、等価的要素、修正、省略、組み合わせ(例えば様々な実施形態全体にわたる態様の)、適応化、及び/又は代替形態を有するありとあらゆる実施形態の範囲は、本開示に基づき当業者により理解されるだろう。特許請求の範囲における制限は、特許請求の範囲において採用される言語に基づき広く解釈されるべきであり、そして本明細書内で又は本出願の審査中に説明された例に限定されない。これらの例は非排他的であると解釈されるべきである。さらに、本開示方法の工程は、工程を再順序付けすることにより及び/又は工程を挿入又は削除することを含む任意のやり方で修正され得る。したがって、本明細書と例は単なる例示と考えられ得、真の範囲及び精神は以下の特許請求の範囲及びそれらの等価物の全範囲により示されるということが意図されている。

Claims (20)

  1. 患者に関係する事象の日を予測するためのモデル支援型システムであって、
    複数の非構造化文書を含む前記患者の医療記録をストレージ装置から取得し;
    前記事象の前記日を予測するためのモデルを取得し;
    前記医療記録を前記モデルへ入力し;
    前記複数の非構造化文書の文書毎に、文書が前記事象前の日に関係するということを指示する「事象前」ラベル、文書が前記事象中の日に関係するということを指示する「事象中」ラベル、文書が前記事象後の日に関係するということを指示する「事象後」ラベル、及び文書が前記事象に対して非決定的又は無関係であるということを指示する「非事象」ラベルを含む4つのラベルの中から判断されたラベルを前記モデルから割り当て;
    前記複数の非構造化文書の前記ラベルに基づき前記事象の開始日を予測し;
    前記予測された開始日を出力するように構成された少なくとも1つのプロセッサを含むシステム。
  2. 前記少なくとも1つのプロセッサはさらに、前記複数の非構造化文書の前記ラベルに基づき前記事象の終了日を予測するように構成される、請求項1に記載のシステム。
  3. 前記少なくとも1つのプロセッサはさらに、
    「事象前」ラベル、「事象中」ラベル又は「事象後」ラベルを有するいかなる文書も識別されなかったということを前記複数の非構造化文書の前記ラベルに基づき判断し;
    前記複数の非構造化文書に関連付けられた複数の期間中にいかなる事象も発生しなかったということを判断するように構成される、請求項1に記載のシステム。
  4. 前記事象は前記患者により服用される薬に関係する、請求項1に記載のシステム。
  5. 前記事象は前記患者が受ける治療に関係する、請求項1に記載のシステム。
  6. 前記少なくとも1つのプロセッサはさらに、前記複数の非構造化文書の文書毎に前記モデルから前記4つのラベルのそれぞれの確率スコアを取得するように構成される、請求項1に記載のシステム。
  7. 前記少なくとも1つのプロセッサはさらに、前記複数の非構造化文書の文書毎に前記モデル及び前記複数の非構造化文書の1つ又は複数の文書に基づきタイムスタンプを判断するように構成される、請求項1に記載のシステム。
  8. 前記複数の非構造化文書の前記ラベルに基づき前記事象の前記開始日を予測することは、
    前記複数の非構造化文書の中から「事象中」ラベルを有する1つ又は複数の文書を識別すること;
    「事象中」ラベルを有する前記1つ又は複数の文書の中から最も早期のタイムスタンプを有する文書を選択すること;及び
    前記選択された文書の前記タイムスタンプの日を前記事象の前記開始日として割り当てることを含む、請求項7に記載のシステム。
  9. 前記少なくとも1つのプロセッサはさらに、
    前記複数の非構造化文書の中から「事象後」ラベルを有する1つ又は複数の文書を識別し;
    「事象後」ラベルを有する前記1つ又は複数の文書の中から最も早期のタイムスタンプを有する文書を選択し;
    前記選択された文書の前記タイムスタンプの日を前記事象の終了日として割り当てるように構成される、請求項7に記載のシステム。
  10. 前記少なくとも1つのプロセッサはさらに、前記複数の非構造化文書の各文書の前処理を行うように構成され、
    前記前処理は前記事象に言及しない1つ又は複数の文章を除去すること又は重複情報を除去することのうちの少なくとも1つを含む、請求項1に記載のシステム。
  11. 前記モデルは入力層、1つ又は複数の隠れ層、及び出力層を含む、請求項1に記載のシステム。
  12. 患者に関係する事象の日を予測するためのモデル支援型システムであって、前記システムは、
    複数の非構造化文書を含む前記患者の医療記録を取得し;
    前記事象の日を予測するためのモデルを取得し;
    前記医療記録を前記モデルへ入力し;
    前記モデル及び前記医療記録に基づき、前記複数の非構造化文書の文書毎に:
    前記複数の非構造化文書の各文書内の1つ又は複数の時間表現を識別し;
    前記識別された1つ又は複数の時間表現に関係する1つ又は複数の日を判断し;
    前記事象の開始、前記事象の終了又は非事象日に関連付けられるための前記判断された1つ又は複数の日の確率スコアを判断し;
    前記確率スコアに基づき前記事象の開始日を予測し;及び
    前記予測された開始日を出力するように構成される少なくとも1つのプロセッサを含むシステム。
  13. 前記少なくとも1つのプロセッサはさらに、前記確率スコアに基づき前記事象の終了日を予測するように構成される請求項12に記載のシステム。
  14. 前記事象は前記患者により服用される薬に関係する、請求項12に記載のシステム。
  15. 前記少なくとも1つのプロセッサはさらに、前記複数の非構造化文書の各文書の前処理を行うように構成され、
    前記前処理は前記事象に言及しない1つ又は複数の文章を除去すること又は重複情報を除去することのうちの少なくとも1つを含む、請求項12に記載のシステム。
  16. 前記複数の非構造化文書の少なくとも1つの文書に関し、前記識別された1つ又は複数の時間表現に関係する前記1つ又は複数の日を判断することは、
    前記複数の非構造化文書の前記少なくとも1つの文書内の相対時間表現を識別すること;及び
    前記識別された相対時間表現に基づきマップ日を前記複数の非構造化文書の前記少なくとも1つの文書の日付けとして判断することを含む、請求項12に記載のシステム。
  17. 前記マップ日を前記識別された相対時間表現に基づき前記複数の非構造化文書の前記少なくとも1つの文書の日付けとして判断することは、
    前記識別された相対時間表現及び前記医療記録の別の文書に基づき前記複数の非構造化文書の前記少なくとも1つの文書の日付けとして前記マップ日を判断することを含む、請求項16に記載のシステム。
  18. 少なくとも1つのプロセッサはさらに、更新された医療記録を前記モデルから取得するように構成され、
    前記更新された医療記録は前記複数の非構造化文書の改版された少なくとも1つの文書を含み、
    前記複数の非構造化文書の前記改版された少なくとも1つの文書は前記相対時間表現を置換する前記マップ日を含む、請求項16に記載のシステム。
  19. 前記少なくとも1つのプロセッサはさらに、
    前記事象を予測するための第2のモデルを取得し;
    前記更新された医療記録を前記第2のモデルへ入力し;
    前記医療記録の文書の文書毎に、
    文書が前記事象前の日に関係するということを指示する「事象前」ラベル、文書が前記事象中の日に関係するということを指示する「事象中」ラベル、文書が前記事象後の日に関係するということを指示する「事象後」ラベル、及び文書が前記事象に対して非決定的又は無関係であるということを指示する「非事象」ラベルを含む4つのラベルの中から前記第2のモデルにより判断されたラベルを前記第2のモデルから取得し;
    前記更新された医療記録の前記文書の前記ラベルに基づき前記事象の第2の開始日を予測し;そして
    前記予測された第2の開始日を出力することにより、前記更新された医療記録を処理するように構成される、請求項18に記載のシステム。
  20. 患者に関係する事象の日を予測するためのモデル支援型システムであって、前記システムは、
    前記事象の日を予測するための第1のモデルを取得し;
    複数の非構造化文書を含む前記患者の医療記録を前記第1のモデルへ入力し;
    前記複数の非構造化文書の文書毎に、文書が前記事象前の日に関係するということを指示する「事象前」ラベル、文書が前記事象中の日に関係するということを指示する「事象中」ラベル、文書が前記事象後の日に関係するということを指示する「事象後」ラベル、及び文書が前記事象に対して非決定的又は無関係であるということを指示する「非事象」ラベルを含む4つのラベルの中から前記第1のモデルにより判断されたラベルを前記第1のモデルから取得し;
    前記複数の非構造化文書の前記ラベルに基づき前記事象の第1の暫定開始日を予測し;
    前記第1のモデルから前記第1の暫定開始日の確率スコアを取得し;
    前記事象の日を予測するための第2のモデルを取得し;
    前記医療記録を前記第2のモデルへ入力し;
    前記第2のモデル及び前記医療記録に基づき、前記複数の非構造化文書の文書毎に:
    前記複数の非構造化文書の各文書内の1つ又は複数の時間表現を識別し;
    前記識別された1つ又は複数の時間表現に関係する1つ又は複数の日を判断し;
    前記事象の開始、前記事象の終了又は非事象日に関連付けられるための前記判断された1つ又は複数のの確率スコアを判断し;
    前記判断された確率スコアに基づき前記事象の第2の暫定開始日を予測し;
    前記第2の暫定開始日の確率スコアを判断し;そして
    前記第1の暫定開始日、前記第1の暫定開始日の前記確率スコア、前記第2の暫定開始日、及び前記第2の暫定開始日の前記確率スコアに基づき前記事象の開始日を判断する
    ように構成された少なくとも1つのプロセッサを含む、システム。
JP2021519558A 2018-10-18 2019-10-15 モデル支援型事象予測のためのシステム及び方法 Active JP7476181B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862747428P 2018-10-18 2018-10-18
US62/747,428 2018-10-18
PCT/US2019/056207 WO2020081495A1 (en) 2018-10-18 2019-10-15 Systems and methods for model-assisted event prediction

Publications (2)

Publication Number Publication Date
JP2022504508A JP2022504508A (ja) 2022-01-13
JP7476181B2 true JP7476181B2 (ja) 2024-04-30

Family

ID=68426862

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021519558A Active JP7476181B2 (ja) 2018-10-18 2019-10-15 モデル支援型事象予測のためのシステム及び方法

Country Status (4)

Country Link
US (1) US20210090747A1 (ja)
EP (1) EP3867918A1 (ja)
JP (1) JP7476181B2 (ja)
WO (1) WO2020081495A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7499963B2 (ja) 2020-12-03 2024-06-14 ノバルティス アーゲー 複数の異種のデータベースにまたがるデータ分析の共同を可能にするための共同プラットフォーム
WO2022187628A1 (en) * 2021-03-05 2022-09-09 Flatiron Health, Inc. Machine learning model for extracting diagnoses, treatments, and key dates
US20230197220A1 (en) * 2021-12-16 2023-06-22 Flatiron Health, Inc. Systems and methods for model-assisted data processing to predict biomarker status and testing dates

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015103247A (ja) 2013-11-22 2015-06-04 ゼロックス コーポレイションXerox Corporation 医療事象追跡システム
EP2985711A1 (en) 2014-08-14 2016-02-17 Accenture Global Services Limited System for automated analysis of clinical text for pharmacovigilance

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160110501A1 (en) * 2014-10-15 2016-04-21 International Business Machines Corporation Natural Language Processing Correction Based on Treatment Plan

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015103247A (ja) 2013-11-22 2015-06-04 ゼロックス コーポレイションXerox Corporation 医療事象追跡システム
EP2985711A1 (en) 2014-08-14 2016-02-17 Accenture Global Services Limited System for automated analysis of clinical text for pharmacovigilance

Also Published As

Publication number Publication date
WO2020081495A1 (en) 2020-04-23
US20210090747A1 (en) 2021-03-25
EP3867918A1 (en) 2021-08-25
JP2022504508A (ja) 2022-01-13

Similar Documents

Publication Publication Date Title
US11734601B2 (en) Systems and methods for model-assisted cohort selection
US11664097B2 (en) Healthcare information technology system for predicting or preventing readmissions
US10885150B2 (en) System and a method for assessing patient treatment risk using open data and clinician input
US10831863B2 (en) System and a method for assessing patient risk using open data and clinician input
US11651252B2 (en) Prognostic score based on health information
US20220044812A1 (en) Automated generation of structured patient data record
US20190006027A1 (en) Automatic identification and extraction of medical conditions and evidences from electronic health records
US20130096945A1 (en) Method and System for Ontology Based Analytics
US11728014B2 (en) Deep learning architecture for analyzing unstructured data
JP7476181B2 (ja) モデル支援型事象予測のためのシステム及び方法
Szlosek et al. Using machine learning and natural language processing algorithms to automate the evaluation of clinical decision support in electronic medical record systems
US11527312B2 (en) Clinical report retrieval and/or comparison
US20210391087A1 (en) Systems and methods for extracting dates associated with a patient condition
Funkner et al. Negation Detection for Clinical Text Mining in Russian.
US20220284999A1 (en) Machine learning model for extracting diagnoses, treatments, and key dates
US20240079102A1 (en) Methods and systems for patient information summaries

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221012

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20231018

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231020

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240116

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240322

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240417

R150 Certificate of patent or registration of utility model

Ref document number: 7476181

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150