JP2022541588A - 非構造化データを分析するためのディープラーニングアーキテクチャ - Google Patents
非構造化データを分析するためのディープラーニングアーキテクチャ Download PDFInfo
- Publication number
- JP2022541588A JP2022541588A JP2022503903A JP2022503903A JP2022541588A JP 2022541588 A JP2022541588 A JP 2022541588A JP 2022503903 A JP2022503903 A JP 2022503903A JP 2022503903 A JP2022503903 A JP 2022503903A JP 2022541588 A JP2022541588 A JP 2022541588A
- Authority
- JP
- Japan
- Prior art keywords
- snippet
- patient
- vector
- probability
- support system
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Biomedical Technology (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
患者属性に関連付けられた確率を判断するためのモデル支援システム。プロセッサは、患者に関連付けられた非構造化医療レコードを記憶するデータベースにアクセスし、医療レコードを分析して患者属性に関連付けられた情報のスニペットを識別するようにプログラムされ得る。プロセッサは、各スニペットに基づいて、スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含む、複数のスニペットベクトル成分を含むスニペットベクトルを生成し得る。プロセッサは、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成し得る。複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、対応するスニペットベクトル成分の分析に基づいて判断される。プロセッサは、サマリベクトルに基づいて、患者属性に関連付けられた確率を示す少なくとも1つの出力をさらに生成し得る。【選択図】図3B
Description
関連出願の相互参照
[001] 本出願は、2019年7月24日に出願された米国仮特許出願第62/878,024号及び2020年5月18日に出願された米国仮特許出願第63/026,418号の優先権の利益を主張する。上記出願の内容は、その全体が参照により本明細書に組み込まれる。
[001] 本出願は、2019年7月24日に出願された米国仮特許出願第62/878,024号及び2020年5月18日に出願された米国仮特許出願第63/026,418号の優先権の利益を主張する。上記出願の内容は、その全体が参照により本明細書に組み込まれる。
背景
技術分野
[002] 本開示は、非構造化データの大きなセット内の属性の表現を識別することに関し、より詳細には、データを分析するように構成されたディープラーニングモデルのアーキテクチャに関する。
技術分野
[002] 本開示は、非構造化データの大きなセット内の属性の表現を識別することに関し、より詳細には、データを分析するように構成されたディープラーニングモデルのアーキテクチャに関する。
背景情報
[001] 情報抽出は、ソフトウェアアプリケーションが非構造化文書からの情報を処理することを可能にする、ますます重要なタスクである。医療業を含む多くの産業において、大規模なデータ処理に対して重要な利点がある。例えば、数億の非構造化テキスト文書を含み得る患者の医療レコードは、患者の治療に関係し得る貴重な見識を含むことが多い。しかしながら、大きなグループの医療データを検査するときには、患者が示す特定の属性を識別することが困難である場合がある。例えば、これには、数千の医療文書を通して検索する必要がある場合があり、各医療文書は、数百ページの非構造化テキストを含むことがある。さらに、文書の性質に起因して、患者属性に関する情報は、手書きメモ又は他のテキストとして表されることがよくあり、それが、このプロセスの自動化をより困難にし得る。
[001] 情報抽出は、ソフトウェアアプリケーションが非構造化文書からの情報を処理することを可能にする、ますます重要なタスクである。医療業を含む多くの産業において、大規模なデータ処理に対して重要な利点がある。例えば、数億の非構造化テキスト文書を含み得る患者の医療レコードは、患者の治療に関係し得る貴重な見識を含むことが多い。しかしながら、大きなグループの医療データを検査するときには、患者が示す特定の属性を識別することが困難である場合がある。例えば、これには、数千の医療文書を通して検索する必要がある場合があり、各医療文書は、数百ページの非構造化テキストを含むことがある。さらに、文書の性質に起因して、患者属性に関する情報は、手書きメモ又は他のテキストとして表されることがよくあり、それが、このプロセスの自動化をより困難にし得る。
[002] いくつかの解決策は、患者が特定の属性に関連付けられるかどうかを判断するための機械学習モデルを展開することを含み得る。例えば、モデルは、患者が特定の条件について検査されているか否かが分かる医療レコードのセットに基づいて訓練され得る。しかし、多くの機械学習技術は、医療業又は非常に大きな非構造化文書に関連する他の産業に必要な大量のデータを処理するように用意されていない。開発されている情報抽出技術の多くは、短い文書(例えば、製品レビュー、ソーシャルメディア投稿、検索エンジンクエリ)に対して有効であり、より長い文書にはうまく汎用化されないことが多い。例えば、長短期モデル(LSTM)又は他のリカレントニューラルネットワークは、一連の医療レコードを分析する際に特定の利点をもたらし得る。しかしながら、処理されなければならない非構造化テキストデータが莫大な量であるため、従来のLSTMニューラルネットワークは、本出願には有効ではない。
[003] したがって、特定の医療属性を有する患者を識別するための改善された手法が必要である。解決策は、長い文書からの効果的な情報抽出を可能にするディープラーニングモデルアーキテクチャの開発を可能にすべきである。
概要
[004] 本開示と一貫した実施形態は、患者属性に関連付けられた確率を判断するためのシステム及び方法を含む。実施形態において、モデル支援システムは、少なくとも1つのプロセッサを含み得る。プロセッサは、患者に関連付けられた少なくとも1つの非構造化医療レコードを記憶するデータベースにアクセスし、少なくとも1つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも1つの非構造化医療レコード内の情報の複数のスニペットを識別するようにプログラムされ得る。プロセッサは、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成し、複数のスニペットベクトル成分が、スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含み、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成し、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、対応するスニペットベクトル成分の分析に基づいて判断されるようにさらにプログラムされ得る。プロセッサは、サマリベクトルに基づいて、患者属性に関連付けられた確率を示す少なくとも1つの出力を生成するようにさらにプログラムされ得る。
[004] 本開示と一貫した実施形態は、患者属性に関連付けられた確率を判断するためのシステム及び方法を含む。実施形態において、モデル支援システムは、少なくとも1つのプロセッサを含み得る。プロセッサは、患者に関連付けられた少なくとも1つの非構造化医療レコードを記憶するデータベースにアクセスし、少なくとも1つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも1つの非構造化医療レコード内の情報の複数のスニペットを識別するようにプログラムされ得る。プロセッサは、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成し、複数のスニペットベクトル成分が、スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含み、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成し、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、対応するスニペットベクトル成分の分析に基づいて判断されるようにさらにプログラムされ得る。プロセッサは、サマリベクトルに基づいて、患者属性に関連付けられた確率を示す少なくとも1つの出力を生成するようにさらにプログラムされ得る。
[005] 別の実施形態において、患者属性に関連付けられた確率を判断するためのコンピュータ実施方法。方法は、少なくとも1つの非構造化医療レコードを記憶するデータベースにアクセスすることと、少なくとも1つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも1つの非構造化医療レコード内の情報の複数のスニペットを識別することと、を含み得る。方法は、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成することであって、複数のスニペットベクトル成分が、スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含む、生成することと、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成することであって、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、対応するスニペットベクトル成分の分析に基づいて判断される、生成することと、をさらに含み得る。方法は、サマリベクトルに基づいて、属性に関連付けられた確率を示す少なくとも1つの出力を生成することをさらに含み得る。
[006] 他の開示される実施形態と一貫して、非一時的コンピュータ可読記憶媒体は、プログラム命令を記憶してもよく、プログラム命令は、少なくとも1つの処理デバイスによって実行され、本明細書で説明される方法のいずれかを実行する。
図面の簡単な説明
[007] 本明細書に組み込まれ、本明細書の一部を構成する添付図面は、説明と共に、様々な例示的実施形態の原理を示し、説明する役割をする。
[007] 本明細書に組み込まれ、本明細書の一部を構成する添付図面は、説明と共に、様々な例示的実施形態の原理を示し、説明する役割をする。
詳細な説明
[016] 以下の詳細な説明は、添付図面を参照する。可能であれば、図面及び以下の説明において、同一の参照番号は同一又は類似の部分を参照するために用いられる。いくつかの例示的実施形態が本明細書で説明されているが、修正、適合、及び他の実施態様が可能である。例えば、図面に示される構成要素に対して、代用、追加、又は修正が行われてもよく、本明細書で説明される例示的方法は、開示される方法に対してステップを代用すること、順序変更すること、除去すること、又は追加することによって修正され得る。したがって、以下の詳細な説明は、開示される実施形態及び実施例に限定されない。その代わりに、適切な範囲は、添付された特許請求の範囲によって定義される。
[016] 以下の詳細な説明は、添付図面を参照する。可能であれば、図面及び以下の説明において、同一の参照番号は同一又は類似の部分を参照するために用いられる。いくつかの例示的実施形態が本明細書で説明されているが、修正、適合、及び他の実施態様が可能である。例えば、図面に示される構成要素に対して、代用、追加、又は修正が行われてもよく、本明細書で説明される例示的方法は、開示される方法に対してステップを代用すること、順序変更すること、除去すること、又は追加することによって修正され得る。したがって、以下の詳細な説明は、開示される実施形態及び実施例に限定されない。その代わりに、適切な範囲は、添付された特許請求の範囲によって定義される。
[017] 本明細書における実施形態は、コンピュータ実施方法、有形非一時的コンピュータ可読媒体、及びシステムを含む。コンピュータ実施方法は、例えば、非一時的コンピュータ可読記憶媒体から命令を受信する少なくとも1つのプロセッサ(例えば、処理デバイス)によって、実行され得る。同様に、本開示と一貫したシステムは、少なくとも1つのプロセッサ(例えば、処理デバイス)及びメモリを含んでもよく、メモリは、非一時的コンピュータ可読記憶媒体であってもよい。本明細書で使用される、非一時的コンピュータ可読記憶媒体は、少なくとも1つのプロセッサにより読み取り可能な情報又はデータが記憶され得る任意の種類の物理的メモリを指す。実施例は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、揮発性メモリ、不揮発性メモリ、ハードドライブ、CD ROM、DVD、フラッシュドライブ、ディスク、及び任意の他の既知の物理記憶媒体を含む。「メモリ」及び「コンピュータ可読記憶媒体」などの単数形の用語は、複数の構造、そのような複数のメモリ及び/又はコンピュータ可読記憶媒体をさらに指してもよい。本明細書で参照されるように、「メモリ」は、特段の指定がない限り、任意の種類のコンピュータ可読記憶媒体を含み得る。コンピュータ可読記憶媒体は、本明細書における実施形態と一貫したステップ又はステージをプロセッサに実行させるための命令を含む、少なくとも1つのプロセッサによる実行のための命令を記憶し得る。加えて、1つ又は複数のコンピュータ可読記憶媒体は、コンピュータ実施方法を実施する際に使用され得る。「コンピュータ可読記憶媒体」という用語は、有形の物品を含み、搬送波及び一時的信号を除外するように理解されるべきである。
[018] 本開示の実施形態は、患者属性に関連付けられた確率を判断するためのシステム及び方法を提供する。開示されるシステム及び方法のユーザは、患者データにアクセス及び/又は分析することを望み得る任意の個人を包含し得る。したがって、本開示全体を通して、開示されるシステム及び方法の「ユーザ」に対する参照は、医師、研究員、健康管理施設の品質保証部門、及び/又は任意の他の個人などの任意の個人を包含し得る。
[019] 図1は、以下で詳細に説明される、本開示と一貫した実施形態を実施するための例示的システム環境100を示す。図1に示されるように、システム環境100は、クライアントデバイス110、データソース120、システム130、及び/又はネットワーク140を含む、いくつかの構成要素を含み得る。これらの構成要素の数及び配置は、例示的なものであり、例示の目的で提供されることを本開示から理解されたい。構成要素の他の配置及び数が、本開示の教示及び実施形態から逸脱することなく用いられ得る。
[020] 図1に示されるように、例示的システム環境100は、システム130を含み得る。システム130は、ネットワークを経てエンティティから情報を受信し、情報を処理し、情報を記憶し、ネットワークを経て情報を他のエンティティに表示/送信するように構成される、1つ又は複数のサーバシステム、データベース、及び/又はコンピューティングシステムを含み得る。したがって、いくつかの実施形態において、ネットワークは、クラウド共有、記憶、及び/又は計算を容易にし得る。一実施形態において、システム130は、システム130を表す破線によって区切られた領域に示される、処理エンジン131及び1つ又は複数のデータベース132を含み得る。処理エンジン140は、例えば中央処理装置(CPU)、グラフィック処理ユニット(GPU)などの1つ若しくは複数の汎用プロセッサ、及び/又は例えば特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)などの1つ若しくは複数の専用プロセッサなどの、少なくとも1つの処理デバイスを含み得る。
[021] システム環境100の様々な構成要素は、メモリ、中央処理装置(CPU)、及び/又はユーザインターフェースを含む、ハードウェア、ソフトウェア、及び/又はファームウェアを含み得る。メモリは、フロッピーディスク、ハードディスク、又は磁気テープを含む磁気ストレージ、ソリッドステートディスク(SSD)又はフラッシュメモリなどの半導体ストレージ、光ディスクストレージ、又は光磁気ディスクストレージなどの、物理記憶媒体に具現化された任意の種類のRAM又はROMを含み得る。CPUは、メモリに記憶されたプログラマブル命令のセット又はソフトウェアに従ってデータを処理するための1つ又は複数のプロセッサを含み得る。各プロセッサの機能は、単一の専用プロセッサ又は複数のプロセッサによって提供され得る。さらに、プロセッサは、デジタル信号プロセッサ(DSP)ハードウェア、又はソフトウェアを実行可能な任意の他のハードウェアを限定ではなく含み得る。任意選択のユーザインターフェースは、ディスプレイモニタ、キーボード、及び/又はマウスなどの任意の種類又は組み合わせの入力/出力デバイスを含み得る。
[022] システム環境100内で送信及び/又は交換されるデータは、データインターフェースを経て生じ得る。本明細書で用いられる、データインターフェースは、システム環境100の2つ以上の構成要素がデータを交換する任意の境界を含み得る。例えば、環境100は、ソフトウェア、ハードウェア、データベース、デバイス、人間、又は前述のものの任意の組み合わせの間でデータを交換し得る。さらに、ソフトウェア、プロセッサ、データストレージデバイス、及びネットワークの任意の適当な構成が、システム環境100の構成要素及び関連する実施形態の特徴を実施するために選択され得ることを理解されたい。
[023] 環境100の構成要素(システム130、クライアントデバイス110、及びデータソース120を含む)は、互いに通信してもよく、又はネットワーク140を通して他の構成要素と通信してもよい。ネットワーク140は、インターネット、有線ワイドエリアネットワーク(WAN)、有線ローカルエリアネットワーク(LAN)、無線WAN(例えば、WiMAX)、無線LAN(例えば、IEEE802.11など)、メッシュネットワーク、モバイル/セルラネットワーク、エンタプライズ若しくはプライベートデータネットワーク、ストレージエリアネットワーク、公共ネットワークを用いた仮想プライベートネットワーク、近距離無線通信技術(例えば、Bluetooth、赤外線など)、又は様々な他の種類のネットワーク通信などの、様々な種類のネットワークを含み得る。いくつかの実施形態において、通信は、これらの形態のネットワーク及びプロトコルの2つ以上にわたって行われ得る。
[024] システム130は、データソース120を含む様々なデータソースからネットワーク140を経て送信されたデータを受信及び記憶し、受信したデータを処理し、データ及び処理に基づく結果をクライアントデバイス110に送信するように構成され得る。例えば、システム130は、ネットワーク140においてデータソース120又は他のソースから非構造化データを受信するように構成され得る。いくつかの実施形態において、非構造化データは、1つ又は複数の医療レコードの形態で記憶される医療情報を含み得る。各医療レコードが、特定の患者に関連付けられ得る。データソース120は、患者についての医療情報の様々なソースに関連付けられ得る。例えば、データソース120は、医師、看護師、専門医、顧問医師、病院、クリニックなどの、患者の医療提供者を含み得る。データソース120は、放射線科又は他の撮像検査室、血液学検査室、病理学検査室などの検査室にも関連付けられ得る。データソース120は、保険会社又は患者データの任意の他のソースにも関連付けられ得る。
[025] システム130は、さらに、ネットワーク140を経て1つ又は複数のクライアントデバイス110と通信し得る。例えば、システム130は、情報の分析に基づく結果をデータソース120からクライアントデバイス110に提供し得る。クライアントデバイス110は、ネットワーク140を経てデータを受信又は送信可能な任意のエンティティ又はデバイスを含み得る。例えば、クライアントデバイス110は、サーバ又はデスクトップ若しくはラップトップコンピュータなどのコンピューティングデバイスを含み得る。クライアントデバイス110は、モバイルデバイス、タブレット、ウェアラブルデバイス(即ち、スマートウォッチ、埋め込み式デバイス、フィットネストラッカなど)、仮想機械、IoTデバイス、又は他の様々な技術などの他のデバイスも含み得る。いくつかの実施形態において、クライアントデバイス110は、特定の属性を有するか若しくは特定の属性に関連付けられた患者についてのクエリなどの、1人又は複数人の患者に関する情報についてのクエリ、又は患者に関する様々な他の情報を、ネットワーク140を経てシステム130に送信し得る。
[026] いくつかの実施形態において、システム130は、患者の医療レコード(又は他の形態の非構造化データ)を分析して、特定の患者属性に関連付けられた患者の確率を識別するように構成され得る。例えば、システム130は、患者の医療レコードを分析して、患者が特定の属性についての検査を受けているかどうかを判断し、属性に関連付けられた(陽性、陰性などと検査された)特定の検査結果又は様々な他の特性を識別し得る。システム130は、1つ又は複数の機械学習モデルを用いてこれらの確率を識別するように構成され得る。上述の通り、機械学習アーキテクチャは、比較的短い文書の分析のために開発されている。これらの技術は、しかしながら、患者の医療レコードなどのより長い文書にうまく変換されないことが多い。例えば、長短期記憶(LSTM)モデル及び他の形態のリカレントニューラルネットワークの実施態様は、非構造化文書内のテキストの量に起因して、従来のアーキテクチャを用いて実行できない場合がある。
[027] これらの及び他の制限を克服するために、本開示のシステム及び方法は、大きなデータソースを一連のスニペット表現に構文解析し得る。これらのスニペットは、潜在スニペット表現を学習するために、LSTMベースのパイプライン又は類似のニューラルネットワークモデルを用いて個々に処理され得る。潜在スニペット表現は、分類のために結合され、用いられ得る。モデルの精度及び効率性を改善するためには、分析のためにデータソースから関連のあるテキストのみを抽出することが重要であり得る。したがって、特定の患者属性に関連付けられた正規表現が、データソースから関連スニペットを抽出するために用いられ得る。さらに、特定のモデルアーキテクチャが、これらの抽出されたスニペットから有効に学習するように実施され得る。これらのプロセスは、以下で詳細に説明される。
[028] 本開示全体を通して、患者の医療レコードが例示的実施例として用いられるが、いくつかの実施形態において、開示されるシステム、方法、及び/又は技術が、他の形態の大きな非構造化データソースに基づいて他の種類の個人、物体、エンティティなどを識別するために同様に用いられ得ることを理解されたい。したがって、開示される実施形態は、医療レコードの分析に限定されない。例えば、類似の技術は、法的文書、従業員記録、刑事的若しくは法的執行データベース、行政(例えば、州、連邦、若しくは地方)データベース、輸送記録(例えば、出荷記録など)、教育機関記録、公記録、又は膨大な非構造化データを含み得る様々な他のデータソースに適用されてもよい。
[029] 図2は、患者についての例示的医療レコード200を示す。医療レコード200は、上述のように、データソース120から受信され、患者が特定の属性に関連付けられているかどうかを識別するためにシステム130によって処理され得る。データソース120(又はその他の場所)から受信されたレコードは、図2に示されるように、構造化データ210及び非構造化データ220の両方を含み得る。構造化データ210は、性別、年齢、人種、体重、生命徴候、検査結果、診断日、診断タイプ、病期(例えば、ビリングコード)、治療タイミング、行われた処置、通院日、診療タイプ、保険業者及び開始日、投薬指示、投薬管理、又は患者についての任意の他の測定可能なデータなどの、患者についての定量可能な又は分類可能なデータを含み得る。非構造化データは、医師のメモ又は患者の検査室報告などの定量可能でない、又は容易に分類されない、患者についての情報を含み得る。非構造化データ220は、医師の治療計画の説明、通院時に起こったことを説明するメモ、患者からの申告又は説明、患者の健康状態の主観的な評価又は説明、放射線科報告、病理学報告などの情報を含み得る。
[030] データソース120から受信したデータにおいて、各患者が、1人又は複数の医療専門家又は患者によって生成される1つ又は複数のレコードにより表され得る。例えば、患者に関連付けられた医師、患者に関連付けられた看護師、患者に関連付けられた理学療法士などが、それぞれ患者についての医療レコードを生成し得る。いくつかの実施形態において、1つ又は複数のレコードは、照合され、及び/又は同一データベースに記憶され得る。他の実施形態において、1つ又は複数のレコードは、複数のデータベースにわたって分散されてもよい。いくつかの実施形態において、レコードは、複数の電子データ表現を記憶及び/又は提供されてもよい。例えば、患者レコードは、テキストファイル、ポータブルドキュメントフォーマット(PDF)ファイル、拡張マークアップ言語(XML)ファイルなどの1つ又は複数の電子ファイルとして表され得る。文書が、PDFファイル、画像、又はテキストのない他のファイルとして記憶される場合、電子データ表現は、光学文字認識プロセスから導出される文書に関連付けられたテキストも含み得る。いくつかの実施形態において、非構造化データは、抽象化プロセスによってキャプチャされてもよく、構造化データは、医療専門家によって入力されるか、又はアルゴリズムを用いて計算されてもよい。
[031] いくつかの実施形態において、非構造化データは、特定の患者属性に関連付けられたデータを含んでもよい。例示的実施例として、患者属性は、患者についての喫煙状態を含んでもよい。この実施例では、システム130は、患者の医療レコードを分析して患者が喫煙者であるかどうかを判断し得る。例えば、非構造化データ211は、患者が1週間にある箱数のタバコを吸っていること、患者が電子タバコを使用していることを示す(例えば、医師、看護師、検査技師などからの)メモ、又は類似のメモを含んでもよい。別の実施形態では、システム130は、患者の医療レコードを分析して、プログラム細胞死リガンド1(PDL1)タンパク質などの特定の指標について、患者が検査されているかどうかを判断し得る。例えば、非構造化データは、PDL1検査結果(例えば、患者がPDL1について検査されているかどうか、検査の結果、結果の分析など)について論じている(例えば、医師、看護師、検査技師などからの)メモを含み得る。本開示全体を通して、PDL1検査状態及び/又は喫煙歴に基づく患者識別が用いられるが、これは実施例である。開示されるシステム、方法、及び/又は技術が、患者を識別する他の手段(例えば、患者が特定の薬を処方されているかどうか、患者が特定の処置を受けているかどうかなど)について同様に用いられ得ることを理解されたい。
[032] 上述の通り、システム130は、非構造化医療レコードを分析して、医療レコードの非構造化データからテキストのスニペットを抽出し得る。本明細書で用いられるスニペットは、より大きな文書に含まれるテキスト又は他のデータの比較的小さな部分を指し得る。スニペットは、特定の患者属性に関連のある情報を囲むテキスト及び含むテキストの一部を含み得る。スニペットを識別するために、システム130は、キーワード検索を実行して、関連属性について論じられている文書内の位置を発見してもよい。図3Aは、開示される実施形態と一貫して、患者属性を検索するために用いられ得る例としてのキーワード312を示す。図3Aに示される実施例において、システム130は、医療レコードのセットに関連付けられた患者がPDL1タンパク質について検査されているかどうか、及び/又はその検査の結果を判断するように構成され得る。したがって、検索語310は、テキスト「PDL1」を含み得る。
[033] いくつかの実施形態において、システム130は、用語「PDL1」についてのキーワード検索を実行し得る。しかしながら、いくつかのインスタンスにおいて、PDL1検査及び検査結果は、代替の表記法を用いて論じられることがある。例えば、いくつかのインスタンスにおいて、用語は、ダッシュを含んでもよく、「PD-L1」と表されてもよい。これらの代替表現を含むテキストのスニペットを見落とすことを回避するために、キーワード検索は、正規表現、又はregex」312を用いて行われてもよい。正規表現は、検索パターンを定義する任意の文字シーケンスを含み得る。PDL1検査についての検索の場合、正規表現312は、用語「\b(pd-?l1)\b」を含んでもよく、その場合に、「-?」は、ダッシュが含まれるインスタンス及び含まれないインスタンスを含めるための可変要素である。用語「\b」は、単語境界を表してもよく、それによってシステム130が用語の単語全体の一致を検索することが可能となる。
[034] いくつかの実施形態において、より複雑な正規表現が用いられてもよい。例えば、正規表現312は、「\b(p\W{0,2}d\W{0,2}[1lit]\W{0,2}[1lit])\b」などの、より許容的なregexを含んでもよく、それは、追加の文字、及びスキャンされた文書からの光学文字認識(OCR)に起因する潜在エラーを考慮し得る。正規表現312は、例えば、検索語に単語境界語を追加すること、検索語に関連付けられた様々な位置に可変要素を含めること、などによってシステム130により自動的に生成され得る。他の実施形態において、正規表現312は、ユーザによってシステム130へ展開及び入力されてもよい。上述の検索語及び正規表現は、実施例として提供されていることを理解されたい。様々な他の検索語、正規表現、及び/又は正規表現フォーマットが用いられてもよい。
[035] 正規表現312に加えて、システム130は、患者属性に関連付けられ得る他のターゲット語を用いてスニペットを検索し得る。例えば、患者属性がPDL1検査を含む場合、「高発現」、「低発現」、「腫瘍比率スコア」、「tps」、「ステイニング(staining)」、及び「不十分」などのターゲット語が、一般的にPDL1検査に関連付けられてもよく、また、非構造化文書に対する検索を実行するために用いられてもよい。同様に、患者属性が患者の喫煙状態である場合、ターゲット語は、例えば、「紙巻タバコ」、「パケット」、「葉巻」、「喫煙者\煙\喫煙した」、「噛みタバコ(chew)」、「スモーキング」、「ppd」、「ニコチン」、「パイプ」、「タバコ」、「かぎタバコ」、「マリファナ」、「無煙」、「噛みタバコ(chewing)」、及び「スモーカー」を含み得る。正規表現312に類似のこれらのターゲット語に基づく正規表現も用いられ得る。これらの用語はより幅広いため、検索されている特定の患者属性以外の他の特性に関連して用いられることがある。例えば、「ステイニング」という用語は、PDL1検査の他にも多くの他のコンテンツに用いられ得る。無関係のスニペットを返すことを避けるために、追加のターゲット語が、患者属性に関連する文書からのみスニペットを抽出するために用いられてもよい。例えば、システム130は、まず、正規表現312を用いた検索を実行してPDL1検査の議論を含む文書を発見してもよく、それらの文書からのみ追加のターゲット語に基づいてスニペットを抽出してもよい。これらのターゲット語を使用することによって、正規表現312を含まない関連スニペットがシステム130によってやはり識別され、分析されることが保証され得る。
[036] 上述の検索プロセスは、患者属性に関連付けられたスニペットを抽出するために非構造化文書のそれぞれに対して実行され得る。図3Bは、開示される実施形態と一貫して、文書から抽出され得る例としてのスニペット330を示す。正規表現312に基づいて、システム130は、テキスト内の検索語のインスタンスを表すターゲットトークン322を含む文書320を識別し得る。システム130は、次いで、スニペット330で図3Bに示されるように、ターゲットトークン322を囲むテキストのスニペットを抽出し得る。いくつかの実施形態において、スニペット330は、事前定義されたウィンドウに基づいて定義され得る。例えば、スニペットは、テキスト内のターゲットトークン322前後の所定の文字数(例えば、20文字、50文字、60文字、又は用語の使用のためのコンテキストをキャプチャする任意の適当な文字数)に基づいて、定義されてもよい。例えば、単語境界における終わりまでウィンドウを拡大すること又は狭めることによって、スニペットの端に部分語が含まれないように、ウィンドウは、また、単語境界を考慮するように定義されてもよい。いくつかの実施形態では、ウィンドウは、事前定義された単語数又は他の変数に基づいて定義されてもよい。
[037] いくつかの実施形態では、システム130は、ターゲットトークン322を代用語332で置換してもよい。これによって、患者属性が、抽出されたスニペットのそれぞれにおいて同一の専門用語を用いて表されることが保証され得る。例えば、「PDL1」を含む文書及び「PD-L1」を含む文書は両方とも、図3Bに示されるように、用語「[_pdl1_]」を含む抽出されたスニペットをもたらし得る。代用語の使用は、また、特徴スパース性を低下させること、訓練時間を加速すること、及びモデルがより限定されたラベル付きデータのセットで収束することを可能にすることによって、機械学習モデルの性能を改善し得る。
[038] スニペット330は、次いで、スニペットから非名詞テキストを除去するようにサニタイズされてもよい。非名詞テキストは、例えば、HTMLタグ、日付、ページを示す数字、又は患者属性の議論に関連しない他のデータを含み得る。非名詞テキストは、非名詞テキストの共通フォーマットを識別するように構成される正規表現フィルタのカスタムセットを用いて識別され得る。例えば、1つ又は複数の正規表現フィルタは、MM/DD/YYYYのフォーマット(又は他の変形)及び他の共通日付フォーマットのテキストを検索し、スニペットからこのテキストを除去するように設計されてもよい。多くの句読文字も除去されてもよいが、システム130は、患者属性に関連があり得る何らかの句読点(例えば、「+」、「-」など)を保持するように構成されてもよい。関連のある可能性のある句読点符号のリストが、データベース(例えば、データベース132)に維持されてもよい。リストは、多くの患者属性に適用可能な普遍的なリストであってもよく、又は検査されている特定の属性に関連して展開されてもよい。
[039] システム130は、また、図3Bに示されるトークン340などの複数のトークンに生テキストを分配するために、スニペット330をトークン化してもよい。トークンは、各トークンがスニペット内の単語を含むように、テキスト内で識別された単語境界に従って分配され得る。例えば、代用語332で始まって、システム130は、「[_pdl1_]」、「高」、及び「発現」というトークンをスニペット330から抽出し得る。トークンは、代用語332から両方向にスニペット330全体を通して抽出されてもよい。いくつかの実施形態において、トークンは、図3Bに示されるように、単一の単語を含んでもよい。他の実施形態において、トークンは、複数の単語を含むように構成されてもよい。例えば、「BRAF 陰性」という用語に関連付けられたトークンは、「陰性」、「BRAF 陰性」、及び「BRAF」として生成されてもよい。本開示は、任意の特定の形態又はスニペットから抽出されるトークンのフォーマットに限定されない。トークン化に加えて、システム130は、また、文書320に関連付けられた文書カテゴリ350を抽出し得る。例えば、文書カテゴリ350は、文書320がクリニックノートであるか、病理学報告であるか、又は別の共通文書タイプであるかを示し得る。文書カテゴリ350は、文書自体の中で(例えば、文書320に関連付けられたメタデータ若しくはタグ、文書320のファイル名などの中で)識別されてもよく、又は文書320のテキストの分析を通して(例えば、文書フォーマット、文書に含まれるキーワードなどに基づいて)判断されてもよい。
[040] 図3Bに関連して上述したプロセスは、非構造化文書から複数のスニペットを抽出するために、正規表現312又はテキストにおいて識別される追加のターゲット語のインスタンス毎に繰り返され得る。スニペットのそれぞれが、上述のようにトークン化され得る。抽出されたスニペットは、次いで、患者属性に関連付けられた患者についての確率を識別するためにディープラーニングモデルアーキテクチャに供給され得る。
[041] いくつかの実施形態において、生成されるスニペットの2つ以上が、非構造化データ内で繰り返されるテキストに起因して、同一であるか又は非常に類似し得る。例えば、診察室記録又は他の長期的な患者データにおいて、前の通院からのテキストが、コピー及びペーストされてもよく、したがって、同一レコード内に複数回現れてもよい。この冗長性を取り除くために、システム130は、重複スニペットを除去し得る。いくつかのインスタンスにおいて、テキストの全てではなくいくらかが、レコード内で重複していることがあり、したがって、スニペットが別のスニペットに一致していなくても、それは冗長であり得る。このことを考慮するために、システム130は、オーバラップベースメトリックを実施して、スニペット類似性を測定し得る。例えば、貪欲アルゴリズムが採用されてもよい。貪欲アルゴリズムでは、システム130は、スニペットを通してループし、事前定義されたパーセンテージに基づいてその単語が別のスニペットによって包含されない場合にのみスニペットを追加する。包含の量は、分析されているスニペットの長さによって分割される2つのスニペット間の単語オーバラップの量として定義されてもよい。例えば、候補スニペットの単語の少なくとも80%が別のスニペットに既に含まれていない場合にのみ、候補スニペットが含まれてもよい。様々な他の包含パーセンテージが用いられてもよい。
[042] モデルアーキテクチャは、この情報を統合して患者についての予測を全体として生成する前に、まず各スニペットに対して並行して動作してもよい。図4Aは、開示される実施形態と一貫した、単一スニペットに対して動作する例としてのニューラルネットワークを示すブロック図である。スニペットは、複数のトークン401、402、及び403を含んでもよく、それらは上述のトークン化プロセスを通して識別され得る。例えば、トークン401、402、及び403は、図3Bに示されるトークン340に対応し得る。トークンのそれぞれが、ニューラルネットワークを通過する前に単語の埋め込みに変換され得る。例えば、トークン401は、単語の埋め込み411に変換され得る。単語の埋め込み411は、事前定義された次元を有する実数のベクトルにマッピングされるトークン401の表現であってもよい。例えば、128の値の次元が用いられ得るが、単語の埋め込み411は、任意の適当な次元を有してもよい。単語の埋め込み411は、データの訓練セットに基づいて判断され得る。システム130は、訓練データ内の抽出されたスニペットにおいて表されるトークンの全てを含む用語集を構築し得る。これらのトークンにはインデックスが付与され、埋め込み空間に投影され得る。トークン411は、次いで、学習済みの単語の埋め込みによって定義される単語の埋め込み411に変換され得る。
[043] 次に、単語の埋め込み411は、LSTM420などのリカレントニューラルネットワークを通過し得る。いくつかの実施形態において、LSTMは、双方向LSTMを含み得る。LSTMは、単語の埋め込みに対応する隠れ次元を有してもよく、これは上記の実施例と一貫して128の隠れ次元を含み得る。LSTM420は、入力トークンに基づく加重値を含む最終隠れ状態を生成するように訓練され得る。例えば、LSTM420は、(患者が患者属性に関連付けられるかどうかなどの)既知の結果を有するスニペットトークンの訓練データセットに基づいて訓練されてもよい。最終隠れ状態421は、双方向LSTMの順方向及び逆方向パスの結果として生成され得る。同一のプロセスが、全てのスニペットトークン401~403にわたって実行されてもよく、これらの最終隠れ状態が、結合されてスニペットベクトル430を形成し得る。
[044] いくつかの実施形態において、スニペットベクトル430は、最終隠れ状態の連結であり得る。例えば、スニペットベクトル430は、隠れ状態h00、h01、及びh02の連結を含み得る。隠れ状態を結合してスニペットベクトル430を形成するための様々な他の手段が用いられてもよい。図4Bは、開示される実施形態と一貫して、アテンション機構を用いてニューラルネットワークモデルの隠れ状態を結合するための例としてのプロセスを示す。LSTM420の各タイムスタンプにおいて、システム130は、隠れ状態の加重平均を取り得る。加重は、演算440に示されるように、各中間隠れ状態ベクトル441の学習済みアテンション加重ベクトルとのドット積を取ることによって計算され得る。アテンション加重ベクトルは、LSTM420についての訓練プロセスの一部として学習され得る。ソフトマックス演算450は、各隠れ状態ベクトル441についてのドット積出力を比率451などの比率に変換するために用いられ得る。スニペットベクトル430は、比率による隠れ状態の全ての加重結合に基づいて判断され得る。特に、このプロセスは、LSTM420によって生成される全ての中間隠れ状態について実行され得る。したがって、LSTM420は、いかなる中間隠れ状態からも完全スニペットベクトル表現に直接情報を渡し得る。
[045] いくつかの実施形態において、LSTM420の初期隠れ状態は、モデルを改善するためにスニペットメタデータでエンコードされ得る。例えば、LSTM420は、(例えば、文書カテゴリ350によって示される)スニペットのカテゴリ及びスニペットがそれに基づいて抽出されたターゲット語(例えば、PDL1など)でホットエンコードされてもよい。言い換えると、最初(又は最後のトークン)へ進行する前に、ゼロのベクトルでLSTMを初期化するのではなく、LSTMモデルが、スニペットメタデータのワンホットエンコーティングで初期化されてもよい。初期状態においてスニペットのコンテキストを提供することによって、それは、LSTMによって異なる扱いがされてもよく、モデルの結果を改善し得る。
[046] 図4A及び図4Bに示されるプロセスは、実施例として提供される。LSTMにおいて生成される隠れ状態からの結果となるスニペットベクトルをコンパイルするための様々な他の適当な方法が用いられ得ることを理解されたい。さらに、LSTM420は、実施例として提供される。例えば、LSTM420は、単層又は複層であってもよく、一方向又は双方向などであってもよい。他の形態のリカレントニューラルネットワークもまた、スニペットベクトル430を生成するために用いられてもよい。
[047] 図4A及び図4Bに関連して上述したプロセスは、非構造化データから抽出されたスニペット毎に繰り返されてもよく、それによって、複数のスニペットベクトルがもたらされる。患者属性に関連付けられた確率を判断するために、分類前にスニペットベクトルのシーケンスを単一のサマリベクトルにまとめることが必要であり得る。
[048] 図5は、開示される実施形態と一貫して、複数のスニペットベクトルに基づいてサマリベクトル510及び確率530を生成するための例としてのプロセスを示すブロック図である。1つ又は複数のスニペットベクトル501、502、及び503は、上述の通り、訓練済みニューラルネットワークを用いて関連する入力スニペットに基づいて生成され得る。スニペットベクトル501、502、及び503は、単一のサマリベクトル510にまとめられ得る。実施例として、スニペットベクトル501、502、及び503のそれぞれが、128の成分(又はニューラルネットワークモデルによって定義された任意の適当な数の成分)を含んでもよく、サマリベクトル510は、同様に128の成分を含み得る。いくつかの実施形態では、サマリベクトル510は、スニペットベクトル501、502、及び503に対して実行されるエレメントワイズ関数に基づいて判断され得る。例えば、サマリベクトル510の各成分がスニペットベクトルスニペットベクトル501、502、及び503内の対応する成分の最大値を含むように、サマリベクトル510は、スニペットベクトルにわたって実行されるエレメントワイズ最大値演算を用いて判断されてもよい。例えば、サマリベクトル510の第1の成分は、スニペットベクトル501の第1の成分、スニペットベクトル502の第1の成分、及びスニペットベクトル503の第1の成分のうちの最大値であってもよい。同様に、サマリベクトル510の第2の成分は、スニペットベクトル501の第2の成分、スニペットベクトル502の第2の成分、及びスニペットベクトル503の第2の成分のうちの最大値であってもよい。これが、成分位置毎に繰り返されて、サマリベクトル510が定義され得る。エレメントワイズ最小値演算、エレメントワイズ平均演算などを含む、様々な他の演算が、サマリベクトル510を定義するために用いられ得る。
[049] システム130は、フィードフォワード層において出力空間520上にサマリベクトル510を投影するように訓練され得る。最後に、ソフトマックス層が、出力クラス毎の予測される確率530を生成するために用いられ得る。予測される確率530は、予測クラスラベルに変換され得る。サマリベクトル510を用いて判断される確率の数及びタイプは、分析される患者属性のタイプに依存し得る。例えば、PDL1状態が患者属性として用いられる場合、確率は、患者がPDL1に対して陽性と検査される確率、患者がPDL1に対して陰性と検査される確率、患者が検査されていない確率、及び結果が不確定である確率を含み得る。同様に、患者属性が患者の喫煙状態である場合、確率は、患者に喫煙歴がある確率、患者に喫煙歴がない確率、及び結果が不確定である確率を含み得る。分析される患者属性のタイプに依存して、様々な他の確率が含まれ得る。各確率が、様々なフォーマットで表され得る。例えば、確率は、パーセンテージ、事前定義されたスケール(例えば、1~10、1~5など)、事前定義された分類のリスト(例えば、「高確率」、「低確率」など)、又は任意の他の適当な形態で表されてもよい。
[050] 結果となる確率は、患者が患者属性に関連付けられるかどうかを示し得る。例えば、確率は、患者がPDL1について検査されているかどうか及びその検査結果を、関連する信頼性レベルと共に示し得る。それに応じて、システム130は、患者の医療レコード内の非構造化医療データに基づいて患者を分類するために用いられ得る。各文書の関連スニペットのみが分析されているため、システム130は、患者の医療レコードに共通して含まれる比較的大きな文書にもかかわらず、患者属性に関連付けられた確率を判断するためにLSTMモデルを有利に使用し得る。
[051] 図6は、開示される実施形態と一貫して、属性に関連付けられた確率を判断するための例としてのプロセス600を示すフローチャートである。プロセス600は、上述の通り、処理エンジン131などの少なくとも1つの処理デバイスによって実行され得る。本開示全体を通して、「プロセッサ」という用語は、「少なくとも1つのプロセッサ」の省略表現として用いられることを理解されたい。言い換えると、プロセッサは、論理演算を実行する1つ又は複数の構造を、そのような構造が共設され、接続され、又は分配されるかどうかに関わらず、含み得る。いくつかの実施形態において、非一時的コンピュータ可読媒体は、プロセッサによる実行時にプロセッサにプロセス600を実行させる命令を含み得る。さらに、プロセス600は、図6に示されるステップに必ずしも限定されず、本開示全体を通して説明される様々な実施形態の任意のステップ又はプロセスもまた、図3A~図5に関して上述したものを含めて、プロセス600に含まれ得る。
[052] ステップ610において、プロセス600は、少なくとも1つの非構造化医療レコードを記憶するデータベースにアクセスすることを含み得る。例えば、システム130は、ローカルデータベース132又はデータソース120などの外部データソースから患者の医療レコードにアクセスし得る。医療レコードは、テキストファイル、画像ファイル、PDFファイル、XLMファイル、YAMLファイルなどの1つ又は複数の電子ファイルを含み得る。少なくとも1つの非構造化医療レコードは、上述した医療レコード210に対応し得る。例えば、非構造化医療レコードは、少なくともいくつかの非構造化データ211を含み得る。非構造化情報は、医療提供者によって書かれたテキスト、放射線科報告、病理学報告、又は患者に関連付けられた様々な他の形態のテキストを含み得る。いくつかの実施形態において、医療レコードは、追加の構造化データ212をさらに含み得る。
[053] ステップ620において、プロセス600は、少なくとも1つの非構造化医療レコードを分析して、患者属性に関連付けられた少なくとも1つの非構造化医療レコード内の情報の複数のスニペットを識別することを含み得る。いくつかの実施形態において、スニペットを識別することは、患者属性に関連付けられたキーワードについて少なくとも1つの非構造化医療レコードを検索することを含み得る。例えば、患者属性は、患者がPDL1について検査されているかどうかを含んでもよく、キーワードは、テキスト「PDL1」を含んでもよい。いくつかの実施形態において、キーワードは、少なくとも1つの可変要素を含んでもよい。例えば、キーワードは、正規表現312などの正規表現を用いて表されてもよい。それに応じて、キーワードは、患者属性の代替スペリング、テキスト中に出現する追加文字又は不要文字、スキャンされた文書のOCR処理に起因するエラー、単語境界、及びスニペット抽出に影響を及ぼし得る他の変数を考慮し得る。
[054] いくつかの実施形態において、追加のスニペットが、キーワードに関連するターゲット語に基づいて識別され得る。例えば、患者属性が患者の喫煙歴である場合に、「紙巻タバコ」、「パック」、「ベイピング」、又は喫煙に関する他の用語を含むターゲット語が含まれてもよい。無関係のスニペットが識別されることを回避するために、これらのターゲット語に基づくスニペットが、初期検索においてキーワードを含む文書のみから抽出され得る。さらに、いくつかの実施形態において、別のスニペットによって包含される単語数(又は単語のパーセンテージ)が、所定の閾値を超える場合に、1つ又は複数の冗長スニペットが除去され得る。ステップ620は単一スニペットに基づいて説明されているが、同一プロセスが非構造化医療レコードから抽出された複数のスニペットに対して実行され得ることを理解されたい。
[055] ステップ630において、プロセス600は、複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成することを含み得る。複数のスニペットベクトル成分が、スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含み得る。いくつかの実施形態において、スニペットベクトルは、長短期記憶ネットワークなどのニューラルネットワーク、又は他の形態のリカレントニューラルネットワークを用いて生成され得る。例えば、トークン401、402、及び403を含むスニペットは、スニペットベクトル430を生成するためにLSTM420を通過し得る。それに応じて、ステップ630は、複数の隠れ状態を結合してスニペットベクトル430を形成することを含み得る。これは、図4A及び図4Bに関して上述したように、連結、アテンション機構、又はスニペットベクトルを生成するための様々な他の手段を含み得る。
[056] ステップ640において、プロセス600は、スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成することを含み得る。例えば、スニペットベクトル501、502、及び503は、単一スニペットベクトル510にまとめられ得る。複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ得る。例えば、サマリベクトルの成分毎にスニペットベクトルにおいて対応する成分が存在するように、スニペットベクトル及びサマリベクトルは、それぞれが同数の成分を含み得る。さらに、複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分の分析に基づいて判断され得る。例えば、各サマリベクトル成分は、上述の通り、(例えば、エレメントワイズ最大値演算を用いて)複数のスニペットベクトルにおける対応するスニペットベクトル成分の最大値を含み得る。
[057] ステップ650において、プロセス600は、サマリベクトルに基づいて、属性に関連付けられた確率を示す少なくとも1つの出力を生成することを含み得る。いくつかの実施形態において、確率は、患者属性に関連付けられた患者に対して検査が行われているどうかの確率を含み得る。例えば、確率は、患者がPDL1について検査されているかどうかの確率を含む。加えて、又は代替として、確率は、患者が患者属性について陽性(又は陰線)と検査されたかどうかの確率を含み得る。例えば、確率は、患者がPDL1について陽性と検査されたかどうかの確率を含み得る。他の実施形態において、確率は、患者が特定の健康関連特性を示す確率を含み得る。例えば、確率は、患者が喫煙歴を有するかどうかの確率を含み得る。いくつかの実施形態において、出力は、患者と患者属性との間の関連付けが不確定であるという標識を含み得る。例えば、出力は、患者とその患者属性との間の相関関係が非構造化医療レコードに基づいて判断されることができない確率を含み得る。
[058] 前述の説明は、例示の目的で提示されている。それは網羅的ではなく、開示された実施形態の正確な形態に限定されない。修正及び適合が、明細書の考察及び開示される実施形態の実施から当業者に明らかとなる。加えて、開示された実施形態の態様がメモリに記憶されていると説明されているが、当業者は、これらの態様が、二次記憶デバイス、例えば、ハードディスク若しくはCD ROM、又はRAM若しくはROMの他の形態、USB媒体、DVD、Blu-ray、4K Ultra HD Blu-ray、又は他の光学ドライブ媒体などの他の種類のコンピュータ可読媒体上にも記憶され得ることを理解する。
[059] 書かれた説明及び開示された方法に基づくコンピュータプログラムは、経験豊富な開発者のスキルの範囲内にある。様々なプログラム又はプログラムモジュールは、当業者に既知の技術のいずれかを用いて生成され得るか、又は既存のソフトウェアと関係して設計され得る。例えば、プログラムセクション又はプログラムモジュールは、.Net Framework、.Net Compact Framework(及びVisual Basic、Cなどの関連する言語)、Java、Python、R、C++、Objective-C、HTML、HTML/AJAXの組み合わせ、XML、又はJavaアプレットを含んだHTMLにおいて、又はそれらを用いて、設計されてもよい。
[060] さらに、例示的実施形態が本明細書において説明されているが、関連要素、修正、省略、(例えば、様々な実施形態にわたる態様の)組み合わせ、適合、及び/又は改変を有する任意の及び全ての実施形態の範囲が、本開示に基づいて当業者により理解されるものとする。特許請求の範囲内の限定は、特許請求の範囲において採用される言語に基づいて幅広く解釈されるべきであり、本明細書において又は本出願手続の遂行中に記載された実施例に限定されるべきでない。実施例は、非排他的なものとして解釈されるべきである。さらに、開示された方法のステップは、ステップを順序変更すること、及び/又はステップを挿入若しくは削除することを含む任意のやり方で修正され得る。したがって、本明細書及び実施例は、以下の特許請求の範囲及びその均等物の全範囲によって示される真正な範囲及び思想を用いて、例示としてのみ考えられることを意図するものである。
Claims (26)
- 患者属性に関連付けられた確率を判断するためのモデル支援システムであって、
少なくとも1つのプロセッサであって、
患者に関連付けられた少なくとも1つの非構造化医療レコードを記憶するデータベースにアクセスし、
前記少なくとも1つの非構造化医療レコードを分析して、前記患者属性に関連付けられた前記少なくとも1つの非構造化医療レコード内の情報の複数のスニペットを識別し、
前記複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成し、前記複数のスニペットベクトル成分が、前記スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含み、
前記スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成し、前記複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、前記対応するスニペットベクトル成分の分析に基づいて判断され、
前記サマリベクトルに基づいて、前記患者属性に関連付けられた確率を示す少なくとも1つの出力を生成する、
ようにプログラムされた、前記少なくとも1つのプロセッサを備える、モデル支援システム。 - 前記複数のスニペットを識別することが、前記患者属性に関連付けられたキーワードについて前記少なくとも1つの非構造化医療レコードを検索することを含む、請求項1に記載のモデル支援システム。
- 前記キーワードが、少なくとも1つの可変要素を含む、請求項2に記載のモデル支援システム。
- 前記可変要素が、正規表現として表される、請求項3に記載のモデル支援システム。
- 前記スニペットベクトルが、ニューラルネットワークを用いて生成される、請求項1に記載のモデル支援システム。
- 前記ニューラルネットワークが、長短期記憶ネットワークを含む、請求項5に記載のモデル支援システム。
- 各サマリベクトル成分が、複数のスニペットベクトル内の対応するスニペットベクトル成分の最大値を含む、請求項1に記載のモデル支援システム。
- 前記確率が、前記患者がPDL1について検査されているかどうかの確率を含む、請求項1に記載のモデル支援システム。
- 前記確率が、前記患者がPDL1について陽性と検査されたかどうかの確率を含む、請求項1に記載のモデル支援システム。
- 前記確率が、前記患者が喫煙歴を有するかどうかの確率を含む、請求項1に記載のモデル支援システム。
- 前記出力が、前記患者と前記患者属性との間の関連付けが不確定であるという標識を含む、請求項1に記載のモデル支援システム。
- 前記確率が、前記患者属性に関連付けられた前記患者に対して検査が行われているどうかの確率を含む、請求項1に記載のモデル支援システム。
- 前記確率が、前記患者が前記患者属性について陽性と検査されたかどうかの確率を含む、請求項1に記載のモデル支援システム。
- 患者属性に関連付けられた確率を判断するためのコンピュータ支援方法であって、
少なくとも1つの非構造化医療レコードを記憶するデータベースにアクセスすることと、
前記少なくとも1つの非構造化医療レコードを分析して、前記患者属性に関連付けられた前記少なくとも1つの非構造化医療レコード内の情報の複数のスニペットを識別することと、
前記複数のスニペットの各スニペットに基づいて、複数のスニペットベクトル成分を含むスニペットベクトルを生成することであって、前記複数のスニペットベクトル成分が、前記スニペットに含まれる少なくとも1つの単語に関連付けられた加重値を含む、前記生成することと、
前記スニペットベクトルを分析して、複数のサマリベクトル成分を含むサマリベクトルを生成することであって、前記複数のサマリベクトル成分のそれぞれが、対応するスニペットベクトル成分に関連付けられ、前記対応するスニペットベクトル成分の分析に基づいて判断される、前記生成することと、
前記サマリベクトルに基づいて、前記属性に関連付けられた確率を示す少なくとも1つの出力を生成することと、
を含む、コンピュータ支援方法。 - 前記複数のスニペットを識別することが、前記患者属性に関連付けられたキーワードについて前記少なくとも1つの非構造化医療レコードを検索することを含む、請求項14に記載のコンピュータ支援方法。
- 前記キーワードが、少なくとも1つの可変要素を含む、請求項15に記載のコンピュータ支援方法。
- 前記可変要素が、正規表現として表される、請求項16に記載のコンピュータ支援方法。
- 前記スニペットベクトルが、ニューラルネットワークを用いて生成される、請求項14に記載のコンピュータ支援方法。
- 前記ニューラルネットワークが、長短期記憶ネットワークを含む、請求項18に記載のコンピュータ支援方法。
- 各サマリベクトル成分が、複数のスニペットベクトル内の対応するスニペットベクトル成分の最大値を含む、請求項14に記載のコンピュータ支援方法。
- 前記確率が、前記患者がPDL1について検査されているかどうかの確率を含む、請求項14に記載のコンピュータ支援方法。
- 前記確率が、前記患者がPDL1について陽性と検査されたかどうかの確率を含む、請求項14に記載のコンピュータ支援方法。
- 前記確率が、前記患者が喫煙歴を有するかどうかの確率を含む、請求項14に記載のコンピュータ支援方法。
- 前記出力が、前記患者と前記患者属性との間の関連付けが不確定であるという標識を含む、請求項14に記載のコンピュータ支援方法。
- 前記確率が、前記患者属性に関連付けられた前記患者に対して検査が行われているどうかの確率を含む、請求項14に記載のモデル支援システム。
- 前記確率が、前記患者が前記患者属性について陽性と検査されたかどうかの確率を含む、請求項14に記載のモデル支援システム。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201962878024P | 2019-07-24 | 2019-07-24 | |
US62/878,024 | 2019-07-24 | ||
US202063026418P | 2020-05-18 | 2020-05-18 | |
US63/026,418 | 2020-05-18 | ||
PCT/US2020/043255 WO2021016447A1 (en) | 2019-07-24 | 2020-07-23 | Deep learning architecture for analyzing unstructured data |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022541588A true JP2022541588A (ja) | 2022-09-26 |
Family
ID=72047078
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022503903A Pending JP2022541588A (ja) | 2019-07-24 | 2020-07-23 | 非構造化データを分析するためのディープラーニングアーキテクチャ |
Country Status (4)
Country | Link |
---|---|
US (2) | US11728014B2 (ja) |
EP (1) | EP4004933A1 (ja) |
JP (1) | JP2022541588A (ja) |
WO (1) | WO2021016447A1 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11908586B2 (en) | 2020-06-12 | 2024-02-20 | Flatiron Health, Inc. | Systems and methods for extracting dates associated with a patient condition |
JP2024510425A (ja) | 2021-03-05 | 2024-03-07 | フラティロン ヘルス,インコーポレイテッド | 診断、治療、及び主要な日付を抽出するための機械学習モデル |
WO2023114412A1 (en) | 2021-12-16 | 2023-06-22 | Flatiron Health, Inc. | Systems and methods for model-assisted data processing to predict biomarker status and testing dates |
US11854675B1 (en) | 2022-10-11 | 2023-12-26 | Flatiron Health, Inc. | Machine learning extraction of clinical variable values for subjects from clinical record data |
US11915807B1 (en) | 2022-10-11 | 2024-02-27 | Flatiron Health, Inc. | Machine learning extraction of clinical variable values for subjects from clinical record data |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3443486A4 (en) * | 2016-04-15 | 2019-11-06 | 3M Innovative Properties Company | Query Optimizer for Combined Structured and Unstructured Records |
JP7157758B2 (ja) * | 2017-04-13 | 2022-10-20 | フラティロン ヘルス,インコーポレイテッド | モデル支援コホート選択を行うシステム及び方法 |
US10380259B2 (en) * | 2017-05-22 | 2019-08-13 | International Business Machines Corporation | Deep embedding for natural language content based on semantic dependencies |
US11080615B2 (en) * | 2017-06-15 | 2021-08-03 | International Business Machines Corporation | Generating chains of entity mentions |
US11875903B2 (en) * | 2018-12-31 | 2024-01-16 | Tempus Labs, Inc. | Method and process for predicting and analyzing patient cohort response, progression, and survival |
US11514091B2 (en) * | 2019-01-07 | 2022-11-29 | International Business Machines Corporation | Extracting entity relations from semi-structured information |
US11295080B2 (en) * | 2019-06-04 | 2022-04-05 | International Business Machines Corporation | Automatic detection of context switch triggers |
-
2020
- 2020-07-23 WO PCT/US2020/043255 patent/WO2021016447A1/en active Application Filing
- 2020-07-23 US US16/936,985 patent/US11728014B2/en active Active
- 2020-07-23 JP JP2022503903A patent/JP2022541588A/ja active Pending
- 2020-07-23 EP EP20754502.1A patent/EP4004933A1/en active Pending
-
2023
- 2023-06-29 US US18/344,117 patent/US20230368877A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
US20210027894A1 (en) | 2021-01-28 |
EP4004933A1 (en) | 2022-06-01 |
US11728014B2 (en) | 2023-08-15 |
US20230368877A1 (en) | 2023-11-16 |
WO2021016447A1 (en) | 2021-01-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7157758B2 (ja) | モデル支援コホート選択を行うシステム及び方法 | |
US11728014B2 (en) | Deep learning architecture for analyzing unstructured data | |
US20200303072A1 (en) | Method and system for supporting medical decision making | |
US11651252B2 (en) | Prognostic score based on health information | |
CN113015977A (zh) | 使用自然语言处理的对疾病和病症的基于深度学习的诊断和转诊 | |
JP2019049964A (ja) | 電子診療レコードからの医学的状態および事実の自動的特定および抽出 | |
US20160110502A1 (en) | Human and Machine Assisted Data Curation for Producing High Quality Data Sets from Medical Records | |
US20160098456A1 (en) | Implicit Durations Calculation and Similarity Comparison in Question Answering Systems | |
US11527312B2 (en) | Clinical report retrieval and/or comparison | |
US20210375488A1 (en) | System and methods for automatic medical knowledge curation | |
US20200387635A1 (en) | Anonymization of heterogenous clinical reports | |
JP7476181B2 (ja) | モデル支援型事象予測のためのシステム及び方法 | |
US11908586B2 (en) | Systems and methods for extracting dates associated with a patient condition | |
Moya-Carvajal et al. | ML models for severity classification and length-of-stay forecasting in emergency units | |
Sureshbhai Patel et al. | Develop a natural language processing pipeline to automate extraction of periodontal disease information from electronic dental clinical notes | |
Dong et al. | Optimizing Signal Management in a Vaccine Adverse Event Reporting System: A Proof-of-Concept with COVID-19 Vaccines Using Signs, Symptoms, and Natural Language Processing | |
Mishra et al. | Summarization of Unstructured Medical Data for Accurate Medical Prognosis—A Learning Approach | |
US11636933B2 (en) | Summarization of clinical documents with end points thereof | |
US20230017211A1 (en) | System and method for implementing a medical records analytics platform | |
US20220284999A1 (en) | Machine learning model for extracting diagnoses, treatments, and key dates | |
Scurti | Data-Driven Analysis to Improve Oncological Processes in Hospital | |
Berg | Fine-tuning and evaluating a Swedish language model for automatic discharge summary gener-ation from Swedish clinical notes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230721 |