本発明は、テキスト分析に関する。
電子カルテ(EHR:electronic health record)システムは現在、患者の記録を管理し、医療の品質を評価する分析の能力を高め、そして医療過誤により患者が苦しむのを低減するのを助けるよう、幅広く実装されている。臨床判断支援ツールは、EHRシステムにおいて収集されたデータの値を用いる本質的なコンポーネントである。そのようなツールは、医師が情報/データを使用して、患者固有の診断に到達するのを可能にし得る。自然言語のテキスト記述は、EHRデータの主なモダリティの1つであるが、ツールは、患者の記録から有益な情報を自動的かつロバストで正確に抽出するように更に開発されるべきである。
臨床的背景においてそのような方法を実装する際の大きな障壁は、機械/コンピュータが理解可能な臨床テキストの欠如である。これは、通常、臨床業務において作成されるテキスト報告の意味を、コンピュータ又は他の種類の機械によって抽出することができないことを意味する。退院予約や放射線報告、病理報告のような臨床報告は典型的に、より意味を意識した構造化されたデータフォーマット(semantics-aware structured data format)ではなく、自然言語の文書で記憶される。そのような構造化された意味的に豊富なデータフォーマットは、臨床判断支援(CDS:clinical decision support)ツールのような、より進化した支援ツールを実装するときに有益である。この障壁を超えるために、様々な自然言語処理(NLP:natural language processing)及び機械学習技術が、特にフリーテキストの概念及び関係を識別するために開発されている。しかしながら、このような分野の作業のほとんどは、診療記録に共通して見られる文法自由の特有のテキストとは重要な違いのある、科学的テキストデータを使用して行われている。NLPアプローチを使用して実際の臨床例の関連情報を抽出するというタスクは、非常に難しいことであることが分かっている。フリーテキストは、ここで、客観的理由及び主観的理由の双方から、臨床医にとって報告に好ましい方法のままであるが、コンピュータは、フリーテキストの意味を解釈するようになるとき、フリーテキストにあまり上手く対処していない。臨床ケアで収集されるデータの量が増えると、医療上のユーザがそのデータの意味を理解し、実際に関連する情報の部分をフィルタして抽出するのがより一層難しくなる。この状況において、データ内に隠された意味を含め、データをコンピュータに対して理解可能にすることは、非常に価値のあることとなる。例えば特定の臨床試験に適した患者を見つけるために、臨床試験の適格性は、患者の記録内のデータと確実に比較される必要がある。臨床ケアで収集されるデータを完全に構造化するというアプローチは、臨床分野において多くの抵抗にあっている。さらに、最近の研究は、そのような完全に構造化されるアプローチを、臨床ケア及び関連する報告の複雑性のために非現実的で非生産的なものとみなしている。
特許文献1は、フリーテキスト文書を、概念についての言語依存の項目と言語独立のフォーマルオントロジーとの双方を使用してインデックス化し、フリーテキスト文書の深遠な意味を抽出するためのシステム及び方法を開示している。言語オントロジーをフォーマルオントロジーの一部として提供することによって、自然言語を理解するシステムは、何がコンセプト間の適切な関係であるか及び何が適切な関係でないかを教示される。言語オントロジーは、言語がどのように機能するかに関するルール、並びに人間の意識レベルにおいて現実を表すときに人間の心が守ろうとする原理を含む。
特許文献2は、放射線情報を報告する方法を開示している。放射線画像研究報告の内容のグラフィカルな提示のためのシステム及び方法が提供される。また、複数の画像化研究及び単一の図内での対応する発見を含む、構造化された放射線報告の内容を提示するためのシステム及び方法が提供される。放射線認識のオントロジーを使用して、報告内容を解釈し、グラフィカルな図に表示されるべき情報を生成する。
米国特許第7,493,253号明細書
米国特許出願公開第2011/0033093号明細書
フリーテキストの分析を改善し、特にコンピュータにフリーテキストのより深い理解を提供することは有利であろう。
この問題により良く対処するため、本発明の第1の態様はテキスト分析システムを提供する。当該テキスト分析システムは、
ユーザが自然言語でフリーテキストを入力できるようにする自然言語入力部と、
前記テキストが入力されている間に、該テキストの少なくとも一部を処理して、フリーテキストが有する意味の明示的表現を取得する、自然言語処理部と、
前記ユーザが、前記意味の明示的表現に関する明示的情報を入力できるようにする明示的情報入力部と
を備える。
説明されるシステムは、ワークフローを報告する際に作成されるフリーテキストによって表される意味の明示的表現を生成する効果的な方法を提供する。明示的表現は、構造化された表現とすることができ、あるいは特に、機械読取可能又は機械理解可能な表現とすることができる。自然言語処理を実行することによって、フリーテキストがユーザによって入力されると、ユーザが、フリーテキストに加えて、意味の明示的表現に関連する明示的情報を提供することが可能になり、フリーテキストの作者がそのフリーテキストによって表すように意図した意味に関する有益な情報が収集される。そのような情報を少なくとも2つの方法で使用することができる。第1に、この特定のフリーテキストを記述する意味の明示的表現を改善し、テキストによって表される意味をより良く理解することであり、第2に、自然言語処理アルゴリズムを改善し、自然言語処理アルゴリズムのパラメータをより良く調整するか、自然言語処理アルゴリズムにおいて使用されるオントロジーを改善することである。システムは、追加のテキストがユーザによって入力されるといつでも、あるいはユーザが意味の明示的表現に関連する明示的情報を提供するときはいつでも、フリーテキストによって表される意味の明示的表現を連続的又は定期的に更新するように構成され得る。
システムは、ユーザがフリーテキストをまだ入力している間にユーザに提示すべき明示的表現の少なくとも一部を可視化するための可視化部(visualization unit)を備え得る。これは、ユーザが、生成された明示的表現をレビューし、必要に応じて修正又は追加を行うことができるようにする。ユーザは、文書をまだ作成している間に当該表現を提示されるので、ユーザは自身がフリーテキストによって何を表そうと意図しているか知っているため、ユーザが正確な修正を提供するのが容易になる。例えば可視化は、文のようなフリーテキストの新たな部分が入力されるといつでも更新されてよい。
本システムは、ユーザに、自然言語入力部と明示的情報入力部の双方への同時アクセスを提供するために構成されるユーザインタフェースを備え得る。これは、例えばグラフィカルユーザインタフェース要素を使用して、又は或るものが他のものの上に表示されるウィジットを使用して達成されることがあり、その結果、ユーザはクリックイベント又はタッチイベントを行うことによって自然言語入力部と明示的情報入力部のいずれか一方を選択することができる。したがって、ユーザは、自然言語入力部を使用して何らかのフリーテキストを入力し、次いで明示的情報入力部を使用して何らかの明示的情報を入力し、その後更なるフリーテキストを入力し続けることが可能になる。このようにして、ユーザは、フリーテキストと明示的情報との組み合わせを使用して所望の情報をシステムに伝達し、ユーザがフリーテキストを入力しているときに明示的情報に対する任意の修正を直接行うことができる。ユーザは、正確性を検証するためにデータの回顧的なレビューを行う必要がない。
入力部は、ユーザが意味の明示的表現を確認するか拒絶できるようにするために構成され得る。これは、システムが、拒絶に応答して代替的な明示的表現を生成することを可能にする。あるいは、システムは、確認/拒絶を収集し、これを上述のような自然言語処理システムに対する改善を行うための情報として使用してもよい。
入力部は、ユーザが意味の明示的表現におけるエラーの修正に関連する情報を入力できるようにするために構成され得る。この情報を使用してその表現を改善することができ、あるいはフリーテキストと対応する明示的意味構造とのグラウンドトゥルース(ground truth)のペアを収集することができる。
入力部は、ユーザが、ある概念の1つのインスタンス、又は概念の2つのインスタンスの間の意味的関係の追加、変更又は削除に関連する情報を提供することができるようにするために構成され得る。これらは、意味の明示的表現に含めるべき関連情報を包含する情報の部分の例である。
本システムは、テキストの一部分と、意味の明示的表現の対応する部分との間の関連付けを作成するための関連付け部を備え得る。ここで、意味の明示的表現の対応する部分は、テキストの上記一部分の意味を表す。これは、修正に対してチェックを実行するのを可能にし、明示的表現の一部が導出された場所を再構築することを可能にする。さらに、明示的表現の対応する部分に修正が行われるとき、フリーテキストのどの部分を自動的に処理することができないかをトレースすることが可能になる。この情報は、自然言語処理システムを改善するのを助ける。
関連付け部は、ユーザによって入力された明示的情報に基づいて関連付けを作成するために構成され得る。ユーザによる入力は、該入力が関係するフリーテキストの部分に対する手がかり(clue)を提供し得る。例えばユーザが明示的表現内のエラーに気づいて、これを修正するとき、その修正が、ちょうどタイプされたテキストの部分に関係するという手がかりが存在する。あるいは、システムは、ユーザがフリーテキストの一部を例えばハイライトすることによって明示的に指示し、修正若しくは明示的意味の特定の部分が、ハイライトされたフリーテキストの部分に対応することを指示することを可能にするように構成され得る。これは、フリーテキストと明示的情報との間の関係についてのより詳細なグラウンドトゥルースの情報を提供する。
本システムは、テキストによって表される意味の更新された明示的表現を、ユーザによって入力された明示的情報に基づいて生成するための更新部を備え得る。この更新部は、ユーザによって提供された入力を使用して、意味の改善かつ更新された明示的表現を生成する。
本システムは、フリーテキストと、ユーザによって入力された明示的情報、自然言語処理部によって生成された意味の明示的表現及びテキストによって表される意味の更新された明示的表現のうちの少なくとも2つとを格納する記憶部を備え得る。これは、各ケースについて、フリーテキストとともに修正をレビューするのを可能にする。自然言語処理システムがどのように改善され得るかに関する情報を提供する。
本システムは、ユーザによって入力された意味の明示的表現に関連する明示的情報に基づいて、ユーザに対する報酬(reward)の指示を生成するための報酬生成器を備え得る。これは、システムを使用するときのフィードバックを提供するユーザにインセンティブを提供する。例えば医師は、その報酬によって、報告を入力する通常の作業の間に、意味の明示的表現に対するフィードバックを提供するよう動機づけられる可能性がある。このようにして、自然言語処理システムを改善するときに、関心のある有益な情報が収集され得る。
本システムは、自然言語処理部によって使用される自然言語処理アルゴリズムを、ユーザによって入力される明示的情報に基づいて改善するためのアルゴリズム改善装置を備え得る。これは、自然言語処理に使用されるアルゴリズムを自動的に改善することが可能にし、その結果、将来必要とされる修正は少なくなり得る。
別の態様において、本発明は、説明されたシステムを備えるワークステーションを提供する。
別の態様において、本発明は、電子報告ワークフローを提供するためのヘルスケア情報システムを提供する。このヘルスケア情報システムは、説明されるシステムを備え得る。ヘルスケア情報システムは更に、フリーテキスト報告を格納するための電子カルテデータベースを備えることがある。ヘルスケア情報システム内におけるシステムのこの統合は、フィードバックの収集をヘルスケアワークフローの統合された部分として実装することを可能にする。このようにして、フィードバックの収集は、より効果的になる可能性があり、及び/又は収集されたフィードバックはより完全なものとなり得る。
別の態様において、本発明は、テキスト分析方法を提供する。このテキスト分析方法は、
ユーザが自然言語でフリーテキストを入力できるようにするステップと、
フリーテキストが入力されている間に、自然言語処理を使用して該フリーテキストの少なくとも一部を処理して、該フリーテキストによって表される意味の明示的表現を取得するステップと、
ユーザが前記意味の明示的表現に関する明示的情報を入力できるようにするステップと
を含む。
別の態様において、本発明は、説明される方法をプロセッサシステムに実行させる命令を備えた、コンピュータプログラム製品を提供する。
当業者には、本発明の上述の実施形態、実装及び/又は態様のうちの2つ又はそれ以上を、有益と思われる任意の方法で組み合わせてもよいことが認識されよう。
システムについて説明される変更及び変形に対応するワークステーション、ヘルスケア情報システム、テキスト分析システム、方法及び/又はコンピュータプログラム製品の変更及び変形が、当業者によって本説明に基づいて行われる可能性がある。
本発明のこれら及び他の態様は、図面を参照する後の説明から明らかになるか、後述される。
テキスト分析システムの態様を示すブロック図である。
テキスト分析方法の態様を示すフローチャートである。
テキスト分析システムの態様を示す別のブロック図である。
簡略化されたオントロジー及び意味グラフを示す図である。
図1は、テキスト分析システムのコンポーネントを概略的に示す図である。テキスト分析システムは、ワークステーションにおいて、又は例えばヘルスケア情報システムのような分散コンピューティング環境の一部として実装されてよい。このシステムは、専用の電子回路を使用して実装されてもよい。本システムは、ディスプレイ、タッチスクリーン、キーボード、ポインティングデバイスのような、ユーザがシステムを操作し、本明細書で説明されるユーザ入力を提供できるようにするためのユーザインタフェースハードウェアを備えてよい。音声認識ソフトウェア又はハードウェアとともに、マイクロフォンもシステムの一部としてもよい。本システムは、データベースシステムのようなデータストレージシステム、より具体的には、作成されたフリーテキスト文書及び/又はフリーテキスト文書の意味を表す明示的なフォーマットの構造化された文書のような文書を記憶する、医療記録データベースシステム若しくは病院情報システム又はファイルシステムを備えるか、これらに動作可能に結合されることがある。
システムは、放射線報告システムのようなドキュメント作成システムのプラグイン、又は電子カルテシステムのようなヘルスケア情報システムのプラグインとして実装されてもよい。このようにして、既存のシステムの報告機能は、オンザフライの自然言語処理を用いて拡張されて、フリーテキスト10報告の意味の明示的表現11と、作成されている報告の意味の明示的表現11に関連してユーザにより提供された明示的意味情報12のオンザフライの集合とを抽出し得る。
システムは、ユーザが自然言語のフリーテキスト10を入力できるようにするために構成される、自然言語入力部1を備え得る。この自然言語入力部1は、従来のテキストエディタ又はリアルタイムの音声認識を用いる口述システムを備えてもよい。しかしながら、自然言語入力部1は、任意のフリーテキストを受信するとすぐに自然言語処理部に転送するように構成される。
自然言語入力部1は、ヘルスケア情報システムへのソフトウェアインタフェースも備え得る。例えばシステムは、ヘルスケア情報システムのプラグインとすることができる。このプラグインは、ヘルスケア情報システムと通信することができる。ヘルスケア情報システムは、ヘルスケア情報システムの報告サブシステムを介して、ユーザによって入力された任意のフリーテキストを自然言語入力部1に定期的に供給するように構成され得る。そのような自然言語入力部1は、放射線ビューステーションに接続されてもよく、これにより、例えば画像を見るときに、テキスト入力ウィンドウが自動的にポップアップし、医師がその画像にコメントを提供することが可能になる。
システムは、フリーテキスト10が入力されている間に、該フリーテキスト10の少なくとも一部を処理するために構成される、自然言語処理部2を備え得る。したがって、処理は、不完全なテキスト情報を使用して、フリーテキストのこれまでに入力された部分に基づいて開始される。自然言語処理の結果、フリーテキストによって表される意味の明示的表現11が得られることがある。自然言語処理の技術それ自体は、当技術分野において公知である。したがって本明細書では詳細に説明しない。しかしながら、テンプレートマッチングや、オントロジーで定義される概念のインスタンスの識別のような技術、並びに概念のインスタンス間の関係を適用して、フリーテキストによって表されるような意味概念及びその関係のインスタンスのネットワークを構築することが可能である。この明示的な意味情報は、XMLフォーマットのようなコンピュータ読取可能フォーマットで表されてもよい。そのようなコンピュータ読取可能フォーマットは、リソース記述フレームワーク(RDF:Resource Description Framework)、リソース記述フレームワークスキーマ(RDFS:Resource Description Framework Schema)、ウェブオントロジー言語(OWL:Web Ontology Language)のような機械理解可能なフォーマットと整合性があり得る。
システムは、ユーザが意味の明示的表現11に関連する明示的情報12を入力できるようにするために構成される、明示的情報入力部3を備え得る。この明示的情報12は、フリーテキストによって表される明示的意味概念又は意味関係の指示を備えてもよい。そのような明示的情報入力部2は多くの異なる方法で実装され得る。例えばユーザが、上述のような意味情報を含むXMLコードの断片を入力できるようにすることができる。あるいは、明示的意味情報の入力を可能にする様々なグラフィカルユーザインタフェース要素を実装してもよい。例えば意図された可能性が最も高い概念及び/又は関係のリストを提示してもよく、ユーザはこのリストから選択を行うことが可能になる。これにより、システムは、ユーザにフリーテキストの可能な異なる解釈から選択を行わせることによって、フリーテキストにおける曖昧さを解決することが可能になる。他の可能性は後述する。
システムは、ユーザがまだフリーテキスト10を入力している間に、明示的表現11の少なくとも一部をユーザに対して可視化するための可視化部4を備え得る。そのような可視化は、明示的表現11の「生のバージョン」を表示する形態をとることができる。例えば生のバージョンがXMLを備える場合、XMLビューアを使用してよい。あるいは、グラフィカルな可視化表現が生成される。そのようなグラフィカルな可視化表現を様々な方法で作成することができる。例えばフリーテキストで使用される概念のインスタンスを、グラフのノードとして作成し、概念を識別する項目(term)を、ノードを表す記号で示すことができる。ノード間のエッジを使用して、概念のインスタンス間の関係を示すことができる。概念の2つの接続されるインスタンスの間の関係の種類の指示によってエッジに注釈をつけることができる。
システムは、ユーザに自然言語入力部1と明示的情報入力部1の双方に対する同時アクセスを提供するために構成される、ユーザインタフェース5を備え得る。例えば2つのウィンドウを、ディスプレイデバイス上に示すことができ、一方のウィンドウはフリーテキスト10の入力用、他方は明示的情報12の入力用とすることができる。フリーテキスト10を入力するためのウィンドウは、例えばテキストエディタを備え得る。明示的情報12を入力するためのウィンドウは、意味の明示的表現11の可視化表現を示し得る。ユーザは、明示的情報12を入力する方法として、後の可視化表現と対話して変更又は追加を行うことが可能にされる。例えばノード及びエッジを有するグラフを使用するグラフィカル表現を、そのエッジをドラッグアンドドロップし、及び/又はノード内に示される項目をより適切な項目と置き換えることができるように、対話的なものにすることができ、また他の種類の対話性が提供されてもよい。
明示的情報入力部3は、ユーザが意味の明示的表現11を確認又は拒絶することができるように構成され得る。これは、単一のラジオボタン又はチェックボタンを使用して実装され、ブール変数として明示的情報12として格納されてよい。
明示的情報入力部3は、ユーザが、意味の明示的表現11における修正に関連する情報を入力できるようにするために構成され得る。これは、上述のように、ドラッグ/ドロップ及び明示的表現11の可視化表現の他の対話性を使用して実装され得る。あるいは、システムは、オプションで音声認識技術を使用して、ユーザが修正をコマンドとして入力することができるようにする、コマンドプロンプトを提供してもよい。
明示的情報入力部3は、ユーザが、概念のインスタンス、又は概念の2つのインスタンスの間の意味関係のインスタンスの追加、変更又は削除に関する情報を提供できるようにするために構成され得る。この構成を、上述又は他の形により、ドラッグアンドドロップ機能を使用して又は別の方法で実装することができる。
システムは、フリーテキスト10の一部分と、意味の明示的表現11の対応する部分との間の関連付けを作成するための関連付け部6を備えることがある。関連付け部6は、自然言語処理部2に動作可能に接続されて、意味要素がフリーテキストのどの部分から抽出されるかに関する情報を受信する。意味の明示的表現11の対応する部分は、該対応する部分が関連付けられるフリーテキスト10の部分の意味を表すべきである。これらの関連付けを、例えば意味の明示的表現11を格納しているデータ構造内に格納することができる。これらの関連付けを、別個のデータ構造に格納することもできる。
関連付け部は、ユーザによって入力された明示的情報に(も)基づく関連付けを作成するためにも構成され得る。例えばユーザは、特定の意味構築が関係するテキストの一部の明示的指示を提供することが可能になる。
システムは、フリーテキスト10によって表される意味の更新された明示的表現11’を、ユーザによって入力された明示的情報12に基づいて生成するための更新部7を備え得る。これは、システムのオプションの特徴である。というのも、システムのあるアプリケーションは、システムに対する将来の改善を行うことができるように、明示的情報12をフィードバックとして収集すべきであるためである。更新部7は、特に明示的情報がユーザによって意味の明示的表現11、11’の編集として提供されるときに、明示的情報入力部と統合され得る。
システムは記憶部13を備え得る。このような記憶部は、明示的情報入力部3を介して、ユーザによって意味の明示的表現11、11’に対して行われた任意の編集をログにとるように構成され得る。このようにして、明示的情報12は将来の使用のために保存され得る。そのような将来の使用には、例えば機械学習を使用することによって自然言語処理を改善することが含まれ得る。あるいはまた、記憶部3は、自然言語処理部によって生成された意味の明示的表現11、及び/又はテキストによって表される意味の更新された明示的表現11’を格納するために構成されてもよい。明示的情報12と、明示的表現11と、更新された明示的表現11’とのうちの少なくとも2つにより、明示的表現11のどの態様が、ユーザによる修正を必要としたかを識別することが可能になる。これは、使用される自然言語処理アルゴリズムの弱点の識別及び改善を可能にする。フリーテキスト10を格納することは、特にユーザによって明示的表現11に対し修正がなされた場合に、明示的表現を、明示的表現11、11’及び/又は明示的情報12に対して一致させることも可能にする。
システムは、ユーザによって入力された意味の明示的表現11に関連する明示的情報12に基づいて、ユーザに対する報酬の指示を生成するために構成された報酬生成器8を備え得る。この報酬は、自動的に又は人間の制御者の介入によりユーザに与えられ得る。例えばユーザが、意味を改善するよう相当量の明示的情報12を提供したとき、金銭的報酬をそのユーザに与えることがある。これは、ユーザが関連するフィードバックを提供するように動機づけるのを助ける可能性がある。
システムは、自然言語処理部2によって使用される自然言語処理アルゴリズムを、ユーザによって入力された明示的情報12に基づいて改善するために構成されるアルゴリズム改善装置9を備え得る。これは機械学習アルゴリズムによって実行され得る。アルゴリズム改善装置9は、人間のオペレータが、機械学習アルゴリズムに実際に適用される改善を制御できるようにするためのユーザインタフェースを備え得る。この方法における改善を対象とし得る機械学習アルゴリズムの態様は、オントロジー、自然言語処理アルゴリズムのパラメータ又は自然言語処理アルゴリズムのアルゴリズムステップを含む。
図2は、テキスト分析方法の例示的な実装を示すフローチャートである。方法は、ユーザが自然言語でフリーテキストを入力できるようにするステップ201において開始する。ユーザがフリーテキストの一部を入力している間、方法は、フリーテキストが入力されている限りにおいて、例えば所定の自然言語処理アルゴリズムに従う自然言語処理技術を使用して、フリーテキストの少なくとも一部を処理するステップ202を実行する。この結果、フリーテキストが既に入力されている限りにおいて、そのフリーテキストによって生じる意味の明示的表現が得られる。ユーザがフリーテキストの一部を入力している間に、方法は、ユーザが、意味の明示的表現に関連する明示的情報を入力できるようにするステップ203を実行する。ユーザは例えば、そのような明示的情報を、フリーテキストの入力中の任意の時に提供することが可能になる。これらのステップを実行した後、ステップ204において、次の文書に対して処理を繰り返すべきかどうかを判断する。次の文書に対して処理を繰り返すべきである場合、方法は再びステップ201から開始して、フリーテキスト及び意味の対応する明示的表現により次の文書を作成する。
方法は、本明細書におけるシステムの機能の記述に基づいて拡張又は変更されることがある。同様に、システムも方法の記述に基づいて拡張又は変更されることがある。方法は、ソフトウェアを使用して、及び/又は専用のハードウェアを使用して実装され得る。
同音意義、多義性、同一指示、直接及び含意否定、一時性は、臨床報告においてしばしば見られる、NLPフレームワークにとって意図された意味に対処して抽出するのが難しいことで有名な言語的特徴である。自然言語の曖昧さに起因して、一部の場合においては、人間の専門家であっても、作者によって意図されるようなテキスト記述の元の意味を抽出できないことがある。
将来のインテリジェントな臨床判断支援システム(CDS)に、CDSが自動化された推論を実行できるようにするデータであって、構造化され、意味的に聞こえ、かつより良く説明されるデータを提供するために、今日のデータキャプチャを改善する必要がある可能性がある。既存のテキスト報告の回顧的分析及び隠された意味を推測しようとする試みは、効率的でない可能性がある。
理論上は、全てのデータキャプチャについて厳密な構造化された報告を課すこと、及びフリーテキストのフィールドを許可しないことは、はるかに構造化されたコンピュータ処理可能なデータを生成するであろうが、これが臨床医によって受け入れられると想定することは非現実的である。さらに、構造化された報告が、フリーテキストの報告の複雑性及び必要なるニュアンスの全てをキャプチャすることができると思うことも非現実的である。したがって、情報がコンピュータによってより容易に処理されるようになる一方で、必要な意味の一部が失われる可能性がある。使用の容易性及びフリーテキストの表現性は、臨床医が、この先長くにわたって報告システムにおいて最も要求し得るものである。当然、部分的に構造化される報告による解決策は、例えば乳がんに関するBI−RADS報告標準のように、幾つかの医療サブドメインで成功裏に使用されているが、報告を伴うフリーテキストを有することの必要性は依然として存在する。
フリーテキストから意味を抽出するよう試みる既存のNLPシステムの多くは、もしあっても非常に少ないが、抽出された意味が、作者によって実際に意図されたものであることの検証を提示する。そのような検証は、履歴データを扱う場合に難しいか又は不可能である。その理由としてはとりわけ、履歴データの作者がもはや利用可能でないことである。
上述の多くの困難性は、システム(又は人間の専門家)が、意図された意味の「第2の推測」を必要とするという事実から生じる。この説明において提供されるのは、データの作成者が、必要な場合に意図された意味に対するフィードバックをチェック又は提供できるようにシステムであり、これは全てデータ入力時にオンザフライで行われる。
この理由の1つは、作者は、自身が書いているテキストの意味を最もよく知っており、データ入力の時点でこの正しさを検証することにより、後の第2の推測を不必要にすることができることである。このアプローチは、例えばユーザの記述内においてユーザが選択する好ましい言い回しにより、システムがNLPパイプラインを学習して個人化することも可能にする。
フリーテキストの話の意味は、意味グラフによってキャプチャされ得る。
本明細書で開示される技術を使用して、ユーザのフィードバックを記録し、このフィードバックから学習して、自然言語処理システムをより個人化させ、臨床分野の特定のニュアンス及びユーザの「書込みスタイル」/言葉遣いに対して調整させることができる。
図3は、統合された文書作成及び処理システムの概略的なビューを図示する。このシステムは、報告システム301とテキスト処理システム302を備える。報告システム301は、既存のヘルスケア情報システムの一部としてよく、テキスト処理システム302は、既存の報告システム301のプラグイン又は拡張として実装され得る。あるいは、これらの2つのシステムは一体的なユニットとして実装される。報告システム301は、ユーザ304、例えば臨床医が、テキスト文書又は報告を作成できるようにする報告作成ツール303を備える。報告は、作成されているときに、オンザフライのテキスト入力311としてテキスト処理システム302の自然言語処理のプラグイン304に提供される。テキスト入力311はNLPパイプライン306に供給される。NLPパイプライン306は、ドメインオントロジー305と、例えば個人的な言い回しのパターンやグラウンドトゥルース等を備えるデータベース308とからの知識を使用して、テキスト入力311から意味関係のオンザフライの抽出を実行する。抽出された意味の明示的表現307は、対話的意味ビジュアライザ309(可視化部4に対応する)に供給される。対話的意味ビジュアライザ309は、抽出された意味をユーザに示す。ユーザフィードバックモジュール310(明示的情報入力部3に対応する)は、可視化された意味に対するフィードバックをユーザ304から収集するために構成される。
物語的フリーテキストがユーザによって作成されると、該フリーテキストから、その話において提示される概念の関連するセットを抽出し、これらの概念の間の関係性を構築し、そのインスタンスを識別することによって、意味グラフが構築される。インスタンス及び関係性について構築されたグラフは、対話的意味ビジュアライザ309によって、確認又は拒絶するようユーザに提示される。
スキーマレベルとインスタンスレベルの間で区別が行われる。概念抽出に対する公知のアプローチはスキーマレベルのみに焦点を当てるが、これは多くの臨床的応用に対して一般的すぎる状態のままである可能性がある。インスタンスレベルでは、概念のインスタンスが、フリーテキスト内で、並びに可能である場合はインスタンスに関連付けられるリテラル値で識別される。これらのアイテムは、その後レビューのためにユーザに提示される。
例えば患者の股関節骨折に関する報告を作成するとき、テキスト内で利用可能である場合、その骨折のラテラリティ及び骨折にあった日付を記述して抽出することが可能である。概念/スキー化のレベルのみが使用されるときには、このことは可能ではないであろう。
意味グラフにおいて患者のEHRレコードをキャプチャしようとすることは、有向のラベル付けされたグラフがしばしば、医療的な話において、結び付けられてクロスリンクされる、基礎をなす意味関係により良く適合するように、他の表現(例えばテーブル)と比べてより多くの柔軟性を提示する可能性がある。
例示的なケースを以下で説明する。この例は、臨床報告で頻繁に見られる代表的なケースであり得る。患者の病歴及び家族の病歴の概要の意味グラフが抽出され得る。病歴は、ケアの現在のエピソードについて情報を提供するので重要であり、診断と治療の双方に対して関連するコンテキストを与える。家族の病歴は、現在の患者の素因及びリスクの増大を示唆するので、遺伝的原因(例えばがん、心血管)を有する様々な病気に関連する可能性がある。家族の病歴は、診療と治療選択の双方にとって有益である可能性もある。
システムは、例えば相互に対話する以下のコンポーネントのうちの1つ又は複数によって実装されることがある。
プラグインコンポーネント304は、臨床医の報告ソフトウェアに接続することに関与し得る。そのようなプラグインのアプリケーションプログラミングインタフェース(API)は、簡単なテキスト抽出モジュールから、ルックアンドフィールを含め、報告システムとの完全なUIインテグレーションにまで及ぶ可能性がある。
プラグインコンポーネント304は、ユーザが見ることとなるユーザインタフェースコンポーネントを提供することがある。第1に、意味のビジュアライザである。これはドメイン固有であってよく、基礎となるNLPフレームワークが決定するよう焦点を当てる所与の臨床ドメイン内の最も重要なデータアイテムを変換する。例えば乳がんの場合、ビジュアライザは、そのサイズ等を示す、腫瘍が位置する場所のグラフィカルな実証(demonstration)として実装される可能性がある。第2に、フィードバックシステムはユーザに、可視化された抽出された意味に対するフィードバックを提供するように求めることがある。このコンポーネントは、NLPフレームネットワークがこれらを自動的に決定する際にエラーを生じた場合において、単にはい/いいえ(承認/未承認)というフィードバックオプションから、要求に対して構造化されたデータを入力するような、ユーザとコンピュータの対話を可能にするより洗練されたUIにまで及ぶ可能性がある。
基礎となるシステムは、所与の臨床ドメインを記述する認識コンポーネントも含み得る。これは、例えばSNOMEDから抽出されるオントロジーによって実装され、必要に応じてドメインエキスパートによって調整されることが可能である。そのようなオントロジーは、所与の臨床ドメインにおいて重要であるこれらの意味概念を含むべきであり、したがってNLPフレームワークは、それらの値を決定すること/バインディングすることに焦点を当てるべきである。
意味抽出を実行するよう、NLPパイプライン306のインスタンスが提供されることがある。自然言語から明示的な意味を抽出するNLPフレームワークを実装することができる。このフレームワークは、文の検出、トークナイザ、ステマ(stemmer)、否定検出等のようなコンポーネントを含んでもよい。
データベース308は、受信したユーザのフィードバックで満たされ得る。ユーザがフィードバックモジュールと対話するたびに、情報がデータベース内に格納され得る。これは、所与の言い回しにおける特定の値についてのユーザの確認を含んでもよい。やがて、この情報はユーザの言い回しの選択及びオントロジードメインに関して意図された意味を表し、これは、特定のユーザに対するNLP解決の真の個人化を可能にする。
フリーテキストからの抜粋の例は、次の通りである。以下では、例1と称する:「私は、この患者に対して、乳がんについての内科的腫瘍学の診察を行うように求められた。[名前]さんは、[年]歳の白人の女性で、過去の病歴に概要が示されているように、複数の医学的問題を抱えている。彼女はいくらか体重は減っているが、どの位かは知らない。過去の病歴:彼女は過去に大動脈瘤の治療を受けた。また、左の股関節の非病理性骨折も何年か前にあった。」
意味グラフについて可能なシンタックスのうちの1つとして、リソース記述フレームワーク(RDF)及び/又はリソース記述フレームワークスキーマ(RDFS)をW3Cコンソーシアムによって提供される標準として使用することが可能である。任意の既存のツール及び推論を使用して、そのシンタックスに忠実なグラフを処理することが可能である。
本明細書で提案されるNLPパイプラインの態様は、公知のクラス又は概念のインスタンス又は発生、並びにこれらの概念のインスタンス間の関係を導くことにある。公知のクラスは、SNOMEDのような既存のオントロジーから外され得る。これらのインスタンスは、可能なときはいつでも、例えば「股関節骨折が左側に存在する」というフレーズからリテラル値にリンクされ、「股関節骨折」という概念のインスタンスが「左側に」という場所の値に関連付けられ得る。
図4の上半分は、SNOMEDから抽出されたクラス401の階層の抜粋を示す。図4の下半分は、クラスのインスタンスの意味グラフ402、すなわち、上記の例1の文の意味の明示的表現を示す。
例1のテキストのようなテキストを処理するとき、例示的実施形態では、いくつかのフェーズが識別され得る。しかしながらこれらは単なる例である。他の実装も可能である。
フェーズ1:関心のセクションを識別する。施設ごとにカスタマイズすることができるルールのセットに基づいて、報告の関連する部分を選択する。この場合、特に病歴を参照するセクションの次に、システムはまた、現在の医療受診の病歴を構築するために関連する概念を含むように、現在の診察の記述を選択する。
フェーズ2:フリーテキストで参照された関連する概念及びこれらの概念のインスタンスを識別する。このステップはNLPによって実行され得る。文の構成要素及び単語のセグメント化、品詞のタグ付け、ステミング、否定検出及びその他等が使用され得る。NLPパイプラインは、オントロジーを使用して、関連する概念及びそのインスタンスを識別することがある。クラスのインスタンスは相互間での関係性、又はリテラル値を用いるプロパティを有することがある。例えば股関節骨折は、ラテラリティというプロパティを有し、例1の場合は左という値にバインドする。オントロジーからの関係性の次に、システムが検索する関係性の予め定義されたセットが存在し得る。
フェーズ3:患者の病歴について意味グラフを構築する。関連する概念及びその関係を識別した後、システムは、例えばRDF及び/又はRDFSシンタックスを使用して意味グラフを構築する。
システムは、フリーテキストにおける曖昧さを取り除くために構成され得る。この場合において、視覚的指示、音声信号又は別の指示によってユーザに警告してもよい。ユーザには、フリーテキストと整合性のある意味の明示的表現の1つ又は複数の提案が提示される可能性があり、ユーザは、選択を行うか及び/又はフリーテキストを精査(refine)して、フリーテキストの曖昧性をなくすことが可能になる。
本発明は、コンピュータプログラム、特に本発明を実施するように適合された担体上又は担体内のコンピュータプログラムにも適用することが認識されよう。プログラムは、部分的にコンパイルされた形式又は本発明に係る方法の実装において使用するのに適した任意の他の形式のような、ソースコード、オブジェクトコード、コード中間ソース及びオブジェクトコードの形とすることができる。そのようなプログラムは、多くの異なるアーキテクチャ設計を有していてよいことも認識されよう。例えば本発明に係る方法又はシステムの機能を実装するプログラムコードをサブ分割して、1つ又は複数のサブルーチンにしてもよい。これらのサブルーチンに機能を分散させる多くの異なる方法が当業者には明らかであろう。サブルーチンを1つの実行可能ファイルに一緒に格納して、自己完結型のプログラムを形成してもよい。そのような実行可能ファイルは、コンピュータ実行可能命令、例えばプロセッサ命令及び/又はインタプリタ命令(例えばJava(登録商標)インタプリタ命令)を備えてもよい。あるいは、そのようなサブルーチンの1つ若しくは複数又は全てを、少なくとも1つの外部ライブラリファイルに格納して、例えばランタイムにおいて静的に又は動的にメインプログラムにリンクしてよい。メインプログラムは、サブルーチンのうちの少なくとも1つに対する少なくとも1つのコールを含む。サブルーチンは互いに対するコールを備えてもよい。コンピュータプログラム製品に関連する実施形態は、本明細書で説明される方法の少なくとも1つの方法の各処理ステップに対応するコンピュータ実行可能命令を備える。これらの命令は、サブルーチンにサブ分割されるか、静的又は動的にリンクされ得る1つ又は複数のファイルに格納され得る。コンピュータプログラム製品に関連する別の実施形態は、本明細書で説明されるシステム及び/又は製品のうちの少なくとも1つの各手段に対応するコンピュータ実行可能命令を備える。これらの命令はサブルーチンにサブ分割されるか、及び/又は静的又は動的にリンクされ得る1つ又は複数のファイルに格納され得る。
コンピュータプログラムの担体は、プログラムを担持することができる任意のエンティティ又はデバイスとしてよい。例えば担体は、例えばCD ROM若しくは半導体ROMのようなROM、又は例えばフラッシュドライブ若しくはハードディスクのような磁気記憶媒体のような記憶媒体を含むことがある。さらに、担体は、電子又は光ケーブルを介して、又は無線若しくは他の手段によって伝達され得る、電子信号又は光信号のような伝送可能は担体であってもよい。プログラムがそのような信号において具現化されるとき、担体をそのようなケーブル又は他のデバイス若しくは手段によって構成してもよい。あるいは、担体は、プログラムが具現化される集積回路としてもよく、該集積回路は、関連する方法を実行するように構成されるか、関連する方法の性能に用いられる。
上記の実施形態は例示であって、本発明を限定するものではなく、当業者は、添付の特許請求の範囲から逸脱することなく、多くの代替的な実施形態を設定することが可能であろうことに留意すべきである。特許請求の範囲においては、括弧内に記載されるいずれの参照符号も請求項を限定するものとして解釈されるべきではない。「備える(comprise)」という動詞及びその活用形の使用は、請求項に記載されているもの以外の要素又はステップの存在を除外するものではない。要素の前の「ある(a、an)」という冠詞は、複数のそのような要素の存在を除外するものではない。本発明は、いくつかの別個の要素を備えるハードウェアによって及び適切にプログラムされたコンピュータによって実装され得る。幾つかの手段を列挙している装置の請求項において、これらの手段のいくつかを1つによって具現化しても、ハードウェアの同じアイテムによって具現化してもよい。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせを有利に使用することができないことを示すものではない。
本発明は、テキスト分析に関する。
電子カルテ(EHR:electronic health record)システムは現在、患者の記録を管理し、医療の品質を評価する分析の能力を高め、そして医療過誤により患者が苦しむのを低減するのを助けるよう、幅広く実装されている。臨床判断支援ツールは、EHRシステムにおいて収集されたデータの値を用いる本質的なコンポーネントである。そのようなツールは、医師が情報/データを使用して、患者固有の診断に到達するのを可能にし得る。自然言語のテキスト記述は、EHRデータの主なモダリティの1つであるが、ツールは、患者の記録から有益な情報を自動的かつロバストで正確に抽出するように更に開発されるべきである。
臨床的背景においてそのような方法を実装する際の大きな障壁は、機械/コンピュータが理解可能な臨床テキストの欠如である。これは、通常、臨床業務において作成されるテキスト報告の意味を、コンピュータ又は他の種類の機械によって抽出することができないことを意味する。退院予約や放射線報告、病理報告のような臨床報告は典型的に、より意味を意識した構造化されたデータフォーマット(semantics-aware structured data format)ではなく、自然言語の文書で記憶される。そのような構造化された意味的に豊富なデータフォーマットは、臨床判断支援(CDS:clinical decision support)ツールのような、より進化した支援ツールを実装するときに有益である。この障壁を超えるために、様々な自然言語処理(NLP:natural language processing)及び機械学習技術が、特にフリーテキストの概念及び関係を識別するために開発されている。しかしながら、このような分野の作業のほとんどは、診療記録に共通して見られる文法自由の特有のテキストとは重要な違いのある、科学的テキストデータを使用して行われている。NLPアプローチを使用して実際の臨床例の関連情報を抽出するというタスクは、非常に難しいことであることが分かっている。フリーテキストは、ここで、客観的理由及び主観的理由の双方から、臨床医にとって報告に好ましい方法のままであるが、コンピュータは、フリーテキストの意味を解釈するようになるとき、フリーテキストにあまり上手く対処していない。臨床ケアで収集されるデータの量が増えると、医療上のユーザがそのデータの意味を理解し、実際に関連する情報の部分をフィルタして抽出するのがより一層難しくなる。この状況において、データ内に隠された意味を含め、データをコンピュータに対して理解可能にすることは、非常に価値のあることとなる。例えば特定の臨床試験に適した患者を見つけるために、臨床試験の適格性は、患者の記録内のデータと確実に比較される必要がある。臨床ケアで収集されるデータを完全に構造化するというアプローチは、臨床分野において多くの抵抗にあっている。さらに、最近の研究は、そのような完全に構造化されるアプローチを、臨床ケア及び関連する報告の複雑性のために非現実的で非生産的なものとみなしている。
特許文献1は、フリーテキスト文書を、概念についての言語依存の項目と言語独立のフォーマルオントロジーとの双方を使用してインデックス化し、フリーテキスト文書の深遠な意味を抽出するためのシステム及び方法を開示している。言語オントロジーをフォーマルオントロジーの一部として提供することによって、自然言語を理解するシステムは、何がコンセプト間の適切な関係であるか及び何が適切な関係でないかを教示される。言語オントロジーは、言語がどのように機能するかに関するルール、並びに人間の意識レベルにおいて現実を表すときに人間の心が守ろうとする原理を含む。
特許文献2は、放射線情報を報告する方法を開示している。放射線画像研究報告の内容のグラフィカルな提示のためのシステム及び方法が提供される。また、複数の画像化研究及び単一の図内での対応する発見を含む、構造化された放射線報告の内容を提示するためのシステム及び方法が提供される。放射線認識のオントロジーを使用して、報告内容を解釈し、グラフィカルな図に表示されるべき情報を生成する。
特許文献3は、ユーザ入力された自然言語文字列を意味的に読取可能な構造の文書に変換する、リアルタイム意味注釈付けシステムを開示している。代替語を入力すべきユーザを定義しない可能性のある代替語推奨デバイスが提供され得る。これは、ポップアップウィンドウを示すことによって実行され得る。
特許文献4は、自然言語理解システムのトレーニングデータに自動的に注釈をつけるシステムについて論じている。言語理解アルゴリズムが、入力データの意味又は意図を示す出力経路を生成する入力データを渡すのに使用され得る。意味代替がドロップボックスに示され、ユーザによって選択され得る。訂正又は検証された注釈は保存されて、学習コンポーネントに提示される。
特許文献5は、医療データにおけるテキスト文字列の識別に関する。医療データが評価され、重要な命令が抽出され、その後、識別子をテキスト文字列に関連付けるのに渡される。識別子は出力される。
特許文献6は、正しい意味分析結果のユーザ許可選択が提示される意味分析に関する情報を提供する。
非特許文献1は、文書の意味注釈について言及している。注釈の提案は、注釈付け処理の効率及び正確性を向上させる。ユーザは、テキストの選択された部分についてアドバイスを求めることがある。そしてシステムは、可能な注釈だけ提案を提供する。
米国特許第7,493,253号明細書
米国特許出願公開第2011/0033093号明細書
欧州特許出願公開第2,182,447号明細書
欧州特許出願公開第1,361,522号明細書
米国特許出願公開第2006/0235881号明細書
米国特許出願公開第2003/0158723号明細書
Corcho O. et al., Workshop Prote´ge´ with Rules, 8th Intl. Prote´ge´ Conference,2005年7月18日
フリーテキストの分析を改善し、特にコンピュータにフリーテキストのより深い理解を提供することは有利であろう。
この問題により良く対処するため、本発明の第1の態様はテキスト分析システムを提供する。当該テキスト分析システムは、
ユーザが自然言語でフリーテキストを入力できるようにする自然言語入力部と、
前記テキストが入力されている間に、該テキストの少なくとも一部を処理して、フリーテキストが有する意味の明示的表現を取得する、自然言語処理部と、
前記ユーザが、前記意味の明示的表現に関する明示的情報を入力できるようにする明示的情報入力部と
を備える。
説明されるシステムは、ワークフローを報告する際に作成されるフリーテキストによって表される意味の明示的表現を生成する効果的な方法を提供する。明示的表現は、構造化された表現とすることができ、あるいは特に、機械読取可能又は機械理解可能な表現とすることができる。自然言語処理を実行することによって、フリーテキストがユーザによって入力されると、ユーザが、フリーテキストに加えて、意味の明示的表現に関連する明示的情報を提供することが可能になり、フリーテキストの作者がそのフリーテキストによって表すように意図した意味に関する有益な情報が収集される。そのような情報を少なくとも2つの方法で使用することができる。第1に、この特定のフリーテキストを記述する意味の明示的表現を改善し、テキストによって表される意味をより良く理解することであり、第2に、自然言語処理アルゴリズムを改善し、自然言語処理アルゴリズムのパラメータをより良く調整するか、自然言語処理アルゴリズムにおいて使用されるオントロジーを改善することである。システムは、追加のテキストがユーザによって入力されるといつでも、あるいはユーザが意味の明示的表現に関連する明示的情報を提供するときはいつでも、フリーテキストによって表される意味の明示的表現を連続的又は定期的に更新するように構成され得る。
システムは、ユーザがフリーテキストをまだ入力している間にユーザに提示すべき明示的表現の少なくとも一部を可視化するための可視化部(visualization unit)を備え得る。これは、ユーザが、生成された明示的表現をレビューし、必要に応じて修正又は追加を行うことができるようにする。ユーザは、文書をまだ作成している間に当該表現を提示されるので、ユーザは自身がフリーテキストによって何を表そうと意図しているか知っているため、ユーザが正確な修正を提供するのが容易になる。例えば可視化は、文のようなフリーテキストの新たな部分が入力されるといつでも更新されてよい。
本システムは、ユーザに、自然言語入力部と明示的情報入力部の双方への同時アクセスを提供するために構成されるユーザインタフェースを備える。これは、例えばグラフィカルユーザインタフェース要素を使用して、又は或るものが他のものの上に表示されるウィジットを使用して達成されることがあり、その結果、ユーザはクリックイベント又はタッチイベントを行うことによって自然言語入力部と明示的情報入力部のいずれか一方を選択することができる。したがって、ユーザは、自然言語入力部を使用して何らかのフリーテキストを入力し、次いで明示的情報入力部を使用して何らかの明示的情報を入力し、その後更なるフリーテキストを入力し続けることが可能になる。このようにして、ユーザは、フリーテキストと明示的情報との組み合わせを使用して所望の情報をシステムに伝達し、ユーザがフリーテキストを入力しているときに明示的情報に対する任意の修正を直接行うことができる。ユーザは、正確性を検証するためにデータの回顧的なレビューを行う必要がない。
入力部は、ユーザが意味の明示的表現を確認するか拒絶できるようにするために構成され得る。これは、システムが、拒絶に応答して代替的な明示的表現を生成することを可能にする。あるいは、システムは、確認/拒絶を収集し、これを上述のような自然言語処理システムに対する改善を行うための情報として使用してもよい。
入力部は、ユーザが意味の明示的表現におけるエラーの修正に関連する情報を入力できるようにするために構成され得る。この情報を使用してその表現を改善することができ、あるいはフリーテキストと対応する明示的意味構造とのグラウンドトゥルース(ground truth)のペアを収集することができる。
入力部は、ユーザが、ある概念の1つのインスタンス、又は概念の2つのインスタンスの間の意味的関係の追加、変更又は削除に関連する情報を提供することができるようにするために構成され得る。これらは、意味の明示的表現に含めるべき関連情報を包含する情報の部分の例である。
本システムは、テキストの一部分と、意味の明示的表現の対応する部分との間の関連付けを作成するための関連付け部を備え得る。ここで、意味の明示的表現の対応する部分は、テキストの上記一部分の意味を表す。これは、修正に対してチェックを実行するのを可能にし、明示的表現の一部が導出された場所を再構築することを可能にする。さらに、明示的表現の対応する部分に修正が行われるとき、フリーテキストのどの部分を自動的に処理することができないかをトレースすることが可能になる。この情報は、自然言語処理システムを改善するのを助ける。
関連付け部は、ユーザによって入力された明示的情報に基づいて関連付けを作成するために構成され得る。ユーザによる入力は、該入力が関係するフリーテキストの部分に対する手がかり(clue)を提供し得る。例えばユーザが明示的表現内のエラーに気づいて、これを修正するとき、その修正が、ちょうどタイプされたテキストの部分に関係するという手がかりが存在する。あるいは、システムは、ユーザがフリーテキストの一部を例えばハイライトすることによって明示的に指示し、修正若しくは明示的意味の特定の部分が、ハイライトされたフリーテキストの部分に対応することを指示することを可能にするように構成され得る。これは、フリーテキストと明示的情報との間の関係についてのより詳細なグラウンドトゥルースの情報を提供する。
本システムは、テキストによって表される意味の更新された明示的表現を、ユーザによって入力された明示的情報に基づいて生成するための更新部を備え得る。この更新部は、ユーザによって提供された入力を使用して、意味の改善かつ更新された明示的表現を生成する。
本システムは、フリーテキストと、ユーザによって入力された明示的情報、自然言語処理部によって生成された意味の明示的表現及びテキストによって表される意味の更新された明示的表現のうちの少なくとも2つとを格納する記憶部を備え得る。これは、各ケースについて、フリーテキストとともに修正をレビューするのを可能にする。自然言語処理システムがどのように改善され得るかに関する情報を提供する。
本システムは、ユーザによって入力された意味の明示的表現に関連する明示的情報に基づいて、ユーザに対する報酬(reward)の指示を生成するための報酬生成器を備え得る。これは、システムを使用するときのフィードバックを提供するユーザにインセンティブを提供する。例えば医師は、その報酬によって、報告を入力する通常の作業の間に、意味の明示的表現に対するフィードバックを提供するよう動機づけられる可能性がある。このようにして、自然言語処理システムを改善するときに、関心のある有益な情報が収集され得る。
本システムは、自然言語処理部によって使用される自然言語処理アルゴリズムを、ユーザによって入力される明示的情報に基づいて改善するためのアルゴリズム改善装置を備え得る。これは、自然言語処理に使用されるアルゴリズムを自動的に改善することが可能にし、その結果、将来必要とされる修正は少なくなり得る。
別の態様において、本発明は、説明されたシステムを備えるワークステーションを提供する。
別の態様において、本発明は、電子報告ワークフローを提供するためのヘルスケア情報システムを提供する。このヘルスケア情報システムは、説明されるシステムを備え得る。ヘルスケア情報システムは更に、フリーテキスト報告を格納するための電子カルテデータベースを備えることがある。ヘルスケア情報システム内におけるシステムのこの統合は、フィードバックの収集をヘルスケアワークフローの統合された部分として実装することを可能にする。このようにして、フィードバックの収集は、より効果的になる可能性があり、及び/又は収集されたフィードバックはより完全なものとなり得る。
別の態様において、本発明は、テキスト分析方法を提供する。このテキスト分析方法は、
ユーザが自然言語でフリーテキストを入力できるようにするステップと、
フリーテキストが入力されている間に、自然言語処理を使用して該フリーテキストの少なくとも一部を処理して、該フリーテキストによって表される意味の明示的表現を取得するステップと、
ユーザが前記意味の明示的表現に関する明示的情報を入力できるようにするステップと
を含む。ユーザには、自然言語入力部と明示的情報入力部との双方に対する同時アクセスが提供される。
別の態様において、本発明は、説明される方法をプロセッサシステムに実行させる命令を備えた、コンピュータプログラム製品を提供する。
当業者には、本発明の上述の実施形態、実装及び/又は態様のうちの2つ又はそれ以上を、有益と思われる任意の方法で組み合わせてもよいことが認識されよう。
システムについて説明される変更及び変形に対応するワークステーション、ヘルスケア情報システム、テキスト分析システム、方法及び/又はコンピュータプログラム製品の変更及び変形が、当業者によって本説明に基づいて行われる可能性がある。
本発明のこれら及び他の態様は、図面を参照する後の説明から明らかになるか、後述される。
テキスト分析システムの態様を示すブロック図である。
テキスト分析方法の態様を示すフローチャートである。
テキスト分析システムの態様を示す別のブロック図である。
簡略化されたオントロジー及び意味グラフを示す図である。
図1は、テキスト分析システムのコンポーネントを概略的に示す図である。テキスト分析システムは、ワークステーションにおいて、又は例えばヘルスケア情報システムのような分散コンピューティング環境の一部として実装されてよい。このシステムは、専用の電子回路を使用して実装されてもよい。本システムは、ディスプレイ、タッチスクリーン、キーボード、ポインティングデバイスのような、ユーザがシステムを操作し、本明細書で説明されるユーザ入力を提供できるようにするためのユーザインタフェースハードウェアを備えてよい。音声認識ソフトウェア又はハードウェアとともに、マイクロフォンもシステムの一部としてもよい。本システムは、データベースシステムのようなデータストレージシステム、より具体的には、作成されたフリーテキスト文書及び/又はフリーテキスト文書の意味を表す明示的なフォーマットの構造化された文書のような文書を記憶する、医療記録データベースシステム若しくは病院情報システム又はファイルシステムを備えるか、これらに動作可能に結合されることがある。
システムは、放射線報告システムのようなドキュメント作成システムのプラグイン、又は電子カルテシステムのようなヘルスケア情報システムのプラグインとして実装されてもよい。このようにして、既存のシステムの報告機能は、オンザフライの自然言語処理を用いて拡張されて、フリーテキスト10報告の意味の明示的表現11と、作成されている報告の意味の明示的表現11に関連してユーザにより提供された明示的意味情報12のオンザフライの集合とを抽出し得る。
システムは、ユーザが自然言語のフリーテキスト10を入力できるようにするために構成される、自然言語入力部1を備え得る。この自然言語入力部1は、従来のテキストエディタ又はリアルタイムの音声認識を用いる口述システムを備えてもよい。しかしながら、自然言語入力部1は、任意のフリーテキストを受信するとすぐに自然言語処理部に転送するように構成される。
自然言語入力部1は、ヘルスケア情報システムへのソフトウェアインタフェースも備え得る。例えばシステムは、ヘルスケア情報システムのプラグインとすることができる。このプラグインは、ヘルスケア情報システムと通信することができる。ヘルスケア情報システムは、ヘルスケア情報システムの報告サブシステムを介して、ユーザによって入力された任意のフリーテキストを自然言語入力部1に定期的に供給するように構成され得る。そのような自然言語入力部1は、放射線ビューステーションに接続されてもよく、これにより、例えば画像を見るときに、テキスト入力ウィンドウが自動的にポップアップし、医師がその画像にコメントを提供することが可能になる。
システムは、フリーテキスト10が入力されている間に、該フリーテキスト10の少なくとも一部を処理するために構成される、自然言語処理部2を備え得る。したがって、処理は、不完全なテキスト情報を使用して、フリーテキストのこれまでに入力された部分に基づいて開始される。自然言語処理の結果、フリーテキストによって表される意味の明示的表現11が得られることがある。自然言語処理の技術それ自体は、当技術分野において公知である。したがって本明細書では詳細に説明しない。しかしながら、テンプレートマッチングや、オントロジーで定義される概念のインスタンスの識別のような技術、並びに概念のインスタンス間の関係を適用して、フリーテキストによって表されるような意味概念及びその関係のインスタンスのネットワークを構築することが可能である。この明示的な意味情報は、XMLフォーマットのようなコンピュータ読取可能フォーマットで表されてもよい。そのようなコンピュータ読取可能フォーマットは、リソース記述フレームワーク(RDF:Resource Description Framework)、リソース記述フレームワークスキーマ(RDFS:Resource Description Framework Schema)、ウェブオントロジー言語(OWL:Web Ontology Language)のような機械理解可能なフォーマットと整合性があり得る。
システムは、ユーザが意味の明示的表現11に関連する明示的情報12を入力できるようにするために構成される、明示的情報入力部3を備え得る。この明示的情報12は、フリーテキストによって表される明示的意味概念又は意味関係の指示を備えてもよい。そのような明示的情報入力部2は多くの異なる方法で実装され得る。例えばユーザが、上述のような意味情報を含むXMLコードの断片を入力できるようにすることができる。あるいは、明示的意味情報の入力を可能にする様々なグラフィカルユーザインタフェース要素を実装してもよい。例えば意図された可能性が最も高い概念及び/又は関係のリストを提示してもよく、ユーザはこのリストから選択を行うことが可能になる。これにより、システムは、ユーザにフリーテキストの可能な異なる解釈から選択を行わせることによって、フリーテキストにおける曖昧さを解決することが可能になる。他の可能性は後述する。
システムは、ユーザがまだフリーテキスト10を入力している間に、明示的表現11の少なくとも一部をユーザに対して可視化するための可視化部4を備え得る。そのような可視化は、明示的表現11の「生のバージョン」を表示する形態をとることができる。例えば生のバージョンがXMLを備える場合、XMLビューアを使用してよい。あるいは、グラフィカルな可視化表現が生成される。そのようなグラフィカルな可視化表現を様々な方法で作成することができる。例えばフリーテキストで使用される概念のインスタンスを、グラフのノードとして作成し、概念を識別する項目(term)を、ノードを表す記号で示すことができる。ノード間のエッジを使用して、概念のインスタンス間の関係を示すことができる。概念の2つの接続されるインスタンスの間の関係の種類の指示によってエッジに注釈をつけることができる。
システムは、ユーザに自然言語入力部1と明示的情報入力部1の双方に対する同時アクセスを提供するために構成される、ユーザインタフェース5を備え得る。例えば2つのウィンドウを、ディスプレイデバイス上に示すことができ、一方のウィンドウはフリーテキスト10の入力用、他方は明示的情報12の入力用とすることができる。フリーテキスト10を入力するためのウィンドウは、例えばテキストエディタを備え得る。明示的情報12を入力するためのウィンドウは、意味の明示的表現11の可視化表現を示し得る。ユーザは、明示的情報12を入力する方法として、後の可視化表現と対話して変更又は追加を行うことが可能にされる。例えばノード及びエッジを有するグラフを使用するグラフィカル表現を、そのエッジをドラッグアンドドロップし、及び/又はノード内に示される項目をより適切な項目と置き換えることができるように、対話的なものにすることができ、また他の種類の対話性が提供されてもよい。
明示的情報入力部3は、ユーザが意味の明示的表現11を確認又は拒絶することができるように構成され得る。これは、単一のラジオボタン又はチェックボタンを使用して実装され、ブール変数として明示的情報12として格納されてよい。
明示的情報入力部3は、ユーザが、意味の明示的表現11における修正に関連する情報を入力できるようにするために構成され得る。これは、上述のように、ドラッグ/ドロップ及び明示的表現11の可視化表現の他の対話性を使用して実装され得る。あるいは、システムは、オプションで音声認識技術を使用して、ユーザが修正をコマンドとして入力することができるようにする、コマンドプロンプトを提供してもよい。
明示的情報入力部3は、ユーザが、概念のインスタンス、又は概念の2つのインスタンスの間の意味関係のインスタンスの追加、変更又は削除に関する情報を提供できるようにするために構成され得る。この構成を、上述又は他の形により、ドラッグアンドドロップ機能を使用して又は別の方法で実装することができる。
システムは、フリーテキスト10の一部分と、意味の明示的表現11の対応する部分との間の関連付けを作成するための関連付け部6を備えることがある。関連付け部6は、自然言語処理部2に動作可能に接続されて、意味要素がフリーテキストのどの部分から抽出されるかに関する情報を受信する。意味の明示的表現11の対応する部分は、該対応する部分が関連付けられるフリーテキスト10の部分の意味を表すべきである。これらの関連付けを、例えば意味の明示的表現11を格納しているデータ構造内に格納することができる。これらの関連付けを、別個のデータ構造に格納することもできる。
関連付け部は、ユーザによって入力された明示的情報に(も)基づく関連付けを作成するためにも構成され得る。例えばユーザは、特定の意味構築が関係するテキストの一部の明示的指示を提供することが可能になる。
システムは、フリーテキスト10によって表される意味の更新された明示的表現11’を、ユーザによって入力された明示的情報12に基づいて生成するための更新部7を備え得る。これは、システムのオプションの特徴である。というのも、システムのあるアプリケーションは、システムに対する将来の改善を行うことができるように、明示的情報12をフィードバックとして収集すべきであるためである。更新部7は、特に明示的情報がユーザによって意味の明示的表現11、11’の編集として提供されるときに、明示的情報入力部と統合され得る。
システムは記憶部13を備え得る。このような記憶部は、明示的情報入力部3を介して、ユーザによって意味の明示的表現11、11’に対して行われた任意の編集をログにとるように構成され得る。このようにして、明示的情報12は将来の使用のために保存され得る。そのような将来の使用には、例えば機械学習を使用することによって自然言語処理を改善することが含まれ得る。あるいはまた、記憶部3は、自然言語処理部によって生成された意味の明示的表現11、及び/又はテキストによって表される意味の更新された明示的表現11’を格納するために構成されてもよい。明示的情報12と、明示的表現11と、更新された明示的表現11’とのうちの少なくとも2つにより、明示的表現11のどの態様が、ユーザによる修正を必要としたかを識別することが可能になる。これは、使用される自然言語処理アルゴリズムの弱点の識別及び改善を可能にする。フリーテキスト10を格納することは、特にユーザによって明示的表現11に対し修正がなされた場合に、明示的表現を、明示的表現11、11’及び/又は明示的情報12に対して一致させることも可能にする。
システムは、ユーザによって入力された意味の明示的表現11に関連する明示的情報12に基づいて、ユーザに対する報酬の指示を生成するために構成された報酬生成器8を備え得る。この報酬は、自動的に又は人間の制御者の介入によりユーザに与えられ得る。例えばユーザが、意味を改善するよう相当量の明示的情報12を提供したとき、金銭的報酬をそのユーザに与えることがある。これは、ユーザが関連するフィードバックを提供するように動機づけるのを助ける可能性がある。
システムは、自然言語処理部2によって使用される自然言語処理アルゴリズムを、ユーザによって入力された明示的情報12に基づいて改善するために構成されるアルゴリズム改善装置9を備え得る。これは機械学習アルゴリズムによって実行され得る。アルゴリズム改善装置9は、人間のオペレータが、機械学習アルゴリズムに実際に適用される改善を制御できるようにするためのユーザインタフェースを備え得る。この方法における改善を対象とし得る機械学習アルゴリズムの態様は、オントロジー、自然言語処理アルゴリズムのパラメータ又は自然言語処理アルゴリズムのアルゴリズムステップを含む。
図2は、テキスト分析方法の例示的な実装を示すフローチャートである。方法は、ユーザが自然言語でフリーテキストを入力できるようにするステップ201において開始する。ユーザがフリーテキストの一部を入力している間、方法は、フリーテキストが入力されている限りにおいて、例えば所定の自然言語処理アルゴリズムに従う自然言語処理技術を使用して、フリーテキストの少なくとも一部を処理するステップ202を実行する。この結果、フリーテキストが既に入力されている限りにおいて、そのフリーテキストによって生じる意味の明示的表現が得られる。ユーザがフリーテキストの一部を入力している間に、方法は、ユーザが、意味の明示的表現に関連する明示的情報を入力できるようにするステップ203を実行する。ユーザは例えば、そのような明示的情報を、フリーテキストの入力中の任意の時に提供することが可能になる。これらのステップを実行した後、ステップ204において、次の文書に対して処理を繰り返すべきかどうかを判断する。次の文書に対して処理を繰り返すべきである場合、方法は再びステップ201から開始して、フリーテキスト及び意味の対応する明示的表現により次の文書を作成する。
方法は、本明細書におけるシステムの機能の記述に基づいて拡張又は変更されることがある。同様に、システムも方法の記述に基づいて拡張又は変更されることがある。方法は、ソフトウェアを使用して、及び/又は専用のハードウェアを使用して実装され得る。
同音意義、多義性、同一指示、直接及び含意否定、一時性は、臨床報告においてしばしば見られる、NLPフレームワークにとって意図された意味に対処して抽出するのが難しいことで有名な言語的特徴である。自然言語の曖昧さに起因して、一部の場合においては、人間の専門家であっても、作者によって意図されるようなテキスト記述の元の意味を抽出できないことがある。
将来のインテリジェントな臨床判断支援システム(CDS)に、CDSが自動化された推論を実行できるようにするデータであって、構造化され、意味的に聞こえ、かつより良く説明されるデータを提供するために、今日のデータキャプチャを改善する必要がある可能性がある。既存のテキスト報告の回顧的分析及び隠された意味を推測しようとする試みは、効率的でない可能性がある。
理論上は、全てのデータキャプチャについて厳密な構造化された報告を課すこと、及びフリーテキストのフィールドを許可しないことは、はるかに構造化されたコンピュータ処理可能なデータを生成するであろうが、これが臨床医によって受け入れられると想定することは非現実的である。さらに、構造化された報告が、フリーテキストの報告の複雑性及び必要なるニュアンスの全てをキャプチャすることができると思うことも非現実的である。したがって、情報がコンピュータによってより容易に処理されるようになる一方で、必要な意味の一部が失われる可能性がある。使用の容易性及びフリーテキストの表現性は、臨床医が、この先長くにわたって報告システムにおいて最も要求し得るものである。当然、部分的に構造化される報告による解決策は、例えば乳がんに関するBI−RADS報告標準のように、幾つかの医療サブドメインで成功裏に使用されているが、報告を伴うフリーテキストを有することの必要性は依然として存在する。
フリーテキストから意味を抽出するよう試みる既存のNLPシステムの多くは、もしあっても非常に少ないが、抽出された意味が、作者によって実際に意図されたものであることの検証を提示する。そのような検証は、履歴データを扱う場合に難しいか又は不可能である。その理由としてはとりわけ、履歴データの作者がもはや利用可能でないことである。
上述の多くの困難性は、システム(又は人間の専門家)が、意図された意味の「第2の推測」を必要とするという事実から生じる。この説明において提供されるのは、データの作成者が、必要な場合に意図された意味に対するフィードバックをチェック又は提供できるようにシステムであり、これは全てデータ入力時にオンザフライで行われる。
この理由の1つは、作者は、自身が書いているテキストの意味を最もよく知っており、データ入力の時点でこの正しさを検証することにより、後の第2の推測を不必要にすることができることである。このアプローチは、例えばユーザの記述内においてユーザが選択する好ましい言い回しにより、システムがNLPパイプラインを学習して個人化することも可能にする。
フリーテキストの話の意味は、意味グラフによってキャプチャされ得る。
本明細書で開示される技術を使用して、ユーザのフィードバックを記録し、このフィードバックから学習して、自然言語処理システムをより個人化させ、臨床分野の特定のニュアンス及びユーザの「書込みスタイル」/言葉遣いに対して調整させることができる。
図3は、統合された文書作成及び処理システムの概略的なビューを図示する。このシステムは、報告システム301とテキスト処理システム302を備える。報告システム301は、既存のヘルスケア情報システムの一部としてよく、テキスト処理システム302は、既存の報告システム301のプラグイン又は拡張として実装され得る。あるいは、これらの2つのシステムは一体的なユニットとして実装される。報告システム301は、ユーザ304、例えば臨床医が、テキスト文書又は報告を作成できるようにする報告作成ツール303を備える。報告は、作成されているときに、オンザフライのテキスト入力311としてテキスト処理システム302の自然言語処理のプラグイン304に提供される。テキスト入力311はNLPパイプライン306に供給される。NLPパイプライン306は、ドメインオントロジー305と、例えば個人的な言い回しのパターンやグラウンドトゥルース等を備えるデータベース308とからの知識を使用して、テキスト入力311から意味関係のオンザフライの抽出を実行する。抽出された意味の明示的表現307は、対話的意味ビジュアライザ309(可視化部4に対応する)に供給される。対話的意味ビジュアライザ309は、抽出された意味をユーザに示す。ユーザフィードバックモジュール310(明示的情報入力部3に対応する)は、可視化された意味に対するフィードバックをユーザ304から収集するために構成される。
物語的フリーテキストがユーザによって作成されると、該フリーテキストから、その話において提示される概念の関連するセットを抽出し、これらの概念の間の関係性を構築し、そのインスタンスを識別することによって、意味グラフが構築される。インスタンス及び関係性について構築されたグラフは、対話的意味ビジュアライザ309によって、確認又は拒絶するようユーザに提示される。
スキーマレベルとインスタンスレベルの間で区別が行われる。概念抽出に対する公知のアプローチはスキーマレベルのみに焦点を当てるが、これは多くの臨床的応用に対して一般的すぎる状態のままである可能性がある。インスタンスレベルでは、概念のインスタンスが、フリーテキスト内で、並びに可能である場合はインスタンスに関連付けられるリテラル値で識別される。これらのアイテムは、その後レビューのためにユーザに提示される。
例えば患者の股関節骨折に関する報告を作成するとき、テキスト内で利用可能である場合、その骨折のラテラリティ及び骨折にあった日付を記述して抽出することが可能である。概念/スキー化のレベルのみが使用されるときには、このことは可能ではないであろう。
意味グラフにおいて患者のEHRレコードをキャプチャしようとすることは、有向のラベル付けされたグラフがしばしば、医療的な話において、結び付けられてクロスリンクされる、基礎をなす意味関係により良く適合するように、他の表現(例えばテーブル)と比べてより多くの柔軟性を提示する可能性がある。
例示的なケースを以下で説明する。この例は、臨床報告で頻繁に見られる代表的なケースであり得る。患者の病歴及び家族の病歴の概要の意味グラフが抽出され得る。病歴は、ケアの現在のエピソードについて情報を提供するので重要であり、診断と治療の双方に対して関連するコンテキストを与える。家族の病歴は、現在の患者の素因及びリスクの増大を示唆するので、遺伝的原因(例えばがん、心血管)を有する様々な病気に関連する可能性がある。家族の病歴は、診療と治療選択の双方にとって有益である可能性もある。
システムは、例えば相互に対話する以下のコンポーネントのうちの1つ又は複数によって実装されることがある。
プラグインコンポーネント304は、臨床医の報告ソフトウェアに接続することに関与し得る。そのようなプラグインのアプリケーションプログラミングインタフェース(API)は、簡単なテキスト抽出モジュールから、ルックアンドフィールを含め、報告システムとの完全なUIインテグレーションにまで及ぶ可能性がある。
プラグインコンポーネント304は、ユーザが見ることとなるユーザインタフェースコンポーネントを提供することがある。第1に、意味のビジュアライザである。これはドメイン固有であってよく、基礎となるNLPフレームワークが決定するよう焦点を当てる所与の臨床ドメイン内の最も重要なデータアイテムを変換する。例えば乳がんの場合、ビジュアライザは、そのサイズ等を示す、腫瘍が位置する場所のグラフィカルな実証(demonstration)として実装される可能性がある。第2に、フィードバックシステムはユーザに、可視化された抽出された意味に対するフィードバックを提供するように求めることがある。このコンポーネントは、NLPフレームネットワークがこれらを自動的に決定する際にエラーを生じた場合において、単にはい/いいえ(承認/未承認)というフィードバックオプションから、要求に対して構造化されたデータを入力するような、ユーザとコンピュータの対話を可能にするより洗練されたUIにまで及ぶ可能性がある。
基礎となるシステムは、所与の臨床ドメインを記述する認識コンポーネントも含み得る。これは、例えばSNOMEDから抽出されるオントロジーによって実装され、必要に応じてドメインエキスパートによって調整されることが可能である。そのようなオントロジーは、所与の臨床ドメインにおいて重要であるこれらの意味概念を含むべきであり、したがってNLPフレームワークは、それらの値を決定すること/バインディングすることに焦点を当てるべきである。
意味抽出を実行するよう、NLPパイプライン306のインスタンスが提供されることがある。自然言語から明示的な意味を抽出するNLPフレームワークを実装することができる。このフレームワークは、文の検出、トークナイザ、ステマ(stemmer)、否定検出等のようなコンポーネントを含んでもよい。
データベース308は、受信したユーザのフィードバックで満たされ得る。ユーザがフィードバックモジュールと対話するたびに、情報がデータベース内に格納され得る。これは、所与の言い回しにおける特定の値についてのユーザの確認を含んでもよい。やがて、この情報はユーザの言い回しの選択及びオントロジードメインに関して意図された意味を表し、これは、特定のユーザに対するNLP解決の真の個人化を可能にする。
フリーテキストからの抜粋の例は、次の通りである。以下では、例1と称する:「私は、この患者に対して、乳がんについての内科的腫瘍学の診察を行うように求められた。[名前]さんは、[年]歳の白人の女性で、過去の病歴に概要が示されているように、複数の医学的問題を抱えている。彼女はいくらか体重は減っているが、どの位かは知らない。過去の病歴:彼女は過去に大動脈瘤の治療を受けた。また、左の股関節の非病理性骨折も何年か前にあった。」
意味グラフについて可能なシンタックスのうちの1つとして、リソース記述フレームワーク(RDF)及び/又はリソース記述フレームワークスキーマ(RDFS)をW3Cコンソーシアムによって提供される標準として使用することが可能である。任意の既存のツール及び推論を使用して、そのシンタックスに忠実なグラフを処理することが可能である。
本明細書で提案されるNLPパイプラインの態様は、公知のクラス又は概念のインスタンス又は発生、並びにこれらの概念のインスタンス間の関係を導くことにある。公知のクラスは、SNOMEDのような既存のオントロジーから外され得る。これらのインスタンスは、可能なときはいつでも、例えば「股関節骨折が左側に存在する」というフレーズからリテラル値にリンクされ、「股関節骨折」という概念のインスタンスが「左側に」という場所の値に関連付けられ得る。
図4の上半分は、SNOMEDから抽出されたクラス401の階層の抜粋を示す。図4の下半分は、クラスのインスタンスの意味グラフ402、すなわち、上記の例1の文の意味の明示的表現を示す。
例1のテキストのようなテキストを処理するとき、例示的実施形態では、いくつかのフェーズが識別され得る。しかしながらこれらは単なる例である。他の実装も可能である。
フェーズ1:関心のセクションを識別する。施設ごとにカスタマイズすることができるルールのセットに基づいて、報告の関連する部分を選択する。この場合、特に病歴を参照するセクションの次に、システムはまた、現在の医療受診の病歴を構築するために関連する概念を含むように、現在の診察の記述を選択する。
フェーズ2:フリーテキストで参照された関連する概念及びこれらの概念のインスタンスを識別する。このステップはNLPによって実行され得る。文の構成要素及び単語のセグメント化、品詞のタグ付け、ステミング、否定検出及びその他等が使用され得る。NLPパイプラインは、オントロジーを使用して、関連する概念及びそのインスタンスを識別することがある。クラスのインスタンスは相互間での関係性、又はリテラル値を用いるプロパティを有することがある。例えば股関節骨折は、ラテラリティというプロパティを有し、例1の場合は左という値にバインドする。オントロジーからの関係性の次に、システムが検索する関係性の予め定義されたセットが存在し得る。
フェーズ3:患者の病歴について意味グラフを構築する。関連する概念及びその関係を識別した後、システムは、例えばRDF及び/又はRDFSシンタックスを使用して意味グラフを構築する。
システムは、フリーテキストにおける曖昧さを取り除くために構成され得る。この場合において、視覚的指示、音声信号又は別の指示によってユーザに警告してもよい。ユーザには、フリーテキストと整合性のある意味の明示的表現の1つ又は複数の提案が提示される可能性があり、ユーザは、選択を行うか及び/又はフリーテキストを精査(refine)して、フリーテキストの曖昧性をなくすことが可能になる。
本発明は、コンピュータプログラム、特に本発明を実施するように適合された担体上又は担体内のコンピュータプログラムにも適用することが認識されよう。プログラムは、部分的にコンパイルされた形式又は本発明に係る方法の実装において使用するのに適した任意の他の形式のような、ソースコード、オブジェクトコード、コード中間ソース及びオブジェクトコードの形とすることができる。そのようなプログラムは、多くの異なるアーキテクチャ設計を有していてよいことも認識されよう。例えば本発明に係る方法又はシステムの機能を実装するプログラムコードをサブ分割して、1つ又は複数のサブルーチンにしてもよい。これらのサブルーチンに機能を分散させる多くの異なる方法が当業者には明らかであろう。サブルーチンを1つの実行可能ファイルに一緒に格納して、自己完結型のプログラムを形成してもよい。そのような実行可能ファイルは、コンピュータ実行可能命令、例えばプロセッサ命令及び/又はインタプリタ命令(例えばJava(登録商標)インタプリタ命令)を備えてもよい。あるいは、そのようなサブルーチンの1つ若しくは複数又は全てを、少なくとも1つの外部ライブラリファイルに格納して、例えばランタイムにおいて静的に又は動的にメインプログラムにリンクしてよい。メインプログラムは、サブルーチンのうちの少なくとも1つに対する少なくとも1つのコールを含む。サブルーチンは互いに対するコールを備えてもよい。コンピュータプログラム製品に関連する実施形態は、本明細書で説明される方法の少なくとも1つの方法の各処理ステップに対応するコンピュータ実行可能命令を備える。これらの命令は、サブルーチンにサブ分割されるか、静的又は動的にリンクされ得る1つ又は複数のファイルに格納され得る。コンピュータプログラム製品に関連する別の実施形態は、本明細書で説明されるシステム及び/又は製品のうちの少なくとも1つの各手段に対応するコンピュータ実行可能命令を備える。これらの命令はサブルーチンにサブ分割されるか、及び/又は静的又は動的にリンクされ得る1つ又は複数のファイルに格納され得る。
コンピュータプログラムの担体は、プログラムを担持することができる任意のエンティティ又はデバイスとしてよい。例えば担体は、例えばCD ROM若しくは半導体ROMのようなROM、又は例えばフラッシュドライブ若しくはハードディスクのような磁気記憶媒体のような記憶媒体を含むことがある。さらに、担体は、電子又は光ケーブルを介して、又は無線若しくは他の手段によって伝達され得る、電子信号又は光信号のような伝送可能は担体であってもよい。プログラムがそのような信号において具現化されるとき、担体をそのようなケーブル又は他のデバイス若しくは手段によって構成してもよい。あるいは、担体は、プログラムが具現化される集積回路としてもよく、該集積回路は、関連する方法を実行するように構成されるか、関連する方法の性能に用いられる。
上記の実施形態は例示であって、本発明を限定するものではなく、当業者は、添付の特許請求の範囲から逸脱することなく、多くの代替的な実施形態を設定することが可能であろうことに留意すべきである。特許請求の範囲においては、括弧内に記載されるいずれの参照符号も請求項を限定するものとして解釈されるべきではない。「備える(comprise)」という動詞及びその活用形の使用は、請求項に記載されているもの以外の要素又はステップの存在を除外するものではない。要素の前の「ある(a、an)」という冠詞は、複数のそのような要素の存在を除外するものではない。本発明は、いくつかの別個の要素を備えるハードウェアによって及び適切にプログラムされたコンピュータによって実装され得る。幾つかの手段を列挙している装置の請求項において、これらの手段のいくつかを1つによって具現化しても、ハードウェアの同じアイテムによって具現化してもよい。特定の手段が相互に異なる従属請求項に記載されているという単なる事実は、これらの手段の組み合わせを有利に使用することができないことを示すものではない。