JP2024012659A

JP2024012659A - 自然言語処理を使用する病理報告内の自動化された情報の抽出及び改良

Info

Publication number: JP2024012659A
Application number: JP2023197189A
Authority: JP
Inventors: シャルマ，ビシャカ; Sharma Vishakha; パンディット，ヨゲシュ; Pandit Yogesh; バラスブラマニアン，ラム; Balasubramanian Ram
Original assignee: F Hoffmann La Roche AG
Current assignee: F Hoffmann La Roche AG
Priority date: 2019-09-06
Filing date: 2023-11-21
Publication date: 2024-01-30
Also published as: JP2022546593A; JP7392120B2; US12170133B2; US20220301670A1; EP4026047A1; WO2021046536A1; CN114341838A

Abstract

【課題】病理報告内の自動化された情報の抽出及び改良のための技法を提供する。【解決手段】一例では、コンピュータシステムによって実行される方法は、病理報告を含む画像ファイルを受信することと、入力テキスト文字列を抽出するために画像ファイルに対して画像認識動作を実行することと、自然言語処理（ＮＬＰ）モデルを使用して、入力テキスト文字列からエンティティを検出することであって、各エンティティがラベル及び値を含む、検出することと、ＮＬＰモデルを使用して、入力テキスト文字列からエンティティの値を抽出することと、エンティティ及び値を所定の用語にマッピングするマッピングテーブルに基づいて、少なくともいくつかのエンティティの値を対応する所定の用語に変換することと、入力テキスト文字列から検出されたエンティティ及び対応する所定の用語を含む、後処理された病理報告を生成することとを含む。【選択図】図３

Description

関連出願の相互参照
[0001]本出願は、その内容がすべての目的のために全体として参照により本明細書に組み込まれる、２０１９年９月６日に出願された米国仮特許出願第６２／８９７，２５２号に対する優先権の利益を主張する。

[0002]毎日、全世界で病院は膨大な量の臨床データを作成している。臨床医及び臨床スタッフなどの医療従事者は、患者を看護するために臨床データを分析する必要がある。このデータの分析は、医療提供及び看護の質における詳細な洞察を提供すること、並びに医療を改善する基礎を提供することにおいても重要である。

[0003]残念なことに、大部分の臨床データは、ほとんどのデータが紙の形態又は走査画像の形態のいずれかであるため、アクセスし分析することが困難である。データは、たとえば、構造化データモデルに関連付けられておらず、データのコンテキスト及び／又は意味を定義するように事前定義された方式で整理されてもいない、病理報告又は任意の他のデータを含む場合がある。データの物理的な形態、並びにデータが構造化されていないという事実のために、臨床医及び臨床スタッフは、通常、患者の病理報告を読み通して、診断歴、治療歴などの重要な臨床データを取得することに多大な時間を費やす必要があり、多数の患者の病理報告を読むために時間が積み重なる。その上、手作業による抽出はまた、骨が折れ、遅く、コストがかかり、間違いの元になる。病理報告から臨床データを手作業で処理及び抽出することは、医療従事者に大きな負担を課し、患者を看護する際の医療従事者の能力に影響を及ぼす可能性がある。医療提供及び看護の質における詳細な洞察を提供するための病理報告の大量の手動処理はまた、経費及び時間の制限に起因して実現可能ではない。

病理報告内の自動化された情報の抽出及び改良のための技法を提供する。

[0004]病理報告内の自動化された情報の抽出及び改良のための技法が本明細書に開示される。病理報告は、たとえば、ＥＭＲ（電子医療記録）データベース、ＰＡＣＳ（画像保管通信システム）、デジタル病理学（ＤＰ）システム、ゲノムデータを含むＬＩＳ（実験室情報システム）、ＲＩＳ（放射線医学情報システム）、患者報告結果データベース、ウェアラブル及び／又はデジタル技術、並びにソーシャルメディアを含む、（たとえば、１つ又は複数の医療施設にある）様々な一次情報源からの電子報告を含むことができる。病理報告はまた、紙の形態であり、臨床医／臨床スタッフに由来することができる。病理報告は、紙の形態の病理報告を走査することによって取得される画像ファイル（たとえば、ポータブルドキュメントフォーマット（ｐｄｆ）、ビットマップ画像ファイル（ＢＭＰファイル））の形態であり得る。

[0005]いくつかの例では、病理報告の画像から病理エンティティ（ｅｎｔｉｔｉｅｓ）を抽出するためにワークフローが提供される。ワークフローは、病理報告の画像ファイルからテキスト文字列（ｔｅｘｔｓｔｒｉｎｇｓ）を抽出することで始まることができる。画像ファイルからのテキスト文字列の抽出は、光学式文字認識（ＯＣＲ）、光学式単語認識などの、画像から文字及び／又はテキスト文字列を認識する画像認識プロセスに基づくことができる。ワークフローは、自然言語プロセッサ（ＮＬＰ）を使用して、入力テキスト文字列からエンティティを認識することであって、各エンティティがラベル及び値を含む、認識することと、テキスト文字列からエンティティの値を特定することとをさらに含むことができる。エンティティは、一般に、医療診断、医療処置、投薬、患者の体内の特定の位置／臓器などの、事前定義された医学的なカテゴリ及び分類を指すことができる。各エンティティは、カテゴリ／分類を示すラベル、及びカテゴライズ／分類されたデータに対応する値を有することができる。いくつかの例では、ワークフローは、国際医療用語集（ＳＮＯＭＥＤ）規格の基で定義された臨床的な用語及びコードなどの標準用語に、少なくともいくつかのエンティティの値をマッピングすることをさらに含む。ワークフローは、次いで、マッピングに基づいて、エンティティのラベルをエンティティの値又は標準化された用語のうちの少なくとも１つと関連付ける構造化医療データを生成することができる。

[0006]構造化医療データ（ｓｔｒｕｃｔｕｒｅｄｍｅｄｉｃａｌｄａｔａ）は、様々なアプリケーションに提供され得る。たとえば、構造化医療データは検索可能なデータベースに記憶され得、検索クエリに基づいてエンティティ及び（標準化されているかされていない）それらの値がそこから取り出され得る。検索可能なデータベース並びに構造化医療データはまた、処理するために、臨床判断支援アプリケーション、分析アプリケーションなどの様々なアプリケーションに対して利用可能にされ得る。たとえば、臨床判断支援アプリケーションは、臨床判断を支援するために、臨床判断に関係するエンティティ（たとえば、診断歴、処置歴、薬歴）及びそれらの値をデータベースから取り出し、エンティティを処理して出力を生成することができる。分析アプリケーションは、たとえば、多数の患者の病理報告から治療歴及び診断に関係するエンティティを取得し、分析を実行して医療提供及び看護の質における洞察を取得することができる。他の例では、構造化医療データを表示し、かつ／又は抽出されたエンティティ情報が画像に重ね合わされた病理報告の画像を表示するために、臨床ポータルアプリケーションが提供され得る。

[0007]ＮＬＰモデルは、エンティティ及び値を含むテキスト文字列のシーケンス（ｓｅｑｕｅｎｃｅｓ）を識別し、識別に基づいてエンティティ及び値を抽出するように訓練され得る。ＮＬＰは、２ステッププロセスで訓練され得る。第１のステップとして、ＮＬＰモデルは、ベースラインＮＬＰサブモデルを構築するために、共通医療用語を含む文書に基づいて訓練され得る。第２のステップとして、ベースラインＮＬＰサブモデルは、次いで、特定の病理用語を含むようにモデルを拡張するために、病理報告からのテキスト文字列を使用して訓練され得る。訓練動作の第２のステップは、ＣｏＮＬＬ（自然言語学習に関する会議）ファイルを使用して実行され得る。

[0008]加えて、様々な技法は、ＮＬＰの抽出精度を向上させるために、画像認識動作（ｉｍａｇｅｒｅｃｏｇｎｉｔｉｏｎｏｐｅｒａｔｉｏｎ）の様々なパラメータを決定することができる。いくつかの例では、パラメータの値の異なる組合せを取得するために、パラメータ掃引動作が実行され得る。次いで、画像認識動作は繰り返し実行され得、各繰り返しはパラメータの値の組合せに基づいて実行される。次いで、繰り返しごとのテキスト認識精度が測定され得、ワークフローのための画像認識動作を構成するために、最も高いテキスト認識精度につながるパラメータの値の特定の組合せが使用され得る。別の例として、画像認識動作のパラメータの決定は、ＮＬＰの出力に基づくことができる。具体的には、画像認識動作は、パラメータ値の第１のセットに基づいて事前構成され得る。事前構成された画像認識動作は、テキスト文字列を抽出するために病理報告の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにＮＬＰに入力され得る。次いで、画像認識動作のパラメータは、ＮＬＰによる抽出精度に基づいて調整され得る。

[0009]本発明の上記及び他の実施形態は、以下で詳細に記載される。たとえば、他の実施形態は、本明細書に記載された方法に関連付けられたシステム、デバイス、及びコンピュータ可読媒体に関する。

[0010]本発明の実施形態の本質及び利点のより良い理解は、以下の発明を実施するための形態及び添付図面を参照して得られてもよい。
[0011]発明を実施するための形態は、添付図面を参照して記載される。

[0012]従来の病理報告の一例を示す図である。 [0013]本開示の例によって実施され得る従来の病理報告の後処理の例を示す図である。本開示の例によって実施され得る従来の病理報告の後処理の例を示す図である。 [0014]病理報告の自動化された情報の抽出及び改良を実行するシステムの一例を示す図である。 [0015]図３のシステムの例示的な内部構成要素及びそれらの動作を示す図である。図３のシステムの例示的な内部構成要素及びそれらの動作を示す図である。図３のシステムの例示的な内部構成要素及びそれらの動作を示す図である。図３のシステムの例示的な内部構成要素及びそれらの動作を示す図である。図３のシステムの例示的な内部構成要素及びそれらの動作を示す図である。 [0016]図３のシステムの自然言語処理モデルの訓練動作の例を示す図である。図３のシステムの自然言語処理モデルの訓練動作の例を示す図である。図３のシステムの自然言語処理モデルの訓練動作の例を示す図である。図３のシステムの自然言語処理モデルの訓練動作の例を示す図である。図３のシステムの自然言語処理モデルの訓練動作の例を示す図である。 [0017]図３のシステム内の画像認識動作のパラメータを決定する例示的な動作を示す図である。 [0018]図３のシステムの出力によって支援される例示的なアプリケーションを示す図である。 [0019]病理報告の自動化された情報の抽出及び改良を実行する方法を示す図である。 [0020]本明細書に開示された技法を実施するために利用され得る例示的なコンピュータシステムを示す図である。

[0021]病理報告内の自動化された情報の抽出及び改良のための技法が本明細書に開示される。病理報告は、たとえば、ＥＭＲ（電子医療記録）データベース、ＰＡＣＳ（画像保管通信システム）、デジタル病理学（ＤＰ）システム、ゲノムデータを含むＬＩＳ（実験室情報システム）、ＲＩＳ（放射線医学情報システム）、患者報告結果データベース、ウェアラブル及び／又はデジタル技術、並びにソーシャルメディアを含む、（たとえば、１つ又は複数の医療施設にある）様々な一次情報源からの電子報告に由来することができる。病理報告はまた、紙の形態であり、臨床医／臨床スタッフに由来することができる。病理報告は、紙の形態の病理報告を走査することによって取得される画像ファイル（たとえば、ポータブルドキュメントフォーマット（ｐｄｆ）、ビットマップ画像ファイル（ＢＭＰファイル））の形態であり得る。

[0022]いくつかの実施形態では、病理報告の画像から病理エンティティを抽出するためにワークフローが提供される。ワークフローは、病理報告の画像ファイルからテキスト文字列を抽出することで始まることができる。画像ファイルからのテキスト文字列の抽出は、光学式文字認識（ＯＣＲ）、光学式単語認識などの、画像から文字及び／又はテキスト文字列を認識する画像認識プロセスに基づくことができる。ワークフローは、自然言語プロセッサ（ＮＬＰ）を使用して、テキスト文字列からエンティティを認識することであって、各エンティティがラベル及び値を含む、認識することと、テキスト文字列からエンティティの値を特定することとをさらに含む。エンティティは、一般に、医療診断、医療処置、投薬、患者の体内の特定の位置／臓器などの、事前定義された医学的なカテゴリ及び分類を指す。各エンティティは、カテゴリ／分類を示すラベル、及びカテゴライズ／分類されたデータを示す値を有する。いくつかの例では、ワークフローは、少なくともいくつかのエンティティの値を標準用語にマッピングすることを含む。マッピングは改良プロセスの一部であり得、改良プロセス内で、カテゴライズ／分類されたデータの標準化されていない表現であり得る少なくともいくつかのエンティティの値は、国際医療用語集（ＳＮＯＭＥＤ）規格の基で定義された臨床的な用語及びコードなどの標準化されたデータに変換される。ワークフローは、次いで、エンティティのラベルをエンティティの値又は標準化された用語のうちの少なくとも１つと関連付ける構造化医療データを生成することができる。

[0023]構造化医療データは、様々なアプリケーションに提供され得る。たとえば、構造化医療データは検索可能なデータベースに記憶され得、検索クエリに基づいて（標準化されているかされていない）エンティティ及びそれらの値がそこから取り出され得る。検索可能なデータベース並びに構造化医療データはまた、処理するために、臨床判断支援アプリケーション、分析アプリケーションなどの様々なアプリケーションに対して利用可能にされ得る。たとえば、臨床判断支援アプリケーションは、臨床判断を支援するために、臨床判断に関係するエンティティ（たとえば、診断歴、処置歴、薬歴）及びそれらの値をデータベースから取り出し、エンティティを処理して出力を生成することができる。分析アプリケーションは、たとえば、多数の患者の病理報告から治療歴及び診断に関係するエンティティを取得し、分析を実行して医療提供及び看護の質における洞察を取得することができる。

[0024]別の例として、エンドツーエンド改良ワークフロー動作を実施する臨床ポータルアプリケーションが提供され得る。臨床ポータルアプリケーションは、患者データベースから病理報告の画像を受信し、画像に対して光学式文字認識（ＯＣＲ）動作を実行して、抽出されたテキスト文字列及び画像内のそれらの画像位置を含む第１のデータを生成することができる。次いで、臨床ポータルアプリケーションは、ＮＬＰを使用して、抽出されたテキスト文字列から（ラベル及び値を含む）病理エンティティを抽出することができる。次いで、臨床ポータルアプリケーションは、構造化医療データの中にエンティティを集め、患者データベースに構造化医療データを戻して記憶する。臨床ポータルアプリケーションはまた、構造化医療データを表示することができる。いくつかの例では、臨床ポータルアプリケーションは、構造化形式で（たとえば、表、入力フォームの形式で）構造化医療データを表示して、ポータルのユーザ（たとえば、臨床医、臨床スタッフ）が探している医療情報を効率的に識別することを可能にすることができる。いくつかの例では、臨床ポータルアプリケーションは、画像、並びにＮＬＰが病理エンティティを表すように決定したテキスト文字列に重ね合わされた選択可能な強調マーキングを表示するための表示インターフェースを含むことができる。表示インターフェースはまた、テキスト文字列のセット上の強調マーキングの選択を検出し、エンティティのラベル及び値、並びに選択されたテキスト文字列の他の改良情報（たとえば、ＳＮＯＭＥＤに基づく標準化データ）を含むポップアップウィンドウを表示することができる。

[0025]ＮＬＰモデルは、エンティティ及び値を含むテキスト文字列のシーケンスを識別し、識別に基づいてエンティティ及び値を抽出するように訓練され得る。ＮＬＰは、２ステッププロセスで訓練され得る。第１のステップとして、ＮＬＰモデルは、ベースラインＮＬＰサブモデルを構築するために、共通医療用語を含む文書に基づいて訓練され得る。ベースラインＮＬＰサブモデルは、病理エンティティを含む場合がある（又は含まない場合がある）共通医療用語を含むテキスト文字列のシーケンスを識別するための一次コンテキストを提供するために使用され得る。ベースラインＮＬＰサブモデルは、たとえば、ＰｕｂＭｅｄＣｅｎｔｒａｌ（登録商標）、アメリカ国立衛生研究所のアメリカ国立医学図書館における生物医学及び生命科学のジャーナル文献のフリーフルテキストアーカイブなどの、様々な主要情報源からの生物医学記事に基づいて訓練／構築され得る。第２のステップとして、ベースラインＮＬＰサブモデルは、次いで、病理エンティティを含むようにサブモデルを拡張するために、病理報告からのテキスト文字列を使用して訓練される。訓練動作の第２のステップは、ＣｏＮＬＬ（自然言語学習会議）ファイルを使用して実行され得る。ＣｏＮＬＬファイルは、他の病理報告から抽出されたテキスト文字列を含む場合があり、各テキストは、エンティティラベル又は非エンティティであることの標識のいずれかでタグ付けされる。ＮＬＰは、複数の病理報告からのＣｏＮＬＬファイルに基づいて訓練され得る。いくつかの例では、訓練は、病院、臨床グループ、又は個々の臨床医に固有であり得、その結果、ＮＬＰは、エンティティ及びそれらの値の抽出精度を最大化することができる病院／臨床グループ／臨床医の単語の選好を学習するように訓練され得る。いくつかの実施形態では、エンティティの抽出精度の統計データが保持され得る。ＮＬＰが入力テキスト文字列からエンティティを抽出するときに低い抽出精度を有すると統計データが示した場合、入力テキスト文字列は、新しいＣｏＮＬＬファイルを生成するようにタグ付けされ得、ＮＬＰは、抽出精度を向上させるために新しいＣｏＮＬＬファイルを使用して再訓練され得る。

[0026]加えて、ＮＬＰの抽出精度を向上させるように画像認識動作の様々なパラメータを決定するために、様々な技法が提案される。パラメータは、たとえば、エロージョン値、ページイテレータレベル、ページセグメント化モード、又は倍率を含む場合がある。エロージョン値は、ぼやけた線の平滑化動作が実行されたかどうかを示すことができる。ページイテレータレベルは、画像認識動作の細分性（ｇｒａｎｕｌａｒｉｔｙ）－画像認識動作の細分性を高めるために、ページ全体をブロックとして扱うか、又はページ内のセクション（段落、行、単語、文字など）をブロックとして扱うことによってそれが実行されたがどうかを指すことができる。ページセグメント化モードは、処理されているページの傾斜した向きを検出し、傾斜した向きを補正するように画像認識動作を調整することができる。倍率は、処理されるべき画像をズームイン又はズームアウトするようにズームレベルを設定することができる。

[0027]いくつかの例では、パラメータの値の異なる組合せを取得するために、パラメータ掃引動作が実行され得る。次いで、画像認識動作は病理報告のセットに対して繰り返し実行され得、各繰り返しはパラメータの値の組合せに基づいて実行される。次いで、繰り返しごとのテキスト認識精度が測定され得、ワークフローのための画像認識動作を構成するために、最も高いテキスト認識精度につながるパラメータの値の特定の組合せが使用され得る。

[0028]別の例として、画像認識動作のパラメータの決定は、ＮＬＰの出力に基づくことができる。具体的には、画像認識動作は、パラメータ値の第１のセットに基づいて事前構成され得る。事前構成された画像認識動作は、テキスト文字列を抽出するために病理報告
の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにＮＬＰに入力され得る。次いで、画像認識動作のパラメータは、ＮＬＰによる抽出精度に基づいて調整され得る。

[0029]ＮＬＰの出力に基づいて画像認識動作のパラメータを調整することは、特に、非標準のコード及びフレーズを含む場合がある特定の医師による注記を画像ファイルが含む場合に、有利であり得る。テキスト認識精度を特定するためにＯＣＲの出力が標準化フレーズと比較された場合、比較は、テキスト文字列が非標準のコード及びフレーズを含むときにＯＣＲパラメータの特定のセットについてのテキスト認識精度に関する正しくない結論につながる可能性がある。一方、ＮＬＰモデルは、非標準のコード及びフレーズ、並びに標準化用語を認識するように訓練されているので、ＮＬＰの出力を使用してテキスト認識精度を特定することは、テキスト認識精度測定値がＯＣＲの出力内の非標準のコード及びフレーズの存在によってあまり影響されないことを保証することができる。

[0030]開示された技法は、病理報告の画像を処理してテキスト文字列を抽出することによって始まり、ＮＬＰを使用してテキスト文字列からエンティティ及びそれらの値を抽出すること、抽出されたエンティティ及び値を標準用語にマッピングすることによってそれらを改良すること、並びに抽出されたエンティティ及び抽出された値又は標準用語のうちの少なくとも１つを含む構造化医療データを生成することがその後に続く、自動化されたワークフローを可能にすることができる。臨床医及び臨床スタッフが関連情報を抽出するために病理報告を手動で読み通す必要がある場合と比較して、開示された技法は、抽出プロセスを実質的に迅速処理し、臨床医及び臨床スタッフが病理報告から必要な情報を取得するために必要な時間／リソースを低減することができ、それにより、臨床医及び臨床スタッフが正しい治療を見つけ、患者に治療を施すことにより多くの時間／リソースを割り当てることが可能になる。その上、構造化医療データを、臨床支援アプリケーション、分析アプリケーションなどの他のアプリケーションによってアクセス可能にすることにより、医療提供及び看護の質における洞察を提供するため、関連データを提供して臨床医によって行われる臨床判断を支援するためなどに、大きい患者集団の病理報告の大規模分析が実行され得る。データフローの全体速度並びに医療データ抽出の正確性及び完全性における改善では、高品質患者データのより広く高速のアクセスが臨床及び研究目的で提供され得、それは、治療及び医療技術における発展、並びに患者に提供される看護の質の向上を容易にすることができる。

Ｉ．病理報告からの情報の抽出及び改良の例
[0031]図１は、従来の病理報告１００の一例を示す。病理報告は、病理医によって書かれた医療文書であり、患者の腫瘍から取られた組織のサンプルの病理医の検査に基づく組織学的診断を提供することができる。腫瘍組織から、病理医は、たとえば、組織ががん性か又は非がん性か、及び腫瘍の特徴に関する他の具体的詳細を見出すことができる。すべてのこの情報は、病理報告の一部であり得る。これらの情報に基づいて、治療が策定され得る。

[0032]図１を参照すると、病理報告１００は、診断情報の複数のセクションを含む場合がある。たとえば、病理報告１００は、数ある中でも、腫瘍の位置（たとえば、右肺／中葉）を示すセクション１０２、病変の数（たとえば、肺扁平上皮がん）を示すセクション１０４、腫瘍のサイズ（たとえば、５．３×４．０×３．０ｃｍ）を示すセクション１０６、組織学的診断（たとえば、高分化又は中分化の角化扁平上皮がん）を示すセクション１０８、リンパ節状態（たとえば、Ｎ２（８／２８））を示すセクション１１０、及びＴＮＭ（腫瘍リンパ節転移）病期（たとえば、ｐＴ３（心膜腔浸潤）Ｎ２（８／２８）Ｇ２Ｒ０）を示すセクション１１２を含む場合がある。病理報告１００は、紙の形態であり得るか、又は病理報告１００を含むページを走査して生成された画像ファイル（たとえば、ｐｄｆファイル、ＢＭＰファイル）として記憶され得る。

[0033]臨床医及び／又は臨床スタッフメンバは、病理報告１００を読み通し、探している医療情報を手動で抽出することができる。しかしながら、そのような手配は、骨が折れ、遅く、コストがかかり、間違いの元になる可能性がある。具体的には、病理報告は、特に異なる病院及びグループから作成された報告の場合、均一なフォーマット及び構造で整理されていない場合がある。結果として、読者は、ある特定の医療情報を検索するために病理報告１００全体を読み通す必要があり得、それは、特に読者が大きい患者集団の大量の病理報告を読み通す必要があるとき、非常に時間がかかり、骨が折れる可能性がある。

[0034]手動抽出プロセスも、間違いの元になる可能性がある。読者は、必要とする情報を見つけるために病理報告を読み通すには非常に限られた時間しかもたない場合があり、読者は、病理報告から取得された情報を読み取り、かつ／又は書き写す際に間違いを犯す可能性があるので、間違いの１つの原因は骨が折れる抽出プロセスのせいであり得る。間違いの別の原因は、異なる臨床医が診断結果を文書化する異なる方法を有する場合があり、それが混乱及び正しくない解釈をもたらす可能性があるという事実のせいであり得る。たとえば、セクション１１０の場合、読者は、「リンパ節状態」及び関連付けられた値「Ｎ２８／２８」の意味を理解するのが困難である可能性がある。結果として、読者は、セクション１１０の正しくない解釈をもつ可能性がある。間違いの別の原因は、重要なエンティティを標準用語にマッピングすることである可能性がある。デフォルトの標準用語は多くの冗長性を有する場合があり、それを調べることだけでは、抽出されたエンティティを正規化された用語に転換することに役立たない場合がある。たとえば、「肺」という単語は、２０個を超える正規化された概念と関連付けられる場合がある。「肺」という単語がマッピングする概念を識別することは、手動で行うことが困難であり得る。

[0035]図２Ａ及び図２Ｂは、本開示の技法によって実施され得る病理報告１００を後処理した例示的な結果を示す。図２Ａに示されたように、病理報告１００のセクション１０２～１１２内の診断情報は、様々な医療エンティティにマッピングされ得る。医療エンティティは、事前定義された医療カテゴリ及び分類を指すことができる。医療エンティティは、たとえば、医療診断、医療処置、投薬、及び患者の体内の特定の位置／臓器を含む場合がある。医療エンティティは、ＳＮＯＭＥＤなどの世界共通規格に基づいて定義され得、その結果、あらゆる臨床医及び医療プロバイダは、その医療エンティティに同じ意味を付けることができる。典型的な病理報告の医療エンティティ及びそれらの意味のリストは、以下の通りであり得る。

[0036]図２Ａを参照すると、病理報告１００のセクション１０２～１１２内の診断情報は、医療エンティティに基づいて整理された構造化データを含むデジタル病理報告２００を生成するために、表１の様々な医療エンティティにマッピングされ得る。たとえば、セクション１０２の情報は、分割され、（値「右」を有する）エンティティ「検体側性」と（値「中葉」を有する）エンティティ「腫瘍部位」の両方にマッピングされ得る。セクション１０４の情報は、値「扁平上皮がん」を有するエンティティ「組織構造」にマッピングされ得る。セクション１０６の情報は、値「５．３×４．０×３．０ｃｍ」を有するエンティティ「腫瘍サイズ」にマッピングされ得る。セクション１０８の情報は、値「高分化又は中分化の角化扁平上皮がん」を有するエンティティ「組織学的悪性度」にマッピングされ得る。セクション１１０の情報は、値Ｎ２を有するエンティティ「所属リンパ節／カテゴリ（ｐＮ）」にマッピングされ得、セクション１１２の情報は、分割され、（値ｐＴ３を有する）エンティティ「原発腫瘍（ｐＴ）」及び（値Ｇ２を有する）エンティティ「全体的悪性度」にマッピングされ得る。デジタル病理報告２００の各医療エンティティは、世界共通規格に基づいて定義され、明確に定義された意味を有するので、医療エンティティの意味及びその関連付けられた値を読者が間違って解釈するリスクは低減され得る。

[0037]いくつかの例では、デジタル病理報告２００は、エンティティ及び関連付けられた値がテキスト文字列の形態で記憶されたプレーンテキストファイルであり得、他のアプリケーションによって容易に構文解析／検索され得る。その上、デジタル病理報告２００内のエンティティ及びそれらの関連付けられた値の配置は、構造化され、標準化された順序に従うことができ、その結果、各エンティティはデジタル病理報告２００内のそれ自体の所定の位置を有する。そのような配置では、アプリケーション（又は標準化された順序に詳しい人間の読者）は、エンティティを探すために病理報告全体を通して検索するのではなく、エンティティの所定の位置に基づいて、病理報告２００内の特定のエンティティ及びその値を探すことができ、それは、デジタル病理報告２００からの医療情報の抽出を実質的に加速することができる。

[0038]改良プロセスの一部として、デジタル病理報告２００のエンティティと値の組合せは、ＳＮＯＭＥＤなどの世界共通規格に基づいて定義された所定の医療用語にマッピングされ得る。そのような配置により、エンティティと値の組合せによって表された診断結果が世界共通規格に従うことが可能になり、それにより、間違った解釈及び不明確さのリスクをさらに低減することができる。たとえば、図２Ａに戻ると、セクション２１０は、組織学的腫瘍部位が値「中葉」を有することを示すが、臓器は指定されておらず、それは、腫瘍部位の正確な位置に関する不明確さ及び潜在的な混乱をもたらす可能性がある。しかし、セクション２１０が標準化され世界共通で受け入れられた形式に変換された場合、腫瘍部位の正確な位置に関する不明確さ／混乱は回避され得る。

[0039]図２Ｂは、エンティティ及び値のペアとＳＮＯＭＥＤ概念との間のマッピングの例を示すマッピングテーブル２５０を示し、それは、間違った解釈及び不明確さのリスクを除去することができる。たとえば、「扁平上皮がん」の値を有するエンティティ「組織構造」は、概念ＩＤ５９５２９００６を有するＳＮＯＭＥＤ概念「扁平上皮内がん」にマッピングされ得る。その上、値「下葉」を有するエンティティ「腫瘍部位」は、概念ＩＤ９０５７２００１を有するＳＮＯＭＥＤ概念「肺の下葉の構造」にマッピングされ得る。そのようなマッピングは、エンティティ「腫瘍部位」と値「下葉」との間のペアリング、並びにエンティティの一部ではないが、テキスト「肺」などのコンテキスト情報として袖出されたセクション１０２に含まれる情報に基づくことができる。同様に、値「左」を有するエンティティ「検体側性」は、概念ＩＤ４４０２９００６を有するＳＮＯＭＥＤ概念「左肺構造」にマッピングされ得、またエンティティ－値ペアリング並びにコンテキスト情報に基づくことができる。すべてのこれらの場合、ＳＮＯＭＥＤ概念は、潜在的な混乱／不明確さを取り除くために、正確な腫瘍部位の位置を明確にすることができる。

[0040]改良プロセスの一部として、ＳＮＯＭＥＤ概念にマッピング（一致）するデジタル病理報告２００の各エンティティ－値ペアは、ＳＮＯＭＥＤ概念と置き換えられ得る。たとえば、セクション２１０内のエンティティ－値ペア（腫瘍部位－下葉）は、ＳＮＯＭＥＤ概念「肺の下葉の構造」及び／又はＳＮＯＭＥＤ概念ＩＤ９０５７２００１と置き換えられ得る。一方、対応するＳＮＯＭＥＤ概念をもたないデジタル病理報告２００内のエンティティ－値ペアは置き換えられない。一致がない場合、報告はエンティティ－値ペアを含むことができる。ＮＬＰは、該当する場合ＳＮＯＭＥＤ概念を提供するように訓練され得る。

[0041]エンティティ－値ペアのそのＳＮＯＭＥＤ概念との置き換えは、報告に標準用語を含めることによってデジタル病理報告２００を改良することができ、それは、人間の読者のためにエンティティの非標準値に関連付けられた間違った解釈及び不明確さのリスクを低減することができる。いくつかの例では、デジタル病理報告２００のエンティティ－値ペアはまた、デジタル病理報告２００のデータサイズを低減するためにＳＮＯＭＥＤ概念ＩＤと置き換えられ得る。そのような配置はまた、アプリケーションによるデジタル病理報告２００の処理を容易にすることができる。具体的には、エンティティ－値ペアは同じ概念を表す値の複数の代替バージョンを有する場合があるので、エンティティ－値ペアを抽出し解釈するアプリケーションは、値の複数の代替バージョンを認識して関連付けられた概念を認識する内蔵機能をもつ必要がある。一方、アプリケーションは、ＳＮＯＭＥＤ概念ＩＤを構文解釈し、概念を概念ＩＤと一義的にリンクすることができ、それはアプリケーションの複雑さを低減することができる。

ＩＩ．病理エンティティ抽出及び改良システム
[0042]上述されたように、病理報告１００などの従来の病理報告は、紙の形態又は走査された画像の形態のいずれかであるデータにアクセスし分析することが困難である。データの物理的な形態、並びにデータが構造化されていないという事実のために、臨床医及び臨床スタッフは、通常、病理報告を読み通して、重要な臨床データを取得することに多大な時間を費やす必要があり、それは、骨が折れ、遅く、コストがかかり、間違いの元になる。その上、報告内の臨床データは非標準化用語を含む場合があるので、臨床医が報告内の非標準化用語を解釈するときに潜在的な不明確さ及び混乱が生じる場合があり、それは、病理報告からの臨床データの抽出に対する間違いを引き起こす可能性がある。

Ａ．システムアーキテクチャ
[0043]図３は、上述された問題のうちの少なくともいくつかに対処するために、病理報告の自動化された情報の抽出及び改良を実行することができるシステム３００を示す。システム３００は、エンドツーエンド改良ワークフロー動作を実施する臨床ポータルアプリケーションの一部であり得る。図３を参照すると、システム３００は、患者データベース３０１から、入力として（たとえば、病理報告１００の）病理報告画像ファイル３０２を受信することができる。システム３００は、出力として、（たとえば、病理報告２００の）後処理された病理報告データ３０４を生成することができる。以下に記載されるように、後処理された病理報告データ３０４は、上記の図２Ａ及び表１に記載されたものなどの病理エンティティ、並びに病理報告画像ファイル３０２から識別された関連付けられた値を含む、病理報告画像ファイル３０２から抽出された情報を含むことができる。加えて、後処理された病理報告データ３０４はまた、標準化された病理エンティティ値（たとえば、ＳＮＯＭＥＤ概念）などの改良情報を含む場合がある。後処理された病理報告データ３０４は、患者の構造化医療データとして患者データベース３０１（又は他の臨床データベース）に書き戻され得る。いくつかの例では、システム３００はまた、構造化された形式で（たとえば、表、入力フォームの形式で）後処理された病理報告データ３０４を表示するために、表示インターフェース３０５を含む。いくつかの例では、表示インターフェース３０５はまた、後処理された病理報告データ３０４に基づいて、テキスト及びグラフィカル情報と重ね合わされた病理報告画像ファイル３０２を表示することができる。

[0044]システム３００は、情報の抽出及び改良を実行するために、光学処理モジュール３０６、エンティティ抽出モジュール３０８、及び改良モジュール３１０を含む場合がある。各モジュールは、コンピュータシステム上（たとえば、サーバ、又は複数のサーバを含むクラウドコンピューティング環境内）で実行され得るソフトウェア命令を含むことができる。いくつかの例では、システム３００は、（図３に示されていない）臨床ソフトウェアプラットフォームの一部であり得る。システム３００の各モジュールは、ソフトウェアプラットフォームと通信して患者データベース３０１などの異なるデータベースにアクセスするために、アプリケーションプログラミングインターフェース（ＡＰＩ）を含むことができる。

[0045]図３を参照すると、光学処理モジュール３０６は、画像ファイル３０２を受信することができる。画像ファイル３０２は、たとえば、ＥＭＲ（電子医療記録）データベース、ＰＡＣＳ（画像保管通信システム）、デジタル病理学（ＤＰ）システム、ゲノムデータを含むＬＩＳ（実験室情報システム）、ＲＩＳ（放射線医学情報システム）、患者報告結果データベース、ウェアラブル及び／又はデジタル技術、並びにソーシャルメディアを含む、（たとえば、１つ又は複数の医療施設にある）様々な一次情報源から受信され得る。画像ファイルは、たとえば、ポータブルドキュメントファイル（ｐｄｆ）又はビットマップ画像ファイル（ＢＭＰファイル）などの様々なフォーマットであり得る。いくつかの例では、画像ファイルは、紙の形態の病理報告を走査することによって取得され得る。

[0046]画像ファイル３０２を受信した後、光学処理モジュール３０６は、画像認識動作を実行して、画像ファイル３０２からテキスト画像を識別し、テキスト画像からテキストデータを生成し、テキストデータを含む中間テキストファイル３１２を生成することができる。画像認識動作は、たとえば、光学式文字認識（ＯＣＲ）又は光学式単語認識を含む場合がある。両方の動作において、光学処理モジュール３０６は、（たとえば、ダークカラーを有するピクセルのパターンを識別することによって）文字のピクセルパターンを抽出し、各ピクセルパターンを文字の事前定義されたピクセルパターンと比較し、比較に基づいて各ピクセルパターンがどの文字（又はどの単語／フレーズ）を表すかを判定することができる。次いで、光学処理モジュール３０６は、文字／単語／フレーズをテキストファイル３１２に記憶することができる。光学処理モジュール３０６は、左から右に行のピクセルパターンを抽出し処理するために、所定のパターン（たとえば、ラスタ走査）に従って画像ファイル３１２を通して走査し、行ごとに走査を繰り返すことができる。走査パターンに基づいて、光学処理モジュール３０６は、テキスト文字列のシーケンス（たとえば、文字、単語、フレーズ）を生成し、テキスト文字列のシーケンスをテキストファイル３１２に記憶することができる。いくつかの例では、テキスト文字列の各シーケンスのピクセル位置を示すメタデータファイル３１４も、光学処理モジュール３０６によって生成され得る。メタデータファイル３１４は、以下に記載されるように他のアプリケーションによって使用され得る。メタデータファイル３１４の例が図４Ｄに示されている。

[0047]エンティティ抽出モジュール３０８は、テキストファイル３１２を処理し、テキストファイル３１２からエンティティ（たとえば、表１に列挙されたエンティティ）を認識し、エンティティに関連付けられた値を抽出することができる。エンティティ抽出モジュール３０８は、エンティティ－値ペア３２０を生成することができ、各ペアは抽出されたエンティティ及び対応する値を含む。エンティティ抽出モジュール３０８は、エンティティの認識及び値の抽出を実行するために、自然言語処理（ＮＬＰ）モデル３２８を含む場合がある。ＮＬＰモジデル３２８は、テキストファイル３１２からのテキストのシーケンスを処理し、テキスト文字列の特定のシーケンスを認識することに基づいて、シーケンスのテキストのサブセットが特定のエンティティの値であると判断し、サブセット用のエンティティ－値ペアを特定することができる。

Ｂ．自然言語プロセッサモデル
[0048]図４Ａは、ＮＬＰモデル３２８の一例を示す。図４Ａに示されたように、ＮＬＰモデル３２８は、ノード４０２、４０４ａ、４０４ｂ、４０６ａ、４０６ｂ、４０６ｃ、及び４０８などのノードを備えるグラフを含む。各ノードはテキスト文字列に対応することができる。グラフ内でノードはアークによって接続され、アークの方向はＮＬＰモデル３２８によって検出されるべきテキスト文字列のシーケンスを定義する。たとえば、ノード４０２及び４０４ａはアーク４１０によって接続され、ノード４０４ａ及び４０６ｂは
アーク４１２によって接続され、ノード４０６ｂ及び４０８はアーク４１４によって接続される。これらのノード及びアークは、テキストのシーケンス「ｒｉｇｈｔｌｕｎｇｍｉｄｄｌｅｌｏｂｅ」を定義することができる。ノードはまた、階層に整理され、エンティティ－値ペア、コンテキストなどであり得る検出出力は、各階層から生成され得る。図４Ａの例では、ノード４０２はエンティティ「検体側性」を検出する第１の階層内にあり得、ノード４０４ａ及び４０４ｂはコンテキストを検出する第２の階層内にあり得、ノード４０６ａ～４０６ｃ及び４０８はエンティティ「腫瘍部位」を検出する第３の階層内にあり得る。検出は、たとえば、テキスト文字列の入力シーケンスとノードによって表されたテキスト文字列との間の類似度に基づいてスコアを計算するパラメータ化された式に基づくことができ、所定のエンティティ－ペア及び／又はコンテキスト情報は、スコアに基づいて出力され得る。

[0049]ＮＬＰモデル３２８は、テキストファイル３１２からのシーケンス４２０などのテキスト文字列のシーケンスを処理することができる。ＮＬＰモデル３２８は、グラフ内で見つからないテキスト文字列（たとえば、単語、句読点、シンボル）をスキップしながら、シーケンス４２０と（正確に又は近接度のしきい値まで）一致するグラフからのノードのシーケンスを探すことができる。いくつかの例では、ノードのテキスト文字列はベクトルによって表され得、近接度は、ノードのシーケンス内のテキスト文字列とシーケンス４２０内のテキスト文字列との間の総ユークリッド距離のしきい値によって定義され得る。いくつかの例では、近接度はまた、ノードのシーケンスとシーケンス４２０との間の一致する単語のしきい数によって定義され得る。図４Ａの例では、ＮＬＰモデル３２８は、シーケンス４２０に最も近いグラフからのシーケンスのノードを探すことによってシーケンス４２０「部位：右肺／中葉」を処理することができ、単語「部位」並びに句読点「：」及び「／」を無視しながら、シーケンス４２０に最も近いノード４０２、４０４ａ、４０６ｂ、及び４０８のシーケンスを識別することができる。識別されたシーケンスから、ＮＬＰモデル３２８は、ノード４０２からのエンティティ－値ペア４２２（検体側性、右）及びノード４０４ａからのコンテキスト４２４（肺）を出力することができる。その上、エンティティが肺に関係することを示すコンテキスト４２４に基づいて、ＮＬＰモデル３２８は、シーケンス４２０から、ノード４０６ｂ及び４０８からのエンティティ－値ペア４２６（腫瘍部位、肺の中葉）をさらに出力することができる。いくつかの例では、ＮＬＰモデル３２８は、テキスト文字列「葉」がシーケンス４２０内で見つからない場合でも、テキスト文字列のシーケンス「右」、「肺」、及び「中」、並びにそのようなシーケンスがエンティティ－値ペア４２６につながることを検出したことに基づいて、エンティティ－値ペア４２６を出力することができる。抽出されたエンティティ及びそれらの値は、構造化医療データの中に集められ得、患者データベース３０１に戻して記憶され得る。

[0050]いくつかの例では、ＮＬＰモデル３２８は、ベースラインＮＬＰサブモデル、並びに病理エンティティに固有の病理ＮＬＰサブモデルなどの、サブモデルの階層を含むことができる。ベースラインＮＬＰサブモデルは、病理エンティティを含む場合がある（又は含まない場合がある）共通医療用語を含むテキスト文字列のシーケンスを識別するための一次コンテキストを提供するために使用され得る。一次コンテキストは、病理エンティティを含むテキスト文字列シーケンスの識別を誘導することができる。

[0051]図４Ｂは、ＮＬＰモジデル３２８の別の例を示す。図４Ｂに示されたように、ＮＬＰモデル３２８は、ベースラインＮＬＰサブモデル４３０及び病理ＮＬＰサブモデル４４０を含むことができる。ベースラインＮＬＰサブモデル４３０は、たとえば、ノード４３０ａ、４３０ｂ、及び４３０ｃを含むことができる。ノード４３０ａ及び４３０ｂは、病変、組織などの組織構造に関係する一般医療用語と関連付けられ得、ノード４３０ｃは、手術などの組織構造に関係しない一般医療用語と関連付けられる。加えて、病理ＮＬＰサブモデル４４０は、ノード４４０ａ、４４０ｂ、４４０ｃ、４４０ｄ、４４０ｅ、及び４４０ｆを含むことができる。ノード４４０ａ、４４０ｂ、４４０ｃ、及び４４０ｄは、シーケンス「肺扁平上皮がん」を形成するために、エッジ４４２、４４４、及び４４６によってリンクされ得る。一方、ノード４４０ｅ及び４４０ｆは、心臓及び乳房などの手術を受ける異なる臓器と関連付けられる。

[0052]ベースラインＮＬＰサブモデル４３０は、図４Ｂに示されたシーケンス４５０などのテキスト文字列のシーケンスを処理するために、病理ＮＬＰサブモデル４４０のどの部分を選択するかについてのコンテキスト／助言を提供することができる。具体的には、テキスト文字列シーケンス４５０内のテキスト文字列「病変の数」から、ベースラインＮＬＰサブモデル４３０は、テキスト文字列シーケンス４５０の残りを処理するために、病理サブモデル４４０のノード４４０ａ～４４０ｄを選択することができる。次いで、病理サブモデル４４０は、ノード４４０ａ～４４０ｄに関連付けられたシーケンス（「肺扁平上皮がん」）をテキスト文字列シーケンス４５０の残りと比較することができる。シーケンスが一致することを見つけたことに基づいて、ＮＬＰサブモデル４３０は、エンティティ－値ペア４５２（組織構造、肺扁平上皮がん）を出力することができる。

[0053]図４Ａ及び図４ＢのＮＬＰモデルトポロジーは説明のための例として提供されたことに留意されたい。ＮＬＰモデル３２８は、線形チェーンシーケンスモデルとしてのＣＲＦ（条件付き確率場）分類器、ＣＮＮＢｉ－ＬＳＴＭ（畳み込みニューラルネットワーク双方向長期短期記憶）などの他の形態を呈することができる。

Ｃ．改良動作
[0054]図３に戻ると、改良モジュール３１０は、改良動作を実行して、病理報告画像ファイル３０２から抽出された医療情報の質を改善することができる。１つの例示的な改良動作は、図２Ｂに示されたように、病理報告内のエンティティ値をＳＮＯＭＥＤ概念などの標準化された値に変換することを含む場合がある。システム３００は、改良モジュール３１０による改良動作を支援するために、用語マッピングデータベース３７０をさらに含む場合がある。

[0055]図４Ｃは、エンティティ－値ペアとＳＮＯＭＥＤ概念及び概念ＩＤなどの標準用語との間のマッピングを含むことができる用語マッピングデータベース３７０を使用して、改良モジュール３１０によって実行される例示的な改良動作を示す。図４Ｃでは、マッピングは、エンティティ列４５４、値列４５６、及びＳＮＯＭＥＤ概念列４５８を含むマッピングテーブルの形態であり得る。エンティティ－値ペアごとに、改良モジュール３１０は、それぞれ、エンティティ列４５４及び値列４５６内のエンティティ及び値、並びにＳＮＯＭＥＤ概念列４５８内の関連付けられたＳＮＯＭＥＤ概念及び概念ＩＤの検索を実行することができる。図４Ｃの例では、「腫瘍部位、下葉」のエンティティ－値ペア４５２に対して、改良モジュール３１０は、エンティティ列４５４内の「腫瘍部位」、値列４５６内の「下葉」、並びにＳＮＯＭＥＤ概念列４５８３７０内の「肺の下葉の構造」のＳＮＯＭＥＤ概念及び９０５７２００１の概念ＩＤを識別することができる。

[0056]いくつかの例では、改良プロセスの一部として、改良モジュール３１０は、ＳＮＯＭＥＤ概念へのマッピングを有する、エンティティ抽出モジュール３０８によって抽出された各エンティティ－値ペアをエンティティ－ＳＮＯＭＥＤ概念ペアと置き換え、後処理された病理報告データ３０４にエンティティ－ＳＮＯＭＥＤ概念ペアを記憶することができる。エンティティ－値ペアのそのＳＮＯＭＥＤ概念との置き換えは、報告に標準用語を含めることによって後処理された病理報告データ３０４を改良することができ、それは、人間の読者のためにエンティティの非標準値に関連付けられた間違った解釈及び不明確さのリスクを低減することができる。いくつかの例では、エンティティ－値ペアはまた、後処理された病理報告データ３０４のデータサイズを低減するためにＳＮＯＭＥＤ概念ＩＤと置き換えられ得る。そのような配置はまた、アプリケーションによる後処理された病理報告データ３０４の処理を容易にすることができる。具体的には、エンティティ－値ペアは同じ概念を表す値の複数の代替バージョンを有する場合があるので、エンティティ－値ペアを抽出し解釈するアプリケーションは、値の複数の代替バージョンを認識して関連付けられた概念を認識する内蔵機能をもつ必要がある。一方、アプリケーションは、ＳＮＯＭＥＤ概念ＩＤを構文解釈し、概念を概念ＩＤと一義的にリンクすることができ、それはアプリケーションの複雑さを低減することができる。

Ｄ．改良動作を支援する表示インターフェース
[0057]図３に戻ると、システム３００は、後処理された病理報告データ３０４を表示するために表示インターフェース３０５を含む場合がある。いくつかの例では、表示インターフェース３０５は、構造化形式で（たとえば、表、入力フォームの形式で）後処理された病理報告データ３０４の構造化医療データを表示して、ポータルのユーザ（たとえば、臨床医、臨床スタッフ）が探している医療情報を効率的に識別することを可能にすることができる。いくつかの例では、表示インターフェース３０５は、病理報告画像ファイル３０２、並びにＮＬＰ３２８が病理エンティティを表示するように決定したテキスト文字列に重ね合わされた強調マークアップ（テキスト）を表示することができる。強調マークアップは選択可能である。表示インターフェース３０５はまた、テキスト文字列のセットの上の強調マーキングの選択を検出し、エンティティのラベル及び値、並びに選択されたテキスト文字列の他の改良情報（たとえば、ＳＮＯＭＥＤに基づく標準化データ）を含むポップアップウィンドウを表示することができる。

[0058]表示インターフェース３０５の動作は、テキスト文字列の各シーケンスのピクセル位置も光学処理モジュール３０６によって生成され得ることを示すメタデータファイル３１４に基づくことができる。図４Ｄはメタデータファイル３１４の例を示す。図４Ｄに示されたように、病理報告１００から、メタデータ４６２、４６４、及び４６６は、それぞれ、セクション１０８、１１０、及び１１２から抽出されたエンティティ－値ペアに基づいて生成され得る。各メタデータセットは、そこからエンティティ－値ペアが抽出されたテキスト文字列の開始及び終了のピクセル位置（「ｓｔａｒｔ＿ｏｆｆｓｅｔ」及び「ｅｎｄ＿ｏｆｆｓｅｔ」）、エンティティのラベル、並びにエンティティの値（「ｍｅｎｔｉｏｎ」）を示すことができる。いくつかの例では、開始及び終了のピクセル位置は、画像の左上から始まり、ラスタ化方式でカウントするピクセル番号によって提示され得る。いくつかの例では、開始及び終了のピクセル位置はまた、画像内の２次元ピクセル座標によって表され得る。

[0059]図４Ｅは、表示インターフェース３０５の一例を示す。図４Ｅに示されたように、表示インターフェース３０５は、病理報告の画像４７０、並びに強調マークアップ４７２、４７４、４７６、及び４８０などの強調マークアップを表示することができる。各強調マーキングは、そこからエンティティ－ペアが抽出されたテキスト文字列のメタデータ内に示された開始及び終了のピクセル位置で画像４７０に重ね合わされる。加えて、各強調マーキングは、下にあるメタデータを表示するために（たとえば、強調マーキングの上にマウスカーソルを移動させることによって）選択可能である。たとえば、図４Ｅでは、表示インターフェース３０５は、テキスト文字列「切除生検」用の強調マーカ４７６の上にマウスカーソルが移動したことを検出することができる。マウスカーソルのピクセル位置に基づいて、表示インターフェース３０５は、画像４７０用に生成されたすべてのメタデータから、（ｓｔａｒｔ＿ｏｆｆｓｅｔ及びｅｎｄ＿ｏｆｆｓｅｔによって表された）ピクセル位置の範囲を有するメタデータを識別することができる。次いで、表示インターフェース３０５は、識別されたメタデータから、ＳＮＯＭＥＤ情報、テキスト文字列、エンティティのラベル、並びに抽出の信頼度（スコア）を抽出し、抽出された情報をポップアップウィンドウ４８２に表示することができる。

Ｅ．自然言語プロセッサの訓練
[0060]図３に戻ると、ＮＬＰモデル３２８は、訓練される機械学習モデルであり得る。図３に示されたように、システム３００は、ＮＬＰモデル３２８を訓練することができる訓練モジュール３４０を含む場合がある。訓練モジュール３４０は、ラベル付けされた一般医療文書３４８及びラベル付けされた病理報告３５０に基づいて、ＮＬＰモデル３２８を訓練することができる。一般医療文書３４８は、様々なカテゴリの生物医学の文献、報告などを含むことができる。訓練は、医療用語の単語を表すノード、並びに図４ＡのＮＬＰモデル３２８のエッジなどの単語の間の順序関係を表すエッジを作成する。訓練動作の一部として、特定のラベルを有するテキスト文字列のシーケンス（たとえば、ラベル付けされたエンティティ、ラベル付けされたエンティティ値、ラベル付けされたコンテキスト）は、ＮＬＰが正しいエンティティ－値ペア及び／又はコンテキスト情報を出力するかどうかを判定するために、ＮＬＰモデル３２８に入力され得る。（テキスト文字列のシーケンスのラベル付けされたエンティティ／エンティティ値と、テキスト文字列のシーケンスに対してＮＬＰモデルによって出力されたエンティティ－値ペアを比較することに基づいて）ＮＬＰモデル３２８が正しいエンティティ－値ペア及び／又はコンテキスト情報を出力しないと訓練モジュール３４０が判定した場合、訓練モジュール３４０は、新しい単語を表す新しいノードを作成し、既存のノードの間にエッジを追加することなどにより、ＮＬＰモデル３２８を修正することができる。エンティティ－値ペアを出力する判断機構（たとえば、パラメータ化された式）はまた、正しいエンティティ－ペア及び／又はコンテキスト情報を出力する可能性を高めるために、（たとえば、パラメータを更新することによって）更新され得る。

[0061]図５Ａ、図５Ｂ、図５Ｃ、図５Ｄ、及び図５Ｅは、ＮＬＰモデル３２８の訓練動作の例を示す。図５Ａに示されたように、ＮＬＰモデル３２８の訓練動作５００は、２ステッププロセスで実行され得る。ステップ５０２において、ベースラインＮＬＰサブモデル４３０などのベースラインＮＬＰサブモデルは、ラベル付けされた一般医療文書に基づいて構築され得る。上述されたように、ベースラインＮＬＰサブモデル４３０は、病理報告用語を含む場合がある（又は含まない場合がある）共通医療用語を含むテキスト文字列のシーケンスを識別するための一次コンテキストを提供するために使用され得る。ベースラインＮＬＰサブモデル４３０は、たとえば、ＰｕｂＭｅｄＣｅｎｔｒａｌ（登録商標）、アメリカ国立衛生研究所のアメリカ国立医学図書館における生物医学及び生命科学のジャーナル文献のフリーフルテキストアーカイブなどの、様々な主要情報源からの生物医学記事から導出された訓練データに基づいて訓練され得る。訓練データは、生物医学記事から抽出された特定のラベルを有するテキスト文字列のシーケンス（たとえば、ラベル付けされたエンティティ、ラベル付けされたエンティティ値、ラベル付けされたコンテキスト）を含むことができる。

[0062]ステップ５０４において、ベースラインＮＬＰサブモデルは、病理報告からのテキスト文字列のシーケンスを使用して訓練され得、それにより、病理用語のシーケンスを検出することができる病理ＮＬＰサブモデル（たとえば、病理サブモデル４４０）を含むようにベースラインＮＬＰサブモデルが拡張される。ステップ５０４は、ＣｏＮＬＬ（自然言語学習に関する会議）ファイルを使用して実行され得る。ＣｏＮＬＬファイルは、他の病理報告から抽出されたテキストを含む場合があり、各テキストは、エンティティラベル又は非エンティティであることの標識でタグ付けされ得る。ＮＬＰは、複数の病理報告からのＣｏＮＬＬファイルに基づいて訓練され得る。いくつかの例では、訓練は、病院、臨床グループ、個々の臨床医などに固有であり得、その結果、ＮＬＰは、エンティティ及びそれらの値の抽出精度を最大化することができる病院／臨床グループ／臨床医の単語の選好を学習するように訓練され得る。

[0063]図５Ｂは、ＣｏＮＬＬフォーマットであり得るラベル付けされた病理報告３５０の一例を示す。ラベル付けされた病理報告３５０は、ＮＬＰモデル３２８に入力されるべきテキスト文字列、並びにテキスト文字列のエンティティを示すラベルを含み、それは、訓練を実行するようにＮＬＰモデル３２８の出力を誘導するために訓練モジュール３４０によって使用され得る。ラベルは、テキスト文字列のシーケンスに対してＮＬＰモデル３２８によって出力されるべき基準エンティティを表すことができる。次いで、訓練モジュール３４０は、基準エンティティと、テキスト文字列のシーケンスに対してＮＬＰモデル３２８によって実際に出力されたエンティティとの間の差分に基づいて、ＮＬＰモデル３２８のパラメータを更新することができる。ラベル付けされた病理報告３５０は、病理報告に含まれる情報を識別し、情報をラベルと関連付けることができる人間（たとえば、臨床医、臨床スタッフ）によって生成され得る。情報の識別及びラベルとの関連付けは、世界共通規格（たとえば、ＳＮＯＭＥＤ）に基づくことができ、また、特定の臨床医、医療グループ、医療プロバイダなどの習慣／慣行に固有であり得る。たとえば、臨床医は、腫瘍部位の位置を報告する固有の方法を有する場合があり、臨床医からの病理報告は、ＮＬＰモデル３２８を訓練するために、そのように示すようにラベル付けされ得る。

[0064]図５Ｂに示されたように、ラベル付けされた病理報告３５０の各行は、テキスト文字列５１０ａ、５１２ａ、５１４ａ、５１６ａ、５１８ａなどのテキスト文字／テキスト文字列／テキストフレーズを含む場合がある。各テキスト文字列はラベルでリンクされ、ラベルは、コンテキスト、エンティティ、スキップされた単語、及びシーケンス内のそれらの場所を示すことができる。たとえば、単語「肺」用のラベル５１２ｂは「Ｉ－局在」であり、それは、単語「肺」がコンテキスト「局在」に属することを示し、「Ｉ」は、コンテキスト「局在」が識別されるべきシーケンスの始まりで単語「肺」が見つけられたことを指す。別の例として、ラベル５１４ｂは「Ｉ－側性」であり、それは、単語「右」がエンティティ「側性」に属することを示し、「Ｉ」は、エンティティ「側性」が識別されるべきシーケンスの始まりで単語「右」が見つけられたことを指す。さらに、ラベル５１６ｂ及び５１８ｂは、それぞれ、「Ｉ－腫瘍部位」及び「Ｂ－腫瘍部位」である。それらのラベルは、単語「中」及び「葉」がエンティティ「腫瘍部位」に属することを示すことができ、単語「中」はエンティティ用のシーケンスの始まりで見つけられるべきであり、「Ｂ」は、単語「葉」がエンティティ用のシーケンスの中央で見つけられるべきことを示す。さらに、ラベル５１０ｂは、単語「４」がＮＬＰモデル３２８によって処理されないスキップされたテキストであることを示す。

[0065]図５Ｃは、ラベル付けされたテキスト文字列のシーケンスがＮＬＰモデル３２８によってどのように処理され得るかを示す。シーケンス内のテキストごとに、訓練モジュール３４０は、テキストがＮＬＰモデル３２８のノード内にあるかどうかを判定することができ、テキスト文字列が見つからない場合、モデルにノード及び／又はエッジを追加することができる。その上、訓練モジュール３４０は、ラベル（たとえば、エンティティ「側性」）をＮＬＰモデル３２８の出力と比較し、出力が一致しない場合判断機構を更新することができる。

[0066]図５Ｄは、ＮＬＰ３２８を訓練するために使用されるテキスト文字列のラベル付けされたシーケンス内の異なるエンティティの例示的な分布５２０を示し、図５Ｅは、ＮＬＰ３２８によるエンティティ抽出の精度を測定する際の様々なメトリックを示す。図５Ｄに示されたように、テキスト文字列シーケンスの比較的大きい部分は、これらのテキスト文字列がより一般的にシーケンスの中央で見つかるので、「Ｂ－悪性度」、「Ｂ－側性」、「Ｂ－サイズ」、「Ｂ－タイプ」、及び「Ｂ－局在」（６％～１１％）とラベル付けされる。その上、テキスト文字列シーケンスの比較的小さい部分は、これらのテキスト文字列がよりまれなので、「Ｂ－結果」、「Ｉ－血管」、「Ｉ－気管支」、及び「Ｉ－マージン」（０．００３％～０．２７５％）とラベル付けされる。分布５２０は、ＰｕｂＭｅ
ｄＣｅｎｔｒａｌ（登録商標）からの文書のコーパスに基づくことができ、約２００万語を含むことができる。

[0067]図５Ｅは、エンティティの分布５２０を有するＰｕｂＭｅｄＣｅｎｔｒａｌ（登録商標）からの文書のコーパスに基づいてモデルが訓練された後に、ＮＬＰモデル３２８によって出力されたエンティティのための抽出精度メトリックのテーブル５３０を示す。抽出精度メトリックは、エンティティごとに、真陽性（ｔｐ）カウント、偽陽性（ｆｐ）カウント、偽陰性（ｆｎ）カウント、精度（ｐｒｅｃ）、再現率（ｒｅｃ）、及びＦ１スコア（ｆ１）を含む。真陽性カウントは、ＮＬＰ３２８が特定のエンティティを含むものとして正しく検出したテキスト文字列シーケンスの数をカウントする。偽陽性カウントは、特定のエンティティを含まないが、そのエンティティを含むものとしてＮＬＰ３２８が間違って検出したテキスト文字列シーケンスの数をカウントする。偽陰性カウントは、特定のエンティティを含むが、そのエンティティを含まないものとしてＮＬＰ３２８が間違って検出したテキスト文字列シーケンスの数をカウントする。陽性予測値としても知られている精度は、すべての陽性検出（正しい検出及び正しくない検出）のうちの（エンティティを含むシーケンスとしてフラグを立てた）正しい陽性検出の割合を指す。感度としても知られている再現率は、すべての検出結果（真陽性検出及び偽陰性検出）のうちの正しい陽性検出の割合を指す。精度及び再現率は、以下の式に基づいて比較され得る。
精度＝ｔｐ／（ｔｐ＋ｆｐ）（式１）
再現率＝ｔｐ／（ｔｐ＋ｆｎ）（式２）

[0068]Ｆ１スコアは、検出の信頼度を提供するために計算される。良好なＦ１スコアは、良好な精度と良好な再現率の両方の全体的な反映である。ＮＬＰモデルは医療領域で使用されるので、高い精度は高い再現率よりも好まれる。
Ｆ１＝（精度×再現率）／（精度＋再現率）（式３）

[0069]図５Ｅに示されたように、平均Ｆ１スコアは約０．８５であり、大部分のエンティティのＦ１スコアは約０．９を超えている。Ｉ－マージン（０．４）などの低いＦ１スコアを有するエンティティは、概して、図５Ｄにうまく表されていないエンティティであり、それにより、ＮＬＰモデルがそれらのエンティティを正確に検出することが困難になる。

[0070]ＮＬＰモデル３２８の訓練は、オフラインで実行され得るか、又は病理報告画像ファイルを処理してＮＬＰモデル３２８を動的に更新しながら実行され得る。たとえば、ＮＬＰモデル３２８の訓練は、ＮＬＰモデル３２８が病理報告画像ファイルを処理するために使用される前の保守動作の一部として実行され得る。別の例として、システム３００は、病理報告画像ファイルを処理することからＮＬＰモデル３２８の出力（たとえば、エンティティ－値ペア、コンテキスト）の正しさを分析することができる分析モジュール３６０を含む場合があり、出力が正しくない場合（又は正しくない出力の数がしきい値を超えた場合）、分析モジュール３６０は、ＮＬＰモデル３２８を再訓練するように訓練モジュール３４０をトリガすることができる。再訓練の一部として、正しくない出力が生成され、正しいラベルが付けられた、病理報告画像ファイル内のテキストシーケンスは、ＮＬＰモデル３２８を再訓練するためにラベル付けされた病理報告３５０に追加され得る。

ＩＩＩ．画像認識動作の調整
[0071]加えて、様々な技法は、ＮＬＰの抽出精度を向上させるように画像認識動作の様々なパラメータを決定することができる。光学式文字認識（ＯＣＲ）動作用のパラメータは、エロージョン値、ページイテレータレベル、ページセグメント化モード、又は倍率を含む場合がある。エロージョン値は、ぼやけた線の平滑化動作が実行されたかどうかを示すことができる。ページイテレータレベルは、画像認識動作の細分性－画像認識動作の細分性を高めるために、ページ全体をブロックとして扱うか、又はページ内のセクション（段落、行、単語、文字など）をブロックとして扱うことによってそれが実行されたがどうかを指すことができる。ページセグメント化モードは、処理されているページの傾斜した向きを検出し、傾斜した向きを補正するように画像認識動作を調整することができる。倍率は、処理されるべき画像をズームイン又はズームアウトするようにズームレベルを設定することができる。

[0072]いくつかの例では、これらのＯＣＲパラメータの調整はＮＬＰ３２８の出力に基づくことができる。具体的には、画像認識動作は、パラメータ値の第１のセットに基づいて事前構成され得る。事前構成されたＯＣＲ動作は、テキスト文字列を抽出するために病理報告の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにＮＬＰに入力され得る。次いで、ＯＣＲパラメータは、ＮＬＰによる抽出精度に基づいて調整され得る。

[0073]図６は、ＮＬＰ３２８の出力に基づいてＯＣＲパラメータを調整する調整動作６００の一例を示す。
[0074]ステップ６０２において、エロージョン値、ページイテレータレベル、ページセグメント化モード、倍率などのＯＣＲパラメータのセットが決定され得る。それらのパラメータは、デフォルト値又はパラメータ掃引動作から決定された値に設定され得る。パラメータ掃引動作は、病理報告の画像の同じセットに対する画像認識動作のために実行され得、その中で、画像認識動作は繰り返し実行され得、各繰り返しは、パラメータの値の異なる組合せに基づいて実行される。次いで、繰り返しごとのテキスト認識精度が測定され得、ワークフローのための画像認識動作を構成するために、最も高い認識精度につながるパラメータの値の組合せが使用され得る。

[0075]ステップ６０４において、病理報告の画像に対してＯＣＲパラメータを有するＯＣＲモデルを適用することにより、病理報告テキストデータ３１２が生成され得る。
[0076]ステップ６０６において、エンティティ－値ペアを抽出するためにＮＬＰを使用して病理報告テキストデータが処理され得る。

[0077]ステップ６０８において、ＮＬＰによるエンティティ－値ペアの抽出精度が特定される。精度は、たとえば、上記の式１～３に基づいてＦ１スコアを決定することに基づいて特定され得る。

[0078]ステップ６１０において、抽出精度がしきい値を超えたかどうかが判定される。たとえば、Ｆ１スコアが０．７５を超えたかどうかが判定される。
[0079]抽出精度がしきい値を超えた場合、ＯＣＲパラメータ調整動作はステップ６１２において記憶され得る。しかし、抽出精度がしきい値を下回る場合、ＯＣＲパラメータはステップ６１４において調整され、次いで、ステップ６０４が繰り返される。調整されるパラメータは、最も低い精度を有するエンティティ－値ペアを識別することに基づいて選択され得る。説明のための例として、低い精度を有するエンティティ－値ペアに属する病理報告内のいくつかの単語が非常に小さい画像サイズを有すると判定される場合がある。そのような例では、ＯＣＲ動作の倍率が増大され得る。

[0080]調整されるべき特定のＯＣＲパラメータを正確に示すためにエンティティ－値ペアの抽出についての正確な測定値を提供することに加えて、ＮＬＰ出力に基づいてＯＣＲパラメータを調整することは、他のシナリオでは有利であり得る。たとえば、非標準のコード及びフレーズを含む場合がある特定の医師による注記を画像ファイルが含むケースでは、テキスト認識精度を特定するためにＯＣＲ出力が標準化フレーズと比較された場合、比較は、テキスト認識精度に関する間違った結論につながる可能性がある。たとえば、非標準のコード及びフレーズを含むテキスト文字列は、実際にはＯＣＲ動作がテキスト文字列を正しく抽出したとき、間違いとして誤ってフラグ付けされる可能性がある。一方、ＮＬＰモデルは、非標準のコード及びフレーズ、並びに標準化用語を認識するように訓練されているので、ＮＬＰの出力を使用してテキスト認識精度を特定することは、テキスト認識精度測定値がＯＣＲの出力内の非標準のコード及びフレーズの存在によってあまり影響されないことを保証することができる。

ＩＶ．後処理された病理報告データの例示的なアプリケーション
[0081]図７は、後処理された病理報告データ３０４及びメタデータファイル３１４の例示的なアプリケーションを示す。図７に示されたように、後処理された病理報告データ３０４は、図４Ｅの表示インターフェース３０５を含むことができる臨床医ポータル７０２に提供され得る。いくつかの例では、臨床医ポータル７０２は、所定の構造化形式で（たとえば、表、入力フォームの形式で）ユーザにエンティティ－値ペア（及び／又はＳＮＯＭＥＤ概念）を表示して、ポータルのユーザ（たとえば、臨床医、臨床スタッフ）が探している医療情報を効率的に識別することを可能にすることができる。別の例として、臨床医ポータル７０２はまた、元の病理報告の画像を表示することができ、テキスト文字列のうちのいくつか又はすべてはエンティティ－値ペア及び／もしくはＳＮＯＭＥＤ概念と置き換えられるか、又はテキスト文字列は強調表示され、エンティティ－値ペア／ＳＮＯＭＥＤ概念でタグ付けされる。臨床医ポータル７０２は、図４Ｅに記載されたように、メタデータファイル３１４内で示されたテキスト文字列のピクセル位置に基づいて、画像内のテキスト文字列の強調表示を実行することができる。

[0082]別の例として、後処理された病理報告データ３０４は、検索可能なデータベース７０４に提供され得、検索クエリに基づいて（標準化されているかされていない）エンティティ及びそれらの値がそこから取り出され得る。検索可能なデータベース並びに構造化医療データはまた、処理するために、臨床判断支援アプリケーション７０６、分析アプリケーション７０８などの様々なアプリケーションに対して利用可能にされ得る。たとえば、臨床判断支援アプリケーションは、臨床判断を支援するために、臨床判断に関係するエンティティ（たとえば、診断歴、処置歴、薬歴）及びそれらの値をデータベースから取り出し、エンティティを処理して出力を生成することができる。分析アプリケーションはまた、たとえば、多数の患者の病理報告から治療歴及び診断に関係するエンティティを取得し、分析を実行して医療提供及び看護の質における洞察を取得することができる。

Ｖ．方法
[0083]図８は、自動化された情報の抽出及び改良の方法８００を示す。方法８００は、たとえば、図３のシステム３００によって実行され得る。

[0084]ステップ８０２において、光学処理モジュール３０６は、病理報告を含む画像ファイル（たとえば、画像ファイル３０２）を受信する。画像ファイルは、たとえば、ＥＭＲ（電子医療記録）データベース、ＰＡＣＳ（画像保管通信システム）、デジタル病理学（ＤＰ）システム、ゲノムデータを含むＬＩＳ（実験室情報システム）、ＲＩＳ（放射線医学情報システム）、患者報告結果データベース、ウェアラブル及び／又はデジタル技術、並びにソーシャルメディアを含む、（たとえば、１つ又は複数の医療施設にある）様々な一次情報源から受信され得る。画像ファイルは、たとえば、ポータブルドキュメントフォーマット（ｐｄｆ）、又はビットマップ画像ファイル（ＢＭＰファイル）などの様々なフォーマットであり得、紙の形態の病理報告を走査することによって取得され得る。

[0085]ステップ８０４において、画像ファイルを受信した後、光学処理モジュール３０６は、画像認識動作を実行して、画像ファイルから入力テキスト文字列を抽出することができる。抽出は、画像ファイルからテキスト画像を識別することと、テキスト画像によって表されたテキストデータを生成することと、テキストデータを含む中間テキストファイル（たとえば、テキストファイル３１２）を生成することとを含む場合がある。画像認識動作は、たとえば、光学式文字認識（ＯＣＲ）又は光学式単語認識を含む場合がある。両方の動作において、光学処理モジュール３０６は、（たとえば、ダークカラーを有するピクセルのパターンを識別することによって）文字のピクセルパターンを抽出し、各ピクセルパターンを文字の事前定義されたピクセルパターンと比較し、比較に基づいて各ピクセルパターンがどの文字（又はどの単語／フレーズ）を表すかを判定することができる。光学処理モジュール３０６は、次いで、文字／単語／フレーズをテキストファイル３１２に記憶することができる。光学処理モジュール３０６は、左から右に行のピクセルパターンを抽出し処理するために、所定のパターン（たとえば、ラスタ走査）に従って画像ファイル３１２を通して走査し、行ごとに走査を繰り返すことができる。走査パターンに基づいて、光学処理モジュール３０６は、テキスト文字列のシーケンス（たとえば、文字、単語、フレーズ）を生成し、テキスト文字列のシーケンスをテキストファイル３１２に記憶することができる。

[0086]ステップ８０６において、エンティティ抽出モジュール３０８は、自然言語処理（ＮＬＰ）モデル（たとえば、ＮＬＰモデル３２８）を使用して、入力テキスト文字列からエンティティを識別することができ、各エンティティはラベル及び値を含む。

[0087]ステップ８０８において、エンティティ抽出モジュール３０８はまた、ＮＬＰモデルを使用して、入力テキスト文字列からエンティティの値を抽出することができる。具体的には、ＮＬＰモジデル３２８は、テキストファイル３１２からのテキストのシーケンスを処理し、テキスト文字列の特定のシーケンスを認識することに基づいて、シーケンスのテキストのサブセットがエンティティの値であると判断し、サブセット用のエンティティ－値ペアを特定することができる。上述されたように、ＮＬＰモデル３２８は、ノードを備えるグラフを含む。各ノードはテキスト文字列に対応する場合があり、アークを介して別のノードに接続され得る。ノード及びアークは、テキストのシーケンスを定義することができる。ノードはまた、階層に整理され、エンティティ－値ペア、コンテキストなどであり得る検出出力は、各階層から生成され得る。検出は、たとえば、テキスト文字列の入力シーケンスとノードによって表されたテキスト文字列との間の類似度に基づいてスコアを計算するパラメータ化された式に基づくことができ、所定のエンティティ－ペア及び／又はコンテキスト情報は、スコアに基づいて出力され得る。ＮＬＰモデル３２８は、シーケンスと（正確に又は所定の近接度まで）一致するグラフからのノードのシーケンスを検索することにより、テキスト文字列のシーケンスを処理することができる。識別されたシーケンスから、ＮＬＰモデル３２８は、エンティティ－値ペアを出力することができる。いくつかの例では、ＮＬＰモデル３２８は、ベースラインＮＬＰサブモデル４３０及び病理ＮＬＰサブモデル４４０を含む場合があり、ＮＬＰモデル３２８は、図５Ａ～図５Ｄに記載されたように、２ステッププロセスで、最初に一般医療文書からのテキスト文字列シーケンスで、次いで病理報告からのテキスト文字列シーケンスで訓練され得る。

[0088]いくつかの例では、画像認識動作のパラメータはまた、ＮＬＰモデル３２８の出力の精度に基づいて調整され得る。具体的には、図６に記載されたように、画像処理モジュール３０６における画像認識動作は、パラメータ値の第１のセットに基づいて事前構成され得る。事前構成された画像認識動作は、テキスト文字列を抽出するために病理報告の画像に対して実行され得、テキスト文字列は、病理エンティティを抽出するためにＮＬＰに入力され得る。次いで、画像認識動作のパラメータは、ＮＬＰによる抽出精度に基づいて調整され得る。

[0089]ステップ８１０において、改良モジュール３１０は、エンティティ及び値を所定の用語にマッピングするマッピングテーブルを使用して、少なくともいくつかのエンティ
ティの値を対応する所定の用語に変換することができる。所定の用語は、ＳＮＯＭＥＤなどの世界共通規格に基づいて定義された標準用語を含むことができる。マッピングテーブルは、エンティティ－値ペアとＳＮＯＭＥＤ概念及び概念ＩＤなどの標準用語との間をマッピングすることを含むことができる用語マッピングデータベースに記憶されたデータに基づくことができる。エンティティ－値ペア及び関連付けられたコンテキストごとに、改良モジュール３１０は、用語マッピングデータベース３７０内の関連付けられたＳＮＯＭＥＤ概念及び概念ＩＤに対する検索を実行するこができる。

[0090]ステップ８１２において、改良モジュール３１０は、入力テキスト文字列から検出されたエンティティ及び対応する所定の用語を含む、後処理された病理報告を生成することができる。具体的には、改良モジュール３１０は、ＳＮＯＭＥＤ概念に対するマッピングを有するＮＬＰモデル３２８からの各エンティティ－値ペアをＳＮＯＭＥＤ概念と置き換え、後処理された病理報告テキストファイルにＳＮＯＭＥＤ概念を記憶することができる。いくつかの例では、エンティティ－値ペアはまた、後処理された病理報告テキストファイルのデータサイズを低減するためにＳＮＯＭＥＤ概念ＩＤと置き換えられ得る。次いで、後処理された病理報告は、臨床医ポータルに表示するため、検索可能なデータベースに記憶されるため、臨床判断支援アプリケーション、分析アプリケーションなどによって処理されるためなどの、様々なアプリケーションを支援するために提供され得る。

ＶＩ．コンピュータシステム
[0091]本明細書で言及されたコンピュータシステムのいずれも、任意の適切な数のサブシステムを利用することができる。そのようなサブシステムの例が、コンピュータシステム１０において図９に示されている。いくつかの実施形態では、コンピュータシステムは単一のコンピュータ装置を含み、サブシステムはコンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部構成要素を有する複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップコンピュータ及びラップトップコンピュータ、タブレット、携帯電話、並びに他のモバイルデバイスを含むことができる。いくつかの実施形態では、開示された技法を実施するために、クラウド基盤（たとえば、ＡｍａｚｏｎＷｅｂＳｅｒｖｉｃｅｓ）、グラフィカル処理装置（ＧＰＵ）などが使用され得る。

[0092]図９に示されたサブシステムは、システムバス７５を介して相互接続される。プリンタ７４、キーボード７８、ストレージデバイス７９、ディスプレイアダプタ８２に結合されたモニタ７６などのさらなるサブシステムが図示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器及び入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（たとえば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））などの当技術分野で知られている任意の数の手段によってコンピュータシステムに結合され得る。たとえば、Ｉ／Ｏポート７７又は外部インターフェース８１（たとえば、Ｅｔｈｅｒｎｅｔ、Ｗｉ－Ｆｉ）は、インターネットなどのワイドエリアネットワーク、マウス入力デバイス、又はスキャナにコンピュータシステム１０を接続するために使用され得る。システムバス７５を介する相互接続により、中央プロセッサ７３が、各サブシステムと通信し、システムメモリ７２又はストレージデバイス７９（たとえば、ハードドライブなどの固定ディスク、もしくは光ディスク）からの複数の命令の実行、並びにサブシステム間の情報の交換を制御することが可能になる。システムメモリ７２及び／又はストレージデバイス７９は、コンピュータ可読媒体を具現化することができる。別のサブシステムは、カメラ、マイクロフォン、加速度計などのデータ収集デバイス８５である。本明細書で言及されたデータのいずれも、１つの構成要素から別の構成要素に出力され得、ユーザに出力され得る。

[0093]コンピュータシステムは、たとえば、外部インターフェース８１又は内部インターフェースによって一緒に接続された、複数の同じ構成要素又はサブシステムを含むことができる。いくつかの実施形態では、コンピュータシステム、サブシステム、又は装置は、ネットワークを介して通信することができる。そのような場合には、１つのコンピュータはクライアントと見なされ得、別のコンピュータはサーバと見なされ得、各々は同じコンピュータシステムの一部であり得る。クライアント及びサーバは、各々、複数のシステム、サブシステム、又は構成要素を含むことができる。

[0094]実施形態の態様は、ハードウェア（たとえば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、かつ／又は、モジュール方式もしくは統合方式で概してプログラム可能なプロセッサを有するコンピュータソフトウェアを使用して、制御ロジックの形態で実装され得る。本明細書で使用されるプロセッサには、シングルコアプロセッサ、同じ統合チップ上のマルチコアプロセッサ、又は単一の回路基板上の、もしくはネットワーク化された複数の処理ユニットが含まれる。本明細書で提供された開示及び教示に基づいて、当業者は、ハードウェア及びハードウェアとソフトウェアの組合せを使用して本発明の実施形態を実装する他のやり方及び／又は方法を知り、諒解されよう。

[0095]本出願に記載されたソフトウェア構成要素又は機能のいずれも、たとえば、従来の技法又はオブジェクト指向の技法を使用する、たとえば、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの、又はＰｅｒｌもしくはＰｙｔｈｏｎなどのスクリプト言語などの、任意の適切なコンピュータ言語を使用して、プロセッサによって実行されるべきソフトウェアコードとして実装されてもよい。ソフトウェアコードは、記憶及び／又は伝送用のコンピュータ可読媒体上に一連の命令又はコマンドとして記憶されてもよい。適切な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ（ＲＡＭ）、読取り専用メモリ（ＲＯＭ）、ハードドライブもしくはフロッピーディスクなどの磁気媒体、又はコンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）などの光学媒体、フラッシュメモリなどを含むことができる。コンピュータ可読媒体は、そのようなストレージデバイス又は伝送デバイスの任意の組合せであってもよい。

[0096]そのようなプログラムはまた、インターネットを含む様々なプロトコルに準拠する有線、光、及び／又はワイヤレスのネットワークを介する伝送向けに適合された搬送波信号を使用して、符号化され伝送されてもよい。そのため、コンピュータ可読媒体は、そのようなプログラムで符号化されたデータ信号を使用して作成されてもよい。プログラムコードで符号化されたコンピュータ可読媒体は、互換性があるデバイスとパッケージ化されるか、又は（たとえば、インターネットダウンロードを介して）他のデバイスから別々に提供されてもよい。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品（たとえば、ハードドライブ、ＣＤ、又はコンピュータシステム全体）上又はその中に存在してもよく、システム又はネットワーク内の異なるコンピュータ製品上又はその中に存在してもよい。コンピュータシステムは、本明細書で言及された結果のうちのいずれかをユーザに提供するために、モニタ、プリンタ、又は他の適切なディスプレイを含んでもよい。

[0097]本明細書に記載された方法のいずれも、ステップを実行するように構成され得る、１つ又は複数のプロセッサを含むコンピュータシステムで、全体的又は部分的に実行されてもよい。したがって、実施形態は、本明細書に記載された方法のいずれかのステップを実行するように構成されたコンピュータシステムを対象にすることができ、潜在的に、異なる構成要素はそれぞれのステップ又はステップのそれぞれのグループを実行する。番号が付けられたステップとして提示されているが、本明細書の方法のステップは、同時に、又は異なる順序で実行され得る。さらに、これらのステップの部分は、他の方法からの他のステップの部分で使用されてもよい。また、ステップのすべて又は部分は任意選択であってもよい。さらに、方法のうちのいずれかのステップのいずれも、これらのステップを実行するためのモジュール、ユニット、回路、又は他の手段で実行され得る。

[0098]特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨及び範囲から逸脱することなく、任意の適切な方式で組み合わされてもよい。しかしながら、本発明の他の実施形態は、個々の態様に関係する具体的な実施形態、又はこれらの個々の態様の具体的な組合せを対象としてもよい。

[0099]本発明の例示的な実施形態の上記の説明は、例示及び説明の目的で提示されている。網羅的であること、又は記載されたまさにその形態に本発明を限定することを意図するものではなく、上記の教示に照らして多くの改善又は変形が実現可能である。

[0100]「ａ」、「ａｎ」、又は「ｔｈｅ」の記述は、特段の記載がない限り、「１つ又は複数」を意味するものである。「ｏｒ」の使用は、特段の記載がない限り、「排他的ｏｒ」ではなく、「包含的ｏｒ」を意味するものである。「第１の」構成要素に対する参照は、必ずしも、第２の構成要素が提供されることを必要としない。その上、「第１の」又は「第２の」構成要素に対する参照は、明示的に記載されていない限り、参照された構成要素を特定の位置に限定しない。「基づく」という用語は、「少なくとも部分的に基づく」を意味するものである。

[0101]本明細書で言及されたすべての特許、特許出願、公報、及び明細書は、すべての目的でそれらの全体が参照によって組み込まれている。従来技術であると認められたものはない。

Claims

コンピュータシステムによって実行される方法であって、
病理報告を含む画像ファイルを受信するステップと、
入力テキスト文字列を抽出するために前記画像ファイルに対して画像認識動作を実行するステップと、
自然言語処理（ＮＬＰ）モデルを使用して、前記入力テキスト文字列からエンティティを検出するステップであって、各エンティティがラベル及び値を含む、ステップと、
前記ＮＬＰモデルを使用して、前記入力テキスト文字列から前記エンティティの前記値を抽出するステップと、
エンティティ及び値を所定の用語にマッピングするマッピングテーブルに基づいて、少なくともいくつかの前記エンティティの前記値を対応する前記所定の用語に変換するステップと、
前記入力テキスト文字列から検出された前記エンティティ及び対応する前記所定の用語を含む、後処理された病理報告を生成するステップと
を含む、方法。
前記画像認識動作が、光学式文字認識（ＯＣＲ）プロセス又は光学式単語認識プロセスのうちの少なくとも１つを含む、請求項２に記載の方法。
前記画像ファイルが、ポータブルドキュメントフォーマット（ｐｄｆ）フォーマットである、請求項１に記載の方法。
前記ＮＬＰモデルが、ノード及びエッジを備えるグラフを含み、
各ノードがテキスト文字列に対応し、
２つのノード間のエッジが、前記２つのノードによって表された２つのテキスト文字列間の順序関係を示し、
前記エンティティを検出するステップが、前記入力テキスト文字列のテキスト文字列のシーケンスを前記グラフ内で表されたテキスト文字列のシーケンスと照合するステップを含む、
請求項１に記載の方法。
エンティティの名前でタグ付けされた訓練テキスト文字列に基づいて、前記グラフを更新するステップをさらに含む、請求項４に記載の方法。
前記ＮＬＰモデルが、ベースラインＮＬＰサブモデル及び病理ＮＬＰサブモデルを備え、
前記ベースラインＮＬＰサブモデルが、一般医療文書からの第１の訓練テキスト文字列に基づいて訓練され、
前記病理ＮＬＰサブモデルが、病理報告からの第２の訓練テキスト文字列に基づいて訓練される、
請求項４に記載の方法。
前記ＮＬＰモデルによる前記入力テキスト文字列から前記エンティティを認識する精度を特定するステップと、
前記精度に基づいて、前記入力テキスト文字列に基づいて前記訓練テキスト文字列を更新するステップと、
前記更新された訓練テキスト文字列に基づいて前記グラフを更新するステップと
をさらに含む、請求項５に記載の方法。
前記入力テキストの隣接するテキスト文字列のセットから複数のエンティティが認識される、請求項１に記載の方法。
前記入力テキスト文字列が第１の入力テキスト文字列であり、
前記画像認識動作のパラメータが、前記ＮＬＰモデルによる第２の入力テキスト文字列からエンティティを認識する精度に基づいて決定され、前記第２の入力テキスト文字列が、前記パラメータを使用して前記画像認識動作によって生成される、
請求項１に記載の方法。
前記標準用語が国際医療用語集（ＳＮＯＭＥＤ）規格に基づき、前記標準用語が、ＳＮＯＭＥＤ概念又はＳＮＯＭＥＤ概念識別子（ＩＤ）
のうちの少なくとも１つを含む、請求項１に記載の方法。
前記マッピングが複数のエンティティに基づく、請求項１０に記載の方法。
臨床判断支援ツール、医療従事者ポータル、又は検索可能な医療データベースのうちの少なくとも１つに、構造化医療データを提供するステップをさらに含む、請求項１に記載の方法。
前記画像認識動作が、前記画像ファイル内の前記入力テキスト文字列の画像位置を出力し、
前記方法が、
表示インターフェース内で、前記画像ファイルを表示するステップと、
前記画像位置に基づいて、エンティティが検出された前記入力テキスト文字列のサブセットの上に強調マークアップを表示するステップと、
前記強調マークアップのうちの少なくとも１つの選択を検出するステップと、
前記選択を検出するステップに応答して、前記選択された強調マーキングの上にポップアップウィンドウを表示するステップであって、前記ポップアップウィンドウが、前記選択された強調マーキングの前記入力テキスト文字列から検出された前記エンティティの前記標準用語を含む、ステップと
をさらに含む、請求項１２に記載の方法。
前記画像ファイルが、ＥＭＲ（電子医療記録）データベース、ＰＡＣＳ（画像保管通信システム）、デジタル病理学（ＤＰ）システム、ＬＩＳ（実験室情報システム）、ＲＩＳ（放射線医学情報システム）、患者報告結果データベース、ウェアラブルデバイス、又はソーシャルメディアウェブサイトのうちの少なくとも１つを含む、１つ又は複数の情報源から受信される、請求項１に記載の方法。
上記の方法のうちのいずれかの動作を実行するようにコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体を備える、コンピュータ製品。
請求項１５に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための１つ又は複数のプロセッサと
を備える、システム。
上記の方法のうちのいずれかを実行するための手段を備える、システム。
上記の方法のうちのいずれかを実行するように構成された、システム。
上記の方法のうちのいずれかのステップをそれぞれ実行するモジュールを備える、システム。