JP2023513886A

JP2023513886A - 非構造化文書から構造化文書を生成する方法、システム、プログラム

Info

Publication number: JP2023513886A
Application number: JP2022546714A
Authority: JP
Inventors: シランジムーシー、ジョシラクシュミ; リッティク、レイ; ワン、フイ; ランド、ジョナサン; キャリア、スコット
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-02-07
Filing date: 2021-01-08
Publication date: 2023-04-04
Also published as: GB2607833A; GB202213058D0; WO2021156684A1; CN114945911A; US11423042B2; US20210248153A1

Abstract

テキスト・コンテンツから情報を抽出するための機械学習モデルを生成する技術を提供する。関連するテキスト文字列を含む複数の文書を含んでいるトレーニング・データ・セットを受信し、トレーニング・データ・セットから関連性モデルが生成される。関連性モデルは、複数の文書から抽出された複数の単語に対して関連性スコアを生成するように構成され、複数の文書から抽出された複数の単語間の関係を示す知識グラフ・モデルがトレーニング・データ・セットから生成される。関連性モデルおよび知識グラフ・モデルが、知識グラフ・モデルからの複数のノードおよび接続されたノード間のエッジに関連付けられた重みを含んでいる補完的モデルに集約され、これらの重みは関連性モデルから生成された関連性スコアを含み、補完的モデルは文書を分析することにおいて使用するためにデプロイされる。

Description

本開示の態様は、自然言語処理技術を使用して非構造化文書から内容を抽出することに関連しており、より詳細には、非構造化文書から構造化文書を生成し、自然言語処理技術を使用して構造化文書を処理するための技術に関連している。

多くの現実世界の動作は、複雑な非常に長い文書または文書のセットに関して定義される。これらの文書は、一般に、構造化されていないか、または半構造化されていることがあり、関連情報が、テキスト・コンテンツの段落、あるいは類似する情報を一緒にグループ化する表またはその他の組織的構成に含まれる。例えば、医療の状況では、雇用者がさまざまな健康保険制度を従業員に提供することがあり、さまざまな健康保険制度が、表またはその他の組織的構成で、従業員に提供される健康保険制度のさまざまな特徴を識別する制度要約文書（summary plan document）に要約されることがある。この制度要約文書は、従業員に提供されるすべての制度または従業員に提供される特定の制度に適用可能であってよい追加情報をさらに含むことがあり、この追加情報は、構造化されていないテキスト（例えば、段落、箇条書きのリストなど）で維持されることがある。別の例では、退職金制度が、表形式のテキストおよび構造化されていないテキストの組み合わせで、従業員に提供される種々の退職金制度に関する関連情報の概要を説明する制度要約文書に要約されることもある。さらなる例では、産業環境内のさまざまな文書が、サイズ、材料、許容誤差などに加えて、構造化されていないテキストに含まれるさらに詳細な情報などの、製造される物理的商品に関する要件の要約を含むことがある。

一般に、前述の文書は、かなりの量の領域固有の情報を含むことがある。例えば、医療制度要約文書は、自己負担金情報、ネットワーク内／ネットワーク外の定義などの、健康保険制度の領域に固有の情報を含むことがある。退職金制度要約文書は、参加の最低年齢要件、受給権情報などの、退職金制度の領域に固有の情報を含むことがある。これらの文書はかなりの量の領域固有の情報を含むが、これらの文書は、解釈して情報を抽出するのが困難であることがある。

本開示の１つの態様は、非構造化文書から情報を抽出するための方法を提供する。この方法は、通常、情報が抽出される元になるソース文書を受信することを含む。ソース文書が、テキスト文書ファイルに変換される。領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報が抽出される。抽出された情報が、ソース文書内の位置情報にリンクされ、構造化文書が生成される。構造化文書は、通常、抽出された情報およびリンクされた位置情報を含む。

本開示の別の態様は、非構造化文書から情報を抽出するためのシステムを提供する。このシステムは、通常、プロセッサおよび命令を含んでいるメモリを含み、これらの命令は、プロセッサによって実行された場合、非構造化文書から情報を抽出するための動作を実行する。この動作は、通常、情報が抽出される元になるソース文書を受信することを含む。ソース文書が、テキスト文書ファイルに変換される。領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報が抽出される。抽出された情報が、ソース文書内の位置情報にリンクされ、構造化文書が生成される。構造化文書は、通常、抽出された情報およびリンクされた位置情報を含む。

本開示のさらに別の態様は、命令が格納されているコンピュータ可読媒体を提供し、これらの命令は、プロセッサによって実行された場合、非構造化文書から情報を抽出するための動作を実行する。この動作は、通常、情報が抽出される元になるソース文書を受信することを含む。ソース文書が、テキスト文書ファイルに変換される。領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報が抽出される。抽出された情報が、ソース文書内の位置情報にリンクされ、構造化文書が生成される。構造化文書は、通常、抽出された情報およびリンクされた位置情報を含む。

本開示の１つの態様は、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための方法を提供する。この方法は、通常、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる構造化文書とを受信することを含む。非構造化文書が第１のペインに描画され、構造化文書のグラフィカルな描画が第２のペインに描画される。グラフィカルな描画は、通常、構造化文書からの内容が階層的形式で表示される構造であってよい。構造化文書内の各要素は、構造化文書に含まれている位置情報に基づいて、描画された非構造化文書にリンクされる。

本開示の別の態様は、システムを提供する。このシステムは、通常、プロセッサおよび命令が格納されているメモリを含み、これらの命令は、プロセッサによって実行された場合、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための動作を実行する。この方法は、通常、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる構造化文書とを受信することを含む。非構造化文書が第１のペインに描画され、構造化文書のグラフィカルな描画が第２のペインに描画される。グラフィカルな描画は、通常、構造化文書からの内容が階層的形式で表示される構造であってよい。構造化文書内の各要素は、構造化文書に含まれている位置情報に基づいて、描画された非構造化文書にリンクされる。

本開示のさらに別の態様は、命令が格納されているコンピュータ可読媒体を提供し、これらの命令は、プロセッサによって実行された場合、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための動作を実行する。この動作は、通常、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる構造化文書とを受信することを含む。非構造化文書が第１のペインに描画され、構造化文書のグラフィカルな描画が第２のペインに描画される。グラフィカルな描画は、通常、構造化文書からの内容が階層的形式で表示される構造であってよい。構造化文書内の各要素は、構造化文書に含まれている位置情報に基づいて、描画された非構造化文書にリンクされる。

１つの実施形態に従って、非構造化文書から生成された構造化文書、ならびに非構造化文書および構造化文書に対する自然言語処理を使用して、非構造化文書から情報が抽出される、例示的なネットワーク・コンピューティング環境を示す図である。１つの実施形態に従って、構造化文書および自然言語処理を使用して非構造化文書から情報を抽出するための例示的な動作を示す図である。１つの実施形態に従って、非構造化文書から抽出された情報をグラフィカル・ユーザ・インターフェイスに提示するための例示的な動作を示す図である。１つの実施形態に従って、非構造化文書および非構造化文書から抽出された情報を含んでいる構造化文書が表示される例示的なグラフィカル・ユーザ・インターフェイスを示す図である。１つの実施形態に従って、非構造化文書から抽出された情報に関して視覚効果が描画される例示的なグラフィカル・ユーザ・インターフェイスを示す図である。本開示の態様が実行される例示的なシステムを示す図である。

非構造化文書は、通常、情報が、基礎になる構造または文書に格納された情報間の関係によって決定されない自由形式の方法で格納される文書である。制度要約説明書、技術仕様書などの構造化されていない領域固有の文書は、通常、理解することが困難であり、かなりの量の領域固有の情報を含んでいる大量の文書である。これらの領域固有の文書から情報を抽出するために、文書が、画像に基づく形式（例えば、ポータブル・ドキュメント・フォーマット）からプレーンテキスト・ファイルに変換されることがあり、文書から関連情報を抽出するために、自然言語処理エンジンまたはその他の分析エンジンあるいはその両方によってプレーンテキスト・ファイルが処理されることがある。しかし、プレーンテキスト・ファイルへの文書の変換は、一部の情報の損失をもたらすことがある。例えば、表内のセルおよび各セル内の関連付けられたテキストの位置などの、文書内の内容に関連することがある位置情報は、画像に基づく形式の文書のプレーンテキスト・ファイルへの変換において、失われることがある。位置情報およびその他の関連情報が、画像に基づく形式からプレーンテキスト・ファイルへの文書の変換において失われることがあるため、プレーンテキスト・ファイルから抽出された情報を元の文書に戻るようにマッピングすること、および文書をトラバースするために使用されることができるナビゲート可能な構造を生成することが困難であることがある。

本開示の態様は、関連情報を抽出するために自然言語処理エンジンおよびその他の分析サービスによって分析される構造化文書を生成することによって、非構造化文書から情報を抽出するための技術を提供する。下でさらに詳細に説明されるように、非構造化文書は、非構造化文書内のテキスト・コンテンツに関連付けられたコンテキスト情報を維持する構造化文書に変換されてよい。コンテキスト情報は、抽出された関連するテキストを非構造化文書内のそのようなテキストの位置にリンクする構造化文書を生成するために、関連するテキストの識別情報と共に、自然言語処理またはその他の分析エンジンあるいはその両方によって使用されることができる。本開示の態様は、構造化文書および構造化文書から抽出された情報を使用して、非構造化文書を描画してナビゲートするための技術をさらに提供する。非構造化文書は、構造化文書から抽出された情報から生成されたナビゲーション構造の横に描画されてよく、ナビゲーション構造のユーザの操作は、非構造化文書内のさまざまな要素の位置へのナビゲーションを可能にしてよい。ユーザは、そのように実行することによって、文書内の関連情報の位置に素早くナビゲートすることができ、非構造化文書から情報が正しく抽出されたということを検証することができる。

図１は、本開示の実施形態に従って、非構造化文書から生成された構造化文書を使用して、非構造化文書から情報が抽出される、例示的なネットワーク・コンピューティング環境を示している。図に示されているように、コンピューティング環境１００は、クライアント・デバイス１２０、アプリケーション・サーバ１３０、文書アナライザ１４０、トレーニング・データ・ストア１５０、およびオントロジー・データ・ストア１６０を含んでいる。

クライアント・デバイス１２０は、通常、コンピューティング・デバイスを代表しており、このコンピューティング・デバイス上で、ユーザは、アプリケーション・サーバ１３０上で実行されているサービスにアクセスし、非構造化文書を表示してナビゲートすることができ、文書アナライザ１４０上で実行されているサービスにアクセスし、非構造化文書からの情報の抽出を開始することができる。図に示されているように、クライアント・デバイスは、ソフトウェア・アプリケーション１２２を含んでいる。

ソフトウェア・アプリケーション１２２は、通常、インターフェイスを提供し、このインターフェイスを介してユーザは、文書アナライザ１４０での情報抽出動作を呼び出し、アプリケーション・サーバ１３０上で実行されているサービスを介して非構造化文書を表示することができる。一部の実施形態では、ソフトウェア・アプリケーション１２２は、ユーザがアプリケーション・サーバ１３０上でリモートにホストされているアプリケーションと情報をやりとりできるようにする、Ｗｅｂブラウザまたはその他のアプリケーションであってよい。通常、文書アナライザ１４０での情報抽出動作を呼び出すために、ソフトウェア・アプリケーション１２２は、非構造化文書から構造化文書を生成するプロセスを開始し、構造化文書から情報を抽出するためのコマンドを、文書アナライザ１４０に送信することができる。通常、コマンドは、分析される文書、または分析される文書が格納されている位置を識別する情報を含んでよく、文書は、情報が抽出される元になる非構造化文書（例えば、画像に基づく形式の文書）であってよい。

ソフトウェア・アプリケーション１２２は、インターフェイスをさらに提供してよく、このインターフェイスを介して、非構造化文書および非構造化文書の分析から生成されたナビゲーション・ペインが表示されてよい。ナビゲーション・ペインの内容は、非構造化文書内の抽出された情報の位置への１つまたは複数のリンクを含んでよく、ユーザがナビゲーション・ペイン内のリンクを選択したときに、選択されたリンクに関連付けられた位置にある非構造化文書の部分が、第１のペインに表示されてよい。ソフトウェア・アプリケーション１２２は、メカニズムを提供してもよく、このメカニズムを介してユーザは、ナビゲーション・ペインに表示された抽出された情報を修正し、ナビゲーション・ペインに含まれる追加の関連情報を識別することができる。抽出された情報および抽出された情報の位置を指定して、修正された情報および識別された追加情報が、（例えば、文書データ・ストア１５０に格納された）構造化文書に追加されてよく、更新済みの構造化文書が、情報が抽出される元になった構造化されていないソース文書の将来の表示において使用されてよい。

アプリケーション・サーバ１３０は、通常、文書ビューア１３２を含んでいる。文書ビューア１３２は、通常、インターフェイスを提供し、このインターフェイスを介してユーザは、非構造化文書を表示し、非構造化文書をナビゲートすることができる。このインターフェイスは、非構造化文書が描画される第１のペイン、およびナビゲーション構造が描画される第２のペインを含んでよい。第１のペインは文書ビューアを統合してもよく、文書ビューアは、文書の指定された部分にナビゲートするためのコマンドに応答して、非構造化文書の指定された部分にスクロールする。文書の指定された部分にナビゲートするためのコマンドは、例えば、非構造化文書内の指定されたアンカー（例えば、アンカー・タグを含んでいるユニフォーム・リソース・ロケータ（ＵＲＬ：uniform resource locator））にナビゲートするためのコマンド、非構造化文書の特定のページまたはセクションにナビゲートするためのコマンドなどを含んでよい。

第２のペインに描画されたナビゲーション構造は、例えば、ナビゲーション・ツリーまたはその他の階層構造であってよく、ナビゲーション構造は、ナビゲーション・ツリーに表示されたリンクに関連付けられた情報を含んでいる非構造化文書の指定された部分にリンクしている。下でさらに詳細に説明されるように、ナビゲーション構造内の各リンクは、リンクに関連付けられた情報が見つかる、非構造化文書内の位置を示す境界ボックスに関連付けられてよい。境界ボックスは、例えば、非構造化文書から生成された１つまたは複数の中間文書から、非構造化文書自体に向かって、後方に機能することによって決定され得る。例えば、境界ボックスは、非構造化文書から情報を抽出するために文書アナライザ１４０によって使用されたプレーンテキストの中間文書内の文字のセットを最初に識別することによって、生成され得る。文字のセットは、例えば、中間文書内のテキスト要素（例えば、段落、表内のセルなど）の開始文字からのオフセットとして定義されてよく、１つの中間文書内の識別されたオフセット情報が、非構造化文書から生成された他の中間文書内の位置情報にリンクされてよい。この位置情報は、例えば、表内のセルの名前、文書内の名前付きアンカー、非構造化文書のページ上の絶対位置情報または相対位置情報（例えば、文書内のページの仮定された解像度を前提とする絶対ピクセル位置、または文書内のページの高さおよび幅のパーセンテージとして相対ピクセル位置）などを含んでよい。構造化文書および１つまたは複数の中間文書内の位置情報に基づいて、抽出された情報の位置が、非構造化文書内で識別されてよく、抽出された情報の位置に関して、１つまたは複数の視覚効果が描画されてよい。例えば、ナビゲーション構造内のリンクの選択時に、リンクに関連付けられた内容が、リンクに関連付けられた内容に固有の色を使用して強調表示されてよい。別の例では、色付きのボックスが、リンクに関連付けられた内容の周囲に描画されてよい。

一部の実施形態では、ナビゲーション構造は、非構造化文書から抽出された内容を修正するためのメカニズムをユーザに提供してよい。テキスト認識システム（例えば、光学式文字認識システム）は、種々の理由（例えば、画質、文書の解像度など）のために、画像内のテキストを正しいテキスト・コンテンツに常に正確に変換するとは限らないため、文書から抽出されたテキストは、正確でないことがある。したがって、検証プロセスでは、ユーザは、抽出された情報がリンクされている位置で文書を調べることを許可されてよく、抽出された情報が不正確である場合、ユーザは手動で、マシンによって抽出された情報を正確なデータで上書きすることができる。正確なデータは、将来使用するために、非構造化文書から抽出されたデータを格納している構造化文書に書き込まれてよい。

一部の実施形態では、文書アナライザ１４０は、非構造化文書から、関連するデータのすべてを抽出しないことがある。例えば、文書アナライザ１４０は、非構造化文書の全体を分析する前にタイムアウトすることがあり、または分析中に、文書の内容が単に見落とされることがある。ユーザが非構造化文書を表示している間に、ユーザは、非構造化文書内の関連する内容を選択してよい。文書ビューア１３２は、非構造化文書の選択された部分を構文解析し、選択されたテキスト・コンテンツおよび選択された部分の位置を識別してよい。非構造化文書の識別された部分に基づいて、文書ビューア１３２は、文書ビューア１３２のユーザによって関連すると見なされた指定された情報への１つまたは複数の参照を、１つまたは複数の構造化テキスト要素に含めるように、情報を構造化文書に追加することができる。一部の実施形態では、文書ビューア１３２は、１つまたは複数の中間文書を検索し、非構造化文書の識別された部分およびそこから抽出されたテキストに関連付けるための中間文書内の他の位置ポインタを識別し、識別された位置ポインタを、識別された位置ポインタに関連付けられた中間文書の識別情報と共に、構造化文書に書き込んでよい。

文書アナライザ１４０は、通常、分析用の非構造化文書を受信し、自然言語処理エンジンおよび領域固有のオントロジー（例えば、オントロジー１６２_１～１６２_ｎのうちの１つまたは複数）を使用して、非構造化文書から構造化文書に情報を抽出する。領域固有のオントロジーは、文書アナライザ１４０によって分析される文書の種類に基づいて、先験的に定義されてよい。文書アナライザ１４０が、特定の領域内の文書（例えば、医療制度要約文書、退職金制度の文書など）から情報を抽出するように構成される場合、領域固有のオントロジーは、文書アナライザ１４０内にハードコードされてよい。文書アナライザ１４０が、さまざまな領域からの非構造化文書を分析するために使用されることができる汎用文書アナライザである場合、文書アナライザ１４０は、ユーザ入力（例えば、文書アナライザ１４０に提供される文書の種類の明示的な指示）に基づいて、または文書内の主要語に基づいて文書の領域を識別するための非構造化文書の自然言語分析に基づいて、使用する領域固有のオントロジーを決定することができる（例えば、「入院」または「医学」のような単語は、医療の文書領域に関連付けられてよく、一方、「退職金」または「最低分配金」のような単語は、退職の文書領域に関連付けられてよい）。図に示されているように、文書アナライザ１４０は、文書コンバータ１４２および構造化文書生成器１４４を含んでいる。

文書コンバータ１４２は、分析のために受信された非構造化文書から１つまたは複数の中間文書を生成する。非構造化文書から１つまたは複数の中間文書を生成するために、文書コンバータ１４２は、光学式文字認識エンジンまたはその他のテキスト認識エンジンを使用して、最初に非構造化文書をプレーンテキスト・ファイルに変換することができる。光学式文字認識エンジンは、文書コンバータ１４２と一体であるか、または入力文書からプレーンテキスト・ファイルを生成するための要求に応答してプレーンテキスト・ファイルを返すリモート・サービスと一体であってよい。プレーンテキスト・ファイルは、非構造化文書から情報を抽出することにおいて使用するために文書コンバータ１４２によって生成される複数の中間文書のうちの１番目であってよい。光学式文字認識エンジンの出力は、テキスト・コンテンツが非構造化文書内にある位置を示す１つまたは複数の注釈を含んでいるプレーンテキスト・ファイルであってよい。例えば、光学式文字認識エンジンは、１つまたは複数のテキスト要素を含むプレーンテキスト・ファイルを生成してよく、プレーンテキスト・ファイル内の各テキスト要素は、各テキスト要素が非構造化文書内のどこにあるかを識別する情報を含んでよい。一部の実施形態では、テキスト要素に関連付けられた非構造化文書内の位置を識別する情報は、例えば、非構造化文書内の書式設定情報に基づいて、光学式文字認識エンジンによって生成された一意の識別子であってよい。例えば、活字書体または活字の書式設定がセクションの区切りを示す位置、文書内のページの区切りが存在する位置などの、位置マーカーを生成する既定のルールに基づいて、新しい位置インジケータが追加されてよい。

光学式文字認識エンジンによって非構造化文書を処理することから得られるプレーンテキスト・ファイルは、非構造化文書のハイパーテキスト・マークアップ言語（ＨＴＭＬ：Hypertext Markup Language）表現であってよい。ＨＴＭＬ表現内の各テキスト要素は、非構造化文書のテキスト要素の位置に関連付けられた位置情報を含んでよい。この位置情報は、例えば、非構造化文書から抽出されるテキストが抽出された、非構造化文書の座標系内の領域であってよい。一般に、プレーンテキスト・ファイルは、非構造化文書から構文解析された、表またはその他の組織的構造からのテキスト・コンテンツを含んでいる構造化テキストを含んでよい。ＪＳＯＮ（Java（Ｒ）script Object Notation）形式で書式設定される構造化テキストは、表の列ヘッダー、行ヘッダー、およびセルの内容を格納することによって、表から抽出されたテキストの表形式を維持してよい。ＨＴＭＬ表現内の位置情報は、ＨＴＭＬ文字列内の抽出されたテキストの開始オフセットおよび終了オフセットによって表され得る。例えば、インデックス０～（ｉ－１）を有するｉ個の文字の配列として表されるＨＴＭＬ文字列を前提として、文字列は、文字列内の開始文字からの正のオフセットとして、または文字列内のｉ－１番目の文字からの負のオフセットとして、配列内の開始インデックスおよび終了インデックスによって表され得る。

プレーンテキスト・ファイルは、１つまたは複数のテキスト要素を構造化形式で中間文書に追加するために、第１の中間文書にさらに処理されてよい。これらのテキスト要素は、例えば、プレーンテキスト文書内の表にまだ含まれていないテキスト要素を含んでよい。テキストは、一連の平坦なテキスト要素に連結されてよく、各テキスト要素は、プレーンテキスト・ファイル内の内容に関するテキスト位置の配列内の位置に関連付けられてよい。通常、位置情報は、非構造化文書内の境界ボックスの座標およびプレーンテキスト・ファイル内の文字列の文字のオフセットを含んでよい。

第１の中間文書は、構造化テキスト構成に格納された表形式の内容を再編成するために、処理されてよい。一般に、構造化テキストは、文書の一部に含まれる内容に関する情報を示す、文書に含まれている行ヘッダー、セクション・ヘッダー、およびその他の情報ヘッダーの情報を追加するように再編成されてよい。

最後に、第１の中間文書が、平坦なテキスト要素を、表の内容を含んでいる構造化テキスト構成の本体のセルに追加する第２の中間文書に処理されてよい。セクション・ヘッダー、行ヘッダー、列ヘッダー、および本体のセルのテキストが、一連の平坦なテキスト要素に連結されてよい。セクション・ヘッダー、行ヘッダー、列ヘッダー、および本体のセルのテキストを平坦なテキスト要素に連結することによって生成された平坦なテキスト要素ごとに、位置データが格納されてよい。前述したように、位置情報は、非構造化文書内の境界ボックスの座標およびプレーンテキスト・ファイル内の文字列の文字のオフセットを含んでよい。

構造化文書生成器１４４は、文書コンバータ１４２によって生成された中間文書を使用して、非構造化文書内の関連情報を含んでいる構造化文書を生成する。通常、非構造化文書内の関連情報を識別するために、構造化文書生成器１４４は、領域固有の情報のコーパスに対してトレーニングされた自然言語処理エンジンを使用して、文書コンバータ１４２によって生成された中間文書を処理することができる。例えば、医療制度要約文書から情報を抽出するために使用される構造化文書生成器１４４は、他の医療制度説明書からの関連情報を認識するようにトレーニングされた自然言語処理エンジンを使用することができ、退職金制度の文書から情報を抽出するために使用される構造化文書生成器１４４は、他の退職金制度の文書からの関連情報を認識するようにトレーニングされた自然言語処理エンジンを使用することができる、などである。自然言語処理エンジンは、文書内の特定の領域固有の概念間の関係を識別する領域固有のオントロジーに関連付けられてよい。例えば、医療制度要約説明に関するオントロジーは、例えばネットワーク内とネットワーク外の保証、控除免責金額、自己負担金などの、医療に固有の構成間の関係を含んでよい。

抽出プロセス中に、構造化文書生成器１４４は、中間文書内の平坦なテキスト要素に関連付けられた位置情報を記録し、抽出されたテキストおよび関連付けられた位置情報を構造化文書に保存することができる。一部の実施形態では、構造化文書は、非構造化文書内のテキストの原点に関連付けられた境界ボックスを含んでもよい。領域固有のオントロジーに従って構造化文書生成器１４４が構造化文書を生成した後に、構造化文書生成器１４４は、構造化文書を文書データ・ストア１５０にコミットすることができる。一部の実施形態では、構造化文書生成器１４４は、構造化文書を構文解析可能なテキスト・ファイルとして（例えば、ＪＳＯＮ形式で）生成することができる。一部の実施形態では、構造化文書生成器１４４は、構造化文書を、１つまたは複数のデータベース・レコードとして生成することができ、これらのデータベース・レコードは、組み合わせられた場合、非構造化文書から抽出された関連情報および識別された関連情報に関連付けられた位置情報（例えば、非構造化文書のグラフィカルな描画におけるテキストの文字のオフセットおよび境界ボックス）を識別する構造化文書を形成する。

文書データ・ストア１５０は、通常、データ・リポジトリを代表しており、このデータ・リポジトリ内に、非構造化文書、非構造化文書から抽出された情報を含んでいる構造化文書、および自然言語処理エンジンをトレーニングするために使用されるその他のテキスト・コンテンツが格納されてよい。文書データ・ストア１５０は、非構造化文書および構造化文書が格納される複数の分離したリポジトリを含んでよい。これらのリポジトリは、例えば、技術的要件の文書、医療診断の文書、および文書アナライザ１４０を使用して分析されるその他のクラスの文書などの、さまざまな領域の文書のためのリポジトリであってよい。文書データ・ストア１５０は、リレーショナル・データベースまたは非リレーショナル・データベース、平坦なファイル・ストア、階層的ファイル・ストア、あるいは関連性および知識グラフ・モデルをトレーニングするために使用される文書が格納される任意のその他のストレージ・システムとして、構造化されてよい。

オントロジー・データ・ストア１６０は、通常、データ・リポジトリを代表しており、このデータ・リポジトリ内に、非構造化文書から関連するデータを抽出することにおいて文書アナライザ１４０によって使用するための領域固有のオントロジーが格納されてよい。図に示されているように、オントロジー・データ・ストア１６０は、複数のオントロジー１６２_１～１６２_ｎを格納してよい。各オントロジー１６２は、文書アナライザ１４０によって分析される特定の領域の文書に対応してよい。例えば、１つのオントロジー１６２は、医療制度要約文書に関連付けられてよく、別のオントロジー１６２は、退職金制度要約文書に関連付けられてよい、などである。

図２は、抽出された情報に関連付けられた位置情報を維持する自然言語処理技術を使用して非構造化文書から情報を抽出するためにシステムによって実行される例示的な動作２００を示している。述べたように、抽出された情報に関連付けられた位置情報の維持は、抽出された情報が格納されている非構造化文書内の位置にユーザがジャンプできるようにするナビゲーション構造と共に、非構造化文書を描画することにおいて使用され得る。

図に示されているように、ブロック２１０で動作２００が開始し、ブロック２１０では、システムが、情報が抽出される元になるソース文書を受信する。ソース文書は、例えば、文書処理プログラムによって使用されるファイル形式（例えば、ＯｐｅｎＤｏｃｕｍｅｎｔＦｏｒｍａｔファイル、ＯｆｆｉｃｅＯｐｅｎＸＭＬファイルなど）、画像に基づくファイル形式（例えば、ポータブル・ドキュメント・フォーマット・ファイル）などでの文書であってよい。通常、ソース文書は、その文書に関連し得る情報の種類（または文書の種類）を示す特定の領域の知識に関連付けられてよい。

ブロック２２０で、システムは、ソース文書をテキスト文書ファイルに変換する。ソース文書をテキスト文書ファイルに変換するために、非構造化ソース文書を光学式文字認識エンジンに渡すことによって第１の中間ファイルが生成され得る。光学式文字認識エンジンは、ソース文書から抽出されたテキスト・コンテンツおよびソース文書に含まれている表形式データの特徴を定義する構造を含んでいるプレーンテキスト・ファイルを生成してよい。第１の中間ファイルは、システムがソース文書内の関連するテキストの位置を識別するために使用できる位置情報（例えば、ソース文書の座標系を使用する垂直／水平位置情報）を含んでよい。非構造化テキスト・コンテンツを、テキスト文書から情報を抽出するために自然言語処理エンジンによって分析されることができる構造化テキスト・コンテンツに変換するために、１つまたは複数のその他の中間ファイルが生成され得る。結果として得られるファイルは、ソース文書に含まれているテキスト要素ごとに位置情報を含む非構造化ソース文書を表す構造化テキスト文書であってよい。

ブロック２３０で、システムは、領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、テキスト文書ファイルから情報を抽出する。領域固有の自然言語処理エンジンは、特定の種類の文書（例えば、医療制度要約説明、退職金制度要約説明、産業用の仕様書など）における関連性の情報を認識するようにトレーニングされてよく、領域固有のオントロジーは、特定の種類の文書内のさまざまな単語または概念間の関係を指定してよい。

ブロック２４０で、システムは、抽出された情報をソース文書内の位置情報にリンクする。述べたように、抽出された情報は、ソース文書から生成されたテキスト文書ファイルまたは１つまたは複数の中間文書あるいはその両方に含まれる文字の特定のセットに関連付けられてよい。文書内の文字のオフセットまたは文字のインデックスによって識別される文字のセットは、１つまたは複数の中間文書に含まれている位置情報（例えば、表のセル識別子）を介して、非構造化文書内の座標位置情報にリンクされ得る。

ブロック２５０で、システムは、抽出された情報およびリンクされた位置情報を含んでいる構造化文書を生成する。述べたように、構造化文書は、文書から抽出された情報が格納される階層的スキーマに従って記述された文書であってよい。一部の実施形態では、構造化文書は、一連のデータベース・レコードとしてデータ・リポジトリに格納されてよく、これらのデータベース・レコードは、集約された場合、文書のナビゲーション構造を生成するために使用される単一の構造化文書を構成してよい。

図３は、非構造化文書と、非構造化文書から抽出された情報を含んでいる構造化文書から生成されたナビゲーション構造とを描画するために実行される例示的な動作３００を示している。

ブロック３１０で動作３００が開始し、ブロック３１０では、システムが、非構造化文書と、非構造化文書から抽出された情報および抽出された情報に関連付けられた位置情報を含んでいる関連付けられた構造化文書とを受信する。構造化文書は、階層的ナビゲーション構造に変換されることができる階層的スキーマを使用して書式設定されてよい。通常、階層的スキーマは、他の要素内の要素のネストが、構造化文書から抽出されたさまざまなデータ間の親子関係を示すように、構造化されてよい。

ブロック３２０で、システムは、非構造化文書をグラフィカル・ユーザ・インターフェイスの第１のペインに描画する。第１のペインは、一般的に非構造化文書に使用される一連の文書ファイル形式で文書をサポートする文書ビューアを含んでよい。例えば、文書ビューアは、ＨＴＭＬファイル形式で文書を表示するために使用されるＨＴＭＬ描画エンジン、ＰＤＦ描画エンジンなどであってよい。場合によっては、文書ビューアは、ユーザが文書内の情報を選択することを許可してよいが、ユーザが非構造化文書の内容を変更することを許可する編集機能を含まなくてよい。

ブロック３３０で、システムは、構造化文書のグラフィカルな描画をグラフィカル・ユーザ・インターフェイスの第２のペインに生成する。構造化文書のグラフィカルな描画は、例えば、構造化文書内の階層的データを（例えば、データのネストされたリストとして）表すために使用されることができるナビゲーション・ツリーまたはその他の階層構造であってよい。述べたように、構造化文書は、抽出された情報を構造化文書内のテキスト要素の階層に含んでよく、異なるレベルの情報は、より高いレベルの情報とより低いレベルの情報の間の親子関係を表す。

ブロック３４０で、システムは、構造化文書に含まれている位置情報に基づいて、構造化文書のグラフィカルな描画内の各要素を非構造化文書にリンクする。構造化文書のグラフィカルな描画内の要素を非構造化文書にリンクすることによって、システムは、構造化文書のグラフィカルな描画内の要素の操作に基づく非構造化文書のナビゲーションを可能にすることができる。述べたように、構造化文書から生成された１つまたは複数の中間文書に含まれている位置情報に基づいて位置情報が決定されてよく、位置情報は、中間文書内の文字列と相対的な文字のオフセットであってよい。これらの文字のオフセットは、非構造化文書内の座標位置情報に戻るようにマッピングされてよい。したがって、構造化文書のグラフィカルな描画内の各要素は、抽出されたテキストがある非構造化文書内の座標にリンクされてよく、構造化文書のグラフィカルな描画内の要素のユーザ選択は、文書ビューアが選択された要素に関連付けられた座標位置で非構造化文書を描画することを引き起こしてよい。

図４は、非構造化文書と、非構造化文書から抽出された情報を含んでいる構造化文書に基づいて入力された、非構造化文書に関するナビゲーション・ペインとを表示するグラフィカル・ユーザ・インターフェイスを示している。図に示されているように、グラフィカル・ユーザ・インターフェイス４００は、第１のペイン４１０および第２のペイン４２０を含んでいる。

第１のペイン４１０は、通常、ユーザが非構造化文書を表示できるようにする文書ビューアを含み、第２のペイン４２０は、通常、構造化文書が描画される階層構造ビューアを含む。第２のペイン４２０の階層構造ビューアに表示された構造化文書からの各要素は、ユーザ選択可能であってよい。ユーザが、第１のペイン４１０に描画された非構造化文書から抽出された要素に対応する第２のペイン４２０内の要素４２２を選択した場合、システムは、選択された要素に関する追加情報を第２のペイン４２０内の情報ビューア４２４に表示することができる。そのように実行するために、システムは、選択された要素に関連付けられた構造化文書から情報を取り出すことができる。取り出された情報は、例えば、選択された要素に関連付けられた位置情報および選択された要素に関連付けられたその他の関連情報を含んでよい。例えば、図に示されているように、選択された要素４２２は、第１のペイン４１０に表示された非構造化文書の１１ページにある情報に関連付けられており、非構造化文書において説明されている制度の「個人の生涯給付の上限」プロパティを参照しており、「２，５００ドル」の値を有している。この情報は、第２のペイン４２０内のユーザ選択に基づいて、読み取り専用の形式で、または編集可能な形式で、情報ビューア４２４に表示されてよい。

システムは、第１のペイン４１０に、選択された要素がある非構造化文書の部分をさらに表示してよい。一部の実施形態では、システムは、選択された要素がある文書の部分に関して、１つまたは複数の視覚効果をさらに描画することができる。例えば、境界ボックス４１２が、第１のペイン４１０内の選択された要素４２２がある文書の部分の周囲に描画されることができる、選択された要素がある文書の部分に含まれているテキストが強調表示される、などである。これらの視覚効果は、第１のペイン４１０に表示された非構造化文書から生成された構造化文書内の選択された要素４２２に関連付けられた位置情報に基づいて描画されてよい。述べたように、この位置情報は、１つまたは複数の中間文書内のテキストのオフセットおよび第１のペイン４１０に表示された非構造化文書内の座標を含んでよい。

第２のペイン４２０は、通常、ユーザが非構造化文書から構造化文書に抽出された既存の情報を編集もしくは削除すること、または非構造化文書から構造化文書に情報を追加すること、あるいはその両方を可能にする、１つまたは複数の選択可能なアイコンまたはボタンも含む。例えば、構造化された文書に含まれている、非構造化文書から抽出された各項目は、編集ボタン４２６および削除ボタン４２８に関連付けられてよい。ユーザが構造化文書内の項目に関連付けられた編集ボタン４２６を選択した場合、システムは、情報ビューア４２４に、構造化文書内の項目に関連付けられた情報を入力し、情報ビューア４２４内の１つまたは複数のユーザ・インターフェイス要素を編集可能にすることができる。ユーザが、編集が完了したことを示した場合、システムは、編集された情報を構造化文書に戻るように書き込むことができる。ユーザが構造化文書内の項目に関連付けられた削除ボタン４２８を選択した場合、システムは、構造化文書から項目を除去し、第２のペイン４２０に表示された階層構造を再描画することができる。

値を追加するために、ユーザは、第２のペイン４２０に表示された値の追加ボタン４３０を操作することによってプロセスを開始することができる。プロセスを開始した後に、ユーザは、第１のペイン４１０内の非構造化文書の一部を選択することができる。システムは、非構造化文書の選択された部分の位置に基づいて、情報を追加する構造化文書の部分を識別することができる。構造化文書の識別された部分で、システムは、第２のペイン４２０に描画された場合に、文書の選択された部分が第１のペイン４１０に表示されることができるように、非構造化文書の選択された部分を表す１つまたは複数のテキスト要素および非構造化文書内の位置情報を追加することができる。

図５は、非構造化文書および非構造化文書に関するナビゲーション・ペインを表示しているグラフィカル・ユーザ・インターフェイスを示している。図４と同様に、グラフィカル・ユーザ・インターフェイス５００は、第１のペイン４１０および第２のペイン４２０を含んでいる。

図に示されているように、抽出されたテキスト５２８は、抽出されたテキスト５２８に関する拡張された情報（例えば、位置情報および関係情報）を表示するために第２のペイン４２０に備えられたボタンをクリックすることによって、分析のためにユーザによって選択され得る。一部の実施形態では、抽出されたテキスト５２８を選択することによって、システムは、選択済みの抽出されたテキスト５２８の親要素に対応する構造化文書内の要素について、１つまたは複数の視覚効果を描画することができる。この例では、抽出されたテキスト５２８は抽出されたテキスト５２６の直下の子であってよく、抽出されたテキスト５２６は抽出されたテキスト５２４の直下の子であってよく、抽出されたテキスト５２４は抽出されたテキスト５２２の直下の子であってよい。抽出されたテキスト５２２は、抽出されたテキスト５２８の階層的ナビゲーション構造内の最終的な親テキスト・オブジェクトを表してよい。この例では、ユーザは、第１のペイン４１０に描画された非構造化文書内の救急外来受診に関連し、次に、ユーザが責任を負担する自己負担金額に関連し、最終的に、「低控除免責金額ＰＰＯ」に関する情報に関連する金額を選択した。

抽出されたテキスト５２８のユーザ選択に基づいて、システムは、第１のペイン４１０に描画された非構造化文書から生成された構造化文書内の位置情報を調べ、非構造化文書内の抽出されたテキスト５２２、５２４、５２６、および５２８の各々の位置を識別することができる。述べたように、抽出されたテキストの各々の識別された位置は、文字列内のテキストのオフセットおよび非構造化文書内の抽出されたテキストの座標位置を含んでよい。抽出されたテキストの識別された位置に基づいて、システムは、第１のペイン４１０に描画された非構造化文書内の関連するテキストの周囲の１つまたは複数の視覚効果、および第２のペイン４２０内の抽出されたテキストの周囲の対応する視覚効果を描画することができる。例えば、ユーザによる選択済みの抽出されたテキストに関連する（すなわち、抽出されたテキスト５２８に関連する）抽出されたテキストごとに、異なる色付きの境界ボックスが第１のペイン４１０および第２のペイン４２０に描画されてよい。図に示されているように、境界ボックス５１２は抽出されたテキスト５２２に対応してよく、境界ボックス５１４は抽出されたテキスト５２４に対応してよく、境界ボックス５１６は抽出されたテキスト５２６に対応してよく、境界ボックス５１８は抽出されたテキスト５２８に対応してよい。第２のペイン４２０内の抽出されたテキスト要素および第１のペイン４１０に描画された非構造化文書内の対応する関連するテキストの素早い認識を可能にするために、システムは、第１のペイン４１０内の境界ボックスおよび第２のペイン４２０内の関連付けられた関連するテキストと同じまたは類似する視覚効果を描画することができる。この例では、境界ボックス５１２および関連付けられた抽出されたテキスト５２２の周囲に描画されたボックスは、第１の色の境界線を含んでよく、境界ボックス５１２および関連付けられた抽出されたテキスト５２４の周囲に描画されたボックスは、第２の色の境界線を含んでよく、境界ボックス５１６および関連付けられた抽出されたテキスト５２６の周囲に描画されたボックスは、第３の色の境界線を含んでよく、境界ボックス５１８および関連付けられた抽出されたテキスト５２８の周囲に描画されたボックスは、第４の色の境界線を含んでよい。他の例では、抽出されたテキスト５２２、５２４、５２６、および５２８の各々について、異なる視覚効果が、第１のペイン４１０に表示された非構造化文書に描画されてよい。例えば、前述した境界ボックスの座標に基づいて、異なる色の強調表示が第１のペイン４１０に表示された非構造化文書内の関連するテキストに適用されてよい、第１のペイン４１０に表示された非構造化文書内の関連するテキストの色が変更される、などである。

図６は、実施形態に従って、自然言語処理技術および非構造化文書の種類に関連付けられたオントロジーを使用して、非構造化文書から、非構造化文書をナビゲートするために使用されることができる構造化文書に情報を抽出する例示的なシステム６００を示している。図に示されているように、システム６００は、中央処理装置６０２、システム６００へのさまざまなＩ／Ｏデバイス６１４（例えば、キーボード、ディスプレイ、マウス・デバイス、ペン入力など）の接続を可能にし得る１つまたは複数のＩ／Ｏデバイス・インターフェイス６０４、ネットワーク・インターフェイス６０６、メモリ６０８、ストレージ６１０、および相互接続６１２を含むが、これらに限定されない。

ＣＰＵ６０２は、メモリ６０８に格納されたプログラミング命令を取り出して実行してよい。同様に、ＣＰＵ６０２は、メモリ６０８に存在するアプリケーションを取り出して格納してよい。相互接続６１２は、プログラミング命令およびアプリケーション・データを、ＣＰＵ６０２、Ｉ／Ｏデバイス・インターフェイス６０４、ネットワーク・インターフェイス６０６、メモリ６０８、およびストレージ６１０の間で送信する。ＣＰＵ６０２は、単一のＣＰＵ、複数のＣＰＵ、複数のプロセッシング・コアを含んでいる単一のＣＰＵなどを代表するために含まれている。さらに、メモリ６０８は、ランダム・アクセス・メモリを代表するために含まれている。さらに、ストレージ６１０は、ディスク・ドライブ、半導体ドライブ、相変化メモリ・デバイスなどであってよい。ストレージ６１０は、単一のユニットとして示されているが、固定されたディスク・ドライブ、半導体ドライブ、取り外し可能なメモリ・カードまたは光ストレージ、ネットワーク接続ストレージ（ＮＡＳ：network attached storage）、あるいはストレージ領域ネットワーク（ＳＡＮ：storage area network）などの、固定されたストレージ・デバイスまたは取り外し可能なストレージ・デバイスあるいはその両方の組み合わせであってよい。

図に示されているように、メモリ６０８は、文書コンバータ６２０、構造化文書生成器６３０、および文書ビューア６４０を含んでいる。文書コンバータ６２０は、通常、分析用の文書を受信し、構造化文書生成器６３０が構造化文書を生成するために使用できる１つまたは複数の中間プレーンテキスト文書を生成する。受信された文書は、例えば、画像に基づくファイル形式（例えば、ポータブル・ドキュメント・フォーマット）または画面上に描画されるその他の文書ファイル形式であってよい。文書コンバータ６２０は、光学式文字認識エンジンを使用して、非構造化文書を、構造化文書を生成するために使用される複数の中間文書のうちの１番目として機能し得るプレーンテキスト文書に変換することができる。表内のテキスト・コンテンツは、表内の各セルに関する情報を維持する方法で、第１の中間文書内で書式設定されてよく、それに続く中間文書は、非構造化文書内の表に含まれていない非構造化文書内のテキスト要素の周囲の構造を追加することができる。各テキスト要素は、文字のオフセットおよび非構造化文書内の境界ボックスの座標などの位置情報を含んでもよく、この位置情報は、非構造化文書を描画すること、および視覚効果を非構造化文書の部分に適用することにおいて文書ビューア６４０によって使用され得る。

構造化文書生成器６３０は、通常、中間文書を使用して、非構造化文書から抽出された関連情報を含んでいる構造化文書を生成する。構造化文書を生成するために、構造化文書生成器６３０は、文書のクラスにとって特に重要である単語または語句を認識するようにトレーニングされた領域固有の自然言語処理エンジンおよび領域固有のオントロジーを使用する。構造化文書生成器６３０によって生成された構造化文書は階層的文書であってよく、文書ビューア６４０は、この階層的文書を、文書から抽出されたデータ間の階層および関係を維持するナビゲーション構造を描画することにおいて使用することができる。

文書ビューア６４０は、通常、グラフィカル・ユーザ・インターフェイスを提供し、このグラフィカル・ユーザ・インターフェイス内で、非構造化文書がグラフィカル・ユーザ・インターフェイスの第１のペインに描画され、非構造化文書から抽出された情報を含んでいる構造化文書から生成されたナビゲーション構造が第２のペインに表示される。通常、ユーザがナビゲーション構造内の要素を操作するときに、文書ビューア６４０は、選択されたテキスト要素を含んでいる非構造化文書の部分にジャンプし、１つまたは複数の視覚効果を、選択されたテキスト要素を含んでいる非構造化文書の部分に適用することができる。文書ビューア６４０はさらに、ユーザが第１のペインに表示された非構造化文書に関連付けられた構造化文書からの既存の内容を編集すること、および除去すること、ならびに非構造化文書からの情報を構造化文書に追加することを、許可してよい。

ストレージ６１０は、図に示されているように、文書データ・ストア６５０およびオントロジー・データ・ストア６６０を含んでいる。文書データ・ストア６５０は、通常、１つまたは複数の非構造化文書から抽出された情報を含んでいる構造化文書が格納されるリポジトリとして機能する。オントロジー・データ・ストア６６０は、通常、システム６００によって処理されるさまざまな領域の文書内のデータ間の先験的に定義された関係を含む。文書データ・ストア６５０およびオントロジー・データ・ストア６６０は、リレーショナル・データベース、非リレーショナル・データベース、平坦なファイル・ストア、または暗号化されたデータが格納され、取り出される任意のその他のデータ・リポジトリであってよい。

本発明のさまざまな実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に制限されることは意図されていない。説明された実施形態の範囲および思想から逸脱しない多くの変更および変形が、当業者にとって明らかであろう。本明細書で使用された用語は、実施形態の原理、実際の適用、または市場で見られる技術を超える技術的改良を最も良く説明するため、または他の当業者が本明細書で開示された実施形態を理解できるようにするために選択されている。

以下では、本開示で提示された実施形態への参照が行われる。しかし、本開示の範囲は、特定の説明された実施形態に限定されない。代わりに、以下の特徴および要素の任意の組み合わせが、異なる実施形態に関連しているかどうかに関わらず、企図された実施形態を実施および実践するよう企図される。さらに、本明細書で開示された実施形態は、他の可能な解決策を上回る利点または従来技術を上回る利点を実現することができるが、特定の実施形態によって特定の利点が実現されるかどうかは、本開示の範囲の制限ではない。したがって、以下の態様、特徴、実施形態、および利点は、単に例示であり、請求項において明示的に示されている場合を除き、添付の特許請求の範囲の要素または制限とは見なされない。同様に、「本発明」への参照は、請求項において明示的に示されている場合を除き、本明細書で開示されたいずれかの発明の対象の一般化と解釈されてはならず、添付の特許請求の範囲の要素または制限と見なされてはならない。

本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態（ファームウェア、常駐ソフトウェア、マイクロコードなどを含む）、またはソフトウェアの態様とハードウェアの態様を組み合わせる実施形態の形態を取ってよく、これらはすべて、本明細書では、一般に「回路」、「モジュール」、または「システム」と呼ばれてよい。

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組み合わせであってよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体を含んでよい。

コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持および格納できる有形のデバイスであることができる。コンピュータ可読ストレージ媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、またはこれらの任意の適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読ストレージ媒体のさらに具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ：random access memory）、読み取り専用メモリ（ＲＯＭ：read-onlymemory）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：erasableprogrammable read-only memoryまたはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：static random access memory）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：compact disc read-only memory）、デジタル・バーサタイル・ディスク（ＤＶＤ：digital versatile disk）、メモリ・スティック、フロッピー（Ｒ）・ディスク、命令が記録されているパンチカードまたは溝の中の隆起構造などの機械的にエンコードされるデバイス、およびこれらの任意の適切な組み合わせを含む。本明細書において使用されるとき、コンピュータ可読ストレージ媒体は、それ自体が、電波またはその他の自由に伝搬する電磁波、導波管またはその他の送信媒体を伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、あるいはワイヤを介して送信される電気信号などの一過性の信号であると解釈されるべきではない。

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体から各コンピューティング・デバイス／処理デバイスへ、またはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、広域ネットワーク、または無線ネットワーク、あるいはその組み合わせを介して外部コンピュータまたは外部ストレージ・デバイスへダウンロードされることができる。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組み合わせを備えてよい。各コンピューティング・デバイス／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティング・デバイス／処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ：instruction-set-architecture）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいは、Ｓｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語または同様のプログラミング言語などの従来の手続き型プログラミング言語を含む１つまたは複数のプログラミング言語の任意の組み合わせで記述されたソース・コードまたはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で全体的に実行すること、ユーザのコンピュータ上でスタンドアロン・ソフトウェア・パッケージとして部分的に実行すること、ユーザのコンピュータ上およびリモート・コンピュータ上でそれぞれ部分的に実行すること、あるいはリモート・コンピュータ上またはサーバ上で全体的に実行することができる。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ：local area network）または広域ネットワーク（ＷＡＮ：wide areanetwork）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、または接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてよい。一部の実施形態では、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ：field-programmable gate arrays）、またはプログラマブル・ロジック・アレイ（ＰＬＡ：programmable logic arrays）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路を個人向けにするためのコンピュータ可読プログラム命令を実行してよい。

本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、ならびにフローチャート図またはブロック図あるいはその両方に含まれるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装されるということが理解されるであろう。

これらのコンピュータ可読プログラム命令は、コンピュータまたはその他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラム可能なデータ処理装置のプロセッサに提供されてマシンを作り出すものであってよい。これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読ストレージ媒体がフローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作の態様を実施する命令を含んでいる製品を備えるように、コンピュータ可読ストレージ媒体に格納され、コンピュータ、プログラム可能なデータ処理装置、または他のデバイス、あるいはその組み合わせに特定の方式で機能するように指示できるものであってもよい。

コンピュータ可読プログラム命令は、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行される命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックに指定される機能／動作を実施するように、コンピュータ実装プロセスを生成するべく、コンピュータ、その他のプログラム可能なデータ処理装置、またはその他のデバイスにロードされ、一連の動作ステップを、コンピュータ上、その他のプログラム可能な装置上、またはその他のデバイス上で実行させるものであってもよい。

図内のフローチャートおよびブロック図は、本発明のさまざまな実施形態に従って、システム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関連して、フローチャートまたはブロック図内の各ブロックは、規定された論理機能を実装するための１つまたは複数の実行可能な命令を備える、命令のモジュール、セグメント、または部分を表してよい。一部の代替の実装では、ブロックに示された機能は、図に示された順序とは異なる順序で発生してよい。例えば、連続して示された２つのブロックは、実際には、含まれている機能に応じて、実質的に同時に実行されてよく、または場合によっては逆の順序で実行され得る。ブロック図またはフローチャート図あるいはその両方の各ブロック、ならびにブロック図またはフローチャート図あるいはその両方に含まれるブロックの組み合わせは、規定された機能または動作を実行するか、または専用ハードウェアとコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装されるということにも注意する。

前述の内容は本発明の実施形態を対象にしているが、本発明のその他のさらなる実施形態が、本発明の基本的な範囲から逸脱することなく考案されてよく、本発明の範囲は以下の特許請求の範囲によって決定される。

Claims

非構造化文書から情報を抽出するための方法であって、
情報が抽出される元になるソース文書を受信することと、
前記ソース文書をテキスト文書ファイルに変換することと、
領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、前記テキスト文書ファイルから情報を抽出することと、
前記抽出された情報を前記ソース文書内の位置情報にリンクすることと、
前記抽出された情報および前記リンクされた位置情報を含んでいる構造化文書を生成することとを含む、方法。
前記ソース文書が複数のテキスト要素を含み、
前記ソース文書を変換することが、
前記ソース文書内の複数のテキスト要素の位置インジケータを生成することと、
前記複数のテキスト要素の各々の内容および前記複数のテキスト要素の各々の関連付けられた位置インジケータを含んでいる第１の中間テキスト文書を生成することとを含む、請求項１に記載の方法。
前記生成された第１の中間テキスト文書が、事前に定義されたスキーマに従って書式設定された構造化文書を含む、請求項２に記載の方法。
前記複数のテキスト要素が表内のセルを含み、
前記第１の中間テキスト文書が、前記表を構造化された表現に置き換え、前記表内の各セルが、前記構造化された表現内の要素の分離したセットによって表され、前記ソース文書内の位置インジケータに関連付けられる、請求項２に記載の方法。
前記表に含まれていないテキスト・コンテンツを１つまたは複数の平坦なテキスト要素に連結することによって前記第１の中間テキスト文書から第２の中間テキスト文書を生成することをさらに含み、前記１つまたは複数の平坦なテキスト要素の各々が前記ソース文書内の各平坦なテキスト要素の位置を表す位置の配列を含む、請求項４に記載の方法。
１つまたは複数の平坦なテキスト要素が、前記ソース文書内の非表形式の要素の構造化された表現を含む、請求項４に記載の方法。
表のヘッダーおよび表のセルの内容を平坦なテキスト要素に連結することをさらに含み、前記平坦なテキスト要素が、前記ソース文書内の前記表のセルの位置を定義する境界ボックスならびに前記平坦なテキスト要素内の開始オフセットおよび終了オフセットを含む、請求項４に記載の方法。
前記ソース文書から情報を抽出することが、
前記テキスト文書ファイル内の関連テキスト情報および前記関連テキスト情報に関連付けられた位置オフセット情報を識別することと、
前記位置オフセット情報に基づいて前記ソース文書内の境界ボックスを生成することとを含む、請求項４に記載の方法。
システムであって、
プロセッサと、
命令が格納されているメモリと、
を備え、前記命令が、プロセッサによって実行された場合に、非構造化文書から情報を抽出するための動作を実行し、前記動作が、
情報が抽出される元になるソース文書を受信することと、
前記ソース文書をテキスト文書ファイルに変換することと、
領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、前記テキスト文書ファイルから情報を抽出することと、
前記抽出された情報を前記ソース文書内の位置情報にリンクすることと、
前記抽出された情報および前記リンクされた位置情報を含んでいる構造化文書を生成することとを含む、システム。
前記ソース文書が複数のテキスト要素を含み、
前記ソース文書を変換することが、
前記ソース文書内の複数のテキスト要素の位置インジケータを生成することと、
前記複数のテキスト要素の各々の内容および前記複数のテキスト要素の各々の関連付けられた位置インジケータを含んでいる第１の中間テキスト文書を生成することとを含む、請求項９に記載のシステム。
前記生成された第１の中間テキスト文書が、事前に定義されたスキーマに従って書式設定された構造化文書を含む、請求項１０に記載のシステム。
前記複数のテキスト要素が表内のセルを含み、
前記第１の中間テキスト文書が、前記表を構造化された表現に置き換え、前記表内の各セルが、前記構造化された表現内の要素の分離したセットによって表され、前記ソース文書内の位置インジケータに関連付けられる、請求項１０に記載のシステム。
前記動作が、
前記表に含まれていないテキスト・コンテンツを１つまたは複数の平坦なテキスト要素に連結することによって前記第１の中間テキスト文書から第２の中間テキスト文書を生成することをさらに含み、前記１つまたは複数の平坦なテキスト要素の各々が前記ソース文書内の各平坦なテキスト要素の位置を表す位置の配列を含む、請求項１２に記載のシステム。
１つまたは複数の平坦なテキスト要素が、前記ソース文書内の非表形式の要素の構造化された表現を含む、請求項１２に記載のシステム。
前記動作が、
表のヘッダーおよび表のセルの内容を平坦なテキスト要素に連結することをさらに含み、前記平坦なテキスト要素が、前記ソース文書内の前記表のセルの位置を定義する境界ボックスならびに前記平坦なテキスト要素内の開始オフセットおよび終了オフセットを含む、請求項１２に記載のシステム。
前記ソース文書から情報を抽出することが、
前記テキスト文書ファイル内の関連テキスト情報および前記関連テキスト情報に関連付けられた位置オフセット情報を識別することと、
前記位置オフセット情報に基づいて前記ソース文書内の境界ボックスを生成することとを含む、請求項１２に記載のシステム。
命令が格納されているコンピュータ可読媒体であって、前記命令が、プロセッサによって実行された場合に、非構造化文書から情報を抽出するための動作を実行し、前記動作が、
情報が抽出される元になるソース文書を受信することと、
前記ソース文書をテキスト文書ファイルに変換することと、
領域固有の自然言語処理エンジンおよび領域固有のオントロジーに基づいて、前記テキスト文書ファイルから情報を抽出することと、
前記抽出された情報を前記ソース文書内の位置情報にリンクすることと、
前記抽出された情報および前記リンクされた位置情報を含んでいる構造化文書を生成することとを含む、コンピュータ可読媒体。
前記ソース文書が複数のテキスト要素を含み、
前記ソース文書を変換することが、
前記ソース文書内の複数のテキスト要素の位置インジケータを生成することと、
前記複数のテキスト要素の各々の内容および前記複数のテキスト要素の各々の関連付けられた位置インジケータを含んでいる第１の中間テキスト文書を生成することとを含む、請求項１７に記載のコンピュータ可読媒体。
前記複数のテキスト要素が表内のセルを含み、
前記第１の中間テキスト文書が、前記表を構造化された表現に置き換え、前記表内の各セルが、前記構造化された表現内の要素の分離したセットによって表され、前記ソース文書内の位置インジケータに関連付けられる、請求項１８に記載のコンピュータ可読媒体。
前記表に含まれていないテキスト・コンテンツを１つまたは複数の平坦なテキスト要素に連結することによって前記第１の中間テキスト文書から第２の中間テキスト文書を生成することをさらに含み、前記１つまたは複数の平坦なテキスト要素の各々が前記ソース文書内の各平坦なテキスト要素の位置を表す位置の配列を含む、請求項１９に記載のコンピュータ可読媒体。