JP2011513810A

JP2011513810A - 用語識別方法および装置

Info

Publication number: JP2011513810A
Application number: JP2010547260A
Authority: JP
Inventors: チスホルム，アラステア・ヒュー
Original assignee: アイティーアイ・スコットランド・リミテッド
Priority date: 2008-02-20
Filing date: 2009-02-20
Publication date: 2011-04-28
Also published as: WO2009104023A3; EP2255303A2; US20110320459A1; WO2009104023A2

Abstract

ディスプレイとユーザ操作可能な１以上の入力デバイスを含むコンピュータ装置によって実行される、識別子を文書中のエンティティの言及に割当てる方法である。複数の候補識別子は、文書中のエンティティの言及に関する用語識別モジュールから受信されて、各候補識別子は、エンティティ特性データが１以上のエンティティデータベースに記憶されることに関するエンティティへの参照である。リストがディスプレイの第１の領域に表示され、前記リストは、複数のユーザ選択可能なエンティティを有し、前記リスト中の各エントリは、前期複数の候補識別子の１つによって参照されるエンティティに関し、各エントリは、それぞれのエンティティの特性を備える。前記特性の少なくとも１つが前記１以上のエンティティデータベースから読み出される。リスト中のエントリのユーザによる選択に応答して、選択されたエントリに関するエンティティの付加的特性がディスプレイの第２の領域に表示されてその付加的特性は、少なくも一部において１以上の前記データベースから読み出される。リストエントリに関する選択されたエンティティに関するユーザから受けた識別子割当命令に応答して、選択されたエンティティの識別子が、エンティティの言及の識別子として割当てられる。ユーザが特定した基準を満たすことにリストエントリが与えられることに関するエンティティをユーザが制限できるためにフィルタが提供される。ディスプレイの第１および第２の領域に表示される特性は、異なる領域およびアプリケーションのためにカスタマイズできる。

Description

発明の分野
本発明は、テキスト文書におけるエンティティの言及（mention）に識別子を割当てる人間の管理者を支援するための方法および装置に関する。

発明の背景
用語識別（Term identification）は、識別子をデータの本体中の用語に割当てる処理であり、本発明は、テキスト文書におけるエンティティの言及に識別子を割当てるための用語識別方法に関する。本発明は、生物医学におけるエンティティの言及に識別子を割当てる分野からの例によって示されるが、他の領域の知識に関するテキスト文書の分析にも等しく適用可能である。

典型的には、エンティティの言及は、オントロジへの参照によって識別され、オントロジは、エンティティに関するデータを含む。エンティティの言及によって、われわれはテキスト文書中の文字列を参照し、そのテキスト文書はエンティティを示す。エンティティによって、われわれは特定された固有のエンティティの概念を参照し、そのエンティティは、テキスト文書において言及されてもよいし、オントロジまたはエンティティの他のデータベース内に含まれてもよく、典型的にはエンティティの特性に伴っている。たとえば、RefSeq(http://www.ncbi.nlm.nih.gov/RefSeq/)は、識別子NP_005535でインデックスが付されたヒトインスリン受容体基質１遺伝子のためのエントリを含む。インスリン受容体基質１［ホモサピエンス］はエンティティである。

しかしながら、テキスト文書中の文字列「インスリン受容体基質１」または文字列「ＩＲＳ１」は、エンティティの言及であろうし、もしエンティティのこの言及が、その文字列が、ヒトインスリン受容体基質１のための遺伝子コードを示す文字列を意味する文脈中にあったならば、エンティティのこの言及は、識別子NP_005535または、インスリン受容体基質１［ホモサピエンス］を意味する他の識別子に割当てられるべきである。オントロジは典型的には、エンティティの特性に関するデータおよび、受託番号または他の固有の識別子、識別データを含み、オントロジにおける各エンティティの正規表現も含む。

識別子をエンティティの言及に割当てることが重要である多数のアプリケーションが存在する。テキスト文書におけるエンティティの言及への識別子の割り当ては、コンピュータで実現されるテキスト文書からの情報抽出の一部であるかもしれない。エンティティの言及の間の関係の識別といった、さらなる情報抽出ステップを完了するために、エンティティの言及をうまく識別することは必要かもしれない。

テキスト文書内で言及されたエンティティのデータベースは、特定の識別子を有するエンティティの言及を含むテキスト文書を探すため、あるいは、テキスト文書のより複雑なデータマイニングを実行するために用いられることができる
ＷＯ０５／０１７６９２（コグニアコーポレーション（Cognia Corporation））は、人間の管理者が生物医学テキスト文書を読み、生物医学テキスト文書と関係する生物学的エンティティに識別子を割り当て、識別子および他の注釈がオントロジへの参照によって標準化されたことを保証するコンピュータユーザインターフェースからの支援を伴うシステムを開示する。その結果得られる識別データは、多数の科学的アプリケーションとともに、クエリ可能な（queriable）データベースに含まれる。この手続きは、熟練の人間の管理者の入力から恩恵を受けるものの、管理人によって費やされなければならない時間が相当あり、それは、この手続きのコスト効率を制限する。

自動化された、コンピュータで実現される用語識別についてのかなりの調査が行なわれてきた。自動化された、コンピュータで実現される用語識別は、多くのテキスト文書におけるエンティティの言及の高速な識別を可能にするが、自動化された、コンピュータで実現される用語識別は、その結果のデータの有用性を大きく制限しうる不完全な科学となっている。コンピュータで実現される用語識別は、データの種類および識別されるべき用語に大きく依存する。遺伝子、タンパク質およびポリ核酸を識別するために生物医学のテキスト文書を分析するときには、コンピュータで実現される用語識別モジュールが、種およびアイソフォームによって、正しく、曖昧さをなくすることは特に難しいかもしれない。

ＷＯ２００７／１１６２０４（アイティーアイ・スコットランド・リミテッド（ITI Scotland Limited））は、人間の管理者が、速度向上および／またはテキスト文書中のエンティティの言及の識別の改善のために、自動化された、コンピュータで実現される情報抽出方法を利用できる、コンピュータ−ユーザインターフェイスを含む情報抽出装置および方法を開示するが、最終の識別は、なおも、人間の管理者によって、許可されるものである。これは、自動化された、コンピュータで実現される情報抽出の特有の制限にもかかわらず、人間の管理者が、用語識別モジュールを含む、自動化された、コンピュータで実現される情報抽出技術から恩恵を受けることを可能にする。

本発明は、不完全な、自動化された、コンピュータで実現される用語識別モジュールからの支援を受けても、人間の管理者がテキスト文書中のエンティティの言及に識別子を割当てることを可能にする、改善された方法を提供することを目的とする。

発明の要約
本発明の第１の局面に従うと、文書中のエンティティの言及に識別子を割当てる方法が提供される。その方法は、ディスプレイと１以上のユーザ操作可能な入力デバイスとを含むコンピュータ装置によって実行される以下のステップを備える：
（ｉ）文書中のエンティティの言及に関して、用語識別モジュールから、エンティティの言及の複数の候補識別子を受けるステップであって、各候補識別子は、どのエンティティ特性データが１以上のエンティティデータベースに記憶されているかに関する、エンティティへの参照である、複数の候補識別子を受けるステップ；
（ｉｉ）ディスプレイの第１の領域に、複数のユーザ選択可能なエントリを有するリストを表示するステップであって、リスト中の各エントリは、前記複数の候補識別子の１つによって参照されるエンティティに関し、各エントリは、それぞれのエンティティの特性を備え、前記特性の少なくとも１つは、前記１以上のエンティティデータベースから読み出される、表示するステップ；
（ｉｉｉ）リスト中のエントリのユーザによる選択に応じて、ディスプレイの第２の領域に、選択されたエントリに関するエンティティの付加的特性を表示するステップであって、付加的特性は、少なくとも一部において、１以上の前記データベースから検索される、付加的特性を表示するステップ；および
（ｉｖ）リストエントリに関する選択されたエンティティに関する、ユーザから受けた識別子割当命令に応じて、選択されたエンティティの識別子を、エンティティの言及の識別子として割当てるステップ。

このように、結果として生じるユーザインターフェイスは、人間の管理者が、不完全な、コンピュータで実現される用語識別モジュールを用いて働くことを可能にして、時間効率的な方法で、エンティティの個別の言及に好ましい識別子を割当てるのを援助する。方法は、典型的には、ユーザに、リストからのエントリの選択を変更する機会を提供すること、および、応じてディスプレイの第２の領域を更新することを含む。用語識別モジュールがエンティティの言及に最も対応しそうであると考える単一のエンティティのような、単純な単一のエンティティよりもむしろ、複数のエンティティに関する情報を含むリストを提供することによって、不完全な用語識別モジュールのよりよい利用を行なうことが可能になる。

方法は、識別プロセスを促進するために、管理者によるエンティティの言及の望ましい識別に対応しうる、１以上のエンティティに関する有用なデータを、管理者が迅速に見ることを可能にする一方で、エンティティに関する付加的情報のために、サーチエンジンのような、キュレーションプロセスの速度を落とすと思われる全体的に分離されたソースを参照する必要を低減または除く。たとえ人間の管理者が、エンティティの言及の望ましい識別がどれであるかを決定するのに時間を要したとしても、候補識別子が参照する、エンティティの特性のリストを見ることによって、用語識別モジュールが適切な候補を生成したかどうかを迅速に確定することができる。管理者が、リスト中からエントリを選択して、個別のリストエントリに関するエンティティに関するより多くの情報を迅速に読み出すことが可能になることで、それらが正しくエンティティの言及を識別することができる付加的な特性の情報を、人間の管理者が評価することができる。付加的な特性情報への結果的に便利なアクセスは、管理者が、異なる種またはどれがアイソフォームであるかといった、とてもよく似たエンティティの間の曖昧さを除去することに役立たせることができる。

リスト中のエントリは、ポインティングデバイス（マウスのような）を操作して、リスト中のエントリを含むディスプレイの領域にわたりポインタを動かすことで選択可能でもよい。リスト中のエントリの選択は、また、マウスのボタンをクリックするような、ユーザの実行するさらなる選択イベントを必要としてもよいし、しなくてもよい。

典型的には、エンティティの言及の識別子として割当てられた識別子は、選択されたエンティティを参照する前記候補識別子であるが、それは、選択されたエンティティに対する代わりの識別子、たとえば、１以上のエンティティデータベースから検索された、代わりの識別子でもよい。

好ましくは、用語識別モジュールは、複数の候補識別子の各々に関して、候補識別子が参照するエンティティが、エンティティの言及によって示されるエンティティであることの確率に関する確率パラメータを計算する。好ましくは、リストを表示するステップは、各エントリに関する候補識別子の確率パラメータに従うエントリを指示するため、あるいは、各エントリに関する候補識別子の確率パラメータに関する視覚的指示を与えるために、各エントリに関する候補識別子の確率パラメータを考慮することを含む。

ディスプレイの第２の領域は、最初に、用語識別モジュールがエンティティの言及が最もふさわしいと決定したエンティティの付加的な特性を表示してもよい。代わりに、ユーザがリストからエントリを選択するまでは、エンティティの付加的な特性を表示するディスプレイの第２の領域がなくてもよい。

リスト中の各エントリが備える少なくとも１つの特定は、好ましくは、そのエントリに関するエンティティの識別子、たとえば、１以上のデータベース中のエンティティの固有の識別番号（たとえば登録番号）、あるいは、エンティティの正規名（canonical name）である。したがって、リスト中の各エントリは、それぞれの候補識別子を備えてもよい。

好ましくは、ディスプレイの第１の領域に表示される特性は、情報が１以上のデータベースに記憶されることに関する、特性のより大きなグループから、表示のための特性の選択を可能にするために、編集可能な構成パラメータによって決定される。好ましくは、ディスプレイの第２の領域に表示された特性は、構成パラメータによって決定され、そのパラメータは、１以上のデータベースに情報があることに関する、特性のより大きなグループから表示される特性を選択するために変更可能である。

ディスプレイの第２の領域にエンティティの付加的な特性を表示するだけでなく、方法は、選択されたエントリに関するエンティティに関して、ディスプレイの第１の領域に表示されている、または表示された特性と同じ特性を、ディスプレイの第２の領域内に表示することを含んでもよい。

好ましくは、１以上のデータベースは、１以上のオントロジである。
好ましくは、方法は、ユーザの選択に応答して、１以上のユーザ選択可能な基準を満たす、リストエントリが提供されることに関するエンティティを制限することを含む。したがって、方法は、好ましくは、ユーザが特定する１以上の基準を特定するために、ユーザによって選択可能な、ユーザ選択可能なユーザインターフェイス要素を表示することを含む。ユーザ選択可能なユーザインターフェイス要素は、好ましくは、たとえばドロップダウンメニューのようなメニューにおいて、エンティティの１以上のユーザ選択可能な特性を表示する。方法は、選択された特性を有するエンティティにリストエントリが与えられることに関連してエンティティを制限することを備えてもよい。

方法は、どの付加的な特性がディスプレイの第２の領域に表示されるかということに関連して、現在選択されたエントリに関するエンティティと共通した特性を有するところにリストエントリが表示されることに関するエンティティを制限するために選択可能な、ユーザ選択可能なユーザインターフェイス要素を提供することを含んでもよい。この場合、方法は、好ましくは、リストエントリが、したがって、ユーザ選択可能なユーザインターフェイス要素の選択に応じて表示されることに関連する、前記エンティティを制限することを含む。

好ましくは、方法は、文書中のエンティティの１以上の言及の複数の候補識別子を決定するために、テキスト文書を受けるとともに、用語識別モジュールを用いて、その文書を分析することを含む。用語識別モジュールは、好ましくは、最大エントロピーマルコフモデル（Maximum Entropy Markov Model）または、隠れマルコフモデル（Hidden Markov Model）のような教育可能な統計モデルを使用する。

識別子割当命令が受信されることに関する選択されたエンティティは、典型的には選択されたリストエントリに関するエンティティである。

方法はまた、ディスプレイを用いて、ユーザに文書を表示することを備えてもよい。これは好ましく、ユーザが文書を、そして、ユーザ選択可能なエントリのリストを、ディスプレイで便利に見ることができる。ディスプレイの第２の領域は、好ましくは、ディスプレイの第１の領域と同時に見ることができる。

テキスト文書は、生医学的なテキスト文書であってもよい。この場合、エンティティは、典型的には１以上のタンパク質、遺伝子、ポリ核酸、巨大分子構造、複合体、生物、細胞小器官を備える。

発明は、第２の局面において、ディスプレイおよび１以上のユーザ入力デバイスを備えるコンピュータ装置に及び、コンピュータ装置は、第１の局面に従う方法を実行するよう動作可能である。

本発明の第３の局面に従うと、ディスプレイおよび１以上のユーザ入力デバイスを備えるコンピュータ装置において実行されるときに、前記コンピュータ装置に第１の局面の方法を実行させるコンピュータプログラムコードが提供される。コンピュータ装置は、典型的には、オペレーティングシステムソフトウェア、ディスプレイドライバソフトウェアおよび入力デバイスソフトウェアをさらに備える。

第４の局面において、発明は、本発明の第３の局面に従うプログラムコードを記憶する、コンピュータ読取可能な担体に及ぶ。

本発明の例示的な実施例が以下の図を参照して示される。

本発明の方法を実行するために適したコンピュータ装置の概略図である。本発明に従うユーザインターフェイスのスクリーンショットの図である。ドロップダウンメニューを有する、図２のユーザインターフェイスの部分のスクリーンショットの図である。図２の図２のユーザインターフェイスのさらなる部分のスクリーンショットの図である。支援されたキュレーション手続きのフローチャートである。

例示的な実施例の詳細な説明
図１を参照して、コンピュータ装置は、クライアントコンピュータ２と、ネットワーク６を介して接続されるサーバ４とを備える。サーバは、生物医学論文のテキスト文書のようなテキスト文書から情報の抽出を実行して、人間の管理者への提示のために、分析された文書およびエンティティの候補識別子をクライアントコンピュータへ送信する。

クライアントコンピュータは、ＣＰＵ８と、ＣＰＵが外部のＲＡＭメモリ１０と通信する１以上のバス９と、ハードディスク１２と、キーボード１６およびマウス１８のような入力周辺機器を駆動するために用いられる入力デバイスインターフェイス１４と、ビデオ信号をディスプレイ２２に送信するビデオディスプレイドライバ２０と、イーサネット（登録商標）アダプタカードのような、ネットワークインターフェイス２４とを含む。ハードディスクは、オペレーティングシステムソフトウェアと、デバイスドライバソフトウェアとを記憶する。デバイスドライバソフトウェアは、必要時にＲＡＭメモリに読み込まれて、ディスプレイに表示されるべき画像を特定するとともに、入力機器を用いるユーザからの信号を受けることによって、ユーザインターフェイスを提供するために用いられる。オペレーティングシステムソフトウェアは、テキスト、画像、ウィンドウ、メニューなどのユーザインターフェイス要素を示す画像を提供して、入力機器によって、ユーザからの命令を解釈するためにディスプレイによって解釈できるビデオ信号を、クライアントコンピュータに生成させるよう動作可能な、ウィンドウイングオペレーションシステムである。

サーバは、用語識別および他の自然言語処理ステップを実行するための少なくとも１つのＣＰＵ２６を備える。サーバは、テキスト文書２８のデータベースを検索可能に（retrievably）記憶するデータストレージと、エンティティに関するデータおよびそれらエンティティの特性を含むオントロジデータベース３０とを含む。各エンティティは、データベース内において、そのエンティティの識別子として機能する登録番号に関連するインデックスが付される。各エンティティに関するデータは、英数字の列の形式で、そのエンティティの正規形を含む。この例示的実施例は、クライアントコンピュータおよび分離したサーバを利用するものであるが、当業者は、単一のコンピュータによって、すべてのステップが実行可能であること、または、さまざまなステップが、さらなるコンピュータ間で分配されてもよいことを理解するであろう。

サーバは、テキスト文書を受信するとともに、そのテキスト文書に交互に作動する一連のソフトウェアモジュールの形式で、自然言語処理パイプラインを用いてそのテキスト文書を分析するよう動作可能である。自然言語処理パイプラインは、後述するが、用語識別モジュールを含み、用語識別モジュールは、テキスト文書中に見出されるエンティティの各言及に関して、エンティティのその言及の候補識別子のグループを、その識別子が、エンティティの個別の言及にとって正しい識別子であるということの確率に関するパラメータに従って出力するように動作可能である。

クライアントコンピュータは、受け取ったテキスト文書を、そこにハイライトされた自然言語処理パイプラインによって、テキスト文書内に識別されたエンティティの１以上の言及をともなって、それらが識別されたテキスト文書中の場所において、ディスプレイに表示する。管理人は、キュレーションのために、たとえば、コンピュータマウスあるいは他のポインティングデバイスで示してボタンを押すことによって、エンティティの個別の言及を選択してもよい。管理人は、エンティティの言及に、オントロジにおけるエンティティの識別子を割当てようとする。オントロジは、彼らの意見では、エンティティの言及が表現するものである。

一旦、エンティティの個別の言及がキュレーションのために選択されたならば、エンティティの個別の言及の候補識別子のグループが分析されるとともに、候補識別子の各々が参照するエンティティの特性は、オントロジから読みだされる。この例では、エンティティの言及は遺伝子を示す。補助ルックアップウィンドウ１００が示されて、表示されたテキスト文書の少なくとも一部を潜在的に隠す。補助ルックアップウィンドウは、ディスプレイの第１の領域として機能し、リスト１０４を含み、複数のエントリ１０４から形成されるボックス１０２を含む。リストは、一度に第１の領域に表示することができるよりも長くてもよく、ユーザがリストのより下にあるいはより上にあるエントリを見ることを可能にするためにスクロールバー１０６が必要に応じて提供される。

各エントリは、候補識別子のグループ中の１つの候補識別子によって参照されるエンティティに関する。各エントリは、そのエントリに関し、オントロジから読みだされる、エンティティの一連の特性を含む。表示される特性は、構成パラメータによって決定されるとともに、個別の管理人の要求および管理人によって読みだされるべきテキスト文書の主題に依存する。特性は、列に配置される。図２に示された例では、これらの特性は、後述するランク番号１０５、エントリに関する遺伝子を一意に識別する、登録番号１０６の形式での候補識別子、遺伝子が存在する生物の種１０８、遺伝子の名前の正規表現である英数字シンボル１１０、一連の、遺伝子の一般的な別名１１２、および、それぞれの候補識別子が参照するエンティティの正確なアイソフォーム１１４の識別子である。

リスト内のエントリは、確率の大きいものから順にランク付けされ、その確率は、エントリに関係するエンティティが、管理人によって、エンティティの言及に関連されるべきであると考えられるであろう確率である。その確率は、用語識別モジュールが候補識別子のグループを決定して、最も近い候補識別子に関するエントリが最初に表示されるときに、用語識別モジュールによって決定される。どんな時でも、単一のエントリが選択される。記述１１６、シノニム１１８、遺伝子別名１２０および分類群１２２といった、選択されたエントリに関連するエンティティの付加的な特性が、スクリーン１２４の第２の領域として機能する第２のボックス内に表示される。付加的な特性は、必要時にオントロジから検索される。ユーザは、いつでも、ポインティングデバイスを用いて示すとともにクリックするといった従来のユーザインターフェイス方法を用いて、代わりのエントリを選択でき、スクリーンの第２の領域は、新しく選択されたエントリに関連するエンティティの付加的な特性を表示するために更新される。

結果として、管理人は、すぐにエンティティの言及の候補識別子のリストおよび、それらの識別氏が参照するエンティティを見ることができる。これらの候補識別子が参照する各エンティティについての基本的情報は、ディスプレイの第１の領域に表示される。管理人は、そこで、エンティティを選択することができて、選択されたエンティティの付加的特性がディスプレイの第２の領域に表示される。このことは、サーチエンジンといった別の情報源に向かう必要なく、管理人がエンティティの言及に正しい識別子を割当てる必要がある情報を、管理人がすぐに見ることができる。このことは、キュレーション処理を高速にして、その正確さを潜在的に改善する。

一旦、管理人が、エンティティの言及の正しい識別子を決定すれば、選択されたエントリに関連する識別子がエンティティの言及に割当てられるべきであることを示すために、ユーザインターフェイス要素（この場合には、選択可能ボタン１２６）を使用することができる。この段階において、ディスプレイの第１および第２の領域を含むウィンドウは、エンティティの他の言及が管理人によって選択されるまで、典型的には、非アクティブにされるか、または、ウィンドウオペレーティングシステムによって、全体的に削除される。

補助ルックアップ手順の効率をさらに改善するために、２つのフィルタリング機構が提供される。第１のフィルタリング機構において、ディスプレイの第３の領域は、ドロップダウンメニュー１２８のようなユーザインターフェイス要素を含み、ユーザインターフェイス要素は、フィルタ基準を満たすオントロジに保存される特性を有するエンティティに関するエントリを含むのみであるとリストが制限されることに応じて、ユーザに１以上のフィルタ基準を特定させることができる。たとえば図３は、ユーザがそこから種１３０を選択できるドロップダウンメニューを示している。一旦、種が選択されると、リストは、その種からの遺伝子に関するエントリを表示するのみに修正される。典型的には、フィルタは、ユーザに、ディスプレイの第１または第２の領域に表示される特性のいずれかに依存するフィルタを提供することを可能にする。第２のフィルタリング機構において、図４に示されるように、選択可能なテキスト１３２またはアイコンの形式でのユーザインターフェイス要素が提供され、それは、ユーザインターフェイス要素が選択されたときに、選択されたエントリが関係するエンティティと共通に、オントロジに保存された、１以上の特定された特性を有するエンティティに関するこれらのエントリのみに、リストに表示されたエントリを管理人が制限することを可能にする。この場合、「同じ分類群ＩＤ」を選択することは、リストに表示されたエントリを、オントロジにおける同じ分類群ＩＤ特性を有するエンティティに関するもののみに制限し、「同じ遺伝子ＩＤ」を選択することは、リストに表示されたエントリを、同じ遺伝子ＩＤ特性を有するエンティティに関するものに制限するであろう。われわれは、このことが、人間の管理人が、彼らのエンティティの言及の望ましい識別子を見つけることができるプロセスを高速化させることを見出した。

管理人が、エンティティの言及の識別子を選択することを可能にする上に、ユーザインターフェイスは、好ましくはまた、管理人が、オントロジにはないエンティティを示すエンティティの言及を発見したならば、管理人が、新しい識別子をともなって、新しいエンティティをオントロジに追加することを可能にする。

情報抽出
情報抽出を実行し、エンティティの個別の言及に関する候補識別子のグループを準備するために適したコンピュータソフトウェアが図５を参照して説明される。図５は、情報抽出手順に含まれるステップのフロー図である。トークン化ソフトウェアモジュール２００はＸＭＬフォーマットのキャッシュされた文書ファイルを入力として受付け、トークン化マークアップを含む修正ＸＭＬファイル２０２を出力する。固有エンティティ認識ソフトウェアモジュール２０４は修正ＸＭＬファイル１１２を入力として受け、エンティティの個別の言及が認識されマークアップされた、さらに修正されたＸＭＬファイル１１６を出力する。固有エンティティ認識ソフトウェアモジュールは、以前トレーニングデータ２０８に対してトレーニングされている。固有エンティティ認識ソフトウェアモジュールは、複数の異なる先行ファイルを備える。修正ＸＭＬファイルは、これもオントロジデータ２１２を入力として取る用語識別ソフトウェアモジュール２１０によって処理されて、エンティティの個別の言及が、１０から２０の候補識別子のグループへの参照によって標識付けされた、さらに修正されたＸＭＬファイル２１４を出力する。次に修正ＸＭＬファイル１２４は、関係抽出ソフトウェアモジュール１２６によって処理され、これは、文書ファイル中で識別された関係に関するデータを含む注釈付きＸＭＬファイル１２８を出力する。各候補識別子は、オントロジデータに記憶されたエンティティへの参照であり、候補識別子のグループは、複数の候補識別子として機能する。エンティティの各個別の言及の候補識別子のグループに加え、用語識別ソフトウェアモジュールは、それぞれの候補識別子が、エンティティのその言及が表現する正しいエンティティと考えられるものを参照する、計算された確率に関するパラメータを出力する。エンティティの各個別の言及の候補識別子のグループに加え、修正出力ＸＭＬファイル２１６はまた、テキスト文書において少なくとも一度、固有のエンティティを表現するとして識別されたあらゆる文字列に関し、潜在的に、それぞれの文字列によって表わされると用語識別ソフトウェアモジュールが考える、数百のエンティティの識別子のリストを含む。

次に修正ＸＭＬファイルは、関係抽出ソフトウェアモジュール２１８によって処理され、これは、文書ファイル中で識別された関係に関するデータを含む注釈付きＸＭＬファイル２２０を出力する。

トークン化、固有エンティティ認識、用語識別および関係抽出は各々、進行中の研究の重要な分野であり、これらの段階の各々を実行するためのソフトウェアは、自然言語処理の分野の当業者には周知である。例示的な情報抽出パイプラインにおいて、ｐｄｆおよびプレーンテキストなどのさまざまなフォーマット、ならびにＮＣＰＩ／ＮＬＭアーカイビングおよび交換ＤＴＤなどのＸＭＬフォーマットなどの、さまざまなフォーマットの入力文書が単純なＸＭＬフォーマットに変換され、このフォーマットは、タンパク質および他の生物医学的エンティティの名称において重要であり得る上付きおよび下付きに関する情報などの文書構造およびフォーマット情報のいくつかの有用な要素を保存する。文書は、〈ｐ〉要素によってＸＭＬ中で表わされる段落に分割されると思われる。トークン化の後、ルシーン（ＬＵＣＥＮＥ）プロジェクト（アパッチソフトウェア財団（the Apache Software Foundation）、アパッチルシーン（Apache Lucene）、２００５）からのデフォルトトークナイザおよび文境界検出を用いて、段落の中のテキストは、〈ｗ〉（単語）要素を含有する〈ｓ〉（文）要素からなる。このフォーマットはパイプラインを通じて永続する。付加的な情報および処理の間に追加される注釈データは一般的に、（たとえば、品詞タグなどの）単語に対する属性を追加することにより、またはスタンドオフマークアップにより記録される。スタンドオフマークアップは、ＩＤおよびＩＤＲＥＦ属性により、他の要素を指す要素からなる。これにより、テキストの重なる一部を参照できるようになり，スタンドオフ要素は、必ずしも元のテキストでは隣接していない他のスタンドオフ要素を参照できる。固有表現は、エンティティの開始および終了単語を指す〈ｅｎｔ〉要素によって表わされる。関係は、関係に参加する〈ｅｎｔ〉要素を指す〈ａｒｇｕｍｅｎｔ〉子を用いて、〈ｒｅｌａｔｉｏｎ〉要素によって表わされる。スタンドオフマークアップはデータと同じファイル内に記憶されるため、これはパイプラインを通じてユニットとして容易に受け渡し可能であるが、当業者はマークアップは他の文書に記憶され得ることを認識するであろう。

入力された文書は次に、各段階の出力がＸＭＬマークアップで符号化される、ＬＴ−ＴＴＴ２ツールを用いて実現されるルールベース前処理ステップのシーケンスによって交互に分析される（Grover, C., Tobin, R. and Matthews, M., Tools to Address the Interdependence between Tokenisation and Standoff Annotation, in Proceedings of NLPXML2-2006 (Multi-dimensional Markup in Natural Language Processing),pages 19-26, Trento, Italy, 2006）。トークン化および文分割の初期ステップの後に、MedPostデータ（Smith, L., Rindflesch, T. and Wilbur, W. J., MedPost: a part-of-speech tagger for biomedical text. Bioinformatics, 20 (14): 2320-2321, 2004）上でトレーニングされたＣ＆Ｃ品詞タグ付けプログラム（tagger）（Curran, J. R. and Clark, S., Investigating GIS and smoothing for maximum entropy taggers, in Proceedings of the 11th Meeting of the European Chapter of the Association for Computational Linguistics (EACL-03), pages 91-98, Budapest, Hungary, 2003）を用いた品詞タグ付けが行なわれる。

レマタイザ（lemmatiser）モジュールは、Morphaレマタイザ（Minnen, G., Carroll, J. and Pearce, D., Robust, applied morphological generation, in Processing of 1st International Natural Language Generation Conference (NLG '2000), 2000）を用いて、語形変化した名詞および動詞の語幹についての情報を得る。省略形およびそれらの長い形についての情報（たとえばＢ細胞リンカータンパク質（ＢＬＮＫ））は、シュバルツ（Schwartz）およびハースト（Hearst）のExtractAbbrevプログラム（Schwartz, A. S. and Hearst, M. A. Identifying abbreviation definitions in biomedical text, in Pacific Symposium on Biocomputing, pages 451-462, 2003）を呼び出すステップで計算される。ルックアップステップは、オントロジ情報を用いて種の科学的および一般的英語名称を識別し、用語識別コンポーネントにおいて下流で用いる。最後のステップは、ＬＴ−ＴＴＴ２ルールベースチャンカー（chunker）を用いて、名詞および動詞の群ならびにそれらの先頭（heads）をマークアップする（Grover, C. and Tobin, R., Rule-Based Chunking and Reusability, in Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC, 2006), Genoa, Italy, 2006）。

固有エンティティ認識モジュールはタンパク質を認識するのに用いられる。しかし、当業者は、タンパク質複合体、フラグメント、突然変異体および融合体、遺伝子、方法、薬剤による治療、細胞系などのエンティティの他のクラスを類似の方法によっても認識し得ることを認識するであろう。固有エンティティ認識モジュールは、ＣｏＮＬＬ−２００３共有タスク（Tiong Kim Sang, E. F. and De Mulder, F., Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition, in Walter Daelemans and Miles Osborne, editors, Proceedings of CoNLL-2003, pages 142-147, Edmonton, Canada, 2003）のためにカラン（Curran）およびクラーク（Clark）によって開発された最大エントロピーマルコフモデル（ＭＥＭＭ）タグ付けプログラム（以下Ｃ＆Ｃタグ付けプログラムと称されるCurran, J. R. and Clark, S., Language independent NER using a maximum entropy tagger, in Walter Daelemans and Miles Osborne, editors, Proceedings of CoNLL-2003, pages 164-167, Edmonton Canada, 2003）の変形版であった。

バニラＣ＆Ｃタグ付けプログラムは、ＣｏＮＬＬ−２００３などのニュースワイヤ固有エンティティ認識タスクに対する性能のために最適化されるので、タンパク質認識タスクに対するその性能を改良するように変形されたタグ付けプログラムが用いられる。生物医学的テキストのために特に設計される特別の特徴が含まれ、可能なタンパク質の名称を含む地名辞典（gazetteer）が組入れられ、省略形再タグ付けプログラムによって省略形との整合が確実にされ、統計的モデルのパラメータが最適化された。Ｃ＆Ｃ実験特徴オプションを用いて追加された追加特徴は以下のとおりである：CHARACTER：典型的なタンパク質の名称に一致する正規の表現の集合；WORDSHAPE：Ｃ＆Ｃ´wordtype´正射投影特徴の拡張版；HEADWORD：現在の名詞句の先頭の語（head word）；ABBREVIATION：この文献において地名辞典用語の省略形として識別されるいずれの用語とも一致する；TITLE：文書のタイトルの名詞句に見られるいずれかの用語；WORDCOUNTER：文書の中で１０個の最も一般的に登場するうちのいずれかの連続的な単語に一致する；VERB：文の中の各々の名詞句トークンに追加される動詞見出し語（lemma）情報；FONT：元の文書フォーマットに含有されるイタリックおよび下付きのテキスト。NOLAST：Ｃ＆Ｃタグ付けプログラムの最後（メモリ）の特徴は取除かれた。変形されたＣ＆Ｃタグ付けプログラムも、前処理されて共通の英語の単語を除去しかつトークン化されてパイプラインによって課されるトークン化に一致した、RefSeq（http://www.ncbi.nlm.nih.gov/RefSeq/）から導出されるタンパク質のリストの形式での地名辞典を用いて拡張された。地名辞典を用いて、文書中のタンパク質をタグ付けし、次にこのタグ付けに対応するバイオタグと、Ｃ＆Ｃ実験特徴などの以前のおよび現在のバイオタグの二重字とを各単語に追加する。エンティティインスタンスの群に対してカスケード化を実行する（たとえば、すべてのエンティティインスタンスについて１つのモデル、特定的なエンティティの種類に対して１つ、および組合せ）。カスケード中のその後のモデルは、ＧＵＥＳＳ特徴を介して以前のものの推測へのアクセスを有する。Ｃ＆Ｃタグ付けプログラムは、B. Alex, B. Haddow, and C. Grover, Recognising nested named entities in biomedical text, in Proceedings of BioNLP 2007, p.65-72, Prague, 2007に記載されるものに対応し、この内容はここに引用により援用される。

使用において、Ｃ＆Ｃタグ付けプログラムは、タグ付けプログラムの機能に影響を及ぼすパラメータを規定する先行ファイルを用いる。複数の異なる先行ファイルが提供されて、精度と再現率との間の異なるバランスで固有エンティティ認識を実行可能にし、これにより、人間の作成者によるその後の見直しのために異なるデータが抽出される複数の異なる動作モードで情報抽出が起こり得るようになる。各々の先行ファイル中の「タグ先行（tag prior）」パラメータは、バイオタグの各々と関連したエンティティ決定しきい値を調整し、これにより、再現率に対して精度を優先するか、または精度に対して再現率を優先するかの決定境界を変更するように選択される。

省略形再タグ付けプログラム（retagger）は後処理ステップとして実現され、ここでは、Ｃ＆Ｃタグ付けプログラムの出力は再タグ付けされて、シュバルツおよびハーストの省略識別子によって予測される省略形と確実に整合するにようにされた。省略形の先行語がタンパク質としてタグ付けされていれば、同じ文書中のすべてのその後の省略形の出現は再タグ付けプログラムによってタンパク質としてタグ付けされる。

用語識別ソフトウェアモジュールは４つの重要な構成要素を用いる。第１の構成要素は、エンティティの各々の言及の文脈を見ることによって文書中のエンティティの個別の言及の最も尤度の高い種を識別する種タグ付けプログラムである。種タグ付けプログラムは、「ヒト」または「マウス」などの種を示す単語からの手がかりに特に注目する。種タグ付けプログラムは、手作業で注釈付けされたデータ上でトレーニングされた、サポートベクターマシン（Support Vector Machines）アルゴリズム（www.cs.waikato.ac.nz/~ml/weka, Witten, I. H. and Frank, E. (2005), Data Mining: Practical machine learning tools and techniques, second edition, Morgan Kaufmann, San Francisco, 2005）のWeka実現例を利用する。１つの実現例では、各々のトレーニングインスタンスは特徴−値の対として表わされ、ここではサイズ５０の文脈ウィンドウで言及されるタンパク質と同時に起こるＴＦ−ＩＤＦ重み付け単語見出し語であり、値は、人間の注釈付け者によって言及されるタンパク質に割当てられた種である。種タグ付けプログラムは、最も尤度の高い識別された種だけでなく多数の代替的な種も出力し得る。

種の識別の後、ファジーマッチャー（matcher）およびルールベースマッチャーの両者が呼び出され、その各々は独立して、オントロジ内で、エンティティの公知の同義語であるエンティティの言及と同様の表層形式を識別する。この段階からの出力は一連のスーツケース（suitcases）であり、そのうち１つが各々の表層形式について与えられる。各々の表層形式に関するスーツケースは、それぞれの表層形式と同じ同義語を有するオントロジからのエンティティの識別子を含む。

ランク付けモジュールは、次にスーツケースを読出し、テキスト文書中のエンティティの各々の言及ごとに候補識別子のランク付けされたリストを生成する。ランク付けモジュールは、ヒューリスティックルールを用いることができる。これは、オントロジ中で最も低い数値を有する識別子を優先し；RefSeqオントロジ中の識別子への参照番号の数を考慮し；かつエンティティのインスタンスが、エンティティの同義語よりもむしろ、候補識別子が関連するエンティティの正規化形式と同一または同様であるか否かも考慮する。そして、関連のある場合、候補識別子が関連するタンパク質のアミノ酸長および／または候補識別子が関連するアイソフォームの数（すなわち、ＣＫ−１、ＣＫ−２およびＣＫ−３などのアイソフォーム中に存在するエンティティの数字索引）である。当業者には馴染みのある標準的な実験を適用する結果、これらのさまざまな因子の重みが決まり、いずれの所与のトレーニングデータの組についても最良の性能を生じる、それらを処理するための順序付けがなされる。

結果は、エンティティの各々の言及と関連して出力される、典型的には１５個までの候補識別子のバッグ（bag）である。各々のバッグの中の候補識別子は、エンティティの各々の個別の言及の最も尤度の高い識別子であると考えられるものであり、それらはランク付けされた順で与えられる。ディスプレイの第１の領域にエントリのリストが与えられるとき、エントリは、エンティティの言及に関連する候補識別子のバックからのそれぞれの候補識別子のランク順に与えられる。ディスプレイの第１の領域において管理人に与えられるリスト中のエントリの数を増加させるため、付加的な潜在的に関連のある候補識別子を、エンティティの各々の言及に対応する表層形式に関するスーツケースから入手してもよい。

さらなる変更および変形およびがここに開示された発明の範囲内でなされてもよい。

Claims

文書中のエンティティの言及に識別子を割当てる方法であって、前記方法は、ディスプレイと１以上のユーザ操作可能な入力デバイスとを含むコンピュータ装置によって実行される以下のステップ：
（ｉ）文書中のエンティティの言及に関して、用語識別モジュールから、エンティティの前記言及の複数の候補識別子を受けるステップであって、各候補識別子は、どのエンティティ特性データが１以上のエンティティデータベースに記憶されているかに関するエンティティへの参照である、前記複数の候補識別子を受けるステップ、
（ｉｉ）ディスプレイの第１の領域に、複数のユーザ選択可能なエントリを有するリストを表示するステップであって、前記リスト中の各エントリは、前記複数の候補識別子の１つによって参照されるエンティティに関し、各エントリは、それぞれのエンティティの特性を備え、前記特性の少なくとも１つは、前記１以上のエンティティデータベースから検索される、前記リストを表示するステップ、
（ｉｉｉ）前記リスト中のエントリのユーザによる選択に応じて、前記ディスプレイの第２の領域に、前記選択されたエントリに関する前記エンティティの付加的特性を表示するステップであって、前記付加的特性は、少なくとも一部において、前記１以上の前記データベースから読み出される、前記付加的特性を表示するステップ、および
（ｉｖ）リストエントリに関する選択されたエンティティに関する、ユーザから受けた識別子割当命令に応じて、前記選択されたエンティティの識別子を、前記エンティティの言及の識別子として割当てるステップ、
を備える、方法。
確率パラメータが、前記複数の候補識別子の各々に関する前記用語識別モジュールから受信されて、前記確率パラメータは、前記候補識別子が参照するエンティティが、エンティティの前記言及によって示されるエンティティである確率に関し、
前記リストを表示するステップは、
エントリに関する候補識別子の前記確率パラメータに従うエントリを指示するため、または、各エントリに関する前記候補識別子の前記確率パラメータに関する視覚的指示を与えるために、各エントリに関する前記候補識別子の前記確率パラメータを考慮することを含む、請求項１に記載の方法。
前記ディスプレイの前記第２の領域は、前記用語識別モジュールが、エンティティの言及の望ましい識別子に最もふさわしいと決定した前記エンティティの付加的特性を最初に表示する、請求項２に記載の方法。
前記リスト中の各エントリが備える少なくとも１つの特性は、前記エントリに関する前記エントリの識別子である、先行する請求項のいずれか１項に記載の方法。
前記ディスプレイの前記第１の領域に表示される前記特性は、情報が前記１以上のデータベースに記憶されることに関する、特性のより大きなグループから、表示のための特性の選択を可能にするために、編集可能な構成パラメータによって決定される、先行する請求項のいずれか１項に記載の方法。
前記方法は、ユーザの選択に応答して、１以上のユーザ選択可能な基準を満たす、リストエントリが提供されることに関する前記エンティティを制限することを含む、先行する請求項のいずれか１項に記載の方法。
前記方法は、前記ユーザが特定する１以上の基準を特定するために、ユーザによって選択可能な、ユーザ選択可能なユーザインターフェイス要素を表示することを含む、請求項６に記載の方法。
前記ユーザ選択可能なユーザインターフェイス要素は、たとえば、ドロップダウンメニューのようなメニューにおいて、エンティティの１以上のユーザ選択可能な特性を表示し、前記方法は、前記選択された特性を有するエンティティにリストエントリが与えられることに関する前記エンティティを制限する、請求項７に記載の方法。
前記方法は、現在選択されたエントリに関するエンティティと共通した特性を有するところにリストエントリが表示されることに関する前記エンティティを制限するために選択可能な、ユーザ選択可能なユーザインターフェイス要素を提供することを含む、請求項６から８のいずれか１項に記載の方法。
テキスト文書を受けるステップと、前記文書内のエンティティの１以上の言及の前記複数の候補識別子を決定するために、用語識別モジュールを用いて、前記文書を分析するステップとを含む、先行する請求項のいずれか１項に記載の方法。
識別子割当命令が受信されることに関する前記選択されたエンティティは、前記選択されたリストエントリに関する前記エンティティである、先行する請求項のいずれか１項に記載の方法。
前記テキスト文書は、生物医学的テキスト文書であり、前記エンティティは、１以上のタンパク質と、ポリ核酸と、巨大分子構造と、複合体と、生物と、細胞小器官とを含む、先行する請求項のいずれか１項に記載の方法。
前記エンティティの前記言及の識別子として割当てられる前記識別子は、前記選択されたエンティティを参照する前記候補識別子である、先行する請求項のいずれか１項に記載の方法。
ディスプレイと、先行する請求項のいずれか１項の方法を実行するようにコンピュータ装置が動作可能である１以上の入力デバイスとを備える、コンピュータ装置。
ディスプレイと１以上のユーザ入力デバイスとを有するコンピュータ装置で実行されるときに、前記コンピュータ装置に請求項１から１４のいずれか１項に記載の方法を実行させる、コンピュータプログラムコード。
請求項１５に記載のプログラムコードを記憶する、コンピュータ読取可能な担体。