JP2017045453A

JP2017045453A - 固有表現抽出用ドキュメント専用地名辞典

Info

Publication number: JP2017045453A
Application number: JP2016158512A
Authority: JP
Inventors: ウィリアム・ラドフォード; Radford William; ザビエル・カレラス; Carreras Xavier; ジェームス・ブリントン・ヘンダーソン; Brinton Henderson James
Original assignee: Xerox Corp
Current assignee: Xerox Corp
Priority date: 2015-08-27
Filing date: 2016-08-12
Publication date: 2017-03-02
Anticipated expiration: 2036-08-12
Also published as: US9836453B2; US20170060835A1; EP3136257A3; JP6829559B2; EP3136257A2

Abstract

【課題】ドキュメントから固有表現を抽出する方法を提供する。【解決手段】固有表現抽出モデルは、ドキュメントレベルの実体タグでタグ付けされたテキストサンプルから抽出された特徴で訓練される。ラベル付けされるテキストドキュメントを受け取り、少なくとも１つのドキュメントレベルの実体タグでタグ付けされる。ドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成する。このドキュメント専用の地名辞典には、一連の実体名のそれぞれに対して１つの項目が含まれ、ドキュメントのテキスト列のトークンに関する特徴が抽出される。これらの特徴には、地名辞典の項目のうちの１つの実体名の少なくとも一部と一致するトークンに関するドキュメント専用の特徴が含まれ、固有表現抽出モデルを用いて、この抽出された特徴に基づいて、テキスト列内のトークンに関して実体ラベルを予測する。【選択図】図２

Description

この例示的な実施形態は、固有表現抽出に関し、ドキュメントレベルの実体名およびタグの型を使用するシステムおよび方法において特定の用途を発見する。

固有表現抽出（ＮＥＲ）では、通常、テキスト内の名前（１つ以上の単語）を特定し、それらの名前を型に割り当てる（例えば、人、場所、組織）。最先端の監視アプローチでは、統計的モデルが用いられており、これらのモデルでは、名前の形態、その言語的脈絡、およびその互換性を既知の名前に組み込んでいる。これらのモデルは、通常、監視される機械学習を用いて訓練され、テキストの大集合に依存し、各名前には手作業で注釈が付けられ、単語スパンおよび名前付きの実体型を指定する。このプロセスは、モデルを訓練する上で有用であるが、手作業のため時間がかかり、かつ、ドキュメント内の名前の出現を全て示すラベルを提供するにはコストがかかりすぎる。

地名辞典とは、外部情報源から掘り出された特定の型を有する名前の大きなリストであり、例として、Ｗｉｋｉｐｅｄｉａ、マッピングデータ、または人口調査などが挙げられる。一般的な使用法は、ある単語が既知の名前の一部かどうかの、ＮＥＲモデル用の２項素性を生成することである。例えば、Ｂｏｂは、人名の大きなリストに現われるため、ｗｅｎｔよりも名前である可能性が最も高い。地名辞典内の名前は、ＮＥＲのタスク内で適用されている型構成と同じ型構成で分類される必要はない（例えば、この型は単純に人の大きなリストでよい）。地名辞典を使用する目的は、ＮＥＲのモデルを訓練するために用いられる注釈付の訓練データ内で必ずしも見られない既知の名前を加えることにより、思い出す能力を向上させることである。

英語のニュースワイヤーサービス用に開発された統計的ＮＥＲシステムは、標準的なデータセット上ではうまく機能するが、言語および領域内でデータが変化すると、その機能は低下してしまう。

外部の知識をＮＥＲモデルに組み込むために、膨大な作業が行われている。その概要に関しては、ＤａｖｉｄＮａｄｅａｕ，ｅｔａｌによる「Ａｓｕｒｖｅｙｏｆｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎａｎｄｃｌａｓｓｉｆｉｃａｔｉｏｎ」（ＬｉｎｇｕｉｓｔｉｃａｅＩｎｖｅｓｔｉｇａｔｉｏｎｅｓ，３０（１）：３−２６，２００７）を参照。例えば、１つの方法では、地名辞典の項目ごとに構造符号化を用いている。その詳細については、Ｊｕｎ’ｉｃｈｉＫａｚａｍａｅｔａｌによる「ＥｘｐｌｏｉｔｉｎｇＷｉｋｉｐｅｄｉａａｓｅｘｔｅｒｎａｌｋｎｏｗｌｅｄｇｅｆｏｒｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ」（Ｐｒｏｃ．２００７ＪｏｉｎｔＣｏｎｆ．ｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇａｎｄＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ（ＥＭＮＬＰ−ＣｏＮＬＬ），ｐｐ．６９８−７０７，２００７（以後本明細書では、Ｋａｚａｍａ２００７と呼ぶ））を参照。この符号化には一連の特徴が用いられる。これらの特徴を用いて、ＣＲＦモデルにおけるラベルをモデリングすることができる。このことは、例えば、ＬｅｖＲａｔｉｎｏｖ，ｅｔａｌによる「Ｄｅｓｉｇｎｃｈａｌｌｅｎｇｅｓａｎｄｍｉｓｃｏｎｃｅｐｔｉｏｎｓｉｎｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ」（Ｐｒｏｃ．１３ｔｈＣｏｎｆ．ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ（ＣｏＮＬＬ−２００９），ｐｐ．１４７−１５５，２００９，以後本明細書では「Ｒａｔｉｎｏｖ２００９」と呼ぶ）に記載されている。ＮＥＲを支援するために、知識ベース（ＫＢ）にデータをリンクさせることも行われている。このことについては、ＡｎｇｕｓＲｏｂｅｒｔｓ，ｅｔａｌによる「Ｃｏｍｂｉｎｉｎｇｔｅｒｍｉｎｏｌｏｇｙｒｅｓｏｕｒｃｅｓａｎｄｓｔａｔｉｓｔｉｃａｌｍｅｔｈｏｄｓｆｏｒｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ：ａｎｅｖａｌｕａｔｉｏｎ」（Ｐｒｏｃ．６ｔｈＩｎｔ’ｌＣｏｎｆ．ｏｎＬａｎｇｕａｇｅＲｅｓｏｕｒｃｅｓａｎｄＥｖａｌｕａｔｉｏｎ（ＬＲＥＣ’０８），ｐｐ．２９７４−２９８０，２００８）に記載されている。

リンクされたデータは、ＮＥＲのためのデータ取得法としても使用されてきた。具体的には、Ｗｉｋｉｐｅｄｉａから訓練データを生成する（Ｋａｚａｍａ２００７、ＡｌｅｘａｎｄｅｒＥ．Ｒｉｃｈｍａｎ，ｅｔａｌによる「Ｍｉｎｉｎｇｗｉｋｉｒｅｓｏｕｒｃｅｓｆｏｒｍｕｌｔｉｌｉｎｇｕａｌｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ」（Ｐｒｏｃ．ＡＣＬ−０８：ＨＬＴ，ｐｐ．１−９，２００８）、ＪｏｅｌＮｏｔｈｍａｎ，ｅｔａｌによる「ＬｅａｒｎｉｎｇｍｕｌｔｉｌｉｎｇｕａｌｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｆｒｏｍＷｉｋｉｐｅｄｉａ」（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ，１９４（０）：１５１−１７５，２０１３））、あるいは遺伝子名の記事から訓練データを生成する（ＡｎｄｒｅａｓＶｌａｃｈｏｓ，ｅｔａｌによる「Ｂｏｏｔｓｔｒａｐｐｉｎｇａｎｄｅｖａｌｕａｔｉｎｇｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎｉｎｔｈｅｂｉｏｍｅｄｉｃａｌｄｏｍａｉｎ」（Ｐｒｏｃ．ＨＬＴ−ＮＡＡＣＬＢｉｏＮＬＰＷｏｒｋｓｈｏｐｏｎＬｉｎｋｉｎｇＮａｔｕｒａｌＬａｎｇｕａｇｅａｎｄＢｉｏｌｏｇｙ，ｐｐ．１３８−１４５，２００６）、ＡｌｅｘＭｏｒｇａｎ，ｅｔａｌによる「Ｇｅｎｅｎａｍｅｅｘｔｒａｃｔｉｏｎｕｓｉｎｇｆｌｙｂａｓｅｒｅｓｏｕｒｃｅｓ」（Ｐｒｏｃ．ＡＣＬ２００３ＷｏｒｋｓｈｏｐｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇｉｎＢｉｏｍｅｄｉｃｉｎｅ，ｐｐ．１−８，２００３））。これらの方法の目的は、標準的なＮＥＲモデル用に、大量の訓練データを生成することである。

外部知識をベクトル空間埋込み（例えば、ブラウンクラスタ、神経言語モデル、またはスキップグラムモデル）で表すことも、ＮＥＲに対して効果的であるとみられてきた。（Ｒａｔｉｎｏｖ２００９、ＪｏｓｅｐｈＴｕｒｉａｎ，ｅｔａｌによる「Ｗｏｒｄｒｅｐｒｅｓｅｎｔａｔｉｏｎｓ：Ａｓｉｍｐｌｅａｎｄｇｅｎｅｒａｌｍｅｔｈｏｄｆｏｒｓｅｍｉ−ｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇ」（Ｐｒｏｃ．４８ｔｈＡｎｎｕａｌＭｅｅｔｉｎｇｏｆｔｈｅＡＣＬ，ｐｐ．３８４−３９４２０１０）、ＡｌｅｘａｎｄｒｅＰａｓｓｏｓ，ｅｔａｌによる「Ｌｅｘｉｃｏｎｉｎｆｕｓｅｄｐｈｒａｓｅｅｍｂｅｄｄｉｎｇｓｆｏｒｎａｍｅｄｅｎｔｉｔｙｒｅｓｏｌｕｔｉｏｎ」（Ｐｒｏｃ．１８ｔｈＣｏｎｆ．ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ，ｐｐ．７８−８６，２０１４））

しかし、これらの方法では、一般に、非常に大きなＮＥＲモデルが作られてしまい、ドキュメントを処理することを考慮に入れていない。

モデルを訓練するために、大量の付加的な訓練データを集めて使用する必要なく、ＮＥＲモデルの性能を向上させるシステムおよび方法が依然として必要である。

例示的な実施形態の一態様に係る表現抽出方法には、ドキュメントレベルの実体タグでタグ付けされる訓練サンプルから抽出される特徴で訓練された固有表現抽出モデルを提供するステップが含まれる。各訓練サンプルには、少なくとも１つのテキスト列が含まれる。この方法には、名前付き実体でラベル付けされるテキストドキュメントを受け取るステップも含まれる。このテキストドキュメントは、少なくとも１つのドキュメントレベルの実体タグでタグ付けされる。この方法には、少なくとも１つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップも含まれる。このドキュメント専用の地名辞典には、一連の項目が含まれる、すなわち、一連の実体名のそれぞれに対して１つの項目が含まれる。この方法には、ドキュメントのテキスト列に関して、テキスト列のトークンに関する特徴を抽出するステップも含まれる。これらの特徴には、地名辞典の項目のうちの１つの実体名の少なくとも一部と一致するトークンに関するドキュメント専用の特徴が含まれる。この方法には、固有表現抽出モデルを用いて、この抽出された特徴に基づいて、ドキュメントのテキスト列内のトークンに関して実体のラベルを予測するステップも含まれる。

生成するステップ、抽出するステップ、および予測するステップのうちの少なくとも１つは、プロセッサにより行われ得る。

例示的な実施形態の別の態様によると、表現抽出システムはメモリを含み、このメモリが、ドキュメントレベルの実体タグでタグ付けされるテキスト列から抽出された特徴で訓練された固有表現抽出モデルを格納する。このシステムは、実体ラベルでラベル付けされる入力テキストドキュメントに関するドキュメント専用の地名辞典を生成する地名辞典生成器も含む。テキストドキュメントは、少なくとも１つのドキュメントレベルの実体タグでタグ付けされる。このドキュメント専用の地名辞典には、少なくとも１つのドキュメントレベルの実体タグにそれぞれ基づく項目が含まれる。地名辞典の項目は、実体名、および随意的には実体型の所定の集合から選択された実体型を含む。このシステムは、テキストドキュメントのテキスト列に関する、テキスト列のトークンに関する特徴を抽出する特徴抽出コンポーネントも含み、これらの特徴が、地名辞典の項目のうちの１つと一致するトークンに関するドキュメント専用の特徴を含む。固有表現抽出モデルを用いて、この抽出された特徴に基づいて、テキスト列内のトークンのうちの少なくともいくつかに関する実体ラベルを予測する認識コンポーネントをこのシステムは含む。メモリと通信し、地名辞典生成器、特徴抽出コンポーネント、および認識コンポーネントを実行するプロセッサをこのシステムは含む。

例示的な実施形態の別の態様に係る固有表現抽出を訓練する方法には、注釈付きの訓練サンプルの集合を受け取るステップが含まれる。この集合内の各訓練サンプルは、トークンの少なくとも１つの訓練シーケンスを含む。各訓練サンプルは、サンプル内の記載と整合することなく、この記載に対応する実体名を含む少なくとも１つのドキュメントレベルの実体タグでタグ付けされる。各訓練シーケンスは、トークンレベルの実体ラベルで注釈を付けられる。この方法には、各訓練サンプルに関して、注釈付きの訓練サンプルの少なくとも１つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップが含まれる。ドキュメント専用の地名辞典は、一連の項目を含み、各項目は個々の実体名を含む。この方法には、ドキュメント専用の地名辞典を用いて、注釈付きの訓練シーケンスのトークンに関して特徴を抽出するステップが含まれる。これらの特徴には、ドキュメント専用の特徴が含まれ、これらのドキュメント専用の特徴は、トークンが少なくとも２つのトークンの地名辞典の実体名のうちの最初のトークンと一致するかどうかを示す特徴、トークンが少なくとも３つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、トークンが少なくとも２つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、およびトークンがユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される。この方法には、これらの抽出された特徴、および訓練シーケンスごとのトークンレベルの実体ラベルで固有表現抽出モデルを訓練するステップが含まれる。

生成するステップ、抽出するステップ、および訓練するステップのうちの少なくとも１つは、プロセッサにより実行することができる。

図１は、例示的な実施形態の一態様による、固有表現抽出システムの機能ブロック図である。図２は、例示的な実施形態の別の態様による、固有表現抽出を実行する方法を示すフローチャートである。図３は、実体タグを有するドキュメントを示す図である。図４は、異なる数のセンテンスに関する様々な表現抽出システムを実体に関してチェックした結果を示すグラフである。図５は、異なる数のセンテンスに関する様々な表現抽出システムを、別の評価で実体に関してチェックした結果を示すグラフである。

例示的な実施形態は、固有表現抽出（ＮＥＲ）のシステム、および固有表現抽出を使用し、訓練する方法に関し、各ドキュメントが、（訓練および予測時間で）１つ以上のドキュメントレベルの実体タグを有し、各ドキュメントレベルの実体タグは、ドキュメント内で現われる個々の既知の実体を引用する。これらのドキュメントレベルの実体タグは、ＮＥＲ認識モデルに入力されるドキュメントの特徴を符号化する際に使用される。

ドキュメントレベルの実体タグは、知識ベース（例えば、ＷｉｋｉｐｅｄｉａのタイトルまたはＵＲＬ）内の識別子などの実体の正規名を含むことができる。各タグは、人、組織、場所、種々雑多（その他の型にはない実体名をカバーする）などの２つ以上の一連の実体型から選択される実体型に関連し得る。これらのタグには、基準型（正しいと仮定された）が割り当てられているが、これらのタグは、テキスト内のフレーズとは整合せず、その記載のいずれか、または、全てと同じ形態を共有することはできない。例えば、ＵｎｉｔｅｄＮａｔｉｏｎｓというタグは、ＵＮという記載を有するドキュメントと関連し得る。各タグは、ドキュメント内の少なくとも１つの記載と一致するが、どの記載かを規定しない。これらのタグは別の知識ベースから得ることができる、あるいは、かなり正確なＮＥＲが必要な場合の要求事項となる。後者の場合、ドキュメントレベルのタグと型を割り当てることは、ドキュメント内の各記載のマーキングを行うよりも時間がかからない可能性があり、したがって、実行可能である。

普段、ドキュメントの作成者は不明瞭な名前を使用しないという推測に基づいて、予測時間に与えられる基準のドキュメントレベルのタグにより、ドキュメントごとに１つの意味という前提を作ることが可能となる。例えば、ＵｎｉｔｅｄＮａｔｉｏｎｓを指してＵＮと記載されているドキュメントでは、例えば、ＵｎｉｖｅｒｓｉｔｙｏｆＮｅｂｒａｓｋａを指すのに同じ頭字語を使用しないはずである。

例示的なドキュメントレベルの実体タグは、以下に記載する様々な用途で使用することができる。

１．顧客ケア：ドキュメントレベルの実体タグは、顧客関係管理システム内で見ることができ、ウェブチャットのトランスクリプトでＮＥＲを向上させるために用いられている。例えば、リアルタイムで、確実に顧客に関連する実体（例えば名前、装置）にタグ付けできると有用である。チャット・トランスクリプト内で顧客の名前をタグ付けすることができ、知識ベースから更なる情報を検索することが可能である。また、高精度のＮＥＲにより、知識獲得などのダウンストリームのオフライン処理が可能となる。チャット中、またはチャット後にドキュメントレベルのタグを適用可能である。

２．ドキュメントの見出し：ニュース記事に見出しを付けるために、関連する実体のドキュメントレベルの実体タグを用いることができる。例えば、ＮｅｗＹｏｒｋＴｉｍｅｓＡｎｎｏｔａｔｅｄＣｏｒｐｕｓ（ｈｔｔｐｓ：／／ｃａｔａｌｏｇ．ｌｄｃ．ｕｐｅｎｎ．ｅｄｕ／ＬＤＣ２００８Ｔ１９）がまさにこの例であり、この中には、人、組織、場所、および話題のキーワードの正規化した見出し付き語彙から検索されたタグで、ライブラリの科学者により手作業でタグ付けされた１，５００，０００を超えるニュース関連記事が収められている。

したがって、これらのドキュメントレベルの実体タグにより提供される情報は、大きな地名辞典を用いる必要なしに、ＮＥＲを向上させるために使用されるが、地名辞典の使用を除外するわけではない。ドキュメントごとに数個のドキュメントレベルの実体タグでさえ、有用な情報を提供することができる。それに加えて、ドキュメントレベルの実体タグを、外部知識ベースからの情報によって向上させることができる。

この方法はこれらの用途には限定されず、その他の用途にも適用可能であり、確認のための付加的な記載のラベルを人間の注釈者に提案することにより、あるいは、自動的にそれらをラベル付けすることにより、体系化されていないテキストにドキュメントレベルのタグを提供する、具体的には、実体のうちの同じものに対する記載がドキュメント内に複数回現われて、人間の注釈者の効率を向上させる。

図１を参照すると、コンピュータにより実施される表現抽出システム１０は、図２に示される表現抽出方法を実行するソフトウェア命令１４を格納するメモリ１２と、メモリ１２と通信し、それらの命令を実行するプロセッサ装置（「プロセッサ」）１６と、を含む。このシステム１０は、図示されているサーバコンピュータ１８などの１つ以上のコンピュータ装置上に駐在する。このシステムは、図示されているクライアントコンピュータ装置２４などの外部装置と通信するための１つ以上の入力／出力装置２０、２２を含む。このシステムのハードウェア・コンポーネント１２、１６、２０、２２は、データ制御バス２６によって通信する。

システム１０は、クライアント装置２４から、インターネットなどの有線または無線のリンク３２を介して、処理される１つ以上のドキュメント３０を入力として受け取る。このドキュメント３０は、テキスト３４、および、少なくとも１つのドキュメントレベルの実体の注釈（タグ）３６、３８を含み、これらは既知である、あるいは正しいことを前提とする。すなわち、未調整であるがドキュメント３０内のその実体を指す、少なくとも１つの記載を有する。すなわち、実体を記載するテキストのそれらのトークン（複数可）とは関連しない、あるいは、より一般的には、ドキュメント全体より短い特定のテキスト列とは関連しない。したがって、実際には、訓練サンプルおよび入力ドキュメントはそれぞれ、複数のトークンに関して、それらが含む実体の個々の記載（複数可）よりも長い。

ドキュメントレベルの実体タグ３６のうちのいくつかはそれぞれ、ドキュメント内に記載４２があるとユーザが判断した知識ベース４０内に存在する特定の知識ベース（ＫＢ）の実体を特定する。本明細書で使用される通り、記載とは実体４４を指す単語またはフレーズであり得る。例えば、ＵＮおよびＵｎｉｔｅｄＮａｔｉｏｎｓは両方とも、ＵｎｉｔｅｄＮａｔｉｏｎｓ（国際機関）であるＫＢの実体４４を指す記載４２であり得、ＧｅｏｒｇｅＷａｓｈｉｎｇｔｏｎは、ＧｅｏｒｇｅＷａｓｈｉｎｇｔｏｎ、すなわち米国大統領を指す記載であり得る。これらのドキュメントレベルの実体タグ３６には、テキスト内の記載と若干重複するＫＢ４０（例えば、Ｗｉｋｉｐｅｄｉａ）内に存在する実体名も含まれているため、本細書ではＫＢの実体タグと呼ぶ。

いくつかの実施形態では、ＫＢ４０内に存在しない他のドキュメントレベルの実体タグ３８が使用されており、これらをニルリンクの実体タグと呼ぶ、あるいは単にニルリンクと呼ぶ。例えば、記載されている特定のＪｏｈｎＳｍｉｔｈ（ツアーガイドのオーガナイザー）はＫＢ４０内に存在しないため、注釈者がＪｏｈｎＳｍｉｔｈと呼ぶ実体ＪｏｅＳｍｉｔｈを含むドキュメントをニルリンク実体タグ３８でタグ付けすることができる。実施形態によっては、ニルリンク実体タグ３８は使用されない。

図３には、別の例示的なテキスト３４が示されている。このテキストは、太文字で強調された（単に説明を簡単にするために）実体の記載４２、およびドキュメントレベルの実体タグ３６、３８を有する。ＫＢ実体に関するＫＢの実体タグ３６はそれぞれ、正規名４６、例えば、ＩＰｈｏｎｅ５Ｓ、およびそれに対応する実体型４８（図示されている例の中のＭＩＳＣ）を含み得る。

図１をもう一度参照すると、命令１４には、タグの地名辞典生成器５０、特徴抽出コンポーネント５２、ＮＥＲモデル訓練コンポーネント５４、認識コンポーネント５６、および情報出力コンポーネント５８が含まれる。

簡単に説明すると、タグの地名辞典生成器５０は、ドキュメントレベルのＫＢ実体タグ３６（および随意的には、ニルリンク実体タグ３８）からの情報を用いて、一連の１つ以上の項目を含む、ドキュメント専用タグの地名辞典６０を作り、有効な場合、各項目が、実体名および個々の実体型４８を含む。注釈者が特定の知識ベースのタイトルを実体名として認識した場合、その知識ベースのタイトルを読むことができる語彙形式に変換することができる。例えば、Ｗｉｋｉｐｅｄｉａのタイトル（またはその他の百科事典的な正規名）をテキスト内で一致させるためにより好適な、有用な地名辞典の項目に変換するために、小文字化すること、下線を引いて分割すること、括弧でくくられた接尾語を取り除くことのうちの１つ以上のことによりこれらのタイトルを変換することができる。例えば、Ａｐｐ＿Ｓｔｏｒｅ＿（ｉＯＳ）をａｐｐｓｔｏｒｅに変換することができる。ＫＢ実体タグ３６に関して、知識ベースの項目から実体の別名を抽出し（随意的には、地名辞典に含ませる）、ＫＢ実体タグを付けて提供する際、同じ型の情報と共に地名辞典に載せることができる。いくつかの実施形態では、実体タグ３６を用いて、例えば、個々のＫＢ項目内のリンクを通して、追加のＫＢからの個々の実体に関する追加情報（関連情報）を集めることができる。

特徴抽出コンポーネント５２は、ドキュメント２６内のトークンから特徴を抽出し、それらのトークンに対応するラベルを供給し、これらのラベルは２つ以上のラベルの所定の集合から引き出す。ドキュメントレベルのタグに関して、ドキュメントレベルの実体タグの名前、または地名辞典６０内のその他の項目の中のどこで、トークンが一致するかに基づいて、トークンの特徴を指定するために符号化方式が用いられる。

例として、Ｋａｚａｍａ２００７に記載されているものと同様の符号化方式を用いて、タグの名前（またはその他の地名辞典の項目）のどこで、トークンが一致するかに基づいてトークンの特徴を抽出する。ドキュメントレベルのタグに一致するトークンに関する例示的な符号化方式では、ドキュメント専用のトークン特徴として、次の例のいくつか、または全てを使用する。：
Ｂトークンは、少なくとも２つのトークンの地名辞典の名前の最初のトークンと一致する。
Ｍトークンは、少なくとも３つのトークンの地名辞典の名前の真ん中の（すなわち、中間：最初でなく、最後でない）トークンと一致する。
Ｅトークンは、少なくとも２つのトークンの地名辞典の名前の最後のトークンと一致する。
Ｗトークンは、ユニグラムの地名辞典の名前と一致する。

これらを型情報に加えて（有効ならば）、２項のドキュメント専用のトークン特徴を１６個生成することができる。
Ｂ−ＰＥＲトークンは、少なくとも２つのトークンの地名辞典の人の名前の最初と一致する。
Ｂ−ＬＯＣトークンは、少なくとも２つのトークンの地名辞典の場所の名前の最初と一致する。
Ｂ−ＯＲＧトークンは、少なくとも２つのトークンの地名辞典の組織の名前の最初と一致する。
Ｂ−ＭＩＳＣトークンは、少なくとも２つのトークンの地名辞典のその他の名前の最初と一致する。

Ｍ、Ｅ、およびＷに関しても同様である。

例えば、地名辞典６０内に、組織および場所：ＮｅｗＹｏｒｋＵｎｉｖｅｒｓｉｔｙおよびＮｅｗＹｏｒｋの２つの既知の実体名が存在すると仮定する。単語Ｎｅｗに関してＢ−ＯＲＧおよびＢ−ＬＯＣの２つの２項のドキュメント専用のトークン特徴を算出する。このように、特徴を生成するためにあらゆる数のドキュメント実体のタグが有効であり得、デフォルトで全ての可能性のある実体タグを選択する。

ドキュメントレベルの実体タグ３６がＫＢの識別子（例えば、Ｗｉｋｉｐｅｄｉａのタイトル）の場合、各ドキュメントレベルのタグに関してＫＢから抽出された関連する名前に基づいて、付加的なドキュメント専用のトークン特徴を抽出することができる。ドキュメント内に実体が記載されている場合、その実態に関連するその他の実体を監視できることも期待できる。例えば、ドキュメントレベルの実体タグがＷｉｋｉｐｅｄｉａのページを特定し得、そこから、それが示す一連の他のＷｉｋｉｐｅｄｉａのページが抽出され、関連する名前として使用され得る。これらの実体タグは自動的に抽出されるため、それらの型は未知であり、これらの実体タグを用いて、Ｂ−ＵＮＫ、Ｍ−ＵＮＫ、Ｅ−ＵＮＫ、およびＷ−ＵＮＫのさらに４個の２項のドキュメント専用のトークン特徴を生成する。

より簡略化した一連のドキュメント専用のトークン特徴も考えられることは理解されよう。例えば、目的が人の名前を特定するだけなら、Ｂ−ＰＥＲ、Ｍ−ＰＥＲ、Ｅ−ＰＥＲ、およびＷ−ＰＥＲのドキュメント専用の特徴だけが使用され得る。用途によっては、より細分化されたトークン特徴も考えられる。ドキュメント専用のトークン特徴は、そのシーケンス内の前のトークンのドキュメント専用のトークン特徴にも基づき得る。例えば、「直前のトークンは、ラベル付きのＢ−ＰＥＲか？」など。

一連のトークン特徴内の特徴の数が増えるほど、予測は複雑になり、効率費用が発生することは理解されよう。さらに、ＣＲＦモデルを訓練するための訓練シーケンスの数も増える。一般に、少なくとも４個、または、少なくとも８個、または、少なくとも１２個、または、少なくとも１６個、または、３０個以下、または、２４個以下、または、２０個以下のドキュメント専用のトークン特徴が存在し得る。少なくとも５個、または、少なくとも１０個、または、少なくとも２０個、または、少なくとも４０個、または、１００個以下、または、より標準的なトークンの特徴が存在し得る。

標準的な特徴は、従来使用されている特徴のいずれでもよい。例えば：
１．トークン自体の特徴、例えば、
トークンの品詞、例えば、トークンは名詞か［または代名詞、動詞、副詞、形容詞など］、
トークンの最初の文字が大文字か？
トークンは、有効であれば、既知の人の名前のリストなどの既存の非ドキュメント専用の一般地名辞典６６であり得る、地名辞典内に記載されているか。
２．直前のトークンは地名辞典に記載されるか？などのシーケンスの前のトークン（複数可）の特徴。

例示的なＮＥＲモデル６２は、条件付き確率場（ＣＲＦ）モデルなどの統計的ＮＥＲモデルである。そのようなモデルに関して、例えば、ＪｏｈｎＤ．Ｌａｆｆｅｒｔｙ，ｅｔａｌ．，による「Ｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ：Ｐｒｏｂａｂｉｌｉｓｔｉｃｍｏｄｅｌｓｆｏｒｓｅｇｍｅｎｔｉｎｇａｎｄｌａｂｅｌｉｎｇｓｅｑｕｅｎｃｅｄａｔａ」（Ｐｒｏｃ．１８ｔｈＩｎｔ’ｌＣｏｎｆ．ｏｎＭａｃｈｉｎｅＬｅａｒｎｉｎｇ、ＩＣＭＬ’０１、ｐｐ．２８２−２８９、２００１、以後「Ｌａｆｆｅｒｔｙ２００１」と呼ぶ）を参照。例示的なＣＲＦモデル６２は、センテンスなどのトークンの入力シーケンスを考慮して、同じ長さの出力シーケンスを予測する統計的モデルであり、各出力のエレメントが、それに対応するトークンに関するトークンレベルのラベルである。ＣＲＦモデルは、異なる型の特徴を組む上で非常に柔軟性がある。したがって、標準的なＣＲＦモデルの特徴は上記に記載した例示的な２項素性とともに、増大することができる。

ＣＲＦモデル６２は、前のトークン（複数可）の特徴を考慮して、連続的に動作する。この方法は、全ての特定の一連の特徴に限定されることなく、より少ない、より多いおよび／または異なる特徴を使用できることは理解されよう。入力テストドキュメント３０の各シーケンスに関して、ＣＲＦモデルは、それらのトークンに関する実体ラベルのシーケンス６８を予測し、これらの予測されるラベルは、例えば、一連のラベル（例えば、ＰＥＲ、ＬＯＣ、ＯＲＧ、ＭＩＳＣ、およびＯ、但し、Ｏは、実体名でないと予測されたトークンを指定する）から検索される。各トークンがわずか１つの実体名ラベルに割り当てられた状態で、一連のラベル内には、少なくとも２つの潜在的なラベル、または、少なくとも３つの潜在的なラベル、または、少なくとも４つの潜在的なラベルが存在し得る。したがって、複数のトークンレベルの実体ラベルは、個々のシーケンス内の複数のトークンと同じである。例えば、ドキュメントレベルのタグ３８であるＪｏｈｎＹｏｒｋ［ＰＥＲ］でタグ付けされ、そのドキュメントのシーケンス、ＭｙｎａｍｅｉｓＪｏｈｎＹｏｒｋに関する、ドキュメント３０を考慮すると、ＣＲＦモデル６２は、希望的に、トークンレベルの実体ラベル：ＯＯＯＰＥＲＰＥＲ（ＯＯＯＰＥＲＬＯＣでなく）のシーケンスを予測する。

訓練コンポーネント５４は、それぞれがセンテンスなどの少なくとも１つのテキスト列を含む注釈付きの訓練サンプル６４の集合を用いて、ＮＥＲモデル６２を生成する。例えば、指数損失の目的関数を用いて、ＣＲＦモデル６２を損失規則化で訓練することができる、この指数損失の目的関数は、例えば、Ｌａｆｆｅｒｔｙ２００１、Ｆｒｅｕｎｄ，ｅｔａｌ．，による「Ａｄｅｃｉｓｉｏｎ−ｔｈｅｏｒｅｔｉｃｇｅｎｅｒａｌｉｚａｔｉｏｎｏｆｏｎ−ｌｉｎｅｌｅａｒｎｉｎｇａｎｄａｎａｐｐｌｉｃａｔｉｏｎｔｏｂｏｏｓｔｉｎｇ」（Ｊ．ＣｏｍｐｕｔｅｒａｎｄＳｙｓｔｅｍＳｃｉｅｎｃｅｓ、５５、１１９−１３９（１９９７））、またはＣｏｌｌｉｎｓ，Ｍ，ｅｔａｌ．による「Ｄｉｓｃｒｉｍｉｎａｔｉｖｅｒｅｒａｎｋｉｎｇｆｏｒｎａｔｕｒａｌｌａｎｇｕａｇｅｐａｒｓｉｎｇ」（ＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖｏｌ．３１，Ｎｏ．１，ｐｐ．２５−６９（２００４））に記載される。

訓練サンプル６４の集合は、テストドキュメント３０と同じ一般分野から選択することができる。集合６４内の各訓練サンプルをドキュメントレベルの実体タグ３６、３８でタグ付けし、実体名４６、およびＰＥＲＳ（人）ＯＲＧ（組織）ＬＯＣ（場所）またはＭＩＳＣ（種々雑多）などの個々の実体型４８を特定する。例示的な方法では、ドキュメントレベルの実体タグのうちの少なくともいくつかは、または全ては、知識ベース内の項目４４に対応し、ドキュメントレベルの実体タグに対応する可能性のある記載（別名）のリストなどの付加的な情報でドキュメントレベルのタグを補足するために使用される。各訓練シーケンス内のトークンはそれぞれ、そのトークンの正しいラベルに対応する、一連の実体ラベル（例えば、ＰＥＲ、ＬＯＣ、ＯＲＧ、ＭＩＳＣ、またはＯ）から検索される個々のトークンレベルの実体ラベルで注釈を付けられる。したがって、各訓練サンプルは、シーケンスの少なくとも１つの対、トークンのシーケンス、および同じ長さの正しい実体ラベルのシーケンス（例えば、例、ＭｙｎａｍｅｉｓＪｏｈｎＹｏｒｋ内のＯＯＯＰＥＲＰＥＲ）である。ＫＢタグがドキュメントレベルであるため、訓練サンプルが１つのセンテンスより長い場合、ドキュメントレベルのタグが、ドキュメント内のあらゆるセンテンスに対応するトークンを有する保証はなく、それらのうちのたった１つのセンテンスに対応するトークンを有する。

特徴抽出コンポーネント５２を呼び出して、各訓練センテンスのトークンを、各特徴に関するラベルとともに符号化する。したがって、一連のドキュメント専用の２項素性のそれぞれに関して、各単語が２項素性のラベルを受け取る（例えば、特徴が抽出されれば１、特徴が抽出されなければ０）。これらの一連の特徴、および訓練センテンス６４ごとの正しい実体ラベルの対応するシーケンスを用いて、ＣＲＦモデル６２を訓練して、訓練シーケンス内のトークンごとの正確な実体ラベルを予測する。

既にＣＲＦモデルは、ラベル付けされた訓練センテンスの大きなコーパスを用いて、一連の基本的な特徴（すなわち、ドキュメント専用の特徴ではない特徴）で以前に訓練されている可能性がある。この場合、訓練することによりＣＲＦモデルを更新して、新しいドキュメントレベルの特徴を組み込む。

訓練されたモデル６２と、少なくとも１つのドキュメントレベルの実体タグとともに入力されるドキュメントと、を考慮すると、訓練シーケンスと同様に、特徴が抽出される。ユーザ・ドキュメント３０をトークンレベルの実体ラベルでラベル付けするために、訓練されたＣＲＦモデル６２を認識コンポーネント５６により呼び出す。ＣＲＦモデル６２は、従来のサポート・ベクター・マシン（ＳＶＭ）ベースの分類法を用いて、地名辞典６０からの項目を、抽出される特徴に基づいて、所与のドキュメント４２の各トークンと関連付けるべきかどうかを判定する。このＣＦＲモデルは、入力されるドキュメントのセンテンスを考慮して、そのトークンに関する最も可能性のある実体型ラベルのシーケンス６８を予測する。

情報出力コンポーネントは、特定されたシーケンス６８に基づく情報７０、例えばシーケンス６８自体、ドキュメント内で認識された名前付き実体のリスト、ドキュメント内で認識された実体名に関する知識ベース４０へのリンク、特定された実体名（複数可）に基づくドキュメントの分類、承認された実体名（複数可）に基づく検索された一連の同様のドキュメント、または、それらの組合せを出力する。

ある実施形態では、システム１０は、自然言語処理システムの一部を形成することができる。この自然言語処理システムが、構文解析プログラムを含み、この構文解析プログラムが入力テキスト列を処理して、品詞を割り当て、テキスト内の構文上の従属物を特定する。構文解析プログラムは、入力文字列の言語の構文上の特性を記述する複数の規則を適用することができる。構文解析プログラムは、表現抽出システム１０を呼び出して、テキスト内の名前付き実体の特定の支援を行うことができる。自然言語処理システムは、例えば、米国特許出願公開第２００４／００２４５８１号明細書、第２００４／００３０５５１号明細書、第２００６／０１９０２４１号明細書、第２００７／０１５０２５７号明細書、第２００７／０２６５８２５号明細書、第２００８／０３００８５７号明細書、第２００８／０３１９９７８号明細書、第２００９／０２０４５９６号明細書、第２０１０／００７０５２１号明細書、第２０１０／００８２３３１号明細書、第２０１３／０３１１４６７号明細書、および第２０１４／０１６３９５１、ならびに米国特許第６，１８２，０２６号明細書、第６，２６３，３３５号明細書、第６，３１１，１５２号明細書、第６，９７５，７６６号明細書、第７，０５８，５６７号明細書、第７，１７１，３５０号明細書、および第８，５４３，５６３号明細書、およびＳａｌａｈＡｉｔ−Ｍｏｋｈｔａｒ，ｅｔａｌ．，による「Ｒｏｂｕｓｔｎｅｓｓｂｅｙｏｎｄｓｈａｌｌｏｗｎｅｓｓ：ｉｎｃｒｅｍｅｎｔａｌｄｅｐｅｎｄｅｎｃｙｐａｒｓｉｎｇ，」（ＳｐｅｃｉａｌＩｓｓｕｅｏｆｔｈｅＮＬＥＪｏｕｒｎａｌ，２００２）で記載されている。

コンピュータで実施されるシステム１０は、デスクトップコンピュータ、ラップトップコンピュータ、パームトップコンピュータ、デジタル携帯端末（ＰＤＡ）、サーバコンピュータ、携帯電話、タブレットコンピュータ、ポケットベル、これらの組合せ、または例示的な方法を行うための命令を実行可能なその他のコンピュータ装置などのＰＣなどの１つ以上のコンピュータ装置１８を含むことができる。

メモリ１２は、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、磁気ディスクまたは磁気テープ、光ディスク、フラッシュメモリ、またはホログラフィック・メモリなどのあらゆるタイプの非一時的なコンピュータ可読媒体を表し得る。ある実施形態では、メモリ１２は、ランダム・アクセス・メモリとリード・オンリー・メモリの組合せを含む。いくつかの実施形態では、プロセッサ１６とメモリ１２を、単一のチップに組み込むことができる。メモリ１２は、例示的な方法を実行する命令、および処理データ６０、６８を格納している。

ネットワークインターフェース２０、２２により、コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）、またはインターネットなどのコンピュータネットワークを介して、他の装置と通信することができ、これらのネットワークインターフェースは、変調器／復調器（ＭＯＤＥＭ）、ルータ、ケーブル、および／またはイーサネット（登録商標）ポートを含むことができる。

デジタルプロセッサ装置１６は、シングルコアプロセッサ、デュアルコアプロセッサ（または、より一般的にマルチコアプロセッサにより）、デジタルプロセッサ、および協働する数値演算コプロセッサー、デジタルコントローラなどにより様々に埋め込まれ得る。デジタルプロセッサ１６は命令１４を実行し、コンピュータ１８の動作を制御することもできる。

本明細者で使用される「ソフトウェア」という用語は、そのソフトウェアが意図するタスクを実行するコンピュータまたはその他のデジタルシステムを構成するために、コンピュータまたはその他のデジタルシステムにより実行可能な命令の全ての集まり、または集合を含有することを意図する。本明細者で使用される「ソフトウェア」という用語は、ＲＡＭ、ハードディスク、光ディスクなどの記憶媒体に格納されるそのような命令、および、「ファームウェア」と呼ばれる、ＲＯＭなどに格納されるソフトウェアを含有することを意図する。そのようなソフトウェアは、様々な方法で構成でき、ライブラリとして構成されるソフトウェアコンポーネント、遠隔サーバなどに格納されるインターネットベースのプログラム、ソースコード、解釈コード、オブジェクトコード、直接実行可能コードなどを含むことができる。ソフトウェアは、システムレベルのコードを起動させることができる、あるいは、特定の機能を実行するための、サーバまたはその他の場所に駐在するその他のソフトウェアを呼び起こすことができることも考えられる。

図２を参照すると、図１のシステムを用いて実行される表現抽出に関する例示的な方法が示されている。この方法は、Ｓ１００で始まる。ＮＥＲモデルの学習フェーズは、以下のように進む。

Ｓ１０２で、注釈付の訓練センテンスの集合６４を受け取る。これらのドキュメントはそれぞれ、少なくとも１つのドキュメントレベルの実体タグ３６、３８で手動でタグ付けされている。

Ｓ１０４で、ドキュメントレベルの実体タグ３６、３８を用いて、訓練センテンスごとにドキュメント専用タグの地名辞典６０を作ることができる。随意的には、タグの地名辞典６０は、Ｗｉｋｉｐｅｄｉａのような知識ベースからの情報で補足される。訓練サンプルでは、場合によっては、タグの地名辞典６０は単一の項目だけを含むことができる。

Ｓ１０６で、訓練センテンスごとに、特徴抽出コンポーネント５２により、シーケンス内のトークンごとにトークンの特徴を抽出する。これらの抽出されたトークン特徴には、ドキュメント専用のトークン特徴が含まれ、標準的な特徴も含まれる。シーケンスの各トークンをドキュメント専用タグの地名辞典６０と比較して、トークンのドキュメント専用のトークン特徴が、地名辞典６０内の項目のどれかと一致するかどうかを判定し、発見された一致に基づいてトークンに関する値を生成することにより、ドキュメント専用のトークン特徴を抽出する。

Ｓ１０８で、実体名のシーケンス６８と同じフォーマットを有する、各訓練センテンスのトークン特徴のシーケンス、およびシーケンス内のトークンごとの関連する真の実体ラベル（複数可）を用いて、ＣＲＦモデル６２を訓練する。ＣＲＦモデル６２を訓練することには、最初からＣＲＦモデルを訓練する、あるいは、既存のＣＲＦモデルを更新して、例示的なドキュメント専用のトークン特徴を組み込むことが含まれる。

次いで、推測フェーズは、以下のように進むことができる。

Ｓ１１０で、システムが、トークンレベルの名前付き実体ラベルで注釈を付けられるドキュメント３０を受け取る。一般に、ドキュメント３０は訓練セット６４の一部ではない。このドキュメント３０は、センテンスなどの少なくとも１つのテキスト列を含み、複数の（少なくとも２つの）テキスト列を含むことができる。このドキュメントは、少なくとも１つのドキュメントレベルの実体タグ３６、３８を含む。いくつかの場合では、最低でも少なくとも２つ、少なくとも３つ、少なくとも４つ、または、少なくとも５つのドキュメントレベルの実体タグなどの、閾値数のドキュメントレベルの実体タグ３６、３８を提供するよう人間の注釈者に求めることができる。あるいは、複数のドキュメントが処理されている場合、３つ、４つ、または５つの平均などのドキュメントに対して平均した閾値数のドキュメントレベルの実体タグ３６、３８を提供するよう人間の注釈者に求めることができる。別の実施形態では、少なくとも閾値数のセンテンスの確認に基づいて、１、２、３、４、または５個のセンテンスなどの、あるいは、第１のパラグラフなどの１つ以上のドキュメントのパラグラフなどの、ドキュメントレベルの実体タグを提供することを注釈者に求めることができる。別の実施形態では、固有表現抽出モデル（モデル６０と同じモデル、または異なるモデルでもよい）を用いて、ドキュメント内に記載された名前付き実体に自動的にタグ付けすることができ、ドキュメントレベルの実体タグ（複数可）を生成するために、人間の注釈者は、これらの記載を１つ以上選択することができる。別の実施形態では、ドキュメントの集合に関するドキュメントレベルの実体タグ３６、３８を１人以上の注釈者から事前に取得する。これらの全てのアプローチでは、注釈者は、ドキュメントレベルの実体タグ３６、３８と一致する、テキスト内の記載を特定することを要求されない、あるいは、その記載のあるセンテンス、またはその他の全てのドキュメントのサブシーケンスを特定することさえも要求されない。

Ｓ１１２で、ドキュメントレベルの実体タグ３６、３８を用いて、ドキュメント用のドキュメント専用タグの地名辞典６０を作る。随意的には、タグの地名辞典６０は、Ｗｉｋｉｐｅｄｉａなど、または同じ知識ベースまたは異なる知識ベースのリンクされた項目からの知識ベース４０内の対応する項目から別名などの情報で補足される。

Ｓ１１４で、ドキュメント３０のテキスト列ごとに、ドキュメント専用のトークン特徴を抽出するためのタグ地名辞典６０を用いて、特徴抽出コンポーネント５２により、各トークンに関するトークン特徴を抽出する。これらの抽出されたトークン特徴には、一般的な地名辞典６６、または、その他の手段を用いて抽出された標準的なトークン特徴も含まれ得る。ドキュメント専用のトークン特徴を抽出することには、シーケンス内の各トークンを各ドキュメントレベルの実体タグに対応する地名辞典６０内の実体名（および、有効な場合は、型）と比較して、一致部分が存在するかを確認すること、および、地名辞典内の個々の実体名内の一致部分のトークンの位置に基づいて、各ドキュメント専用のトークン特徴の値を設定することが含まれる。このように、ドキュメント専用のトークン特徴ごとに、各トークンには、値（０または１）が割り当てられる。

Ｓ１１６で、ドキュメント３０内の各テキスト列に関して、認識コンポーネント５６が、個々の特徴を、訓練されるＣＲＦモデル６２に入力し、このＣＲＦモデル６２が、テキスト列に関する予測されるラベルシーケンス６８を出力し、このシーケンス６８が、シーケンス内の各トークンに関する、あるいは、少なくともいくつかのシーケンス内のトークンに関するトークンレベルの名前付き実体ラベルを含む。

Ｓ１１８で、ドキュメントに関して、予測されたラベルシーケンス６８（または複数のシーケンス）に基づいて、情報７０を生成することができる。Ｓ１２０で、情報出力コンポーネント５８により、情報を出力する。Ｓ１２２で、この方法は終了する。

ある実施形態では、入力ドキュメントを処理する自然言語のために、構文解析プログラムにより情報７０が使用され得る。

別の実施形態では、ＣＦＲモデル６２を従来の統計的ＮＥＲモデルと組み合わせることができる。ある実施形態では、高い信用が予測されたタグだけを用いて、訓練および予測のためのドキュメントへの注釈付けを支援するために、統計的ＮＥＲモデルを使用することができる。別の実施形態では、統計的ＮＥＲモデルを繰り返し向上させることができる。これには、ｉ）基本のＣＲＦモデルを学習し、データをタグ付けすることと、ｉｉ）発見的方法によりドキュメントレベルの実体タグを抽出することと、ｉｉｉ）ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥモデルを再学習することと、ｉｖ）データを再タグ付けすることとが含まれ得る。

ＮＥＲモデルを訓練するために使用する同じ領域内に存在しないデータにＮＥＲを適用するために、特に、このシステムおよび方法が有用である。

図２に示される方法は、コンピュータで実行可能なコンピュータプログラム製品において実施可能である。コンピュータプログラム製品には、ディスク、ハードドライブなどの制御プログラムを記録する（格納する）、非一時的なコンピュータ可読記録媒体が含まれ得る。非一時的なコンピュータ可読媒体の一般的な形態には、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、またはその他の全ての磁気記憶媒体、ＣＤ−ＲＯＭ、ＤＶＤ、またはその他の全ての光学媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ−ＥＰＲＯＭ、またはその他のメモリチップ、またはカートリッジ、またはコンピュータが読取り、使用可能なその他全ての非一時的媒体が含まれる。このコンピュータプログラム製品は、コンピュータ１８と一体可能である（例えば、ＲＡＭの内部ハードドライブ）、あるいは、コンピュータ１８と分割可能である（例えば、コンピュータ１８と動作可能に接続する外部ハードドライブ）、あるいは、分離可能、およびローカル・エリア・ネットワーク（ＬＡＮ）、またはインターネットなどのデジタルデータネットワークを介してアクセス可能である（例えば、リダンダント・アレイ・オブ・インエクスペンシブ・ディスクズ（ＲＡＩＤ）またはデジタルネットワークを介してコンピュータ１８により間接的にアクセス可能なその他のネットワークサーバストレージとして）。

あるいは、この方法は、無線波および赤外線データ通信などを行っている間に生成される、音波または光波などの、伝送媒体を用いるデータ信号として制御プログラムが埋め込まれる送信可能な搬送波などの一時媒体において実施可能である。

例示的な方法は、１つ以上の汎用コンピュータ、専用コンピュータ（複数可）、プログラムされたマイクロプロセッサ、またはマイクロコントローラ、および周辺集積回路素子、ＡＳＩＣ、またはその他の集積回路、デジタル信号プロセッサ、個別素子回路などの配線電気回路または配線論理回路、ＰＬＤ、ＰＬＡ、ＦＰＧＡ、グラフィックカードＣＰＵ（ＧＰＵ）、またはＰＡＬなどのプログラマブル論理装置上で実施可能である。一般に、この方法は、図２に示されるフローチャートを実施可能な有限状態機械を実施可能な全ての装置を用いて実施可能である。この方法のステップは、全てコンピュータにより実施可能であるが、いくつかの実施形態では、１つ以上のステップを少なくとも部分的に手動で実行することもできることは理解されよう。この方法のステップは、示されている順番で実施される必要はなく、示されているより少ない、または、多い、あるいは、異なるステップを実行してもよいことは理解されよう。

以下の例は、この方法の適応範囲を示しており、例示的な実施形態の範囲を限定する意図はない。

例
いくつかの構成が作られている。

比較するために、以下のシステムを開発した。

Ａ．基本的なＣＲＦ
このシステムには、標準的なＣＲＦモデルが含まれ、この標準的なＣＲＦモデルでは、文脈特徴、および文字の形の特徴が用いられるが、外部知識の特徴は用いられない。ＣＲＦｓｕｉｔｅが用いられて、学習フェーズおよび推測フェーズが実行される。（ＮａｏａｋｉＯｋａｚａｋｉ、ＣＲＦｓｕｉｔｅ：ａｆａｓｔｉｍｐｌｅｍｅｎｔａｔｉｏｎｏｆｃｏｎｄｉｔｉｏｎａｌｒａｎｄｏｍｆｉｅｌｄｓ（ｃｒｆｓ）（２００７）（ｈｔｔｐ：／／ｗｗｗ．ｃｈｏｋｋａｎ．ｏｒｇ／ｓｏｆｔｗａｒｅ／ｃｒｆｓｕｉｔｅにて利用可能））

Ｂ．ＣＲＦ＋ＷＩＤＥ
ＣＲＦ＋ＷＩＤＥシステムは、標準的なＣＲＦシステムにイリノイのＮＥＲシステムからの地名辞典の特徴を加えたものである（ＬｅｖＲａｔｉｎｏｖｅｔａｌ．による「Ｄｅｓｉｇｎｃｈａｌｌｅｎｇｅｓａｎｄｍｉｓｃｏｎｃｅｐｔｉｏｎｓｉｎｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ」Ｐｒｏｃ．１３ｔｈＣｏｎｆ．ｏｎＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ（ＣｏＮＬＬ−２００９），ｐｐ．１４７−１５５，２００９）。数多くの供給源から引き出された３３個の地名辞典が存在し、それらの中にはトータルで約２百万の項目が記載されている。

以下のシステムは、本明細書に記載される実施形態に従って作られている。

Ｃ．ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ
このシステムは、地名辞典６０を含んでおり、実体型の情報（ＰＥＲＳ、ＯＲＧ、ＬＯＣ、およびＭＩＳＣ）を有するドキュメントレベルの実体タグを用いる。型は文脈により変化するため、いつも正しいとは限らない可能性があるが、参考にすることはできる。

Ｋａｚａｍａ２００７に記載される通り、トークンと一致するタグの名前に基づくドキュメント専用のトークン特徴を設計するためにタグ符号化方式を用いる。この符号化方式では、型情報が有効であればそれも加え、Ｂ符号化、Ｍ符号化、Ｅ符号化、およびＷ符号化を用いて、１６個の２項素性：Ｂ−ＰＥＲ、Ｂ−ＬＯＣ、Ｂ−ＯＲＧ、Ｂ−ＭＩＳＣ、Ｍ−ＰＥＲ、Ｍ−ＬＯＣ、Ｍ−ＯＲＧ、Ｍ−ＭＩＳＣ、Ｅ−ＰＥＲ、Ｅ−ＬＯＣ、Ｅ−ＯＲＧ、Ｅ−ＭＩＳＣ、Ｗ−ＰＥＲ、Ｗ−ＬＯＣ、Ｗ−ＯＲＧ、Ｗ−ＭＩＳＣを生成する。

Ｄ．ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＲＥＬ
地名辞典６０は、ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥに関し、上記のドキュメントレベルの実体タグを用い、これらのドキュメントレベルの実体タグを用いて、付加的なＫＢから追加情報、および関連情報を集める。例えば、既知の型（有効であれば）、ＫＢタグの名前、型、ＫＢの別名、および大きな地名辞典を有する、ＵｎｉｔｅｄＮａｔｉｏｎｓに対してＵＮを追加する。ドキュメントレベルの実体タグとは、ＫＢの識別子（Ｗｉｋｉｐｅｄｉａのタイトル）である。関連する名前のリストは、ＫＢからタグごとに抽出される、すなわち、Ｗｉｋｉｐｅｄｉａのページを用いて、そのＷｉｋｉｐｅｄｉａのページが示す別のＷｉｋｉｐｅｄｉａの一連のページを抽出し、それらを関連する名前として使用する。これらは自動的に抽出されるため、それらの型は未知であり、さらに４つの２項素性、すなわち、Ｂ−ＵＮＫ、Ｍ−ＵＮＫ、Ｅ−ＵＮＫ、およびＷ−ＵＮＫが生成される。

これらのシステムは、ＣｏＮＬＬ２００３ｓｈａｒｅｄｔａｓｋ（ＥｒｉｋＦ．ＴｊｏｎｇＫｉｍＳａｎｇ，ｅｔａｌによる「ＩｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅＣｏＮＬＬ−２００３ｓｈａｒｅｄｔａｓｋ：Ｌａｎｇｕａｇｅｉｎｄｅｐｅｎｄｅｎｔｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ」（Ｐｒｏｃ．７ｔｈＣｏｎｆ．ｏｎ「ＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ−ＮＡＡＣＬ２００３，ｐｐ．１４２−１４７，２００３）を参照）で紹介された標準のＮＥＲベンチマークのデータセット上で評価され、Ｗｉｋｉｐｅｄｉａへのリンク注釈と組み合わされる（ＪｏｈａｎｎｅｓＨｏｆｆａｒｔ，ｅｔａｌによる「Ｒｏｂｕｓｔｄｉｓａｍｂｉｇｕａｔｉｏｎｏｆｎａｍｅｄｅｎｔｉｔｉｅｓｉｎｔｅｘｔ」（Ｐｒｏｃ．２０１１Ｃｏｎｆ．ｏｎＥｍｐｉｒｉｃａｌＭｅｔｈｏｄｓｉｎＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ，ｐｐ．７８２−７９２，２０１１，ｈｔｔｐｓ：／／ｗｗｗ．ｍｐｉ−ｉｎｆ．ｍｐｇ．ｄｅ／ｄｅｐａｒｔｍｅｎｔｓ／ｄａｔａｂａｓｅｓ−ａｎｄ−ｉｎｆｏｒｍａｔｉｏｎ−ｓｙｓｔｅｍｓ／ｒｅｓｅａｒｃｈ／ｙａｇｏ−ｎａｇａ／ａｉｄａ）を参照）。このデータセットには、ＴＲＡＩＮ、ＴＥＳＴＡ、およびＴＥＳＴＢと示される３つのスプリットが含まれている。人（ＰＥＲ）、組織（ＯＲＧ）、場所（ＬＯＣ）および種々雑多（ＭＩＳＣ）に関する標準的なタグの、およびＣＯＮＬＬｅｖａｌの評価スクリプトが使用される。ＫＢにリンクされたドキュメントにおける記載の平均割合は、ＴＲＡＩＮおよびＴＥＳＴＢのスプリットで８１％であり、ＴＥＳＴＡのスプリットで８５％である。

例１
表１には、ＣｏＮＬＬ０３のデータセットのＴＥＳＴＡの開発スプリット上での異なるシステム構成の性能が示されている。この例では、これらのモデルは、ドキュメント内の全ての記載から引用される実体にアクセスした。

表１：ＣｏＮＬＬ０３のＴＥＳＴＡに関する結果

基本モデルでは、８７．６８％のＦスコアで良好に動作し、大きな地名辞典を用いることにより、Ｆスコアは８９．８５％まで向上する。ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥのモデルは、９２．７％のＦスコアを達成し、これはＣＲＦの基本モデルやＣＲＦ＋ＷＩＤＥよりも良好な性能である。ＫＢ（ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＲＥＬＡＴＥＤ）からの型を持たない関連スパンでドキュメントの地名辞典を増やすと、全体的な性能は９２．６５％のＦスコアまで落ちる。

例２
ドキュメント内の全ての記載から引用される実体にアクセスすることはモデルにとっては実行可能でないため、この例では、ドキュメントレベルの地名辞典は、最初のｎ個のセンテンスの記載から引用された実体のみに限定されている。このことは、分析者にドキュメントレベルの実体のリストを要求して、わざわざ最初のｎ個のセンテンスしか見ないのと同じである。図４には、より多くのセンテンスからそれぞれのモデルのドキュメントレベルの地名辞典が引用されると、ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥおよびＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＲＥＬの２つの例示的なモデルがどのように動作するかがＦスコアにより示されている。この結果により、ＣＲＦ＋ＷＩＤＥのモデルよりも良好な性能を実現するためには、ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥのモデルでは、最初の４つのセンテンスのドキュメントレベルの実体タグを抽出しなければならなく、ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＲＥＬのモデルでは、最初の５つのセンテンス（それぞれ４個または５個のタグの平均で）を抽出しなければならない。型を持たないＫＢスパンでドキュメントレベルの地名辞典を増やすことは、より少ないセンテンスでは有用であるが、全てのドキュメントレベルの実体タグが有効である場合、その性能を低下させる。

例３
この例では、システムが、上記のシステムの付加的なシステムを使用した。

Ｅ．ＫＢタグの一致部分（ＭＡＴＣＨ）
ドキュメントの地名辞典からの最長の一致部分を見つけ、既知の型を割り当てる。これは、部分的な名前または非正規的な名前とは一致しないが、高精度であると予想される。これは、ＣｏＮＬＬ２００３の基本システムと同様である（ＥｒｉｋＦ．ＴｊｏｎｇＫｉｍＳａｎｇ，ｅｔａｌ．，による「ＩｎｔｒｏｄｕｃｔｉｏｎｔｏｔｈｅＣｏＮＬＬ−２００３ｓｈａｒｅｄｔａｓｋ：Ｌａｎｇｕａｇｅｉｎｄｅｐｅｎｄｅｎｔｎａｍｅｄｅｎｔｉｔｙｒｅｃｏｇｎｉｔｉｏｎ」（Ｐｒｏｃ．７ｔｈＣｏｎｆ．ｏｎＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇａｔＨＬＴ−ＮＡＡＣＬ２００３，１４２−１４７，２００３））。

Ｆ．ＫＢタグの修正（ＣＲＦ＋ＲＥＰＡＩＲ）
ＣＲＦの基本モデルを用いてテキストにラベル付けを行い、ドキュメント地名辞典からの最長の一致部分を見つけ、既知の型を割り当てる。地名辞典の一致部分がＣＲＦの一致部分と重複すると、地名辞典を使用し、ＣＲＦの一致部分を取り除く。部分的な一致部分は考慮されていないが、従来のＣＲＦモデルでは難しい、より長い名前を認識することができる。

Ｇ．ＫＢタグの名前（ＣＲＦ＋ＮＡＭＥ）
上記のＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥシステムと類似するが、型の情報を持たない、ドキュメント専用のタグの特徴が生成されるが、項目ごとに同じ型が使用される。

Ｈ．型と別名を有するＫＢタグの名前（ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＡＫＡ）
上記のＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥシステムと類似するが、ＫＢを用いてＫＢタグの既知の別名でドキュメント専用の地名辞典を増やす。例えば、既知の型を用いて、ＵｎｉｔｅｄＮａｔｉｏｎｓにＵＮを追加する。

Ｉ．型と別名を有し広くカバーするＫＢタグの名前（ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＡＫＡ＋ＷＩＤＥ）
これは、ＫＢタグの名前、タグの型、ＫＢの別名を広くカバーする地名辞典に組み合わせたものである。

Ｊ．型と別名を有するＫＢタグの名前、および関連する名前（ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＡＫＡ＋ＷＩＤＥ）
これは、ＫＢタグの名前、タグの型、ＫＢの別名、およびリンクされたページから抽出した関連する名前を組み合せたものである。

ＷｉｋｉｐｅｄｉａのＡＰＩクライアントを用いて、ＫＢ情報を取得しキャッシュメモリに格納する。人（ＰＥＲ）、組織（ＯＲＧ）、場所（ＬＯＣ）、および種々雑多（ＭＩＳＣ）のタグのセットが再度用いられ、精度、思い出す能力、およびＦスコアがＣｏｎｌｌｅｖａｌ評価スクリプトから報告される。

地名辞典を別名で増やすことにより、ＴＥＳＴＡ単独でＫＢタグとして、平均２６倍の数の地名辞典の項目が作られ、ＴＥＳＴＢで２３倍の項目が作られる。

表２には、Ｆスコア全体のＴＥＳＴＡに最初に注目した、異なる構成の性能が示されている。
表２：ＣｏＮＬＬ２００３のＴＥＳＴＡおよびＴＥＳＴＢの結果。全てのタグおよび型ごとのＦスコアに関してＰ／Ｒ／Ｆが付与される。

特徴を修正したり、追加したりすることにより、標準のＣＲＦ基本モデル上に作られる「＋」で始まる方法。

ＭＡＴＣＨの場合、ＫＢタグの名前に対する一致により、精度は高くなるが、思い出す能力は５５．３５％のＦスコアで低くなり、基本モデルのＣＲＦの８７．６８％でよりもかなり悪くなる。その単純な推測にもかかわらず、ドキュメントの地名辞典内の最も長い一致部分を用いて、ＣＲＦタグを修正することにより、Ｆスコアは、驚くことに８９．７６％まで上昇し、８９．８５％のＦスコアを有する広範囲の地名辞典よりほんの少し劣るだけだった。ＣＲＦの特徴（ＣＲＦ＋ＮＡＭＥ）としてＫＢのタグを用いる第１の設定は、型のない名前を含み、８９．２９％のＦスコアを有する。広い範囲をカバーする地名辞典よりも精度と思い出す能力が低くなり、型の情報がなければ、地名辞典が大きくなるほど良いことを示している。型の特徴（ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ）を加えることにより、９２．７％のＦスコアとなり、ＣＲＦまたはＣＲＦ＋ＷＩＤＥよりも良好な性能を発揮する。３３個の地名辞典のファイル名を４つのＮＥＲ型に手作業でマッピングしてみると、ＴＥＳＴＡの性能が落ちることが分かった。ＫＢからの別名を用いてドキュメントの地名辞典を増やすことにより、別名に関するＦスコアがさらに改善される（９２．８５％）。広い範囲をカバーする地名辞典をＫＢのタグに加えると、Ｆスコアが９２．５７％となり、若干落ちる。

ＫＢのタグが、どのようにＮＥＲを向上させるかということを理解するために、ＴＥＳＴＡに関するタグごとのＦスコアを調べてみた。ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＡＫＡを用いることにより、ＰＥＲの実体およびＬＯＣの実体に関して、約９５．５％のＦスコアを得ることができる。ＣＲＦ＋ＷＩＤＥでは、ＭＩＳＣの実体は、依然として正確にタグ付けするのが難しい。しかし、ＣＲＦの基本モデル全体に渡る型により得られるＦスコアのパーセンテージを考慮すると、ＣＲＦ＋ＷＩＤＥの地名辞典により、ＰＥＲの実体の性能が最も向上し（＋２．９４％）、次いでＯＲＧの実体の性能も向上する（２．７７％）。ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＡＫＡでは、上位の２つの実体は、ＯＲＧの実体（＋６．８３％）、次いで、ＰＥＲの実体（＋５．４８％）となり逆転する。このことは、ＫＢのタグは、組織の名前の認識を支援するのに、特に適していることを示している。ＫＢのタグとＣＲＦ＋ＷＩＤＥが相補的であることを除けば、ＴＥＳＴＢでも同様の傾向が確認できる。

上記の結果により、ＫＢのタグが有効ならば、これらのタグによりＮＥＲが向上することが明らかとなる。しかし、上記のモデルは、全ての可能性のあるＫＢのタグを用い、上限を考慮に入れなければならない。忙しい作業者の事例を好適にモデリングするために、最初のｎ個のセンテンス内の記載からのＫＢのタグのみに地名辞典を限定する。これは、最初のｎ個のセンテンスのみを見直すよう注釈者に求める事例に対応する。

図５には、ｎの数が増加するにつれ、ＫＢタグのモデルが、どのようにＣＲＦ＋ＷＩＤＥ上で動作するかが示されている。これらの結果により、ＣＲＦ＋ＷＩＤＥよりも良好な性能を達成するためには、ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥでは、最初の５つのセンテンスを確認しなければならないことが分かる。２〜３個のセンテンスを用いるだけでは、別名（ＣＲＦ＋ＮＡＭＥ＋ＴＹＰＥ＋ＡＫＡ）を加えることで、性能は若干下降するが、４つより多いセンテンスを使用することにより、別名は常に変わることなく有用となる。この傾向はＴＥＳＴＢでも明らかであり、２〜３個のタグだけが有効である場合は特に、ＫＢ情報でタグを増やすことにより、ＮＥＲが向上することが示される。

これらの結果により、正しいとされるが、テキストと整合されないＫＢ実体タグ３６が、ＮＥＲを認識するために有用であることを示している。例で示されているように最初のｎ個のセンテンス内で、あるいは、ドキュメント内の任意の部分を形成する、人間の注釈者により認識される名前付き実体からドキュメント専用の地名辞典を作ることができる。ＣＲＦモデルを用いることにより、この証拠を原則に基づいた方法で利用することができる。これらの実験により、少数のドキュメントレベルのタグだけでも、非常に大きな地名辞典を用いたときと、同じ結果を得ることができることが示され、このことは、高精度のＮＥＲが必要な状況では良い投資になると見なすことができる。システムが、このＫＢを利用して、タイプされていない名前を有する地名辞典を拡張すれば、ＫＢの実体タグ３６の数を少なくすることができ、これにより、２〜３個のタグだけしか供給されていない場合でも、良好な性能を維持することができる。

Claims

表現抽出方法であって、
ドキュメントレベルの実体タグでタグ付けされる訓練サンプルから抽出される特徴で訓練された固有表現抽出モデルを提供するステップであって、各訓練サンプルには、少なくとも１つのテキスト列が含まれる、ステップと、
ラベル付けされるテキストドキュメントを受け取るステップであって、前記テキストドキュメントが、少なくとも１つのドキュメントレベルの実体タグでタグ付けされる、ステップと、
前記少なくとも１つのドキュメントレベルの実体タグに基づいて、前記ドキュメント専用の地名辞典を生成するステップであって、前記ドキュメント専用の地名辞典には、一連の項目、すなわち、一連の実体名のそれぞれに対して１項目が含まれる、ステップと、
前記ドキュメントのテキスト列に関して、前記テキスト列のトークンに関する特徴を抽出するステップであって、前記特徴が、前記地名辞典の項目のうちの１つの前記実体名の少なくとも一部と一致するトークンに関するドキュメント専用の特徴を含む、ステップと、
前記固有表現抽出モデルを用いて、前記抽出された特徴に基づいて、前記ドキュメントのテキスト列内のトークンに関する実体ラベルを予測するステップと、を含み、
前記生成するステップ、前記抽出するステップ、および予測するステップの少なくとも１つは、プロセッサにより行われる、表現抽出方法。
前記固有表現抽出モデルを訓練するステップをさらに含む請求項１に記載の方法。
前記訓練するステップには、
注釈付きの訓練サンプルを受け取ることであって、各訓練サンプルが、前記訓練サンプルの前記シーケンスのうちの少なくとも１つの記載を有する少なくとも１つのドキュメントレベルの実体タグでタグ付けされ、前記訓練サンプルの各シーケンスは、トークンレベルの実体ラベルで注釈される、ことと、
訓練サンプルごとに、前記注釈付きの訓練サンプルの前記少なくとも１つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成することであって、前記ドキュメント専用の地名辞典には、一連の実体名が含まれることと、
前記ドキュメント専用の地名辞典を用いて、前記訓練サンプル内の各シーケンスのトークンに関する特徴を抽出することであって、前記特徴には、ドキュメント専用の特徴が含まれる、ことと、
訓練シーケンスごとに、前記抽出された特徴および前記トークンレベルの実体ラベルで前記固有表現抽出モデルを訓練することと、が含まれる、請求項２に記載の方法。
前記固有表現抽出モジュールは、条件付き確率場のモデルである、請求項１に記載の方法。
前記ドキュメント専用の特徴が２項素性である、請求項１に記載の方法。
前記ドキュメント専用の特徴には、
トークンが、少なくとも２つのトークンの地名辞典の実体名の最初のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも３つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも２つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、および
トークンが、ユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される特徴が含まれる、請求項１に記載の方法。
前記ドキュメント専用の特徴には、前記群内の前記特徴のうちの少なくとも３つが含まれる、請求項６に記載の方法。
前記選択されるドキュメント専用の特徴のうちの少なくともいくつかが、複数の実体名の型から選択される実体名の型とそれぞれ関連する、請求項６に記載の方法。
表現抽出システムであって、
ドキュメントレベルの実体タグでタグ付けされたテキスト列から抽出される特徴で訓練された固有表現抽出モデルを格納するメモリと、
名前付き実体でラベル付けされる入力されるテキストドキュメントに関するドキュメント専用の地名辞典を生成する地名辞典生成器であって、前記テキストドキュメントが、少なくとも１つのドキュメントレベルの実体タグでタグ付けされ、前記ドキュメント専用の地名辞典が、前記少なくとも１つのドキュメントレベルの実体タグのそれぞれに基づく項目を含み、前記地名辞典項目が、実体名、および随意的には、実体型の所定の集合から選択される実体型を含む、地名辞典生成器と、
前記テキストドキュメントのテキスト列に関して、前記テキスト列のトークンに関する特徴を抽出する特徴抽出コンポーネントであって、前記特徴には、トークンに関する前記地名辞典の項目のうちの１つと一致するドキュメント専用の特徴が含まれる、特徴抽出コンポーネントと、
前記固有表現抽出モデルを用いて、前記抽出された特徴に基づいて、前記テキスト列内の前記トークンのうちの少なくともいくつかに関する実体ラベルを予測する認識コンポーネントと、
前記メモリと通信し、前記地名辞典生成器、前記特徴抽出コンポーネント、および前記認識コンポーネントを実行するプロセッサと、を含む表現抽出システム。
固有表現抽出システムを訓練する方法であって、
訓練サンプルの集合を受け取るステップであって、各訓練サンプルが、少なくとも１つの注釈付きの訓練シーケンスを含み、各訓練シーケンスが、トークンのシーケンスを含み、各訓練サンプルが、少なくとも１つのドキュメントレベルの実体タグでタグ付けされ、前記実体タグが、前記サンプル内の記載と整合することなく、前記記載に対応する実体名を含み、前記訓練シーケンスがそれぞれ、トークンレベルの実体ラベルで注釈を付けられる、ステップと、
訓練サンプルごとに、前記注釈付きの訓練サンプルの前記少なくとも１つのドキュメントレベルの実体タグに基づいて、ドキュメント専用の地名辞典を生成するステップであって、前記ドキュメント専用の地名辞典が、一連の項目を含み、各項目が個々の実体名を含む、ステップと、
前記ドキュメント専用の地名辞典を用いて、前記注釈付きの訓練シーケンスのトークンに関する特徴を抽出するステップであって、前記特徴には、ドキュメント専用の特徴が含まれ、前記ドキュメント専用の特徴は、
トークンが、少なくとも２つのトークンの地名辞典の実体名の最初のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも３つのトークンの地名辞典の実体名のうちの中間のトークンと一致するかどうかを示す特徴、
トークンが、少なくとも２つのトークンの地名辞典の実体名のうちの最後のトークンと一致するかどうかを示す特徴、および
トークンがユニグラムの地名辞典の実体名と一致するかどうかを示す特徴から成る群から選択される、ステップと、
前記抽出された特徴および各訓練シーケンスに関する前記トークンレベルの実体ラベルを用いて、固有表現抽出モデルを訓練するステップと、を含み、
前記生成するステップ、前記抽出するステップ、および前記訓練するステップは、プロセッサにより行われる、方法。