JP2006031010A

JP2006031010A - 固有名称又は部分的な固有名称の認識を提供する方法及び装置

Info

Publication number: JP2006031010A
Application number: JP2005205108A
Authority: JP
Inventors: Fuliang Weng; フーリン・ウェン; Lin Zhao; リン・ザオ
Original assignee: Robert Bosch GmbH
Current assignee: Robert Bosch GmbH
Priority date: 2004-07-15
Filing date: 2005-07-14
Publication date: 2006-02-02
Anticipated expiration: 2025-07-14
Also published as: EP1617340B1; US20060015484A1; JP5048934B2; US7865356B2; EP1617340A3; EP1617340A2

Abstract

【課題】固有名称及び部分的な固有名称を認識する方法及び装置を提供すること。
【解決手段】固有名称認識方法は、固有表現カテゴリ又は非固有表現カテゴリを示すタグを用いて単語列の各単語を分類するステップと、文字列の境界単語のタグを訂正するステップとを含む。
【選択図】図１Ｂ

Description

本発明は、固有名称又は部分的な固有名称の認識を提供する方法及び装置に関する。

従来の固有表現（ＮａｍｅｄＥｎｔｉｔｙ）（ＮＥ）認識方法は、国防高等研究計画局（ＤＡＲＰＡ）によって開発された情報抽出プログラムを含むものであった。これについては、ＤＡＲＰＡのベンチマークにおいて、人物、組織、場所、時間、日付、金額及び割合の固有表現分類を含む７つの固有表現分類が定義された。他の研究者は、この方面の仕事を継続したが、人物、組織、場所及びその他という４つの固有表現タイプのみを利用した（例えば、２００３年にエドモントンで発行されたＣｏＮＬＬ−２００３会議録に掲載されたＥｒｉｋＦ．ＴｊｏｎｇＫｉｍＳａｎｇ及びＦｉｅｎＤｅＭｅｕｌｄｅｒによる「ＣｏＮＬＬ−２００３共通課題への導入:言語から独立した固有表現認識」）。これらの固有表現分類は、特定のアプリケーションにおいて有用であり得るが、例えば製品名、書籍名、曲名等の固有表現分類のような、他の名称分類も有用であり得る。また、人は常に完全な名称を明示するわけではない。音声対話型アプリケーションでは、例えば、名称が長い場合、対応するエンティティを示すために部分的な名称が利用され得る。完全な名称の認識に比べて、部分的な名称の認識作業には、あまり多くの注意が払われてこなかった。

固有名称認識の分野における過去の研究は、あまり複雑ではない固有名称、即ち内部構造を持たない名称に集中してきた。歌やアルバムの名前、及び場合によっては本の題名のような他の名称は、認識作業に特別の課題を与え得る。研究者は、固有名称リスト／データベースを用いて彼らの方法の性能を向上しようと試みてきた。しかし、結果はまちまちであり、ある研究者は、特定の例におけるわずかな改良を報告し（１９９８年発行のＭＵＣ−７会議録に掲載されたＡｎｄｒｅｉＭｉｋｈｅｅｖ，ＣｌａｉｒｅＧｒｏｖｅｒ及びＭａｒｃＭｏｅｎｓによる「ＭＵＣ−７に用いられるＬＴＧシステムの説明」）、他の研究者は、性能の劣化を報告した（２００３年にカナダのエドモントンで発行されたＣｏＮＬＬ−２００３会議録に掲載されたＩｒｉｓＨｅｎｄｒｉｃｋｘ及びＡｎｔａｌｖａｎｄｅｎＢｏｓｃｈによる「記憶に基づくワンステップによる固有表現認識：シード・リスト特性、分類器のスタッキング、及び非注釈データの効果」、及び２００３年にカナダのエドモントンで発行されたＣｏＮＬＬ−２００３会議録に掲載されたＤｉｅｎＤｅＭｅｕｌｄｅｒ及びＷａｌｔｅｒＤａｅｌｅｍａｎｓによる「非注釈データを用いた記憶に基づく固有表現認識」）。

本発明の例としての実施の形態及び／又は例としての方法又は装置は、境界訂正方法に先立つベースライン（ｂａｓｅｌｉｎｅ）として、少なくとも１つの固有表現（ＮＥ）認識方法を用いた固有名称認識を提供する。少なくとも１つのベースラインＮＥ認識方法は、例えば、記憶に基づく学習方法及び／又は最大エントロピー（ＭＥ）に基づく方法を含み得る。少なくとも１つのベースラインのＮＥ認識方法は、また、例えば隠れマルコフ・モデル（ＨＭＭ）による方法及び判断木による方法を含み得る。

２つのベースライン方法の性能は、例えば曲名及びアルバム名のような２つの固有表現カテゴリを用いて測定されてきた。例としての境界訂正方法が２つのベースライン方法と組み合わされると、誤り率が半分になり、ｆスコアが９５％より高くなるという、かなりの改善が観察された。

本発明の例としての実施の形態及び／又は例としての方法又は装置は、ベースライン固有表現分類器と、その後に続く、例えば変換に基づく学習分類器のようなルールに基づく固有表現分類器とを用いた固有名称認識を提供し得る。これにより、固有名称認識の正確性が高められ、タグ付けの誤りが低減され得る。

本発明の例としての実施の形態及び／又は例としての方法又は装置は、例えば、音声対話型システム及び情報抽出プログラムに適用され得る。特に、例としての実施の形態及び／又は例としての方法又は装置は、例えば、運転者が完全な固有名称ではなく短くした名称を使う傾向がある車両の運転の際に経験され得るような、ストレスの高い環境に適用され得る。それにより、音声対話型システム及び／又は情報抽出プログラムが改良され得る。

固有名称又は部分的な固有名称の認識のための例としての方法は、以下に説明する通り、境界訂正方法と組み合わされた、記憶に基づく学習方法及び／又は最大エントロピーに基づく方法を含む。入力されるのは、品詞（ＰＯＳ）タグと関連付けられた単語列である。

記憶に基づく方法
固有表現（ＮＥ）認識は、分類の問題と考えられ、そこでは記憶に基づく学習方法がベースライン分類器（ｂａｓｅｌｉｎｅｃｌａｓｓｉｆｉｅｒ）として利用される。ＮＥ認識のための記憶に基づく学習方法の例によれば、例は特性によって表現され、訓練データにおいて、各特性には、分類の正確性に対する貢献度に基づく重み付けがなされる。訓練段階の期間に、例としての記憶に基づく学習方法は、全ての訓練例を特性の形で記憶し、新しい例を、訓練例と比較することによって分類する。新しい例は、所定の類似性測定基準に従って、新しい例と最も類似する訓練例と同じクラスを受ける。２００３年にカナダのエドモントンで発行されたＣｏＮＬＬ−２００３会議録に記載されたＤｉｅｎＤｅＭｅｕｌｄｅｒ及びＷａｌｔｅｒＤａｅｌｅｍａｎｓによる「非注釈データを用いた記憶に基づく固有表現認識」という参考文献では、「Ｔｉｍｂｌ」と呼ばれる、記憶に基づく学習パッケージの例が論じられている。この学習パッケージは、本明細書における以下の実験の実行に利用される。この方法では、特性の重み付けとして、「ＩＧＴｒｅｅ」設定及び情報利得が利用される。全ての他のパラメータには、デフォルト値を使用した。

分類器の目的は、各トークンに対し、固有ＮＥカテゴリ又は非ＮＥカテゴリのいずれかのラベルを付けることである。ＭＰ３プレーヤーの操作の領域における話し言葉を理解するという文脈において、ここでは、曲名及びアルバム名という２つのＮＥカテゴリのみが考慮される。これは、例えば曲名及びアルバム名は様々な方法で構成され得るため、この２つのカテゴリを扱うことが難しいからである。特に、この２つのカテゴリは、任意の単語、フレーズ、又はセンテンスが曲名又はアルバム名の一部となる可能性があるために、扱いづらくなり得る。

分類器として利用されるタグ・セットには、「Ｉ」、「Ｏ」及び「Ｂ」という３種類のタグが含まれる。「Ｉ」は単語がＮＥカテゴリにあることを示し、「Ｏ」は単語が非ＮＥカテゴリであることを示し、「Ｂ」は同一カテゴリのＮＥの直後に新しいＮＥカテゴリが始まることを示す。

記憶に基づく分類器に入力される特性は、現在の単語又は品詞（ＰＯＳ）タグと、その左側の３つのウィンドウ・サイズの文脈（単語、ＰＯＳタグ及び識別されたＮＥタグを含む）とを含み、即ち全部で１０個の特性を含む。例えば接辞や綴り情報のような通常のＮＥ作業において頻繁に利用される特性は、話し言葉では発生しないため、ここではそれらを考慮しない。各単語に対する特性表現、及び各単語に対応するＮＥカテゴリは、訓練の手順において蓄積される。ＰＯＳタグを含む新しい入力センテンスについて、各単語は、上記の１０次元の特性により表現され、訓練セット内の最も近い単語と同一のカテゴリに割り当てられる。

最大エントロピー方法
最大エントロピー（ＭＥ）に基づく方法は、例えば２００３年にカナダのエドモントンで発行されたＣｏＮＬＬ−２００３会議録に掲載された「ＣｏＮＬＬ−２００３共通課題への導入：言語から独立した固有表現認識」という参考文献においてＥｒｉｋＦ．ＴｊｏｎｇＫｉｍＳａｎｇ及びＦｉｅｎＤｅＭｅｕｌｄｅｒｎが報告したような、多数の研究において利用されてきた。ＭＥに基づく方法は、固有名称認識をタグ付けの問題として扱い、最大エントロピー・モデリングを用いて、現在の単語の履歴を考慮して現在の単語のＩＯＢタグの条件付き確率を予測する。チェーン・ルールを用いることにより、最良のＩＯＢタグ・シーケンスが、以下のように決定され得る。即ち、

ただし、

であり、

はそれぞれ、ＩＯＢタグ、単語及びＰＯＳタグ・シーケンスである。

過去の履歴全体をモデル化することは、必ずしも常に可能ではないため、左側の３つの単語及びそれらのタグが、履歴として利用され得る。「ｘ」が履歴として利用され、「ｙ」がＩＯＢタグとして利用される場合、条件付きの最大エントロピー・モデリングは、以下の公式により決められた方法で計算され得る。即ち、

である。ただし、

は正規化係数である。

条件付き最大エントロピー・モデルを訓練するため、特性選択及びパラメータ予測を提供するための選択的利得計算（ＳＧＣ）方法が利用され得る。選択的利得計算（ＳＧＣ）方法は、例えば「最大エントロピー・モデリングのための高速特性選択方法及びシステム」という名称の、２００３年７月３日出願に係る係属中の米国特許出願第１０／６１３，３６６号に記載されており、該出願の内容は参照により全文が本明細書に援用される。該出願に論じられているように、条件付き最大エントロピーにより予測される確率は、高速特性選択を用いて計算又は決定される。訓練を提供するために、特性テンプレートのセットが提供され得る。具体的には、現在位置の単語及びタグの情報とともに、左側の３つの位置に対する単語、ＰＯＳタグ及びＩＯＢタグが、テンプレートにおいて、組み合わされて利用され得る。

境界訂正方法
記憶に基づく学習方法及び最大エントロピー（ＭＥ）に基づく方法のようなベースラインのタグ付け方法によって返されたタグ付け結果は、固有名称の境界での誤りを含み得る。例えば、「Ｉｗａｎｔｔｏｌｉｓｔｅｎｔｏｔｈｅａｌｂｕｍｔｈａｔｌｏｖｅｔｏｍｏｒｒｏｗｉｓｏｎ（私は「ｌｏｖｅｔｏｍｏｒｒｏｗ」の入っているアルバムを聴きたい）」というセンテンスにおいて、「ｌｏｖｅｔｏｍｏｒｒｏｗ」という曲名のメンバー単語は、「ｌｏｖｅ／Ｉ−曲名ｔｏｍｏｒｒｏｗ／Ｉ−曲名」という正しいタグ付けの代わりに、「ｌｏｖｅ／Ｉ−曲名ｔｏｍｏｒｒｏｗ／Ｏ」のように誤ってタグ付けされ得る。部分的な固有名称の認識は、更に難しくなり得る。様々な実践的なアプリケーション、特に口語によるアプリケーションにおいて、名前が長く、参照されているものが文脈的にそれほど曖昧ではない場合、人々は完全な名称の代わりに部分的な名称のみを利用し得る。様々なアプリケーションにおいて、（例えば、データベースの一部として）システムに対して固有名称が知られているため、そのような情報も上記の問題を解決するために利用され得る。この場合、ベースライン方法により認識された固有名称は、所与の名称データベースによりチェックされ、認識された名称と上手く一致するデータベース内の名称が、特に認識された名前の境界において、認識された名前の潜在的な誤りを訂正するために利用される。

例としての境界訂正方法を一層良く理解するために、具体例を提示する。ＡＢＣＤが部分的な曲名でありＷがその名前の外側にある・・・ＷＡＢＣＤ・・・（各文字は単語を表わす）というセンテンスを考えられたい。ベースライン分類器により固有名称が「Ｗ／Ｉ−曲名Ａ／Ｉ−曲名Ｂ／Ｉ−曲名Ｄ／Ｉ−曲名Ｄ／Ｏ」と誤ってタグ付けされた場合、例としての境界訂正方法は、ＷＡＢＣを用いてデータベースを検索し、その結果、曲名からＷを取り除いてＤを曲名の一部と認識する。

図１Ａは、本発明の例としての方法に従う、例としての境界訂正方法１００を示す。認識された部分的な固有名称がある場合、例としての境界訂正方法１００は、以下の動作又はステップを含む。

ステップＳ１において、完全な名称のデータベースから、部分的な名称に出現する単語を最も多く含む完全な名称であって、一致する単語の順序が部分的な名称における順序と同じである完全な名称を選択することにより、候補名称のプールが形成される。上記の部分的な名称ＷＡＢＣの例において、システムは、例えば、ＡＢＣＤＥ、ＷＡＢＥ、及びＷＡＣＥを選択し得る。これらの３つの名称は全て、ＷＡＢＣと共通する３つの単語を含み、それらの３つの単語が、部分的な固有名称における対応する単語と同じ順序にあるためである。

ステップＳ２において、部分的な固有名称内の１つ又はそれ以上の単語が取り除かれて、結果としての部分的な固有名称が未だ完全な名称の最大の長さを持つサブ文字列である場合、その完全な名称は、候補のプールから取り除かれる。例えば、部分的な名称ＷＡＢＣ及び完全な名称ＷＡＣＥがあると仮定すると、部分的な名称からＢを取り除くとサブ・シーケンスＷＡＣとなるが、これは完全な名称ＷＡＣＥの最大のサブ・シーケンスである。そのため、完全な名称ＷＡＣＥが取り除かれる。つまり、部分的な名称に対する境界以外での挿入は許されない。

ステップＳ３において、完全な名称の全てのＰＯＳタグが非コンテンツの単語ではない限り、候補の名称は、一致するＰＯＳタグが全て非コンテンツである場合に、プールから取り除かれる。これは、コンテンツの単語がある場合には、部分的な名称にコンテンツの単語が存在する可能性が高いからである。

ステップＳ４において、部分的な名称の境界の単語が完全な名称のプールに存在しない場合、システムはその単語のタグを、固有名称カテゴリから「Ｏ」へと変更する。そうでない場合には、タグは変更されない。上記の例において、Ｗが完全な名称の中に存在しない場合に、Ｗに対するタグは「Ｏ」に変更され、それにより、ＷＡＢＣはＷ／ＯＡ／Ｉ−曲名Ｂ／Ｉ−曲名Ｃ／Ｉ−曲名とタグ付けされる。

ステップＳ５において、シーケンス内の部分的な固有名称に隣接する単語が、固有名称の一部となり得るか否かを決定するために調べられる。隣接する単語が完全な名称の中に同じ順序で存在する場合、該単語は、同一の固有名称カテゴリに割り当てられる。例えば、ＡＢＣの右側に隣接する単語が、完全な名称ＡＢＣＤＥに含まれるＤである場合、例としての境界訂正方法の最後のステップにおいて、センテンスＷＡＢＣＤが、Ｗ／ＯＡ／Ｉ−曲名Ｂ／Ｉ−曲名Ｃ／Ｉ−曲名Ｄ／Ｉ−曲名と正しくタグ付けされる。

図１Ｂは、固有名称認識を提供する例としてのシステム１５０を示す。システム１５０は、入力された単語列の各単語を、固有名称タグ（例えばＩＯＢタグ）を用いて分類し、本明細書に記載される例としての方法を用いて、単語列の単語の固有名称タグを訂正する。例としてのシステム１５０は、ベースライン分類器１０１、訂正モジュール１０２、入力装置１０３（例えば、キーボード、音声入力又はスタイラスであり得る）、表示装置１０４、ＣＰＵ又は処理装置１０５、メモリ１０６、完全な名称のデータベース１０７及び出力装置１０８（例えば、表示プリンタ又は音声装置であり得る）を含む。ベースライン分類器１０１及び訂正モジュール１０２は、例えば、メモリ又はファームウェアに蓄積される、中央演算装置（ＣＰＵ）１０５により実行される一組の命令として実現され得る。ベースライン分類器１０１は、記憶に基づく学習分類器１０１ｂと、最大エントロピーに基づく分類器１０１ａとを含む。訂正モジュール１０２は、境界訂正モジュール１０２ａと、変換に基づく学習モジュール１０２ｂとを含む。システム１５０は、ネットワーク・ベース又はインターネット・ベースのアプリケーションを提供するサーバ装置を用いて実現され得る。

以下の実験は、例としての境界訂正方法が適用された後に、たいていの誤り、特に境界の誤りが訂正され得ることを示す。
実験
例としての境界訂正方法の有効性を確かめるために、一連の実験が行われた。試験領域としてＭＰ３プレーヤーの操作が選択され、該方法を試験するカテゴリとして、高度に複雑な曲名及びアルバム名が選択された。実際のデータがないため、全ての曲名及びアルバム名の順序を入れ替えることによりシミュレートされた訓練データ及び試験データのセットが利用された。記憶に基づく方法及びＭＥに基づく方法に比べ、例としての境界訂正方法の追加は、誤り率を半減させる。

品詞（ＰＯＳ）タグ・セットとしてウォール・ストリート・ジャーナル（ＷＳＪ）のタグ・セットが利用され、ＭＰ３プレーヤーの操作の領域における７００以上のテンプレート・センテンスが集められた。テンプレート・センテンスは、クラス・タグに置き換えられた固有名称を含むセンテンスである。ＭＰ３の領域において、例えば、「曲名」は全ての曲の名称に対するクラス・タグとして利用され、「アルバム名」はアルバムの名称に対するクラス・タグとして利用される。これらの２つのカテゴリは、アーティスト名及びジャンル名より動的且つ複雑であると信じられるため、これらの２つのカテゴリに集中した。テンプレート・センテンスに加えて、約３００の曲名及び約３０のアルバム名が実験に利用された。部分的な固有名称は、名称内の非コンテンツの単語を取り除くことにより取り出される。曲名の場合、完全な名称の平均的な長さは３であり、部分的な名称の平均的な長さは１．８８である。部分的な曲名の６３％は、それらに対応する完全な名称と異なる。アルバムの名称について、完全な名称の平均的な長さは２．６８であり、部分的な名称の平均的な長さは１．９３である。部分的なアルバムの名称の５４％は、それらに対応する完全な名称と異なる。本実験において、これらの曲名及びアルバム名は、テンプレート・センテンスにおいて順序を入れ替えられ、２８５７７個の合成されたセンテンスが生成される。

第１の実験セットは、様々な量の訓練データ及び試験データの効果を示す。７００個のテンプレート・センテンスは、４個のサブセット、８個のサブセット及び１０個のサブセットに分割された。４個のサブセットの場合、それぞれの実験において、３つのサブセットが訓練データとして利用され、残りのサブセットが試験データとして利用された。この方法では、各サブセットは試験セットとして一度利用され、全体として４回の実験が行われた。４個のサブセットの場合の結果は、図２に要約される。８個のサブセット及び１０個のサブセットの場合も同様であり、それらの結果は、それぞれ図３及び図４に提供される。例としての境界訂正方法の効果を見るため、同じ曲名及びアルバム名のセットを利用して、訓練データ及び試験データが生成される。訓練に使われる（曲及びアルバムの）名称と試験用の名称との差は、単に、試験データについては、部分的な固有名称を「捏造する」ために、名称内の非コンテンツであるの単語が取り除かれていることである。このため、同一の実験のセットが、例としての境界訂正方法のステップＳ３を除いて実行される。訓練データ・セット及び試験データ・セットの生成は、十分な量の実際の訓練データ及び試験データが利用可能である場合には、必要とされない。

４つの区切りの場合、訓練セットのサイズは、１９７５７センテンス（１７１９９０単語）から２３２９２センテンス（１９８７９９単語）であり、試験セットのサイズは５２８５センテンス（４１１３１単語）と８８２０センテンス（６３３６２単語）との間である。実験では、固有名称認識のＩＯＢタグ付けの正確性、再現率、精度及びｆスコアが決定又は計算される。４回の試験の結果は、４つの試験セットのサイズに基づいて平均化される。図２は、記憶に基づく方法に対するタグ付けの正確さが９８％に達し、例としての境界訂正方法を加えた組み合わせの方法では９９％に達することを示す。精度、再現率及びそれに伴うｆスコアの数値の改善は、例としての境界訂正方法を追加することにより、更に抜本的なものになる。精度は８４．３３％から９４．９２％に向上し、再現率は９０．８１％から９８．１６％に向上し、ｆスコアは８７．４５％から９６．５１％に向上する。言い換えれば、例としての境界訂正方法の追加は、全ての場合において、誤り率を５０％以上削減する。また、例としての境界訂正方法のステップＳ３を除く数値は、高レベルの性能を保ち、劣化はごくわずかである。

８個のサブセット及び１０個のサブセットの結果は、４個のサブセットの場合と同様のパターンを示す（例えば、図３及び４参照）。しかし、８個のサブセットの結果は、４個のサブセットの結果より良い。これは、実験において、より多くの訓練データを用いた結果であり得る。例としての境界訂正方法が部分的な固有名称認識のための他の方法に価値を付与したか否かを決定するため、最大エントロピーに基づく方法によるもう１つの実験セットが実行される。同様に、８個のサブセットがラウンド・ロビンの方法で実験に利用される。結果は、８つの異なる試験セットについて平均化される。例としての境界訂正方法と組み合わされた最大エントロピーに基づく方法の性能は、例としての境界訂正方法が記憶に基づくベースライン手法と組み合わされた場合よりも幾らか低くなり得る。これは、部分的には、６個のサブセットを訓練データとして利用し、１個のサブセットを開発セットとして利用し、最後のサブセットを試験セットとして利用して、訓練のために利用されたサブセットが１つ少なかったからである。しかし、図示されるとおり、タグ付けの正確性、精度及び再現率、並びにｆスコアはかなり改善され、ほとんど全ての誤り率は、ここでも５０％以上削減された。結果を図５に示す。

実験の最後の１セットは、試験データの固有名称リストが訓練データに含まれない場合の効果を確かめるために実行された。記憶に基づくベースライン方法は、固有名称リストへのアクセスを持たないという望ましくない特性を有し得る。しかし、実際には、モデルは訓練及びパッケージされ、利用可能な固有名称のリストは、リアルタイムにモデルに統合されない。そのため、曲名及びアルバム名の約２０％が、試験名称としてランダムに選択され、残りは訓練名称として利用され得る。それらは、テンプレート・センテンスにおいて別個に順番を入れ替えられる。実験は、完全な試験名称及び部分的な試験名称の両方について、８個のサブセットを用いて行われた。例としての境界訂正方法の試験のデータベースの一部として訓練名称を利用する場合の効果も調べられた。図６からわかるように、境界訂正方法を用いる結果及び用いない結果は、再度、誤り率を半分以下に低減するかなりの改善を示し、試験名称リストに訓練名称を含む場合の結果は、試験リストに訓練名称を含まない場合の結果をわずかに下回った。これは、訓練名称の試験名称への干渉のためである。

また、例としての境界訂正方法は、再現率及び精度をも大幅に改善し得る。これは、１９９８年に発行されたＭＵＣ−７会議録に掲載されたＡｎｄｒｅｉＭｉｋｈｅｅｖ，ＣｌａｉｒｅＧｒｏｖｅｒ及びＭａｒｃＭｏｅｎｓによる「ＭＵＣ−７に用いられるＬＴＧシステムの説明」に報告された、固有名称認識のパイプラインにおける新しいステップの追加は再現率を改善するが精度を劣化させる、という結果とは対照的である。

訓練及び試験の両方に同一の曲名／アルバム名リストを用い、４個のサブセットについて、記憶に基づく方法及び例としての境界訂正方法を適用することにより、タグ付け結果に対する誤り分析が実行された。これは、全ての異なるサブセットに対するタグ付けの正確性が同様であり、４個のサブセットが、全体で１９８３個の誤りを含む最大の試験データ・セットを有するためである。

誤り全体の約６７％は、部分的な固有名称と、名称データベースに含まれており、固有名称が現れ得る場所にも現れる一般の単語との混同により引き起こされる。「Ｐｌａｙ／Ｏｔｈｅ／Ｏｓｏｎｇ／Ｏｎｏｗ／Ｉ−曲名（「ｎｏｗ」という曲を演奏してくれ）」の例において、「ｎｏｗ」は、「ｈｅｒｅａｎｄｎｏｗ（今ここで）」という固有名称の一部としてラベル付けされる。しかし、試験セットにおいて、「ｎｏｗ（今）」は通常の時間を示す単語としてラベル付けされる。

誤りのもう１つのセットは、曲名とアルバム名との混同により引き起こされる。これは、誤りの約１６．６％を占める。アルバム名は、アルバム内の曲名の１つから名付けられ得る。幾つかの例は、「Ｐｌａｙ／Ｏｓｌａｖｅ／Ｉ−曲名ｌｏｖｅ／Ｉ−曲名（「ｓｌａｖｅｌｏｖｅ」を演奏してくれ）」のような実に混同しやすい例があることを示し、他の例は、文脈上の手がかり又は長距離の従属関係が、この種の誤りを減らすための助けになり得ることを示す。例えば、「Ｄｏｅｓ／Ｏｔｈｉｓ／Ｏａｌｂｕｍ／Ｏｈａｖｅ／Ｏｍａｄｅ／Ｉ−アルバム名Ｅｎｇｌａｎｄ／Ｉ−アルバム名（このアルバムは「ｍａｄｅＥｎｇｌａｎｄ」を含むか？）」は、訂正可能であり得る。

上記２種類の誤りは、ベースライン・システム即ち記憶に基づく方法において発生する。誤りの第３及び最後の主要なセットは、例としての境界訂正方法により引き起こされる。例としての境界訂正方法は、部分的な固有名称の境界単語が、対応する完全な固有名称の一部である場合に、時として、境界単語を訂正し過ぎる。例えば、「Ｄｏｅｓｔｈｉｓａｌｂｕｍｈａｖｅｎｏｔｈｉｎｇ（このアルバムは「ｎｏｔｈｉｎｇ」を含むか？）」という言葉は、記憶に基づく方法により、「Ｄｏｅｓ／Ｏｔｈｉｓ／Ｏａｌｂｕｍ／Ｏｈａｖｅ／Ｏｎｏｔｈｉｎｇ／Ｉ−曲名」と正しくタグ付けされる。しかし、これは、例としての境界訂正方法により、「Ｄｏｅｓ／Ｏｔｈｉｓ／Ｏａｌｂｕｍ／Ｏｈａｖｅ／Ｉ−曲名ｎｏｔｈｉｎｇ／Ｉ−曲名」と過剰に訂正される。曲名リストに「ｈａｖｅｎｏｔｈｉｎｇ」という曲名が存在するためである。この種の誤りは９．２％を占める。

手短に言えば、主要な３種類の誤りは、誤り全体の９３％以上を占める。作業の難しさに加え、固有名称データベースの利用方法も、性能の結果に重要な影響を与え得る。この研究では、マッチングのために経験則が利用されるが、自然言語処理研究会（ＣｏＮＬＬ）の会議で報告された研究は、固有名称リストから取り出された特性を利用する。

上記の説明において、本発明を特定の例としての実施の形態を参照して説明した。しかし、特許請求の範囲に記載された本発明の幅広い精神及び範囲を逸脱することなく、様々な修正及び変更がなされ得ることが明らかである。特に、本明細書に記載された例としての境界訂正方法は、例えば隠れマルコフ・モデル（ＨＭＭ）の分類器又は判断木の分類器を含む他の固有表現分類器と組み合わされても良い。従って、詳細な説明及び図面は、限定的ではない例示とみなされる。

図１Ａは、固有名称又は部分的な固有名称の認識を提供する例としての境界訂正方法を示す。図１Ｂは、固有名称又は部分的な固有名称の認識を提供する例としてのシステム／装置を示す。図２は、例としての境界訂正方法が加えられる前後に記憶に基づく学習方法を用いた、４個のサブセットに対する例としての平均的な試験結果を示す。図３は、例としての境界訂正方法が加えられる前後に記憶に基づく学習方法を用いた、８個のサブセットに対する例としての平均的な試験結果を示す。図４は、例としての境界訂正方法が加えられる前後に記憶に基づく学習方法を用いた、１０個のサブセットに対する例としての平均的な試験結果を示す。図５は、例としての境界訂正方法が加えられる前後に最大エントロピーに基づく方法を用いた、８個のサブセットに対する例としての平均的な試験結果を示す。図６は、別個の訓練名称及び試験名称に対する例としての試験結果を示す。

Claims

固有名称認識の方法であって、
固有表現カテゴリ及び非固有表現カテゴリのいずれかを示すタグを用いて、単語列の各単語を分類するステップと、
前記単語列の単語の前記タグを訂正するステップと、
を備える方法。
請求項１記載の方法であって、前記タグが、固有表現カテゴリの固有表現に関する位置に対応する方法。
請求項３記載の方法であって、前記タグがＩＯＢタグ・セットから選択される方法。
請求項１記載の方法であって、前記固有表現カテゴリが２つの固有表現を含む方法。
請求項１記載の方法であって、各単語が、記憶に基づく固有表現分類器を用いて分類される方法。
請求項１記載の方法であって、各単語が、最大エントロピーに基づく分類器を用いて分類される方法。
請求項１記載の方法であって、各単語が、記憶に基づく学習分類器及び最大エントロピーに基づく分類器を用いて分類される方法。
請求項１記載の方法であって、前記タグが、境界訂正手順を用いて訂正される方法。
請求項１記載の方法であって、各単語が、記憶に基づく固有表現分類器及び最大エントロピーに基づく分類器を用いて分類され、前記タグが、境界訂正手順を用いて訂正される方法。
請求項１記載の方法であって、更に、
所与の部分的な固有名称に対する候補である完全な名称のプールを形成するステップと、
前記所与の部分的な固有名称の境界単語のタグを、該境界単語が前記候補である完全な名称のプールに存在しない場合に、非固有表現カテゴリを示すよう変更するステップと、
前記所与の部分的な固有名称の隣接する単語を調べるステップと、
前記所与の部分的な固有名称の前記隣接する単語を、該隣接する単語が同一の順序で前記候補である完全な名称の中に存在する場合に、前記固有表現カテゴリに割り当てるステップと、
を備える方法。
請求項１記載の方法であって、更に、
所与の部分的な固有名称に現れる単語を最も多く含む、候補である完全な名称のプールを形成するステップであって、前記候補である完全な名称の一致する単語の順序が、前記部分的な固有名称の順序と同一であるステップと、
前記所与の部分的な固有名称内の１つ又はそれ以上の単語が取り除かれた際に、結果としての部分的な固有名称が前記候補である完全な名称のサブ文字列となる場合に、前記プールから候補である完全な名称を取り除くステップと、
前記境界単語が前記完全な名称のプールに存在しない場合に、前記部分的な固有名称の境界単語のタグを、前記非固有表現カテゴリのタグに変更するステップと、
前記部分的な固有名称の隣接する単語を調べるステップと、
前記隣接する単語が同一の順序で前記候補である完全な名称に存在する場合に、前記隣接する単語を前記部分的な固有名称に割り当てるステップと、
を備える方法。
請求項１１記載の方法であって、更に、
前記候補である完全な名称の品詞タグの一致する部分が全て非コンテンツの単語であり、且つ前記候補である完全な名称の全ての品詞タグが非コンテンツの単語ではない場合に、前記プールから候補である完全な名称を取り除くステップ
を備える方法。
固有名称認識のためのシステムであって、
単語列の各単語に固有表現タグを割り当てるベースラインの固有表現分類器と、
前記単語列の単語の前記固有表現タグを訂正する訂正モジュールと、
を備えるシステム。
請求項１３記載のシステムであって、前記ベースラインの固有表現分類器が、記憶に基づく学習分類器を含むシステム。
請求項１３記載のシステム、前記固有表現分類器が、最大エントロピーに基づく分類器を含むシステム。
請求項１３記載のシステムであって、前記固有表現分類器が、記憶に基づく学習分類器及び最大エントロピーに基づく分類器を含むシステム。
請求項１３記載のシステムであって、前記固有表現分類器が、ＩＯＢタグ付けを実行するよう構成されるシステム。
請求項１３記載のシステムであって、前記訂正モジュールが、境界訂正モジュールを含むシステム。
請求項１３記載のシステムであって、前記ベースラインの固有表現分類器が、記憶に基づく分類器と最大エントロピーに基づく分類器とを含み、前記訂正モジュールが境界訂正モジュールを含むシステム。
請求項１３記載のシステムであって、更に、
完全な固有名称を含むデータベースを備え、
前記訂正モジュールが、前記データベースから１つ又はそれ以上の候補の名称を選択し、前記候補の名称と所与の部分的な固有名称との比較に基づいて、前記単語列の１つ又はそれ以上の単語の前記固有表現タグを訂正するよう構成されるシステム。
固有名称の認識を実行する処理装置であって、
単語列を受け取る入力装置と、
前記単語列の各単語に固有表現タグを割り当てる第１の命令セットと、
前記単語列の境界単語の前記固有表現タグを訂正する第２の命令セットと、
前記第１及び第２の命令セットを実行する中央演算ユニットと、
前記実行された命令の結果を出力する出力装置と、
を備えるシステム。
プロセッサにより実行可能な命令セットを有する記憶媒体であって、
固有表現カテゴリ及び非固有表現カテゴリのいずれかを示すタグを用いて単語列の各単語を分類するステップと、
前記単語列の境界単語の前記タグを訂正するステップと、
を実行する命令セットを有する記録媒体。
請求項２２記載の記憶媒体であって、更に、
所与の部分的な固有名称に対する候補である完全な名称のプールを形成するステップと、
前記境界単語が前記候補である完全な名称のプールに存在しない場合に、前記所与の部分的な固有名称の境界単語の前記タグを、非固有表現カテゴリを示すよう変更するステップと、
前記所与の部分的な固有名称の隣接する単語を調べるステップと、
前記隣接する単語が、同一の順序で前記候補である完全な名称に存在する場合に、前記所与の部分的な固有名称の前記隣接する単語を、前記固有表現カテゴリに割り当てるステップと、
を含む記憶媒体。
請求項２２記載の記憶媒体であって、更に、
所与の部分的な固有名称に存在する単語を最も多く含む候補である完全な名称のプールを形成するステップであって、前記候補である完全な名称の一致する単語の順序が前記部分的な固有名称の順序と同一であるステップと、
前記所与の部分的な固有名称内の１つ又はそれ以上の単語が取り除かれた際に、結果としての部分的な固有名称が前記候補である完全な名称のサブ文字列である場合に、前記プールから候補となる完全な名称を取り除くステップと、
前記候補である完全な名称の一致する品詞タグが全て非コンテンツの単語であり、且つ前記候補である完全な名称の全ての品詞タグが非コンテンツの単語ではない場合に、前記プールから候補である完全な名称を取り除くステップと、
前記部分的な固有名称の境界単語が前記完全な名称のプールに存在しない場合に、前記境界単語のタグを、前記非固有表現カテゴリのタグに変更するステップと、
前記部分的な固有名称の隣接する単語を調べるステップと、
前記隣接する単語が前記候補である完全な名称に同一の順序で現れる場合に、前記隣接する単語を前記部分的な固有名称に割り当てるステップと、
を含む記憶媒体。