JP2006031010A - 固有名称又は部分的な固有名称の認識を提供する方法及び装置 - Google Patents

固有名称又は部分的な固有名称の認識を提供する方法及び装置 Download PDF

Info

Publication number
JP2006031010A
JP2006031010A JP2005205108A JP2005205108A JP2006031010A JP 2006031010 A JP2006031010 A JP 2006031010A JP 2005205108 A JP2005205108 A JP 2005205108A JP 2005205108 A JP2005205108 A JP 2005205108A JP 2006031010 A JP2006031010 A JP 2006031010A
Authority
JP
Japan
Prior art keywords
name
word
tag
candidate
names
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005205108A
Other languages
English (en)
Other versions
JP5048934B2 (ja
Inventor
Fuliang Weng
フーリン・ウェン
Lin Zhao
リン・ザオ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Publication of JP2006031010A publication Critical patent/JP2006031010A/ja
Application granted granted Critical
Publication of JP5048934B2 publication Critical patent/JP5048934B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract


【課題】 固有名称及び部分的な固有名称を認識する方法及び装置を提供すること。
【解決手段】 固有名称認識方法は、固有表現カテゴリ又は非固有表現カテゴリを示すタグを用いて単語列の各単語を分類するステップと、文字列の境界単語のタグを訂正するステップとを含む。
【選択図】 図1B

Description

本発明は、固有名称又は部分的な固有名称の認識を提供する方法及び装置に関する。
従来の固有表現(Named Entity)(NE)認識方法は、国防高等研究計画局(DARPA)によって開発された情報抽出プログラムを含むものであった。これについては、DARPAのベンチマークにおいて、人物、組織、場所、時間、日付、金額及び割合の固有表現分類を含む7つの固有表現分類が定義された。他の研究者は、この方面の仕事を継続したが、人物、組織、場所及びその他という4つの固有表現タイプのみを利用した(例えば、2003年にエドモントンで発行されたCoNLL−2003会議録に掲載されたErik F. Tjong Kim Sang及びFien De Meulderによる「CoNLL−2003共通課題への導入:言語から独立した固有表現認識」)。これらの固有表現分類は、特定のアプリケーションにおいて有用であり得るが、例えば製品名、書籍名、曲名等の固有表現分類のような、他の名称分類も有用であり得る。また、人は常に完全な名称を明示するわけではない。音声対話型アプリケーションでは、例えば、名称が長い場合、対応するエンティティを示すために部分的な名称が利用され得る。完全な名称の認識に比べて、部分的な名称の認識作業には、あまり多くの注意が払われてこなかった。
固有名称認識の分野における過去の研究は、あまり複雑ではない固有名称、即ち内部構造を持たない名称に集中してきた。歌やアルバムの名前、及び場合によっては本の題名のような他の名称は、認識作業に特別の課題を与え得る。研究者は、固有名称リスト/データベースを用いて彼らの方法の性能を向上しようと試みてきた。しかし、結果はまちまちであり、ある研究者は、特定の例におけるわずかな改良を報告し(1998年発行のMUC−7会議録に掲載されたAndrei Mikheev, Claire Grover及びMarc Moensによる「MUC−7に用いられるLTGシステムの説明」)、他の研究者は、性能の劣化を報告した(2003年にカナダのエドモントンで発行されたCoNLL−2003会議録に掲載されたIris Hendrickx及びAntal van den Boschによる「記憶に基づくワンステップによる固有表現認識:シード・リスト特性、分類器のスタッキング、及び非注釈データの効果」、及び2003年にカナダのエドモントンで発行されたCoNLL−2003会議録に掲載されたDien De Meulder及びWalter Daelemansによる「非注釈データを用いた記憶に基づく固有表現認識」)。
本発明の例としての実施の形態及び/又は例としての方法又は装置は、境界訂正方法に先立つベースライン(baseline)として、少なくとも1つの固有表現(NE)認識方法を用いた固有名称認識を提供する。少なくとも1つのベースラインNE認識方法は、例えば、記憶に基づく学習方法及び/又は最大エントロピー(ME)に基づく方法を含み得る。少なくとも1つのベースラインのNE認識方法は、また、例えば隠れマルコフ・モデル(HMM)による方法及び判断木による方法を含み得る。
2つのベースライン方法の性能は、例えば曲名及びアルバム名のような2つの固有表現カテゴリを用いて測定されてきた。例としての境界訂正方法が2つのベースライン方法と組み合わされると、誤り率が半分になり、fスコアが95%より高くなるという、かなりの改善が観察された。
本発明の例としての実施の形態及び/又は例としての方法又は装置は、ベースライン固有表現分類器と、その後に続く、例えば変換に基づく学習分類器のようなルールに基づく固有表現分類器とを用いた固有名称認識を提供し得る。これにより、固有名称認識の正確性が高められ、タグ付けの誤りが低減され得る。
本発明の例としての実施の形態及び/又は例としての方法又は装置は、例えば、音声対話型システム及び情報抽出プログラムに適用され得る。特に、例としての実施の形態及び/又は例としての方法又は装置は、例えば、運転者が完全な固有名称ではなく短くした名称を使う傾向がある車両の運転の際に経験され得るような、ストレスの高い環境に適用され得る。それにより、音声対話型システム及び/又は情報抽出プログラムが改良され得る。
固有名称又は部分的な固有名称の認識のための例としての方法は、以下に説明する通り、境界訂正方法と組み合わされた、記憶に基づく学習方法及び/又は最大エントロピーに基づく方法を含む。入力されるのは、品詞(POS)タグと関連付けられた単語列である。
記憶に基づく方法
固有表現(NE)認識は、分類の問題と考えられ、そこでは記憶に基づく学習方法がベースライン分類器(baseline classifier)として利用される。NE認識のための記憶に基づく学習方法の例によれば、例は特性によって表現され、訓練データにおいて、各特性には、分類の正確性に対する貢献度に基づく重み付けがなされる。訓練段階の期間に、例としての記憶に基づく学習方法は、全ての訓練例を特性の形で記憶し、新しい例を、訓練例と比較することによって分類する。新しい例は、所定の類似性測定基準に従って、新しい例と最も類似する訓練例と同じクラスを受ける。2003年にカナダのエドモントンで発行されたCoNLL−2003会議録に記載されたDien De Meulder及びWalter Daelemansによる「非注釈データを用いた記憶に基づく固有表現認識」という参考文献では、「Timbl」と呼ばれる、記憶に基づく学習パッケージの例が論じられている。この学習パッケージは、本明細書における以下の実験の実行に利用される。この方法では、特性の重み付けとして、「IGTree」設定及び情報利得が利用される。全ての他のパラメータには、デフォルト値を使用した。
分類器の目的は、各トークンに対し、固有NEカテゴリ又は非NEカテゴリのいずれかのラベルを付けることである。MP3プレーヤーの操作の領域における話し言葉を理解するという文脈において、ここでは、曲名及びアルバム名という2つのNEカテゴリのみが考慮される。これは、例えば曲名及びアルバム名は様々な方法で構成され得るため、この2つのカテゴリを扱うことが難しいからである。特に、この2つのカテゴリは、任意の単語、フレーズ、又はセンテンスが曲名又はアルバム名の一部となる可能性があるために、扱いづらくなり得る。
分類器として利用されるタグ・セットには、「I」、「O」及び「B」という3種類のタグが含まれる。「I」は単語がNEカテゴリにあることを示し、「O」は単語が非NEカテゴリであることを示し、「B」は同一カテゴリのNEの直後に新しいNEカテゴリが始まることを示す。
記憶に基づく分類器に入力される特性は、現在の単語又は品詞(POS)タグと、その左側の3つのウィンドウ・サイズの文脈(単語、POSタグ及び識別されたNEタグを含む)とを含み、即ち全部で10個の特性を含む。例えば接辞や綴り情報のような通常のNE作業において頻繁に利用される特性は、話し言葉では発生しないため、ここではそれらを考慮しない。各単語に対する特性表現、及び各単語に対応するNEカテゴリは、訓練の手順において蓄積される。POSタグを含む新しい入力センテンスについて、各単語は、上記の10次元の特性により表現され、訓練セット内の最も近い単語と同一のカテゴリに割り当てられる。
最大エントロピー方法
最大エントロピー(ME)に基づく方法は、例えば2003年にカナダのエドモントンで発行されたCoNLL−2003会議録に掲載された「CoNLL−2003共通課題への導入:言語から独立した固有表現認識」という参考文献においてErik F. Tjong Kim Sang及びFien De Meuldernが報告したような、多数の研究において利用されてきた。MEに基づく方法は、固有名称認識をタグ付けの問題として扱い、最大エントロピー・モデリングを用いて、現在の単語の履歴を考慮して現在の単語のIOBタグの条件付き確率を予測する。チェーン・ルールを用いることにより、最良のIOBタグ・シーケンスが、以下のように決定され得る。即ち、
Figure 2006031010
ただし、
Figure 2006031010
であり、
Figure 2006031010
はそれぞれ、IOBタグ、単語及びPOSタグ・シーケンスである。
過去の履歴全体をモデル化することは、必ずしも常に可能ではないため、左側の3つの単語及びそれらのタグが、履歴として利用され得る。「x」が履歴として利用され、「y」がIOBタグとして利用される場合、条件付きの最大エントロピー・モデリングは、以下の公式により決められた方法で計算され得る。即ち、
Figure 2006031010
である。ただし、
Figure 2006031010
は正規化係数である。
条件付き最大エントロピー・モデルを訓練するため、特性選択及びパラメータ予測を提供するための選択的利得計算(SGC)方法が利用され得る。選択的利得計算(SGC)方法は、例えば「最大エントロピー・モデリングのための高速特性選択方法及びシステム」という名称の、2003年7月3日出願に係る係属中の米国特許出願第10/613,366号に記載されており、該出願の内容は参照により全文が本明細書に援用される。該出願に論じられているように、条件付き最大エントロピーにより予測される確率は、高速特性選択を用いて計算又は決定される。訓練を提供するために、特性テンプレートのセットが提供され得る。具体的には、現在位置の単語及びタグの情報とともに、左側の3つの位置に対する単語、POSタグ及びIOBタグが、テンプレートにおいて、組み合わされて利用され得る。
境界訂正方法
記憶に基づく学習方法及び最大エントロピー(ME)に基づく方法のようなベースラインのタグ付け方法によって返されたタグ付け結果は、固有名称の境界での誤りを含み得る。例えば、「I want to listen to the album that love tomorrow is on(私は「love tomorrow」の入っているアルバムを聴きたい)」というセンテンスにおいて、「love tomorrow」という曲名のメンバー単語は、「love/I−曲名 tomorrow/I−曲名」という正しいタグ付けの代わりに、「love/I−曲名 tomorrow/O」のように誤ってタグ付けされ得る。部分的な固有名称の認識は、更に難しくなり得る。様々な実践的なアプリケーション、特に口語によるアプリケーションにおいて、名前が長く、参照されているものが文脈的にそれほど曖昧ではない場合、人々は完全な名称の代わりに部分的な名称のみを利用し得る。様々なアプリケーションにおいて、(例えば、データベースの一部として)システムに対して固有名称が知られているため、そのような情報も上記の問題を解決するために利用され得る。この場合、ベースライン方法により認識された固有名称は、所与の名称データベースによりチェックされ、認識された名称と上手く一致するデータベース内の名称が、特に認識された名前の境界において、認識された名前の潜在的な誤りを訂正するために利用される。
例としての境界訂正方法を一層良く理解するために、具体例を提示する。ABCDが部分的な曲名でありWがその名前の外側にある・・・WABCD・・・(各文字は単語を表わす)というセンテンスを考えられたい。ベースライン分類器により固有名称が「W/I−曲名 A/I−曲名 B/I−曲名 D/I−曲名 D/O」と誤ってタグ付けされた場合、例としての境界訂正方法は、WABCを用いてデータベースを検索し、その結果、曲名からWを取り除いてDを曲名の一部と認識する。
図1Aは、本発明の例としての方法に従う、例としての境界訂正方法100を示す。認識された部分的な固有名称がある場合、例としての境界訂正方法100は、以下の動作又はステップを含む。
ステップS1において、完全な名称のデータベースから、部分的な名称に出現する単語を最も多く含む完全な名称であって、一致する単語の順序が部分的な名称における順序と同じである完全な名称を選択することにより、候補名称のプールが形成される。上記の部分的な名称WABCの例において、システムは、例えば、ABCDE、WABE、及びWACEを選択し得る。これらの3つの名称は全て、WABCと共通する3つの単語を含み、それらの3つの単語が、部分的な固有名称における対応する単語と同じ順序にあるためである。
ステップS2において、部分的な固有名称内の1つ又はそれ以上の単語が取り除かれて、結果としての部分的な固有名称が未だ完全な名称の最大の長さを持つサブ文字列である場合、その完全な名称は、候補のプールから取り除かれる。例えば、部分的な名称WABC及び完全な名称WACEがあると仮定すると、部分的な名称からBを取り除くとサブ・シーケンスWACとなるが、これは完全な名称WACEの最大のサブ・シーケンスである。そのため、完全な名称WACEが取り除かれる。つまり、部分的な名称に対する境界以外での挿入は許されない。
ステップS3において、完全な名称の全てのPOSタグが非コンテンツの単語ではない限り、候補の名称は、一致するPOSタグが全て非コンテンツである場合に、プールから取り除かれる。これは、コンテンツの単語がある場合には、部分的な名称にコンテンツの単語が存在する可能性が高いからである。
ステップS4において、部分的な名称の境界の単語が完全な名称のプールに存在しない場合、システムはその単語のタグを、固有名称カテゴリから「O」へと変更する。そうでない場合には、タグは変更されない。上記の例において、Wが完全な名称の中に存在しない場合に、Wに対するタグは「O」に変更され、それにより、WABCはW/O A/I−曲名 B/I−曲名 C/I−曲名とタグ付けされる。
ステップS5において、シーケンス内の部分的な固有名称に隣接する単語が、固有名称の一部となり得るか否かを決定するために調べられる。隣接する単語が完全な名称の中に同じ順序で存在する場合、該単語は、同一の固有名称カテゴリに割り当てられる。例えば、ABCの右側に隣接する単語が、完全な名称ABCDEに含まれるDである場合、例としての境界訂正方法の最後のステップにおいて、センテンスWABCDが、W/O A/I−曲名 B/I−曲名 C/I−曲名 D/I−曲名と正しくタグ付けされる。
図1Bは、固有名称認識を提供する例としてのシステム150を示す。システム150は、入力された単語列の各単語を、固有名称タグ(例えばIOBタグ)を用いて分類し、本明細書に記載される例としての方法を用いて、単語列の単語の固有名称タグを訂正する。例としてのシステム150は、ベースライン分類器101、訂正モジュール102、入力装置103(例えば、キーボード、音声入力又はスタイラスであり得る)、表示装置104、CPU又は処理装置105、メモリ106、完全な名称のデータベース107及び出力装置108(例えば、表示プリンタ又は音声装置であり得る)を含む。ベースライン分類器101及び訂正モジュール102は、例えば、メモリ又はファームウェアに蓄積される、中央演算装置(CPU)105により実行される一組の命令として実現され得る。ベースライン分類器101は、記憶に基づく学習分類器101bと、最大エントロピーに基づく分類器101aとを含む。訂正モジュール102は、境界訂正モジュール102aと、変換に基づく学習モジュール102bとを含む。システム150は、ネットワーク・ベース又はインターネット・ベースのアプリケーションを提供するサーバ装置を用いて実現され得る。
以下の実験は、例としての境界訂正方法が適用された後に、たいていの誤り、特に境界の誤りが訂正され得ることを示す。
実験
例としての境界訂正方法の有効性を確かめるために、一連の実験が行われた。試験領域としてMP3プレーヤーの操作が選択され、該方法を試験するカテゴリとして、高度に複雑な曲名及びアルバム名が選択された。実際のデータがないため、全ての曲名及びアルバム名の順序を入れ替えることによりシミュレートされた訓練データ及び試験データのセットが利用された。記憶に基づく方法及びMEに基づく方法に比べ、例としての境界訂正方法の追加は、誤り率を半減させる。
品詞(POS)タグ・セットとしてウォール・ストリート・ジャーナル(WSJ)のタグ・セットが利用され、MP3プレーヤーの操作の領域における700以上のテンプレート・センテンスが集められた。テンプレート・センテンスは、クラス・タグに置き換えられた固有名称を含むセンテンスである。MP3の領域において、例えば、「曲名」は全ての曲の名称に対するクラス・タグとして利用され、「アルバム名」はアルバムの名称に対するクラス・タグとして利用される。これらの2つのカテゴリは、アーティスト名及びジャンル名より動的且つ複雑であると信じられるため、これらの2つのカテゴリに集中した。テンプレート・センテンスに加えて、約300の曲名及び約30のアルバム名が実験に利用された。部分的な固有名称は、名称内の非コンテンツの単語を取り除くことにより取り出される。曲名の場合、完全な名称の平均的な長さは3であり、部分的な名称の平均的な長さは1.88である。部分的な曲名の63%は、それらに対応する完全な名称と異なる。アルバムの名称について、完全な名称の平均的な長さは2.68であり、部分的な名称の平均的な長さは1.93である。部分的なアルバムの名称の54%は、それらに対応する完全な名称と異なる。本実験において、これらの曲名及びアルバム名は、テンプレート・センテンスにおいて順序を入れ替えられ、28577個の合成されたセンテンスが生成される。
第1の実験セットは、様々な量の訓練データ及び試験データの効果を示す。700個のテンプレート・センテンスは、4個のサブセット、8個のサブセット及び10個のサブセットに分割された。4個のサブセットの場合、それぞれの実験において、3つのサブセットが訓練データとして利用され、残りのサブセットが試験データとして利用された。この方法では、各サブセットは試験セットとして一度利用され、全体として4回の実験が行われた。4個のサブセットの場合の結果は、図2に要約される。8個のサブセット及び10個のサブセットの場合も同様であり、それらの結果は、それぞれ図3及び図4に提供される。例としての境界訂正方法の効果を見るため、同じ曲名及びアルバム名のセットを利用して、訓練データ及び試験データが生成される。訓練に使われる(曲及びアルバムの)名称と試験用の名称との差は、単に、試験データについては、部分的な固有名称を「捏造する」ために、名称内の非コンテンツであるの単語が取り除かれていることである。このため、同一の実験のセットが、例としての境界訂正方法のステップS3を除いて実行される。訓練データ・セット及び試験データ・セットの生成は、十分な量の実際の訓練データ及び試験データが利用可能である場合には、必要とされない。
4つの区切りの場合、訓練セットのサイズは、19757センテンス(171990単語)から23292センテンス(198799単語)であり、試験セットのサイズは5285センテンス(41131単語)と8820センテンス(63362単語)との間である。実験では、固有名称認識のIOBタグ付けの正確性、再現率、精度及びfスコアが決定又は計算される。4回の試験の結果は、4つの試験セットのサイズに基づいて平均化される。図2は、記憶に基づく方法に対するタグ付けの正確さが98%に達し、例としての境界訂正方法を加えた組み合わせの方法では99%に達することを示す。精度、再現率及びそれに伴うfスコアの数値の改善は、例としての境界訂正方法を追加することにより、更に抜本的なものになる。精度は84.33%から94.92%に向上し、再現率は90.81%から98.16%に向上し、fスコアは87.45%から96.51%に向上する。言い換えれば、例としての境界訂正方法の追加は、全ての場合において、誤り率を50%以上削減する。また、例としての境界訂正方法のステップS3を除く数値は、高レベルの性能を保ち、劣化はごくわずかである。
8個のサブセット及び10個のサブセットの結果は、4個のサブセットの場合と同様のパターンを示す(例えば、図3及び4参照)。しかし、8個のサブセットの結果は、4個のサブセットの結果より良い。これは、実験において、より多くの訓練データを用いた結果であり得る。例としての境界訂正方法が部分的な固有名称認識のための他の方法に価値を付与したか否かを決定するため、最大エントロピーに基づく方法によるもう1つの実験セットが実行される。同様に、8個のサブセットがラウンド・ロビンの方法で実験に利用される。結果は、8つの異なる試験セットについて平均化される。例としての境界訂正方法と組み合わされた最大エントロピーに基づく方法の性能は、例としての境界訂正方法が記憶に基づくベースライン手法と組み合わされた場合よりも幾らか低くなり得る。これは、部分的には、6個のサブセットを訓練データとして利用し、1個のサブセットを開発セットとして利用し、最後のサブセットを試験セットとして利用して、訓練のために利用されたサブセットが1つ少なかったからである。しかし、図示されるとおり、タグ付けの正確性、精度及び再現率、並びにfスコアはかなり改善され、ほとんど全ての誤り率は、ここでも50%以上削減された。結果を図5に示す。
実験の最後の1セットは、試験データの固有名称リストが訓練データに含まれない場合の効果を確かめるために実行された。記憶に基づくベースライン方法は、固有名称リストへのアクセスを持たないという望ましくない特性を有し得る。しかし、実際には、モデルは訓練及びパッケージされ、利用可能な固有名称のリストは、リアルタイムにモデルに統合されない。そのため、曲名及びアルバム名の約20%が、試験名称としてランダムに選択され、残りは訓練名称として利用され得る。それらは、テンプレート・センテンスにおいて別個に順番を入れ替えられる。実験は、完全な試験名称及び部分的な試験名称の両方について、8個のサブセットを用いて行われた。例としての境界訂正方法の試験のデータベースの一部として訓練名称を利用する場合の効果も調べられた。図6からわかるように、境界訂正方法を用いる結果及び用いない結果は、再度、誤り率を半分以下に低減するかなりの改善を示し、試験名称リストに訓練名称を含む場合の結果は、試験リストに訓練名称を含まない場合の結果をわずかに下回った。これは、訓練名称の試験名称への干渉のためである。
また、例としての境界訂正方法は、再現率及び精度をも大幅に改善し得る。これは、1998年に発行されたMUC−7会議録に掲載されたAndrei Mikheev, Claire Grover及びMarc Moensによる「MUC−7に用いられるLTGシステムの説明」に報告された、固有名称認識のパイプラインにおける新しいステップの追加は再現率を改善するが精度を劣化させる、という結果とは対照的である。
訓練及び試験の両方に同一の曲名/アルバム名リストを用い、4個のサブセットについて、記憶に基づく方法及び例としての境界訂正方法を適用することにより、タグ付け結果に対する誤り分析が実行された。これは、全ての異なるサブセットに対するタグ付けの正確性が同様であり、4個のサブセットが、全体で1983個の誤りを含む最大の試験データ・セットを有するためである。
誤り全体の約67%は、部分的な固有名称と、名称データベースに含まれており、固有名称が現れ得る場所にも現れる一般の単語との混同により引き起こされる。「Play/O the/O song/O now/I−曲名(「now」という曲を演奏してくれ)」の例において、「now」は、「here and now(今ここで)」という固有名称の一部としてラベル付けされる。しかし、試験セットにおいて、「now(今)」は通常の時間を示す単語としてラベル付けされる。
誤りのもう1つのセットは、曲名とアルバム名との混同により引き起こされる。これは、誤りの約16.6%を占める。アルバム名は、アルバム内の曲名の1つから名付けられ得る。幾つかの例は、「Play/O slave/I−曲名 love/I−曲名(「slave love」を演奏してくれ)」のような実に混同しやすい例があることを示し、他の例は、文脈上の手がかり又は長距離の従属関係が、この種の誤りを減らすための助けになり得ることを示す。例えば、「Does/O this/O album/O have/O made/I−アルバム名 England/I−アルバム名(このアルバムは「made England」を含むか?)」は、訂正可能であり得る。
上記2種類の誤りは、ベースライン・システム即ち記憶に基づく方法において発生する。誤りの第3及び最後の主要なセットは、例としての境界訂正方法により引き起こされる。例としての境界訂正方法は、部分的な固有名称の境界単語が、対応する完全な固有名称の一部である場合に、時として、境界単語を訂正し過ぎる。例えば、「Does this album have nothing(このアルバムは「nothing」を含むか?)」という言葉は、記憶に基づく方法により、「Does/O this/O album/O have/O nothing/I−曲名」と正しくタグ付けされる。しかし、これは、例としての境界訂正方法により、「Does/O this/O album/O have/I−曲名 nothing/I−曲名」と過剰に訂正される。曲名リストに「have nothing」という曲名が存在するためである。この種の誤りは9.2%を占める。
手短に言えば、主要な3種類の誤りは、誤り全体の93%以上を占める。作業の難しさに加え、固有名称データベースの利用方法も、性能の結果に重要な影響を与え得る。この研究では、マッチングのために経験則が利用されるが、自然言語処理研究会(CoNLL)の会議で報告された研究は、固有名称リストから取り出された特性を利用する。
上記の説明において、本発明を特定の例としての実施の形態を参照して説明した。しかし、特許請求の範囲に記載された本発明の幅広い精神及び範囲を逸脱することなく、様々な修正及び変更がなされ得ることが明らかである。特に、本明細書に記載された例としての境界訂正方法は、例えば隠れマルコフ・モデル(HMM)の分類器又は判断木の分類器を含む他の固有表現分類器と組み合わされても良い。従って、詳細な説明及び図面は、限定的ではない例示とみなされる。
図1Aは、固有名称又は部分的な固有名称の認識を提供する例としての境界訂正方法を示す。 図1Bは、固有名称又は部分的な固有名称の認識を提供する例としてのシステム/装置を示す。 図2は、例としての境界訂正方法が加えられる前後に記憶に基づく学習方法を用いた、4個のサブセットに対する例としての平均的な試験結果を示す。 図3は、例としての境界訂正方法が加えられる前後に記憶に基づく学習方法を用いた、8個のサブセットに対する例としての平均的な試験結果を示す。 図4は、例としての境界訂正方法が加えられる前後に記憶に基づく学習方法を用いた、10個のサブセットに対する例としての平均的な試験結果を示す。 図5は、例としての境界訂正方法が加えられる前後に最大エントロピーに基づく方法を用いた、8個のサブセットに対する例としての平均的な試験結果を示す。 図6は、別個の訓練名称及び試験名称に対する例としての試験結果を示す。

Claims (24)

  1. 固有名称認識の方法であって、
    固有表現カテゴリ及び非固有表現カテゴリのいずれかを示すタグを用いて、単語列の各単語を分類するステップと、
    前記単語列の単語の前記タグを訂正するステップと、
    を備える方法。
  2. 請求項1記載の方法であって、前記タグが、固有表現カテゴリの固有表現に関する位置に対応する方法。
  3. 請求項3記載の方法であって、前記タグがIOBタグ・セットから選択される方法。
  4. 請求項1記載の方法であって、前記固有表現カテゴリが2つの固有表現を含む方法。
  5. 請求項1記載の方法であって、各単語が、記憶に基づく固有表現分類器を用いて分類される方法。
  6. 請求項1記載の方法であって、各単語が、最大エントロピーに基づく分類器を用いて分類される方法。
  7. 請求項1記載の方法であって、各単語が、記憶に基づく学習分類器及び最大エントロピーに基づく分類器を用いて分類される方法。
  8. 請求項1記載の方法であって、前記タグが、境界訂正手順を用いて訂正される方法。
  9. 請求項1記載の方法であって、各単語が、記憶に基づく固有表現分類器及び最大エントロピーに基づく分類器を用いて分類され、前記タグが、境界訂正手順を用いて訂正される方法。
  10. 請求項1記載の方法であって、更に、
    所与の部分的な固有名称に対する候補である完全な名称のプールを形成するステップと、
    前記所与の部分的な固有名称の境界単語のタグを、該境界単語が前記候補である完全な名称のプールに存在しない場合に、非固有表現カテゴリを示すよう変更するステップと、
    前記所与の部分的な固有名称の隣接する単語を調べるステップと、
    前記所与の部分的な固有名称の前記隣接する単語を、該隣接する単語が同一の順序で前記候補である完全な名称の中に存在する場合に、前記固有表現カテゴリに割り当てるステップと、
    を備える方法。
  11. 請求項1記載の方法であって、更に、
    所与の部分的な固有名称に現れる単語を最も多く含む、候補である完全な名称のプールを形成するステップであって、前記候補である完全な名称の一致する単語の順序が、前記部分的な固有名称の順序と同一であるステップと、
    前記所与の部分的な固有名称内の1つ又はそれ以上の単語が取り除かれた際に、結果としての部分的な固有名称が前記候補である完全な名称のサブ文字列となる場合に、前記プールから候補である完全な名称を取り除くステップと、
    前記境界単語が前記完全な名称のプールに存在しない場合に、前記部分的な固有名称の境界単語のタグを、前記非固有表現カテゴリのタグに変更するステップと、
    前記部分的な固有名称の隣接する単語を調べるステップと、
    前記隣接する単語が同一の順序で前記候補である完全な名称に存在する場合に、前記隣接する単語を前記部分的な固有名称に割り当てるステップと、
    を備える方法。
  12. 請求項11記載の方法であって、更に、
    前記候補である完全な名称の品詞タグの一致する部分が全て非コンテンツの単語であり、且つ前記候補である完全な名称の全ての品詞タグが非コンテンツの単語ではない場合に、前記プールから候補である完全な名称を取り除くステップ
    を備える方法。
  13. 固有名称認識のためのシステムであって、
    単語列の各単語に固有表現タグを割り当てるベースラインの固有表現分類器と、
    前記単語列の単語の前記固有表現タグを訂正する訂正モジュールと、
    を備えるシステム。
  14. 請求項13記載のシステムであって、前記ベースラインの固有表現分類器が、記憶に基づく学習分類器を含むシステム。
  15. 請求項13記載のシステム、前記固有表現分類器が、最大エントロピーに基づく分類器を含むシステム。
  16. 請求項13記載のシステムであって、前記固有表現分類器が、記憶に基づく学習分類器及び最大エントロピーに基づく分類器を含むシステム。
  17. 請求項13記載のシステムであって、前記固有表現分類器が、IOBタグ付けを実行するよう構成されるシステム。
  18. 請求項13記載のシステムであって、前記訂正モジュールが、境界訂正モジュールを含むシステム。
  19. 請求項13記載のシステムであって、前記ベースラインの固有表現分類器が、記憶に基づく分類器と最大エントロピーに基づく分類器とを含み、前記訂正モジュールが境界訂正モジュールを含むシステム。
  20. 請求項13記載のシステムであって、更に、
    完全な固有名称を含むデータベースを備え、
    前記訂正モジュールが、前記データベースから1つ又はそれ以上の候補の名称を選択し、前記候補の名称と所与の部分的な固有名称との比較に基づいて、前記単語列の1つ又はそれ以上の単語の前記固有表現タグを訂正するよう構成されるシステム。
  21. 固有名称の認識を実行する処理装置であって、
    単語列を受け取る入力装置と、
    前記単語列の各単語に固有表現タグを割り当てる第1の命令セットと、
    前記単語列の境界単語の前記固有表現タグを訂正する第2の命令セットと、
    前記第1及び第2の命令セットを実行する中央演算ユニットと、
    前記実行された命令の結果を出力する出力装置と、
    を備えるシステム。
  22. プロセッサにより実行可能な命令セットを有する記憶媒体であって、
    固有表現カテゴリ及び非固有表現カテゴリのいずれかを示すタグを用いて単語列の各単語を分類するステップと、
    前記単語列の境界単語の前記タグを訂正するステップと、
    を実行する命令セットを有する記録媒体。
  23. 請求項22記載の記憶媒体であって、更に、
    所与の部分的な固有名称に対する候補である完全な名称のプールを形成するステップと、
    前記境界単語が前記候補である完全な名称のプールに存在しない場合に、前記所与の部分的な固有名称の境界単語の前記タグを、非固有表現カテゴリを示すよう変更するステップと、
    前記所与の部分的な固有名称の隣接する単語を調べるステップと、
    前記隣接する単語が、同一の順序で前記候補である完全な名称に存在する場合に、前記所与の部分的な固有名称の前記隣接する単語を、前記固有表現カテゴリに割り当てるステップと、
    を含む記憶媒体。
  24. 請求項22記載の記憶媒体であって、更に、
    所与の部分的な固有名称に存在する単語を最も多く含む候補である完全な名称のプールを形成するステップであって、前記候補である完全な名称の一致する単語の順序が前記部分的な固有名称の順序と同一であるステップと、
    前記所与の部分的な固有名称内の1つ又はそれ以上の単語が取り除かれた際に、結果としての部分的な固有名称が前記候補である完全な名称のサブ文字列である場合に、前記プールから候補となる完全な名称を取り除くステップと、
    前記候補である完全な名称の一致する品詞タグが全て非コンテンツの単語であり、且つ前記候補である完全な名称の全ての品詞タグが非コンテンツの単語ではない場合に、前記プールから候補である完全な名称を取り除くステップと、
    前記部分的な固有名称の境界単語が前記完全な名称のプールに存在しない場合に、前記境界単語のタグを、前記非固有表現カテゴリのタグに変更するステップと、
    前記部分的な固有名称の隣接する単語を調べるステップと、
    前記隣接する単語が前記候補である完全な名称に同一の順序で現れる場合に、前記隣接する単語を前記部分的な固有名称に割り当てるステップと、
    を含む記憶媒体。
JP2005205108A 2004-07-15 2005-07-14 固有名称又は部分的な固有名称の認識を提供する方法及び装置 Active JP5048934B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/892,724 2004-07-15
US10/892,724 US7865356B2 (en) 2004-07-15 2004-07-15 Method and apparatus for providing proper or partial proper name recognition

Publications (2)

Publication Number Publication Date
JP2006031010A true JP2006031010A (ja) 2006-02-02
JP5048934B2 JP5048934B2 (ja) 2012-10-17

Family

ID=35207634

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005205108A Active JP5048934B2 (ja) 2004-07-15 2005-07-14 固有名称又は部分的な固有名称の認識を提供する方法及び装置

Country Status (3)

Country Link
US (1) US7865356B2 (ja)
EP (1) EP1617340B1 (ja)
JP (1) JP5048934B2 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182291A (ja) * 2009-02-03 2010-08-19 Nec (China) Co Ltd 知識注釈結果検査方法および知識注釈結果検査システム
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
JP2020509397A (ja) * 2017-01-18 2020-03-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声における記号シーケンスの推定
JP2020527762A (ja) * 2017-07-20 2020-09-10 京東方科技集團股▲ふん▼有限公司Boe Technology Group Co.,Ltd. 医療テキスト中の医療エンティティを識別するための方法および装置

Families Citing this family (68)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7716056B2 (en) * 2004-09-27 2010-05-11 Robert Bosch Corporation Method and system for interactive conversational dialogue for cognitively overloaded device users
PE20071101A1 (es) * 2005-08-31 2007-12-21 Amgen Inc Polipeptidos y anticuerpos
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
KR100755678B1 (ko) * 2005-10-28 2007-09-05 삼성전자주식회사 개체명 검출 장치 및 방법
KR100760301B1 (ko) * 2006-02-23 2007-09-19 삼성전자주식회사 부분 검색어 추출을 통한 미디어 파일 검색 방법 및 장치
US7685201B2 (en) * 2006-09-08 2010-03-23 Microsoft Corporation Person disambiguation using name entity extraction-based clustering
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US7788094B2 (en) * 2007-01-29 2010-08-31 Robert Bosch Gmbh Apparatus, method and system for maximum entropy modeling for uncertain observations
US20090249182A1 (en) * 2008-03-31 2009-10-01 Iti Scotland Limited Named entity recognition methods and apparatus
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
KR101259558B1 (ko) * 2009-10-08 2013-05-07 한국전자통신연구원 문장경계 인식 장치 및 방법
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
WO2011126715A2 (en) * 2010-03-30 2011-10-13 Nvoq Incorporated Hierarchical quick note to allow dictated code phrases to be transcribed to standard clauses
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US20140025230A1 (en) 2012-07-17 2014-01-23 Elwha LLC, a limited liability company of the State of Delaware Unmanned device interaction methods and systems
US20140025233A1 (en) 2012-07-17 2014-01-23 Elwha Llc Unmanned device utilization methods and systems
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9734193B2 (en) * 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9773499B2 (en) * 2014-06-18 2017-09-26 Google Inc. Entity name recognition based on entity type
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
WO2020003928A1 (ja) * 2018-06-28 2020-01-02 株式会社Nttドコモ エンティティ特定システム
CN113886571A (zh) * 2020-07-01 2022-01-04 北京三星通信技术研究有限公司 实体识别方法、装置、电子设备及计算机可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259469A (ja) * 1993-03-10 1994-09-16 Nec Corp 固有名詞辞書の利用方式
JP2001318792A (ja) * 2000-05-10 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP2004184951A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4965763A (en) * 1987-03-03 1990-10-23 International Business Machines Corporation Computer method for automatic extraction of commonly specified information from business correspondence
US6052682A (en) * 1997-05-02 2000-04-18 Bbn Corporation Method of and apparatus for recognizing and labeling instances of name classes in textual environments
CN1159661C (zh) * 1999-04-08 2004-07-28 肯特里奇数字实验公司 用于中文的标记和命名实体识别的系统
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
JP4200645B2 (ja) * 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
US7627567B2 (en) * 2004-04-14 2009-12-01 Microsoft Corporation Segmentation of strings into structured records

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06259469A (ja) * 1993-03-10 1994-09-16 Nec Corp 固有名詞辞書の利用方式
JP2001318792A (ja) * 2000-05-10 2001-11-16 Nippon Telegr & Teleph Corp <Ntt> 固有表現抽出規則生成システムと方法およびその処理プログラムを記録した記録媒体ならびに固有表現抽出装置
JP2002334076A (ja) * 2001-05-10 2002-11-22 Communication Research Laboratory テキスト処理方法
JP2004184951A (ja) * 2002-12-06 2004-07-02 Nippon Telegr & Teleph Corp <Ntt> クラス同定モデル生成方法、装置、およびプログラム、クラス同定方法、装置、およびプログラム
JP2004258531A (ja) * 2003-02-27 2004-09-16 Nippon Telegr & Teleph Corp <Ntt> 認識誤り訂正方法、装置、およびプログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010182291A (ja) * 2009-02-03 2010-08-19 Nec (China) Co Ltd 知識注釈結果検査方法および知識注釈結果検査システム
WO2014117645A1 (zh) * 2013-01-29 2014-08-07 华为终端有限公司 信息的识别方法和装置
US9390711B2 (en) 2013-01-29 2016-07-12 Huawei Device Co., Ltd. Information recognition method and apparatus
JP2020509397A (ja) * 2017-01-18 2020-03-26 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音声における記号シーケンスの推定
US11145308B2 (en) 2017-01-18 2021-10-12 International Business Machines Corporation Symbol sequence estimation in speech
JP2020527762A (ja) * 2017-07-20 2020-09-10 京東方科技集團股▲ふん▼有限公司Boe Technology Group Co.,Ltd. 医療テキスト中の医療エンティティを識別するための方法および装置
JP7043429B2 (ja) 2017-07-20 2022-03-29 京東方科技集團股▲ふん▼有限公司 医療テキスト中の医療エンティティを識別するための方法、装置およびコンピュータ読取可能な記憶媒体
US11586809B2 (en) 2017-07-20 2023-02-21 Boe Technology Group Co., Ltd. Method and apparatus for recognizing medical entity in medical text

Also Published As

Publication number Publication date
EP1617340B1 (en) 2014-07-23
US20060015484A1 (en) 2006-01-19
JP5048934B2 (ja) 2012-10-17
US7865356B2 (en) 2011-01-04
EP1617340A3 (en) 2007-05-02
EP1617340A2 (en) 2006-01-18

Similar Documents

Publication Publication Date Title
JP5048934B2 (ja) 固有名称又は部分的な固有名称の認識を提供する方法及び装置
US10061766B2 (en) Systems and methods for domain-specific machine-interpretation of input data
US8543565B2 (en) System and method using a discriminative learning approach for question answering
JP5243167B2 (ja) 情報検索システム
US20170278510A1 (en) Electronic device, method and training method for natural language processing
US7451125B2 (en) System and method for compiling rules created by machine learning program
Braud et al. Multi-view and multi-task training of RST discourse parsers
KR101136007B1 (ko) 문서 감성 분석 시스템 및 그 방법
US10678769B2 (en) Artificial intelligence system and method for auto-naming customer tree nodes in a data structure
Bam Named Entity Recognition for Nepali text using Support Vector Machine
CN110263167B (zh) 医疗实体分类模型生成方法、装置、设备和可读存储介质
Pérez et al. Inferred joint multigram models for medical term normalization according to ICD
JP7272060B2 (ja) 生成方法、学習方法、生成プログラム、及び生成装置
JP4361299B2 (ja) 評価表現抽出装置、プログラム、及び記憶媒体
JP2003263441A (ja) キーワード決定データベース作成方法、キーワード決定方法、装置、プログラム、および記録媒体
Tur et al. Semi-supervised learning for spoken language understanding semantic role labeling
Goumy et al. Ecommerce Product Title Classification.
JPH117447A (ja) 話題抽出方法及びこれに用いる話題抽出モデルとその作成方法、話題抽出プログラム記録媒体
JP4478042B2 (ja) 頻度情報付き単語集合生成方法、プログラムおよびプログラム記憶媒体、ならびに、頻度情報付き単語集合生成装置、テキスト索引語作成装置、全文検索装置およびテキスト分類装置
CN113988057A (zh) 基于概念抽取的标题生成方法、装置、设备及介质
JP6181890B2 (ja) 文献解析装置、文献解析方法およびプログラム
Zidouni et al. Efficient combined approach for named entity recognition in spoken language
JP2011180988A (ja) 感情極性推定装置、感情極性推定方法及び感情極性推定処理プログラム
Kovács et al. Feature Reduction for Dependency Graph Construction in Computational Linguistics.
Lu et al. Improving web search relevance with semantic features

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080502

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110531

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110629

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110922

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20120124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120601

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120622

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120720

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150727

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5048934

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250