JP5245255B2 - 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 - Google Patents

固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 Download PDF

Info

Publication number
JP5245255B2
JP5245255B2 JP2007035434A JP2007035434A JP5245255B2 JP 5245255 B2 JP5245255 B2 JP 5245255B2 JP 2007035434 A JP2007035434 A JP 2007035434A JP 2007035434 A JP2007035434 A JP 2007035434A JP 5245255 B2 JP5245255 B2 JP 5245255B2
Authority
JP
Japan
Prior art keywords
specific expression
extraction
information
classification
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007035434A
Other languages
English (en)
Other versions
JP2008198132A (ja
Inventor
友哉 岩倉
青史 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2007035434A priority Critical patent/JP5245255B2/ja
Priority to US12/025,482 priority patent/US20080201134A1/en
Publication of JP2008198132A publication Critical patent/JP2008198132A/ja
Application granted granted Critical
Publication of JP5245255B2 publication Critical patent/JP5245255B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

この発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラム、当該固有表現抽出処理を行う固有表現抽出方法および固有表現抽出装置に関する。
従来より、入力されたテキストデータから固有表現(例えば、人名や場所などの固有名詞、日付や金額などの数値表現など)を抽出する技術が存在する(特許文献1参照)。そして、この従来技術の中には、機械学習アルゴリズムおよび学習データを用いて生成された固有表現抽出モデル(規則)に基づいて、テキストデータから固有表現を抽出する技術が存在する。
また、上記した固有表現抽出モデルの作成では、入力されたテキストデータから固有表現を抽出するための手がかりとして、「辞書情報」を利用するのが一般的である。この「辞書情報」は、例えば、「宮崎」という単語であれば、「人名」あるいは「場所」の可能性がある、「社長」や「さん」は人名を示唆する単語、といった手がかりを得るための情報を備えている。
特開2002−183133号公報
しかしながら、上記した従来の技術は、固有表現をテキストデータから抽出する手がかりを得るための辞書を作成するために多大な労力を要するという問題点があった。すなわち、従来、上記した「辞書情報」の作成は人手で行われていたので、テキストデータから抽出されることが予想される単語ごとに、固有表現のカテゴリ候補(例えば、「宮崎」や「佐藤」「人名」などの項目)ごとに辞書を作成するのに多大な労力を要するといった問題点があった。
また、人手で辞書情報を作成していたのでは、入力が想定されるテキストデータのパタン(例えば、言語や文脈など)の変更に対して臨機応変に対応することも困難である。
そこで、この発明は、上述した従来技術の課題を解決するためになされたものであり、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することが可能な固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置を提供することを目的とする。
上述した課題を解決し、目的を達成するため、発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得手順と、記抽出結果取得手順により取得された固有表現抽出結果の一致度に応じて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報、および、出現頻度情報に応じて各分類候補情報を順位付けした順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成手順と、をコンピュータに実行させる。
また、発明は、上記の発明において、テキストデータから固有表現を抽出するためのモデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させる。
また、発明は、コンピュータがテキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、前記コンピュータが、前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得工程と、記抽出結果取得工程により取得された固有表現抽出結果の一致度に応じて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報、および、出現頻度情報に応じて各分類候補情報を順位付けした順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成工程と、を含む。
また、発明は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得手段と、記抽出結果取得手段により取得された固有表現抽出結果の一致度に応じて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報、および、出現頻度情報に応じて各分類候補情報を順位付けした順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成手段と、を備える。
本発明によれば、固有表現抽出処理の結果得られる固有表現抽出結果を取得しておき、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を取得された固有表現抽出結果に基づいて作成するので、多大な労力を要することなく、固有表現をテキストデータから抽出する手がかりを得るための辞書を簡易に作成することが可能である。また、入力が想定されるテキストデータのパタン(例えば、言語や文脈など)が変更された場合には、辞書情報をすぐに更新して新しいものを作成するなど、テキストデータのパタンの変更に対して臨機応変に対応することが可能である。
また、本発明によれば、テキストデータから固有表現を抽出するためのモデルを複数用いて固有表現抽出処理を行って、その結果得られる複数の固有表現抽出結果を取得するので、テキストデータから固有表現を抽出する際に手がかりとして信頼性の高い辞書情報を作成することが可能である。
また、本発明によれば、各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語およびその単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示した分類候補情報(例えば、「宮崎」という単語であれば、「人名」や「場所」といった情報)と、全固有表現抽出結果における各分類候補の出現頻度を示した出現頻度情報(例えば、「宮崎」を「人名」として出力されている回数や、「場所」として出力されている回数からなる情報)と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報(例えば、「宮崎」を「人名」とする出現頻度情報が“100”で、「場所」とする出現頻度情報が“50”である場合には、「人名」を順位“1”、「場所」を順位“2”とする情報)とからなる辞書情報を作成するので、テキストデータから固有表現を抽出する際に手がかりとして、詳細かつ有益な情報を得ることが可能である。
また、本発明によれば、各固有表現抽出結果の一致度に応じて分類候補情報、出現頻度情報および順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成する、例えば、「宮崎」に対する固有表現抽出結果が全て「人名」あるいは「場所」とする抽出結果である場合に、分類候補情報である「人名」および「場所」、「人名」および「場所」としての各出現頻度情報、および各出現頻度に応じた「人名」および「場所」の順位情報を辞書として採用するので、テキストデータから固有表現を抽出する際に手がかりとして利用する辞書情報として、より信頼性の高い辞書情報を作成することが可能である。
また、本発明によれば、テキストデータから固有表現を抽出するための固有表現抽出モデルを、複数の固有表現抽出結果から作成された辞書情報を用いて新たに作成するので、テキストデータから固有表現を抽出する場合に、より信頼性の高い手がかりを得ることができる結果、テキストデータから固有表現を精度よく抽出することが可能である。
以下に添付図面を参照して、本発明に係る固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置の実施例を詳細に説明する。なお、以下では、本発明に係る固有表現抽出プログラムを実行する固有表現抽出装置を例に挙げて実施例1として説明した後に、本発明の含まれる他の実施例を説明する。
[用語の説明]
まず最初に、以下に説明する実施例で用いる主要な用語を説明する。以下の実施例で用いる「NE」とは、固有表現(Named Entity)のことであり、例えば、固有名詞や数値表現がこれに該当する。なお、以下の実施例1では、固有名詞については「人名」や「場所」、数値表現については「日付」や「金額」、固有名詞や数値表現以外については「その他」というように、所定のNE分類候補を設定する。
また、以下の実施例で用いる「学習データ」とは、正解付きの事例データ(例えば、「山田」という単語は「人名」であるという正解を付与したデータ)であり、「機械学習アルゴリズム」とは、テキストデータから固有表現を抽出するためのモデル(規則)を学習データから自動作成するための手法である。
[固有表現抽出装置の概要および特徴(実施例1)]
次に、図1および図2を用いて、実施例1に係る固有表現抽出装置の概要および特徴を説明する。図1は、実施例1に係る固有表現抽出装置の概要および特徴を説明するための図であり、図2は、実施例1に係る辞書情報の構成例を示す図である。
実施例1に係る固有表現抽出装置は、テキストデータから固有表現(NE)を抽出するためのモデルを用いた固有表現抽出処理(NE抽出処理)を行うことを概要とするが、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することが可能である点に主たる特徴がある。
この主たる特徴について具体的に説明すると、図1に示すように、実施例1に係る固有表現抽出装置は、複数のNE抽出器を用いて複数のテキストデータに関するNE抽出処理を実行することによりNE抽出結果を複数取得する。すなわち、各NE抽出器(NE抽出器1やNE抽出器2など)を用いてテキストデータごとにNE抽出処理を実行し、テキストデータ内の各単語についてNE分類候補のラベル(例えば、「人名」や「場所」などのNE分類候補を示すラベル)を付与したNE抽出結果を出力する。
例えば、図1に示すように、NE抽出器1を用いて、「山田さんは宮崎出身」というテキストデータに関するNE抽出処理を実行すると、テキストデータ内の単語「山田」に「人名」のNE分類候補のラベル、単語「さん」に「その他」のNE分類候補ラベル、単語「は」に「その他」のNE分類候補ラベル、単語「宮崎」に「人名」のNE分類候補のラベル、単語「出身」に「その他」のNE分類候補ラベルが付与されたNE抽出結果が出力される。
そして、実施例1に係る固有表現抽出装置は、各NE抽出器から取得した複数のNE抽出結果を用いて、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を自動作成する。
具体的に説明すると、実施例1に係る固有表現抽出装置は、図2に示すように、複数のNE抽出結果から重複することなく単語を抽出して(例えば、「山田」や「さん」などの単語を抽出して)、例えば、最初に抽出された単語から順に以下に説明するような処理を実行する。
まず、実施例1に係る固有表現抽出装置は、各NE抽出結果を順番にチェックしてNE候補分類を抽出する。具体的に説明すると、各NE抽出結果を順番にチェックして、例えば、各NE抽出結果から最初に抽出された単語についてNE候補分類を抽出するとともに、その単語を現在位置として、その前後に位置するNE候補分類を抽出する。
例えば、実施例1に係る固有表現抽出装置は、NE抽出結果から最初に抽出された単語である「山田」についてNE候補分類(例えば、「人名」または「場所」)を抽出するとともに、「山田」を現在位置(w0)として、その一つ後(w+1)に位置するNE候補分類(例えば、「その他」)を抽出する(図2参照)。
NE候補分類を抽出した後、実施例1に係る固有表現抽出装置は、NE抽出結果におけるNE候補分類の出現頻度を計数する。例えば、全てのNE抽出結果において、「山田」に関するNE候補分類が「人名」または「場所」として出力されている回数を計数するとともに、「山田」を現在位置(w0)として、その一つ後(w+1)に位置するNE候補分類が「その他」として出力されている出現回数を計数する(図2参照)。
出現頻度を計数した後、実施例1に係る固有表現抽出装置は、出現頻度に応じたNE候補分類の順位を決定する。例えば、「山田」についてNE候補分類を「人名」とする出現頻度が“255”、「場所」とする出現頻度が“13”である場合には、「人名」を順位“1”に決定し、「場所」を順位“2”に決定する。なお、「山田」の一つ後に位置するNE候補分類が一つしか抽出されていない(「その他」しか抽出されていない)ので、「その他」を順位“1”に決定する(図2参照)。
そして、実施例1に係る固有表現抽出装置は、NE抽出結果から抽出された全ての単語について、上記で説明してきたような処理(NE候補分類の抽出、出現頻度の計数および順位の決定)を実行したか否か確認する。確認の結果、全ての単語について処理が終了している場合には処理を終了する。一方、抽出された全ての単語について上述してきた処理が終了していない場合には、残りの単語についてそれぞれ順番にNE候補分類の抽出から処理を実行する。例えば、「山田」についての処理を終了した場合には、次に「さん」についてNE候補分類の抽出から処理を実行する(図2参照)。
このようなことから、実施例1に係る固有表現抽出装置は、上述した主たる特徴のごとく、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することが可能である。
[固有表現抽出装置の構成(実施例1)]
次に、図3を用いて、実施例1に係る固有表現抽出装置の構成を説明する。図3は、実施例1に係る固有表現抽出装置の構成を示すブロック図である。
同図に示すように、実施例1に係る固有表現抽出装置10は、入力部11と、出力部12と、記憶部13と、制御部14とから構成される。
このうち、入力部11は、各種の情報の入力を受付ける入力部であり、キーボードやマウス、マイクなどを備えて構成され、例えば、テキストデータなどの入力を受け付ける。なお、スキャナなどのデータ読取機能を備えて入力部11を構成し、データ読取機能により読取られたテキストデータの入力を受け付けるようにしてもよい。
また、出力部12は、各種の情報を出力する出力部であり、モニタ(若しくはディスプレイ、タッチパネル)やスピーカを備えて構成され、例えば、後述するNE抽出処理実行部14bによる抽出結果などを表示出力する。
記憶部13は、制御部14による各種処理に必要なデータおよびプログラムを記憶する記憶部であり、特に本発明に密接に関連するものとしては、辞書情報記憶部13aを備える。この辞書情報記憶部13aは、後述する辞書情報作成部14cにより生成された辞書情報(図2参照)を記憶して構成される。
制御部14は、所定の制御プログラム、各種の処理手順などを規定したプログラムおよび所要データを格納するための内部メモリを有し、これらによって種々の処理を実行する処理部であり、特に本発明に密接に関連するものとしては、NE抽出器作成部14aと、NE抽出処理実行部14bと、辞書情報作成部14cとを備える。
このうち、NE抽出器作成部14aは、テキストデータからNE(固有表現)抽出処理を実行するためのNE抽出器を作成する処理部である。具体的に説明すると、NE抽出器作成部14aは、正解付きの事例データある学習データ(例えば、図4参照)をデータ内の位置に応じた内部表現(例えば、図5参照)に変換する。
なお、NE抽出器作成部14aは、図6に例示するように、内部表現内に設定される位置情報(例えば、現在位置であれば「w0」、現在位置から一つ後であれば「w+1」とする情報)をテキストデータ内の位置に基づいて設定する。そして、NE抽出器作成部14aは、このようにして得られた内部表現を複数の機械学習アルゴリズムにあてはめて解析することにより、テキストデータからNEを抽出するためのNE抽出モデル(規則)を作成し、作成された各NE抽出モデルを動作させるNE抽出器をそれぞれ作成する。
NE抽出処理実行部14bは、入力されたテキストデータについてNE抽出処理を実行する処理部である。具体的に説明すると、NE抽出器作成部14aにより作成された各NE抽出器を用いて、入力部11から受け付けたテキストデータごとにNE抽出処理を実行し、テキストデータ内の単語ごとにNE分類候補のラベル(例えば、「人名」や「場所」などのNE分類候補を示すラベル)を付与したNE抽出結果を辞書情報作成部14cに出力する。
例えば、図1に示すように、NE抽出器1を用いて、「山田さんは宮崎出身」というテキストデータに関するNE抽出処理を実行すると、テキストデータ内の単語「山田」に「人名」のNE分類候補のラベル、単語「さん」に「その他」のNE分類候補ラベル、単語「は」に「その他」のNE分類候補ラベル、単語「宮崎」に「人名」のNE分類候補のラベル、単語「出身」に「その他」のNE分類候補ラベルが付与されたNE抽出結果が出力される。
辞書情報作成部14cは、NE抽出処理実行部14bから取得した複数のNE抽出結果を用いて、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を自動作成する処理部である。具体的に説明すると、複数のNE抽出結果から重複することなく単語を抽出して(例えば、「山田」や「さん」などの単語を抽出して)、抽出した順番に並べておく。そして、抽出した各単語について、例えば、一番先頭に並べられた単語から順に以下に説明するような処理を実行する。
まず、辞書情報作成部14cは、各NE抽出結果を順番にチェックしてNE候補分類を抽出する。具体的に説明すると、各NE抽出結果を順番にチェックして、例えば、各NE抽出結果から最初に抽出された単語についてNE候補分類を抽出するとともに、その単語を現在位置として、その前後に位置するNE候補分類を抽出する。
例えば、辞書情報作成部14cは、NE抽出結果から最初に抽出された単語である「山田」についてNE候補分類(例えば、「人名」または「場所」)を抽出するとともに、「山田」を現在位置(w0)として、その一つ後(w+1)に位置するNE候補分類(例えば、「その他」)を抽出する(図2参照)。
NE候補分類を抽出した後、辞書情報作成部14cは、NE抽出結果におけるNE候補分類の出現頻度を計数する。例えば、全てのNE抽出結果において、「山田」に関するNE候補分類が「人名」または「場所」として出力されている回数を計数するとともに、「山田」を現在位置(w0)として、その一つ後(w+1)に位置するNE候補分類が「その他」として出力されている出現回数を計数する(図2参照)。
出現頻度を計数した後、辞書情報作成部14cは、出現頻度に応じたNE候補分類の順位を決定する。例えば、「山田」についてNE候補分類を「人名」とする出現頻度が“255”、「場所」とする出現頻度が“13”である場合には、「人名」を順位“1”に決定し、「場所」を順位“2”に決定する(図2参照)。なお、「山田」の一つ後に位置するNE候補分類が一つしか抽出されていない(「その他」しか抽出されていない)ので、「その他」を順位“1”に決定する(図2参照)。
そして、辞書情報作成部14cは、NE抽出結果から抽出された全ての単語について、上記で説明してきたような処理(NE候補分類の抽出、出現頻度の計数および順位の決定)を実行したか否か確認する。確認の結果、全ての単語について処理が終了している場合には処理を終了する。一方、抽出された全ての単語について上述してきた処理が終了していない場合には、残りの単語についてそれぞれ順番にNE候補分類の抽出から処理を実行する。例えば、「山田」についての処理を終了した場合には、次に「さん」についてNE候補分類の抽出から処理を実行する(図2参照)。
なお、実施例1に係る固有表現抽出装置10は、既知のパーソナルコンピュータ、ワークステーションなどの情報処理装置に、上記した各機能を搭載することによって実現することもできる。
[固有表現抽出装置の処理(実施例1)]
続いて、図7を用いて、実施例1に係る固有表現抽出装置の処理を説明する。図7は、実施例1に係る固有表現抽出装置の処理の流れを示すフローチャートである。
同図に示すように、辞書情報作成部14cは、NE抽出処理実行部14bから複数のNE抽出結果を取得すると(ステップS701)、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を自動作成する。まず、辞書情報作成部14cは、複数のNE抽出結果から重複することなく単語(例えば、「山田」や「さん」などの単語)を抽出する(ステップS702)。そして、例えば、最初に抽出された単語から順に以下に説明するような処理を実行する。
まず、辞書情報作成部14cは、各NE抽出結果を順番にチェックしてNE候補分類を抽出する(ステップS703)。具体的に説明すると、各NE抽出結果を順番にチェックして、例えば、各NE抽出結果から最初に抽出された単語についてNE候補分類を抽出するとともに、その単語を現在位置として、その前後に位置するNE候補分類を抽出する。
例えば、辞書情報作成部14cは、NE抽出結果から抽出した単語である「山田」についてNE候補分類(例えば、「人名」または「場所」)を抽出するとともに、「山田」を現在位置(w0)として、その一つ後(w+1)に位置するNE候補分類(例えば、「その他」)を抽出する(図2参照)。
NE候補分類を抽出した後、辞書情報作成部14cは、NE抽出結果におけるNE候補分類の出現頻度を計数する(ステップS704)。例えば、全てのNE抽出結果において、「山田」に関するNE候補分類が「人名」または「場所」として出力されている回数を計数するとともに、「山田」を現在位置(w0)として、その一つ後(w+1)に位置するNE候補分類が「その他」として出力されている出現回数を計数する(図2参照)。
出現頻度を計数した後、辞書情報作成部14cは、出現頻度に応じたNE候補分類の順位を決定する(ステップS705)。例えば、「山田」についてNE候補分類を「人名」とする出現頻度が“255”、「場所」とする出現頻度が“13”である場合には、「人名」を順位“1”に決定し、「場所」を順位“2”に決定する(図2参照)。なお、「山田」の一つ後に位置するNE候補分類が一つしか抽出されていない(「その他」しか抽出されていない)ので、「その他」を順位“1”に決定する(図2参照)。
そして、辞書情報作成部14cは、NE抽出結果から抽出された全ての単語について、上記で説明してきたような処理(NE候補分類の抽出、出現頻度の計数および順位の決定)を実行したか否か確認する(ステップS706)。確認の結果、全ての単語について処理が終了している場合には(ステップS706肯定)、処理を終了する。一方、抽出された全ての単語について上述してきた処理が終了していない場合には(ステップS706否定)、残りの単語についてそれぞれ順番にNE候補分類の抽出から処理を実行する。例えば、「山田」についての処理を終了した後、「さん」についてNE候補分類の抽出から処理を実行する(図2参照)。
[実施例1による効果]
上述してきたように、実施例1によれば、NE(固有表現)抽出処理の結果得られるNE抽出結果を取得しておき、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を取得されたNE抽出結果に基づいて作成するので、多大な労力を要することなく、固有表現をテキストデータから抽出する手がかりを得るための辞書を簡易に作成することが可能である。
また、実施例1によれば、テキストデータから固有表現を抽出するためのNE抽出器を複数用いてNE抽出処理を行って、その結果得られる複数のNE抽出結果を取得するので、テキストデータから固有表現を抽出する際に手がかりとして信頼性の高い辞書情報を作成することが可能である。
また、実施例1によれば、各NE抽出結果に基づいて、テキストデータ内に含まれる単語およびその単語を中心として前後に出現する他の単語ごとに、NE分類候補(例えば、「宮崎」という単語であれば、「人名」や「場所」といった情報)と、各NE抽出結果における各NE分類候補の出現頻度(例えば、「宮崎」を「人名」として出力されている回数や、「場所」として出力されている回数からなる情報)と、出現頻度に応じて各NE分類候補を順位付けした順位情報(例えば、「宮崎」を「人名」とする出現頻度情報が“100”で、「場所」とする出現頻度情報が“50”である場合には、「人名」を順位“1”、「場所」を順位“2”とする情報)とからなる辞書情報を作成するので、テキストデータから固有表現を抽出する際に手がかりとして、詳細かつ有益な情報を得ることが可能である。
また、上記の実施例1では、複数のNE抽出結果から取得した全ての情報を用いて辞書情報を自動作成する場合を説明したが、本発明はこれに限定されるものではない。例えば、「山田」という単語に対するNE分類候補が全て「人名」である場合には辞書情報として採用することを決定するなど、複数のNE抽出器によって出力された各NE抽出結果の一致度(例えば、一致度100%、一致度80%など)に応じて、各NE抽出結果から得られる情報(NE候補分類、出現頻度および順位)を辞書情報として採用するようにしてもよい。また、一つのテキストデータについてNE抽出処理を実行するごとに、辞書情報を作成するための情報として各NE抽出結果から得られる情報を採用するか否か決定するようにしてもよい(情報の取捨選択)。すなわち、テキストデータ内のある箇所に出現した「山田」に対するNE抽出結果が各NE抽出器で全て同じである場合には辞書情報を作成するための情報として採用するなど、テキストデータ内のある箇所に出現した単語に対するNE抽出結果の一致度(例えば、一致度100%、一致度80%など)に応じて、辞書情報を作成するための情報として各NE抽出結果から得られる情報(NE候補分類、出現頻度および順位)を採用するか否かを決定するようにしてもよい。
このようなことから、テキストデータから固有表現を抽出する際に手がかりとして利用する辞書情報として、より信頼性の高い辞書情報を作成することが可能である。
上記の実施例1では、複数のNE抽出結果を用いて辞書情報を自動作成する場合を説明したが、本発明はこれに限定されるものではなく、テキストデータから固有表現を抽出するためのNE抽出モデルを、自動作成した辞書情報を用いて新たに作成するようにしてもよい。そこで、以下の実施例2では、図8および図9を用いて、実施例2に係る固有表現抽出装置の概要および特徴を説明し、最後に実施例2による効果を説明する。図8は、実施例2に係る固有表現抽出装置の概要および特徴を説明するための図であり、図9は、実施例2に係るNE抽出モデルの構成例を示す図である。
実施例2に係る固有表現抽出装置は、テキストデータから固有表現を抽出するためのNE抽出モデルを作成することを概要とするが、自動作成した辞書情報を用いてNE抽出モデルを新たに作成する点に特徴がある。
すなわち、実施例2に係る固有表現抽出装置のNE抽出器作成部14a(図3参照)は、図8に示すように、正解付きの事例データある学習データをデータ内の位置に応じた内部表現に変換するが、その際に、辞書情報作成部14cにより作成された辞書情報を利用して、辞書情報から得られる情報を内部表現に追加する。
例えば、現在位置の単語に関するNE候補分類の情報や、現在位置の単語の前後に位置する単語から見た現在位置の単語のNE候補分類の情報を追加するとともに、各NE候補分類に対応付けて、出現頻度および順位に関する情報を追加する。
そして、実施例2に係る固有表現抽出装置のNE抽出器作成部14aは、辞書情報から得られる情報が追加された内部表現を機械学習アルゴリズムにあてはめて解析することにより、テキストデータからNEを抽出するためのNE抽出モデル(規則)を新たに作成し、作成された新たなNE抽出モデルを動作させるNE抽出器を作成する。図9に示すように、辞書情報から得られる情報が追加された内部表現から、機械学習アルゴリズムに基づいてNE抽出モデルが複数見出される。
また、実施例2に係る固有表現抽出装置のNE抽出処理実行部14b(図3参照)は、NE抽出器作成部14aにより新たに作成されたNE抽出モデルを動作させるNE抽出器を用いて、入力されたテキストデータについてNE抽出処理を実行する。
[実施例2による効果]
上述してきたように、実施例2によれば、テキストデータから固有表現を抽出するためのNE抽出モデルを、複数のNE抽出結果から作成された辞書情報を用いて新たに作成するので、テキストデータから固有表現を抽出する場合に、より信頼性の高い手がかりを得ることができる結果、テキストデータから固有表現を精度よく抽出することが可能である。
さて、これまで本発明の実施例1および実施例2について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。そこで、以下では本発明に含まれる他の実施例を説明する。
(1)装置構成等
図3に示した固有表現抽出装置10の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、固有表現抽出装置10の分散・統合の具体的形態は図示のものに限られず、辞書情報作成部14cをNE分類候補抽出機能、出現頻度計数機能およびNE分類候補順位決定機能にそれぞれ分散するなど、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。さらに、固有表現抽出装置10にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(2)固有表現抽出プログラム
ところで、上記の実施例1または実施例2で説明した各種の処理(図7等参照)は、あらかじめ用意されたプログラムをパーソナルコンピュータやワークステーションなどのコンピュータシステムで実行することによって実現することができる。そこで、以下では、図10を用いて、上記の実施例1または実施例2と同様の機能を有する固有表現抽出プログラムを実行するコンピュータの一例を説明する。図10は、固有表現抽出プログラムを実行するコンピュータを示す図である。
同図に示すように、固有表現抽出装置としてコンピュータ20は、入力部21、出力部22と、HDD23、RAM24、ROM25およびCPU26をバス30で接続して構成される。なお、入力部21および出力部22は、図3に示した固有表現抽出装置10の入力部11および出力部12にそれぞれ対応する。
そして、ROM25には、上記の実施例1に示した固有表現抽出装置と同様の機能を発揮する固有表現抽出プログラム、つまり、図10に示すように、NE抽出器作成プログラム25a、NE抽出処理実行プログラム25bおよび辞書情報作成プログラム25cがあらかじめ記憶されている。なお、これらのプログラム25a、25bおよび25cについては、図3に示した固有表現抽出装置10の各構成要素と同様、適宜統合または分散してもよい。なお、ROM25は、不揮発性の「RAM」でもよい。
そして、CPU26が、これらのプログラム25a、25bおよび25cをROM25から読み出して実行することで、図10に示すように、各プログラム25a、25bおよび25cは、NE抽出器作成プロセス26a、NE抽出処理実行プロセス26bおよび辞書情報作成プロセス26cとして機能するようになる。なお、各プロセス26a、26bおよび26cは、図3に示した固有表現抽出装置10のNE抽出器作成部14a、NE抽出処理実行部14bおよび辞書情報作成部14cにそれぞれ対応する。
また、HDD23には、図10に示すように、辞書情報データテーブル23aが設けられる。なお、辞書情報データテーブル23aは、図3に示した辞書情報記憶部13aに対応する。そして、CPU26は、辞書情報データテーブル23aから、辞書情報データ24aを読み出してRAM24に格納し、RAM24に格納された辞書情報データ24aに基づいて処理を実行する。
なお、上記した各プログラム25a、25bおよび25cについては、必ずしも最初からROM25に記憶させておく必要はなく、例えば、コンピュータ20に挿入されるフレキシブルディスク(FD)、CD−ROM、DVDディスク、光磁気ディスク、ICカードなどの「可搬用の物理媒体」、または、コンピュータ20の内外に備えられるHDDなどの「固定用の物理媒体」、さらには、公衆回線、インターネット、LAN、WANなどを介してコンピュータ20に接続される「他のコンピュータ(またはサーバ)」などに各プログラムを記憶させておき、コンピュータ20がこれらから各プログラムを読み出して実行するようにしてもよい。
(付記1)テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手順と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手順により取得された固有表現抽出結果に基づいて作成する辞書情報作成手順と、
をコンピュータに実行させることを特徴とする固有表現抽出プログラム。
(付記2)前記抽出結果取得手順は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする付記1に記載の固有表現抽出プログラム。
(付記3)前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする付記1または2に記載の固有表現抽出プログラム。
(付記4)前記辞書情報作成手順は、前記抽出結果取得手順により取得された各固有表現抽出結果の一致度に応じて前記分類候補情報、前記出現頻度情報および前記順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成することを特徴とする付記3に記載の固有表現抽出プログラム。
(付記5)テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする付記1〜4のいずれか一つに記載の固有表現抽出プログラム。
(付記6)テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得工程と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得工程により取得された固有表現抽出結果に基づいて作成する辞書情報作成工程と、
を含んだことを特徴とする固有表現抽出方法。
(付記7)前記抽出結果取得工程は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする付記6に記載の固有表現抽出方法。
(付記8)前記辞書情報作成工程は、前記抽出結果取得工程により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする付記6または7に記載の固有表現抽出方法。
(付記9)前記辞書情報作成工程は、前記抽出結果取得工程により取得された各固有表現抽出結果の一致度に応じて前記分類候補情報、前記出現頻度情報および前記順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成することを特徴とする付記8に記載の固有表現抽出方法。
(付記10)テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成工程により作成された辞書情報を用いて新たに作成するモデル作成工程をさらに含んだことを特徴とする付記6〜9のいずれか一つに記載の固有表現抽出方法。
(付記11)テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、
前記固有表現抽出処理の結果得られる固有表現抽出結果を取得する抽出結果取得手段と、
テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を、前記抽出結果取得手段により取得された固有表現抽出結果に基づいて作成する辞書情報作成手段と、
を備えたことを特徴とする固有表現抽出装置。
(付記12)前記抽出結果取得手段は、テキストデータから固有表現を抽出するための固有表現抽出モデルを複数用いて固有表現抽出処理を行い、当該固有表現抽出処理の結果得られる複数の固有表現抽出結果を取得することを特徴とする付記11に記載の固有表現抽出装置。
(付記13)前記辞書情報作成手段は、前記抽出結果取得手段により取得された各固有表現抽出結果に基づいて、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、固有表現としての分類候補を示す分類候補情報と、全固有表現抽出結果における各分類候補の出現頻度を示す出現頻度情報と、出現頻度情報に応じて各分類候補情報を順位付けした順位情報とからなる辞書情報を作成することを特徴とする付記11または12に記載の固有表現抽出装置。
(付記14)前記辞書情報作成手段は、前記抽出結果取得手段により取得された各固有表現抽出結果の一致度に応じて前記分類候補情報、前記出現頻度情報および前記順位情報を採用するか否か決定し、採用することを決定した分類候補情報、出現頻度情報および順位情報からなる辞書を作成することを特徴とする付記13に記載の固有表現抽出装置。
(付記15)テキストデータから固有表現を抽出するための固有表現抽出モデルを、前記辞書情報作成手段により作成された辞書情報を用いて新たに作成するモデル作成手段をさらに備えたことを特徴とする付記11〜14のいずれか一つに記載の固有表現抽出装置。
以上のように、本発明に係る固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置は、テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる場合等に有用であり、特に、多大な労力を要することなく、テキストデータから固有表現を抽出する手がかりを得るための辞書情報を簡易に作成することに適する。
実施例1に係る固有表現抽出装置の概要および特徴を説明するための図である。 実施例1に係る辞書情報の構成例を示す図である。 実施例1に係る固有表現抽出装置の構成を示すブロック図である。 実施例1に係る学習データの構成例を示す図である。 実施例1に係る内部表現の構成例を示す図である。 テキストデータ内の単語の位置に関する位置情報の設定例を示す図である。 実施例1に係る固有表現抽出装置の処理の流れを示すフローチャートである。 実施例2に係る固有表現抽出装置の概要および特徴を説明するための図である。 実施例2に係るNE抽出モデルの構成例を示す図である。 固有表現抽出プログラムを実行するコンピュータを示す図である。
符号の説明
10 固有表現抽出装置
11 入力部
12 出力部
13 記憶部
13a 辞書情報記憶部
14 制御部
14a NE抽出器作成部
14b NE抽出処理実行部
14c 辞書情報作成部
20 コンピュータ
21 入力部
22 出力部
23 HDD(Hard Disk Drive)
24 RAM(Random Access Memory)
25 ROM(Read Only Memory)
26 CPU(Central Processing Unit)
30 バス

Claims (4)

  1. テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理をコンピュータに実行させる固有表現抽出プログラムであって、
    前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得手順と、
    前記抽出結果取得手順により取得された各固有表現抽出結果の間でテキストデータ内の各単語ごとに前記固有表現抽出処理によって当該単語に付与された固有表現の分類候補のラベルが一致する度合いによって定まる一致度が所定の閾値以上であるか否かによって、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、前記固有表現抽出処理によって付与された固有表現としての分類候補のラベルを示す分類候補情報、全固有表現抽出結果における各分類候補のラベルの出現頻度を示す出現頻度情報、および、各分類候補のラベル間での出現頻度の高低を比較することによって各分類候補情報を順位付けした順位情報を採用するか否か決定し、前記一致度が前記閾値以上であることにより採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成手順と、
    をコンピュータに実行させることを特徴とする固有表現抽出プログラム。
  2. テキストデータから固有表現を抽出するためのモデルを、前記辞書情報作成手順により作成された辞書情報を用いて新たに作成するモデル作成手順をさらにコンピュータに実行させることを特徴とする請求項1に記載の固有表現抽出プログラム。
  3. コンピュータがテキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出方法であって、
    前記コンピュータが、
    前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得工程と、
    前記抽出結果取得工程により取得された各固有表現抽出結果の間でテキストデータ内の各単語ごとに前記固有表現抽出処理によって当該単語に付与された固有表現の分類候補のラベルが一致する度合いによって定まる一致度が所定の閾値以上であるか否かによって、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、前記固有表現抽出処理によって付与された固有表現としての分類候補のラベルを示す分類候補情報、全固有表現抽出結果における各分類候補のラベルの出現頻度を示す出現頻度情報、および、各分類候補のラベル間での出現頻度の高低を比較することによって各分類候補情報を順位付けした順位情報を採用するか否か決定し、前記一致度が前記閾値以上であることにより採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成工程と、
    を含んだことを特徴とする固有表現抽出方法。
  4. テキストデータから固有表現を抽出するためのモデルを用いた固有表現抽出処理を行う固有表現抽出装置であって、
    前記モデルを複数用いて固有表現抽出処理を行い、固有表現抽出処理ごとに得られる複数の固有表現抽出結果を取得する抽出結果取得手段と、
    前記抽出結果取得手段により取得された各固有表現抽出結果の間でテキストデータ内の各単語ごとに前記固有表現抽出処理によって当該単語に付与された固有表現の分類候補のラベルが一致する度合いによって定まる一致度が所定の閾値以上であるか否かによって、テキストデータ内に含まれる単語および当該単語を中心として前後に出現する他の単語ごとに、前記固有表現抽出処理によって付与された固有表現としての分類候補のラベルを示す分類候補情報、全固有表現抽出結果における各分類候補のラベルの出現頻度を示す出現頻度情報、および、各分類候補のラベル間での出現頻度の高低を比較することによって各分類候補情報を順位付けした順位情報を採用するか否か決定し、前記一致度が前記閾値以上であることにより採用することを決定した分類候補情報、出現頻度情報および順位情報を含む、テキストデータから固有表現を抽出する際に手がかりとして利用される辞書情報を作成する辞書情報作成手段と、
    を備えたことを特徴とする固有表現抽出装置。
JP2007035434A 2007-02-15 2007-02-15 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置 Expired - Fee Related JP5245255B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2007035434A JP5245255B2 (ja) 2007-02-15 2007-02-15 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US12/025,482 US20080201134A1 (en) 2007-02-15 2008-02-04 Computer-readable record medium in which named entity extraction program is recorded, named entity extraction method and named entity extraction apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007035434A JP5245255B2 (ja) 2007-02-15 2007-02-15 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置

Publications (2)

Publication Number Publication Date
JP2008198132A JP2008198132A (ja) 2008-08-28
JP5245255B2 true JP5245255B2 (ja) 2013-07-24

Family

ID=39707407

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007035434A Expired - Fee Related JP5245255B2 (ja) 2007-02-15 2007-02-15 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置

Country Status (2)

Country Link
US (1) US20080201134A1 (ja)
JP (1) JP5245255B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844477A (zh) * 2017-10-25 2018-03-27 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4701292B2 (ja) * 2009-01-05 2011-06-15 インターナショナル・ビジネス・マシーンズ・コーポレーション テキスト・データに含まれる固有表現又は専門用語から用語辞書を作成するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
JP5458640B2 (ja) * 2009-04-17 2014-04-02 富士通株式会社 規則処理方法及び装置
JP5308918B2 (ja) * 2009-05-29 2013-10-09 日本電信電話株式会社 キーワード抽出方法、キーワード抽出装置およびキーワード抽出プログラム
JP5703722B2 (ja) * 2010-12-03 2015-04-22 富士通株式会社 処理装置、処理方法、及び、プログラム
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
EP2856344A1 (de) * 2012-05-24 2015-04-08 IQser IP AG Erzeugung von anfragen an ein datenverarbeitendes system
US9031293B2 (en) * 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9020822B2 (en) 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
JP7124565B2 (ja) * 2018-08-29 2022-08-24 富士通株式会社 対話方法、対話プログラム及び情報処理装置
JP7358748B2 (ja) * 2019-03-01 2023-10-11 富士通株式会社 学習方法、抽出方法、学習プログラムおよび情報処理装置
US11431519B1 (en) * 2019-12-12 2022-08-30 Wells Fargo Bank, N.A. Rapid and efficient case opening from negative news

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4200645B2 (ja) * 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
JP4005477B2 (ja) * 2002-05-15 2007-11-07 日本電信電話株式会社 固有表現抽出装置及び方法並びに固有表現抽出プログラム
JP2006330935A (ja) * 2005-05-24 2006-12-07 Fujitsu Ltd 学習データ作成プログラム、学習データ作成方法および学習データ作成装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107844477A (zh) * 2017-10-25 2018-03-27 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置
CN107844477B (zh) * 2017-10-25 2021-03-19 西安影视数据评估中心有限公司 一种影视剧本人物名称的提取方法和装置

Also Published As

Publication number Publication date
JP2008198132A (ja) 2008-08-28
US20080201134A1 (en) 2008-08-21

Similar Documents

Publication Publication Date Title
JP5245255B2 (ja) 固有表現抽出プログラム、固有表現抽出方法および固有表現抽出装置
US8176050B2 (en) Method and apparatus of supporting creation of classification rules
EP3819785A1 (en) Feature word determining method, apparatus, and server
KR101498331B1 (ko) 텍스트 세그먼트를 가진 문서로부터 용어를 추출하기 위한 시스템
CN110427486B (zh) 身体病况文本的分类方法、装置及设备
US20190317986A1 (en) Annotated text data expanding method, annotated text data expanding computer-readable storage medium, annotated text data expanding device, and text classification model training method
CN108536868B (zh) 社交网络上短文本数据的数据处理方法及装置
CN105390049A (zh) 电子装置和发音学习支援方法
KR102280490B1 (ko) 상담 의도 분류용 인공지능 모델을 위한 훈련 데이터를 자동으로 생성하는 훈련 데이터 구축 방법
CN113032253B (zh) 测试数据特征提取方法、测试方法及相关装置
CN113722512A (zh) 基于语言模型的文本检索方法、装置、设备及存储介质
CN109284497B (zh) 用于识别自然语言的医疗文本中的医疗实体的方法和装置
CN112613322A (zh) 文本处理方法、装置、设备及存储介质
CN116955533A (zh) 基于自然语言模型的文本翻译方法、装置和电子设备
JP2018005403A (ja) 課題推定装置、課題推定方法および課題推定プログラム
JP5117744B2 (ja) 単語意味タグ付与装置および方法、プログラム並びに記録媒体
CN117520800A (zh) 一种营养学文献模型训练方法、系统、电子设备及介质
US9437020B2 (en) System and method to check the correct rendering of a font
KR101781597B1 (ko) 전자 출판물에 대한 정보를 생성하는 장치 및 방법
JP7135730B2 (ja) 要約生成方法及び要約生成プログラム
CN113378561A (zh) 词语预测模板生成方法及装置
CN113704452A (zh) 基于Bert模型的数据推荐方法、装置、设备及介质
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
JP2010267047A (ja) 類義語辞書構築装置及び方法、コンピュータプログラム
CN110837843A (zh) 信息分类方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120508

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121225

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130312

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130325

R150 Certificate of patent or registration of utility model

Ref document number: 5245255

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160419

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees