JP5224767B2 - 大規模タグ付きコーパス作成方法、その装置およびプログラム - Google Patents

大規模タグ付きコーパス作成方法、その装置およびプログラム Download PDF

Info

Publication number
JP5224767B2
JP5224767B2 JP2007264472A JP2007264472A JP5224767B2 JP 5224767 B2 JP5224767 B2 JP 5224767B2 JP 2007264472 A JP2007264472 A JP 2007264472A JP 2007264472 A JP2007264472 A JP 2007264472A JP 5224767 B2 JP5224767 B2 JP 5224767B2
Authority
JP
Japan
Prior art keywords
tag
word
scale
storage unit
corpus
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007264472A
Other languages
English (en)
Other versions
JP2009093481A (ja
Inventor
賢治 今村
邦子 齋藤
玄一郎 菊井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2007264472A priority Critical patent/JP5224767B2/ja
Publication of JP2009093481A publication Critical patent/JP2009093481A/ja
Application granted granted Critical
Publication of JP5224767B2 publication Critical patent/JP5224767B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、固有表現抽出の精度を向上させるために有用な大規模タグ付きコーパスを作成する技術に関するものである。
[固有表現抽出と固有表現タグ]
固有表現抽出とは、自然言語で記述された文(平文)から、人名、場所名、組織名、人工物名等の固有名詞や、日付、金額等の数値表現を抽出するタスクであり、通常、予め形態素解析等を用いて単語単位に分割された平文に対して、各単語が固有表現のどのカテゴリに属するかを推定し、当該カテゴリを表す適切な識別子(タグ)を付与することにより抽出を行う。以下、本明細書では、このタグを固有表現タグと呼び、また、固有表現のカテゴリとしては人名、場所名、組織名の3種類のみを考え、それぞれのタグとして「PSN」、「LOC」、「ORG」を用いるものとする。さらに、実際には固有表現でない単語を固有表現の一種類として表すために「NIL」という固有表現タグを用いるものとする。
例えば、「NTT持株会社社長の三浦氏が大手町本社で会見を開いた。」という平文(これを例文1とする)が、形態素解析によって図1に示すような複数の単語に分割され、さらに単語情報、ここでは品詞がそれぞれ付与されて単語情報付き単語列とされているとき、固有表現抽出では、各単語に対し、図2に示すような固有表現タグを付与し、単語情報及び固有表現タグ付き単語列を生成する。なお、「B−」で始まる固有表現タグは当該固有表現の開始単語、「I−」で始まる固有表現タグは当該固有表現の2つ目以降の単語を表すものとする。従って、図2の例では、「NTT持株会社」が組織名、「三浦」が人名、「大手町本社」が場所名として抽出されたことになる。
なお、単語情報としては「品詞」の外に「読み」や「字数」等もあり、これらを併せて用いても良い。
[大規模タグ付きコーパス]
上述した固有表現抽出は、入力された単語列(単語情報付き単語列)に対して、確率を最大化するような固有表現タグ列を推定することにより実現される。即ち、入力単語列をW、ある固有表現タグ列をTとしたとき、以下の式を満足する固有表現タグ列
Figure 0005224767
を出力する。
Figure 0005224767
固有表現抽出装置の一例を図3に示す。入力文(平文)は、形態素解析手段1により前記の如く形態素解析されて単語情報付き単語列に変換され、さらに、この単語情報付き単語列に対し、デコーダ(固有表現抽出手段)2により式(1)を満足する固有表現タグ列が推定され、単語情報付き単語列中の各単語に該固有表現タグ列中の各固有表現タグがそれぞれ付与されて、単語情報及び固有表現タグ付き単語列が生成され、出力される。この際、デコーダ2では固有表現タグ列の確率を算出するために、固有表現モデル記憶部3から、隠れマルコフモデルや条件付き確率場を用いた固有表現モデルを読み出して使用する。
固有表現モデルに線形連鎖条件付き確率場(Linear-chain Conditional Random Fields(非特許文献1参照))を用いる場合、固有表現タグ列の確率は、以下の式で表される。
Figure 0005224767
Figure 0005224767
ここで、Z(W)は正規化項、nは入力単語数、tiは位置iにおける固有表現タグ、Wiは位置iにおける当該単語および周辺単語情報である。fa(ti,Wi)およびgb(ti-1,ti)は素性関数と呼ばれ、単語列Wと固有表現タグ列Tが位置iにおいてある条件を満たすとき「1」、それ以外で「0」となる関数である。例えば、fa(ti,Wi)の例としては、位置iの単語表記が「NTT」、品詞が「名詞−固有名詞−組織」、固有表現タグが「B−ORG」であるときのみ「1」、それ以外で「0」である関数などである。gb(ti-1,ti)の例としては、位置iにおいて、一つ前の単語の固有表現タグが「B−ORG」、当該単語の固有表現タグが「I−ORG」であるときのみ「1」、それ以外で「0」となる関数などである。また、λaおよびμbは素性関数に対する重みであり、固有表現モデル学習時に適切な値が付与される。
John Lafferty, Andrew McCallum, and Fernando Pereira, "Conditional random fields: Probabilistic models for segmenting and labeling sequence data", In Proceedings of the 18th International Conference on Machine Learning (ICML-2001), 2001, pages 282-289
前述した固有表現モデルは、タグ付きコーパス記憶部4に記憶された、自然言語で記述された文を形態素解析して得られた単語情報付き単語列に予め人手で正しい固有表現タグを付与してなる固有表現タグ付き単語列の集合からなるタグ付きコーパスに基づいてモデル学習手段5により作成され、固有表現モデル記憶部3に記憶される。
この際、タグ付きコーパスに含まれる文の数や単語の数が大規模になればなるほど、精度の高い固有表現モデルが得られ、デコーダ2で推定される固有表現タグ列の精度が向上する。
しかし、人手で正しい固有表現タグを付与した固有表現タグ付き単語列を含む大規模なタグ付きコーパスを作成するには、人手による多大な労力を必要とし、そのコストが高くつくという問題点があった。
上記問題点を解決するため、本発明では以下の方法で大規模なタグ付きコーパスを作成する。
1.小規模タグ付きコーパスから固有表現モデルを学習し、予め用意した大規模タグなしコーパスに含まれる単語情報付き単語列のそれぞれに対して、自動で固有表現タグ列を推定し、付与する。
2.上記大規模タグなしコーパスに対して、文単位ではなく単語単位に、推定された固有表現タグの信頼度を算出する。信頼度には、固有表現タグ毎に算出した事後確率を使用する。
3.上記信頼度が予め決定しておいた閾値以上ならば当該固有表現タグは許可、閾値未満ならば不許可と判定する。
4.不許可と判定された固有表現タグのみ、人手で修正する。
上記方法を採用した場合、単にステップ1だけでも大規模タグ付きコーパスを作成できるが、自動推定した固有表現タグには誤りが含まれるため、ステップ1のみで作成した大規模タグ付きコーパスで固有表現モデルを学習しても、固有表現抽出の精度は向上しない。
また、ステップ2において文単位に事後確率を算出し、信頼度とする方法もあるが、1文の単語数が多くなる(つまり、文が長くなる)と事後確率は低くなるため、長い文ほどステップ3で不許可と判定されることになる。しかし、長い文を学習に使用すると固有表現抽出の精度が向上する。上記のように、単語単位にタグ毎の事後確率を算出し、信頼度とすることにより、長い文でも信頼度の低いタグを判定し、正解に修正するため、効率的に精度向上が可能である。
本発明によれば、従来と同様の手法で自動付与された固有表現タグのうち、タグ毎に算出した信頼度により不許可と判定された固有表現タグのみ人手で修正すれば良いため、少ないコストで大規模タグ付きコーパスを作成できる。さらに、大規模タグ付きコーパスに小規模タグ付きコーパスを追加し、固有表現モデルを学習すると、高精度な固有表現モデルが作成できる。
なお、タグ信頼度の判定精度が完全でない場合、本発明で作成された大規模タグ付きコーパスには誤りが含まれるが、デコーダが誤り易いタグを人手で修正するため、デコーダの出力をそのまま大規模タグ付きコーパスに加える場合に比べ、精度が高い固有表現モデルを作成することができる。
図4は本発明の大規模タグ付きコーパス作成装置の実施の形態の一例を示すもので、図中、11は大規模タグなしコーパス記憶部、12は小規模固有表現モデル記憶部、13は単語列一時記憶部、14はタグ信頼度記憶部、15は大規模タグ付きコーパス記憶部、16はデコーダ(固有表現抽出手段)、17はタグ信頼度付与手段、18はリジェクタ(信頼度判定手段)、19は修正・登録手段、20は表示部、21は入力部である。
大規模タグなしコーパス記憶部11は、単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスを記憶する。なお、単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスは、自然言語で記述された文の大規模な集合よりなる大規模平文コーパスに含まれる各文に対し、周知の形態素解析を行うことによって得られる。
小規模固有表現モデル記憶部12は、人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを記憶する。なお、人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルは、事前に、自然言語で記述された文を形態素解析して得られた単語情報付き単語列に人手で正しい固有表現タグを付与して単語情報及び固有表現タグ付き単語列の小規模な集合よりなる小規模タグ付きコーパスを作成し、この小規模タグ付きコーパスから周知のモデル学習によって作成し、小規模固有表現モデル記憶部12に記憶しておくものとする。
単語列一時記憶部13は、デコーダ16によって生成される単語情報及び固有表現タグ付き単語列を一時的に記憶する。
タグ信頼度記憶部14は、タグ信頼度付与手段17によって生成される単語情報付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を記憶する。
大規模タグ付きコーパス記憶部15は、本装置で作成された単語情報及び固有表現タグ付き単語列の大規模な集合よりなる大規模タグ付きコーパスを記憶する。
デコーダ16は、大規模タグなしコーパス記憶部11から単語情報付き単語列を読み出し、小規模固有表現モデル記憶部12に記憶された小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成し、単語列一時記憶部13に記憶する。なお、本デコーダ15における処理は、図3中のデコーダ2と同一である。
タグ信頼度付与手段17は、前記デコーダ16で読み出された単語情報付き単語列に対し、小規模固有表現モデル記憶部12に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ毎の信頼度を算出し、タグ信頼度記憶部14に記憶する。
リジェクタ18は、単語列一時記憶部13から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部14から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に判定し、当該単語単位に判定結果(許可/不許可)を示す識別子を付加して修正・登録手段19へ出力する。
修正・登録手段19は、リジェクタ18から入力された単語情報及び固有表現タグ付き単語列が不許可の識別子を含まない場合はそのまま(但し、許可/不許可を示す識別子については削除した上で)大規模タグ付きコーパス記憶部15に出力して登録し、不許可の識別子を含む場合はその識別子を含めて当該単語情報及び固有表現タグ付き単語列を表示部20に表示し、該不許可の識別子に対応する固有表現タグを入力部21から入力された固有表現タグに修正し、修正後の単語情報及び固有表現タグ付き単語列(但し、許可/不許可を示す識別子については削除した上で)を大規模タグ付きコーパス記憶部15に出力して登録する。
図5は本発明の大規模タグ付きコーパス作成装置における処理の流れを示すもので、以下、例を挙げてその動作を詳細に説明する。
まず、デコーダ16は、大規模タグなしコーパス記憶部11から単語情報付き単語列を一つ読み出し(s11)、小規模固有表現モデル記憶部12に記憶された小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成して単語列一時記憶部13に記憶する(s12)。
図6は例文1に対するデコーダ16による固有表現抽出結果の一例を示すものである。ここで注意するのは、「三浦」が人名(B−PSNタグ)となるべきところ、NILタグが付与されている点である。固有表現モデル学習に使用したタグ付きコーパスが小規模であるため、デコーダ16の出力には誤りが含まれる。
次に、タグ信頼度付与手段17は、前記デコーダ16で読み出された単語情報付き単語列に対し、小規模固有表現モデル記憶部12に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ(候補)毎の信頼度を算出し、タグ信頼度記憶部14に記憶する(s13)。この際、信頼度には、タグ候補毎に算出した事後確率を用いる。
例えば、形態素解析により文Wがn単語に分割されているとき、単語wiのタグ候補ti,jの信頼度は以下の式により算出する。
Figure 0005224767
これは、単語wiのタグがti,jである全てのタグ列Tの事後確率を総和したものである。従って、長さが入力単語数nのあらゆるタグ列の事後確率を式(2)により算出し、そのうち位置iのタグがti,jであるもののみを総和することにより算出される。図7にタグ候補ti,1のタグ信頼度を求める場合の計算パターンを模式図で示す。
固有表現モデルに線形連鎖条件付確率場を用いる場合、タグ信頼度は文頭から当該タグ候補ti,jに至る全ての経路(タグ列)の確率和αi,j(前向き確率と呼ぶ)と、当該タグ候補ti,jから文末に至る全ての経路の確率和βi,j(後ろ向き確率と呼ぶ)を乗算することによっても求めることができる。即ち、
P(ti=ti,j|W)=αi,jβi,j (5)
前向き確率αi,jは、当該タグ候補より前方の前向き確率から式(6)(7)を用いて再帰的に計算できる。また、後ろ向き確率βi,jは、当該タグ候補より後方の後ろ向き確率から式(8)(9)を用いて再帰的に計算できる。従って、前向きアルゴリズムと後ろ向きアルゴリズム(例えば、北 研二「言語と計算4 確率的言語モデル」東京大学出版会、1999、101〜125頁)を用いてαi,j、βi,jを算出し、両者を乗算することにより、効率的に算出することも可能である。
α0,j=1 (6)
Figure 0005224767
βn+1,j=1 (8)
Figure 0005224767
図8はタグ信頼度付与結果の一例を示すものである。なお、図中のeは、10のべき乗を表す。例えば、3.5e−2は、3.5*10-2=0.035の意味である。
次に、リジェクタ18は、単語列一時記憶部13から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部14から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ候補毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に以下の手順で判定し、当該単語単位に判定結果(許可/不許可)を示す識別子を付加して修正・登録手段19へ出力する(s14)。
1.もし、信頼度が最も高いタグ候補が、デコーダ16が推定したタグと異なっていたら不許可とする。本例では、全ての単語について信頼度が最も高いタグ候補とデコーダ16が推定したタグが一致しているので、何もしない。
2.上記1.で不許可でない場合、最も高い信頼度が予め設定した閾値θ未満なら不許可とする。例えば、θ=0.65とした場合、この例では「三浦」の最高信頼度が0.481で、閾値未満であるため、不許可と判定される。
3.いずれにも当てはまらなかったら許可と判定する。
なお、本実施の形態では最も高い信頼度が閾値以上か未満かで許可/不許可を判定しているが、当該単語のタグ信頼度の最上位と第2位との比を取り、それが予め決定しておいた閾値以上か未満かで許可/不許可を判定することも可能である。
修正・登録手段19は、リジェクタ18から入力された単語情報及び固有表現タグ付き単語列が不許可の識別子を含まない場合はそのまま(但し、許可/不許可を示す識別子については削除した上で)大規模タグ付きコーパス記憶部15に出力して追加登録する(s15,s17)。また、リジェクタ18から入力された単語情報及び固有表現タグ付き単語列が不許可の識別子を含む場合はその識別子を含めて当該単語情報及び固有表現タグ付き単語列を表示部20に表示し、該不許可の識別子に対応する固有表現タグを入力部21から入力された固有表現タグに修正(s16)、例えば図6の例の場合は「三浦」の固有表現タグを「NIL」から「B−PSN」に修正し、修正後の単語情報及び固有表現タグ付き単語列(但し、許可/不許可を示す識別子については削除した上で)を大規模タグ付きコーパス記憶部15に出力して追加登録する(s17)。
以上の処理を大規模タグなしコーパス記憶部11内の全ての単語情報付き単語列に対して実行する(s18)ことにより、大規模タグなしコーパス記憶部11内の大規模タグなしコーパスに対応する大規模タグ付きコーパスが大規模タグ付きコーパス記憶部15内に登録される。
図9は本発明による効果を示すもので、小規模タグ付きコーパスとして5,000文(208,694単語)、大規模タグなしコーパスとして43,747文(1,648,692単語)を準備し、本発明による方法で大規模タグ付きコーパスを作成した。そして、大規模タグ付きコーパスと小規模タグ付きコーパスを混合して固有表現モデルを作成し、未知のタグなしコーパスに対して固有表現抽出を行い、その精度を測定した。グラフの横軸は閾値を変化させたときの人手による修正単語数、縦軸は固有表現抽出精度(F値)で、数値が大きいほど精度は高い。
また比較のため、大規模タグなしコーパスから文を選択し、全タグを人手でタグ付けした上で、小規模タグ付きコーパスと混合して固有表現モデルを学習した場合の追加単語数と固有表現抽出の精度も併せて示す。
図9を見ると、修正/追加単語数が増加するに従って、F値も向上しているが、同じ修正/追加単語数の場合、本発明でタグを修正した場合の方が明らかにF値は高い。つまり、人手作業量が同じ場合は、本発明を用いた方が高精度なモデルを作ることができる。また、図9では、F値0.81を達成するためには、本発明の場合、約3万単語のタグの修正で済むが、全タグを人手でタグ付けした場合、約15万単語にタグ付けしなければならない。このように本発明では、同じ精度を達成するために必要な人手作業量を減らすことができる。
なお、実施の形態における大規模タグなしコーパス記憶部、小規模固有表現モデル記憶部、単語列一時記憶部、タグ信頼度記憶部及び大規模タグ付きコーパス記憶部という記載は、どのようなデータを記憶するかという機能上の違いに基づく表現であり、ハードウェア的に個別の記憶部(記憶装置)が必要であるという意味ではない。また、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図4の構成図に示された機能を実現するプログラムあるいは図5のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
形態素解析結果(単語情報付き単語列)の一例を示す説明図 固有表現抽出結果(単語情報及び固有表現タグ付き単語列)の一例を示す説明図 固有表現抽出装置の一例を示す構成図 本発明の大規模タグ付きコーパス作成装置の実施の形態の一例を示す構成図 本発明の大規模タグ付きコーパス作成装置における処理の流れ図 本発明装置による固有表現抽出結果(単語情報及び固有表現タグ付き単語列)の一例を示す説明図 タグ信頼度の計算パターンの一例を示す説明図 タグ信頼度付与結果の一例を示す説明図 本発明による効果を示す説明図
符号の説明
11:大規模タグなしコーパス記憶部、12:小規模固有表現モデル記憶部、13:単語列一時記憶部、14:タグ信頼度記憶部、15:大規模タグ付きコーパス記憶部、16:デコーダ(固有表現抽出手段)、17:タグ信頼度付与手段、18:リジェクタ(信頼度判定手段)、19:修正・登録手段、20:表示部、21:入力部。

Claims (5)

  1. コンピュータを用いて、単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスから単語情報及び固有表現タグ付き単語列の大規模な集合よりなる大規模タグ付きコーパスを作成する方法であって、
    コンピュータに、
    大規模タグなしコーパス記憶部から単語情報付き単語列を読み出し、小規模固有表現モデル記憶部に記憶された、人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成して単語列一時記憶部に記憶する固有表現抽出工程と、
    前記読み出された単語情報付き単語列に対して、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ毎の信頼度を当該固有表現タグ毎に算出した事後確率から求め、タグ信頼度記憶部に記憶するタグ信頼度付与工程と、
    単語列一時記憶部から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に判定する信頼度判定工程と、
    不許可と判定された固有表現タグを含まない単語情報及び固有表現タグ付き単語列をそのまま大規模タグ付きコーパス記憶部に登録し、不許可と判定された固有表現タグを含む単語情報及び固有表現タグ付き単語列を表示部に表示し、該不許可と判定された固有表現タグを入力部から入力された固有表現タグに修正し、修正後の単語情報及び固有表現タグ付き単語列を大規模タグ付きコーパス記憶部に登録する手作業修正工程とを実行させる
    ことを特徴とする大規模タグ付きコーパス作成方法。
  2. 前記小規模固有表現モデルは、条件付き確率場に基づくモデルである
    ことを特徴とする請求項1に記載の大規模タグ付きコーパス作成方法。
  3. 単語情報付き単語列の大規模な集合よりなる大規模タグなしコーパスから単語情報及び固有表現タグ付き単語列の大規模な集合よりなる大規模タグ付きコーパスを作成する装置であって、
    大規模タグなしコーパスを記憶する大規模タグなしコーパス記憶部と、
    人手で正しい固有表現タグが付与された小規模タグ付きコーパスから作成した小規模固有表現モデルを記憶する小規模固有表現モデル記憶部と、
    単語情報及び固有表現タグ付き単語列を一時記憶する単語列一時記憶部と、
    単語情報付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を記憶するタグ信頼度記憶部と、
    大規模タグ付きコーパスを記憶する大規模タグ付きコーパス記憶部と、
    大規模タグなしコーパス記憶部から単語情報付き単語列を読み出し、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて確率を最大化する固有表現タグ列を推定し、各単語に各固有表現タグをそれぞれ付与して単語情報及び固有表現タグ付き単語列を生成して単語列一時記憶部に記憶する固有表現抽出手段と、
    前記固有表現抽出手段で読み出された単語情報付き単語列に対し、小規模固有表現モデル記憶部に記憶された小規模固有表現モデルを用いて単語単位に推定された固有表現タグ毎の信頼度を当該固有表現タグ毎に算出した事後確率から求め、タグ信頼度記憶部に記憶するタグ信頼度付与手段と、
    単語列一時記憶部から単語情報及び固有表現タグ付き単語列を読み出すとともに、タグ信頼度記憶部から当該単語情報及び固有表現タグ付き単語列中の単語単位に推定された固有表現タグ毎の信頼度を読み出し、該信頼度に基づき、前記単語情報及び固有表現タグ付き単語列中の固有表現タグを許可するか不許可とするかを単語単位に判定する信頼度判定手段と、
    不許可と判定された固有表現タグを含まない単語情報及び固有表現タグ付き単語列をそのまま大規模タグ付きコーパス記憶部に登録するとともに、不許可と判定された固有表現タグを含む単語情報及び固有表現タグ付き単語列を表示部に表示し、該不許可と判定された固有表現タグを入力部から入力された固有表現タグに修正し、修正後の単語情報及び固有表現タグ付き単語列を大規模タグ付きコーパス記憶部に登録する修正・登録手段とを備えた
    ことを特徴とする大規模タグ付きコーパス作成装置。
  4. 前記小規模固有表現モデルは、条件付き確率場に基づくモデルである
    ことを特徴とする請求項3に記載の大規模タグ付きコーパス作成装置。
  5. コンピュータを、請求項3または4に記載の大規模タグ付きコーパス作成装置の各手段として機能させるためのプログラム。
JP2007264472A 2007-10-10 2007-10-10 大規模タグ付きコーパス作成方法、その装置およびプログラム Expired - Fee Related JP5224767B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007264472A JP5224767B2 (ja) 2007-10-10 2007-10-10 大規模タグ付きコーパス作成方法、その装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007264472A JP5224767B2 (ja) 2007-10-10 2007-10-10 大規模タグ付きコーパス作成方法、その装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2009093481A JP2009093481A (ja) 2009-04-30
JP5224767B2 true JP5224767B2 (ja) 2013-07-03

Family

ID=40665400

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007264472A Expired - Fee Related JP5224767B2 (ja) 2007-10-10 2007-10-10 大規模タグ付きコーパス作成方法、その装置およびプログラム

Country Status (1)

Country Link
JP (1) JP5224767B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5671891B2 (ja) * 2010-09-01 2015-02-18 日本電気株式会社 タグ付け装置、タグ付け方法およびプログラム
WO2017130434A1 (ja) * 2016-01-28 2017-08-03 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
JP6077727B1 (ja) * 2016-01-28 2017-02-08 楽天株式会社 多言語の固有表現認識モデルの転移を行うコンピュータシステム、方法、およびプログラム
JP6997046B2 (ja) * 2018-07-10 2022-01-17 Kddi株式会社 アノテーション支援装置

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3396734B2 (ja) * 2000-09-14 2003-04-14 独立行政法人通信総合研究所 コーパス誤りの検出・修正処理装置,コーパス誤りの検出・修正処理方法およびそのプログラム記録媒体
JP2006023968A (ja) * 2004-07-08 2006-01-26 Hitachi Ltd 固有表現抽出方法および装置並びにそれらに用いるプログラム

Also Published As

Publication number Publication date
JP2009093481A (ja) 2009-04-30

Similar Documents

Publication Publication Date Title
JP3998668B2 (ja) 形態素解析装置、方法及びプログラム
KR100882766B1 (ko) 형태소 해석 장치, 형태소 해석 방법 및 형태소 해석프로그램
JP2008148322A (ja) 文字符号化処理方法及びシステム
CN109933803B (zh) 一种成语信息展示方法、展示装置、电子设备及存储介质
JP6762819B2 (ja) 入力支援装置およびプログラム
JP2008083952A (ja) 辞書作成支援システム、方法及びプログラム
JP5224767B2 (ja) 大規模タグ付きコーパス作成方法、その装置およびプログラム
CN111782892B (zh) 基于前缀树的相似字符识别方法、设备、装置和存储介质
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
JP5152918B2 (ja) 固有表現抽出装置、その方法およびプログラム
JP6059598B2 (ja) 情報抽出方法、情報抽出装置及び情報抽出プログラム
JP2004348552A (ja) 音声文書検索装置および方法およびプログラム
JP2019204415A (ja) 言い回し文生成方法、言い回し文装置及びプログラム
US20050237227A1 (en) Mention-synchronous entity tracking system and method for chaining mentions
JP2008090334A (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP5120749B2 (ja) 木構造辞書を記録した記憶媒体、木構造辞書作成装置、及び木構造辞書作成プログラム
JP4015661B2 (ja) 固有表現抽出装置、方法、プログラム及びそれを記録した記録媒体
JP4510784B2 (ja) 所在地解析装置、所在地解析方法及びそのプログラム並びに記録媒体
JP2007140781A (ja) 名義解析装置、名義解析方法及び名義解析プログラム
JP5795985B2 (ja) 形態素解析装置、形態素解析方法および形態素解析プログラム
JP3379643B2 (ja) 形態素解析方法および形態素解析プログラムを記録した記録媒体
KR101080880B1 (ko) 외래어의 자동 음차 표기 방법 및 장치
JP5252209B2 (ja) 読み生成装置
JP2006134154A (ja) 住所解析装置、住所解析方法及び住所解析プログラム
JP2001142893A (ja) 情報公開装置および文章公開方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20110613

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20110614

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110615

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120629

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120709

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120905

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130311

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130312

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160322

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees