JPH1166242A - パターンセット生成システム及び記録媒体 - Google Patents

パターンセット生成システム及び記録媒体

Info

Publication number
JPH1166242A
JPH1166242A JP9230092A JP23009297A JPH1166242A JP H1166242 A JPH1166242 A JP H1166242A JP 9230092 A JP9230092 A JP 9230092A JP 23009297 A JP23009297 A JP 23009297A JP H1166242 A JPH1166242 A JP H1166242A
Authority
JP
Japan
Prior art keywords
pattern
morpheme
name
pattern candidate
candidate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP9230092A
Other languages
English (en)
Other versions
JP3432118B2 (ja
Inventor
Yoshio Eriguchi
善生 江里口
Tsuyoshi Kitani
強 木谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA KK
NTT Data Group Corp
Original Assignee
N T T DATA KK
NTT Data Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA KK, NTT Data Corp filed Critical N T T DATA KK
Priority to JP23009297A priority Critical patent/JP3432118B2/ja
Publication of JPH1166242A publication Critical patent/JPH1166242A/ja
Application granted granted Critical
Publication of JP3432118B2 publication Critical patent/JP3432118B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Character Discrimination (AREA)
  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 パターンマッチングにより名称を特定する際
に、自動的に学習データを解析して使用するパターンセ
ットを生成することができるようにする。 【解決手段】 データ変換部11において、学習データ
を学習データ格納部12から取り込んで個々の形態素の
品詞を解析し、名称タグ内で形態素毎にその品詞の種類
が示された名称タグ付き形態素データに変換し、パター
ン候補作成部13により、学習データから形態素列の品
詞の組み合わせを抽出し、この品詞の組み合わせをパタ
ーン候補としてパターン候補格納部14に登録する。さ
らに、パターン候補評価部15により、パターン候補に
適合する形態素列を学習データから抽出し、その学習デ
ータ中に出現する形態素列の頻度とその名称である頻度
を数えて評価値を求め、この評価値に基づいてパターン
候補をパターンとしてパターン格納部16に登録するこ
とでパターンセットを作成する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、テキスト処理、音
声認識に用いられ、パターンマッチング処理に必要なパ
ターンセットを生成するパターンセット生成システムに
関する。
【0002】
【従来の技術】従来のテキスト処理、音声認識におい
て、人名や組織名などの名称を特定する技術としては、
特定すべき名称を構成する形態素の品詞や表記などの組
み合わせをパターンとして捉え、パターンマッチング処
理により名称を特定するものが一般的である。例えば、
「固有名詞(人名または地名)」+“氏”という組み合
わせがあった場合、固有名詞の部分を人名であると特定
している。ここで、鍵括弧で囲まれたものは品詞名、ダ
ブルクォーテーションで囲まれたものは形態素の表記を
表す。同様に、「固有名詞(人名または地名)」+
“市”という組み合わせがあった場合は、固有名詞+
“市”の部分を地名と特定している。このようなパター
ンを参照することにより、“田辺氏”の“田辺”は人名
に、“田辺市”は地名として特定することができる。こ
れは、名称の範囲を考えた場合、人名については“氏”
が切り離されるのに対し(データベースでは、通常、
“氏”を入れない)、地名は“市”までも含めて名称と
把握されるのが一般的だからである。
【0003】
【発明が解決しようとする課題】ところで、上記のパタ
ーンマッチング処理を行うためには、予めパターンセッ
トを生成しておかなければならない。従来は、このパタ
ーンセットを生成するために、人がテキストを解析し、
経験的な知識によりパターン抽出を行っている。さら
に、作成したパターンセットを使用していくつかのテキ
ストに対してパターンマッチング処理を行い、その結果
と学習データとを比較することにより、あるいは結果が
正しいかどうかを人手でチェックすることにより、誤っ
ている部分を修正した新しいパターンセットを生成す
る、という一連のサイクルを何回か繰り返すことで、パ
ターンマッチング時におけるパターンセットの精度を向
上させている。
【0004】しかしながら、上記のような従来の手法で
は、パターン作成の経験のない人にとっては、最初のパ
ターンセットを作成するのは困難であり、また、経験者
にとっても、パターンセットを作成するのにかなりの時
間と労力がかかっている。
【0005】そこで、本発明の課題は、テキストから人
名や組織名などの名称を特定する処理において、名称を
構成する形態素の品詞や表記の組み合わせからなる特徴
をパターンとして捉え、パターンマッチングにより名称
を特定する際に、自動的に学習データを解析して使用す
るパターンセットを生成することができ、これによって
パターンセットの開発の労力を軽減することのできるパ
ターンセット生成システムを提供することにある。本発
明の他の課題は、上記パターンセット生成システムを汎
用のコンピュータにおいて実現するための記録媒体を提
供することにある。
【0006】
【課題を解決するための手段】上記課題を解決する本発
明のパターンセット生成システムは、以下のように構成
される。 (1)第1のパターンセット生成システムは、名称の種
類、名詞の開始及び終了を表す名称タグがそれぞれ当該
名称の前後に挿入された、正解データの集合である学習
データを取り込んで形態素解析を行うことにより、前記
学習データを、名称タグ内で形態素毎にその品詞の種類
が示された名称タグ付き形態素データに変換するデータ
変換手段と、このデータ変換手段により名称タグ付き形
態素データに変換された学習データから前記名称タグに
挟まれた形態素列の品詞の組み合わせを抽出し、この抽
出された品詞の組み合わせをパターン候補とするパター
ン候補作成手段と、このパターン候補作成手段で作成さ
れたパターン候補のそれぞれについて、当該パターン候
補に適合する形態素列を前記名称タグ付き形態素データ
から抽出して、その前記名称タグ付き形態素データ中に
出現する形態素列の頻度とそれが特定の属性をもつ名称
である頻度とを数え、両頻度を基にして所定の評価値を
求めることでパターンとしての確からしさを統計的に評
価するパターン候補評価手段とを備え、前記パターン候
補評価手段の評価結果に基づいて個々のパターン候補を
パターンとして採択するかどうかを決定することを特徴
とする。
【0007】(2)第2のパターンセット生成システム
は、第1のパターンセット生成システムにおいて、さら
に、前記パターン候補評価手段で評価を受けた名称タグ
の前または後にある形態素を抽出する形態素抽出手段
と、この形態素抽出手段で抽出された個々の形態素が前
記名称タグ付き形態素データ中に出現する頻度とその名
称の前または後に出現する頻度とを数えて評価値を算出
し、この評価値が所定の閾値を超えた形態素の集合と前
記パターンとして採択されなかったパターン候補とを組
み合わせて新たなパターン候補を作成するパターン候補
再作成手段と、このパターン候補再作成手段で作成され
た新たなパターン候補に適合する形態素列を前記名称タ
グ付き形態素データから抽出し、その出現頻度と抽出し
た形態素列が特定の属性をもつ名称である頻度とを数
え、両頻度を基に評価値を求めることでパターンとして
の確からしさを統計的に評価するパターン候補再評価手
段とを備え、前記パターン候補評価手段及びパターン候
補再評価手段の評価値に基づいて個々のパターン候補を
パターンとして採択するかどうかを決定することを特徴
とする。
【0008】(3)第3のパターンセット生成システム
は、第1または第2のパターンセット生成システムにお
いて、前記データ変換手段が、前記学習データから前記
名称タグを削除して形態素解析を行った後に、再度前記
名称タグを挿入することで名称タグ付き形態素データを
生成することを特徴とする。
【0009】(4)第4のパターンセット生成システム
は、第1または第2のパターンセット生成システムにお
いて、前記データ変換手段が、前記学習データの前記名
称タグで示される名称の区切り位置が、形態素の区切り
位置でない場合は、当該形態素をその位置で2以上の形
態素に分割して形態素解析を行うように構成される。
【0010】(5)第5のパターンセット生成システム
は、第4のパターンセット生成システムにおいて、前記
データ変換手段は、前記形態素を分割するときに分割後
形態素を保存しておき、前記分割後形態素が前記名称タ
グを取り除いた学習データを形態素解析したデータ中に
出現する頻度と前記名称タグ入り形態素データで分割さ
れている頻度とを数え、両頻度をもとに評価値を求める
ことで、パターンマッチング時には分割しておいた方が
よい分割後形態素を選別し、この選別結果に基づいて分
割パターンを作成してパターン候補とするように構成さ
れる。
【0011】(6)第6のパターンセット生成システム
は、第1または第2のパターンセット生成システムにお
いて、前記パターン候補作成手段または前記パターン候
補再作成手段が、前記形態素列の各形態素の品詞の種類
が複数通りあるとき前記形態素列の品詞の組み合わせを
全て抽出してパターン候補に加えるように構成される。
【0012】(7)第7のパターンセット生成システム
は、第1または第2のパターンセット生成システムにお
いて、前記パターン候補評価手段または前記パターン候
補再評価手段が、前記学習データ中に出現する形態素列
の頻度が基準値を超えるとき、そのパターン候補の一部
を品詞から形態素の表記に変えたパターン候補を作成し
て評価するように構成される。
【0013】(8)第8のパターンセット生成システム
は、第1または第2のパターンセット生成システムにお
いて、前記パターン候補評価手段または前記パターン候
補再評価手段が、各パターン候補について標準正規分布
に従った統計量を算出し、この統計量を前記パターン候
補のパターンとしての確からしさを示す評価値とするよ
うに構成される。
【0014】(9)第9のパターンセット生成システム
は、第1または第2のパターンセット生成システムにお
いて、前記パターン候補評価手段または前記パターン候
補再評価手段が、パターンに適合する形態素列の学習デ
ータ中の出現頻度をN、学習データ中のパターンの適合
率をm/N、期待する適合率をP0とするときの統計量T(m)
を次式により算出して評価値とし、
【0015】
【数2】
【0016】前記パターン候補評価手段で算出された評
価値が標準正規分布関数で表される閾値を超えるパター
ン候補を選別してパターンとしてパターンセットに加え
るように構成される。
【0017】(10)第10のパターンセット生成シス
テムは、第1または第2のパターンセット生成システム
において、前記パターン候補評価手段または前記パター
ン候補再評価手段が、あるパターン候補Aを包含するパ
ターン候補が複数存在し、その中でパターンとして採択
されうる1以上のパターン候補群Bがあるとき、前記パ
ターン候補群Bに適合する形態素を学習データから除外
してパターン候補Aに適合する形態素列を学習データか
ら抽出し、その学習データ中に出現する形態素列の頻度
とそれが特定の属性をもつ名称である頻度を数え、両頻
度を基にして評価値を求めるように構成される。
【0018】また、上記課題を解決する本発明の記録媒
体は、コンピュータに下記の処理を実行させるプログラ
ムをコンピュータ読み取り可能な形態で記録したもので
ある。 (1)名称タグとして名称の種類及び名称の開始と終了
を示す記号が名称の前後に挿入された、正解データの集
合である学習データを取り込んで個々の名称を構成する
形態素の品詞の種類を解析し、名称タグ内で形態素毎に
その品詞の種類が示された名称タグ付き形態素データに
変換するデータ変換処理、(2)このデータ変換処理に
より名称タグ付き形態素データに変換された学習データ
から名称タグに挟まれた形態素列の品詞の組み合わせを
抽出し、この抽出された品詞の組み合わせをパターン候
補とするパターン候補作成処理、(3)このパターン候
補作成処理によって作成されたパターン候補のそれぞれ
について、当該パターン候補に適合する形態素列を前記
データ変換処理による変換後の学習データから抽出し
て、その学習データ中に出現する形態素列の頻度とそれ
が特定の属性をもつ名称である頻度とを数え、両頻度を
基にし所定の評価値を求めることでパターンとしての確
からしさを統計的に評価するパターン候補評価処理、
(4)前記パターン候補評価処理での評価結果に基づい
てパターン候補をパターンとして採択するかどうかを決
定する処理。なお、前記プログラムは、必要に応じて、
コンピュータに下記の処理をも実行させる。(5)前記
パターン候補評価処理で評価を受けた名称タグの前また
は後にある形態素を全て集める形態素抽出処理、(6)
この形態素抽出処理で抽出された各形態素毎の学習デー
タ中に出現する全頻度とその名称の前または後に出現す
る頻度とを数えて評価値を算出し、この評価値が所定の
閾値を超えた形態素の集合と前記パターンとして採択さ
れなかったパターン候補とを組み合わせて新たなパター
ン候補を作成するパターン候補再作成処理、(7)この
パターン候補再作成処理で作成された新たなパターン候
補に適合する形態素列を前記データ変換処理で変換され
た学習データから抽出し、その出現頻度と抽出した形態
素列が特定の属性をもつ名称である頻度とを数え、両頻
度を基に評価値を求めることでパターンとしての確から
しさを統計的に評価するパターン候補再評価処理、
(8)前記パターン候補評価処理及びパターン候補再評
価処理の評価値に基づいてパターン候補をパターンとし
て採択するかどうかを決定する処理。
【0019】すなわち、本発明は、名称タグが入った学
習データを、名称タグ付き形態素データに変換する第1
の手法と、変換後の学習データから名称を構成する形態
素の組み合わせを抽出してパターン候補を作成する第2
の手法と、抽出したパターン候補に適合する形態素列が
学習データ中に出現する頻度とそれが名称である頻度を
数え、両頻度をもとにパターンとしての確からしさを統
計的に評価する第3の手法とを組み合わせることによ
り、名称特定用のパターンを自動的に作成する点に主な
特徴がある。また、変換後の学習データからのパターン
候補の作成に際しては、名称の前や後ろに現れ、名称を
特定するのに重要な形態素を抽出し、この形態素と名称
を構成する形態素列の組み合わせからパターン候補を作
成する手法も加味される。さらに、別のパターンに包含
されているパターン候補は評価値が悪く、パターンとし
て抽出されにくいという問題点が上記手法にはあった
が、この問題点を解決するため、あるパターンに包含さ
れているパターン候補を再評価するようにして、上記問
題点の解消を図った。さらに、形態素解析ツールでは一
つの形態素と解釈される文字列の途中に名称の分割位置
がある場合、この形態素をパターンマッチング時に分割
して扱うための分割パターンを作成する手法を加えた。
【0020】
【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を詳細に説明する。図1は、本発明のパターン
セット生成システムの実施の一形態を表す構成図であ
る。この実施形態のパターンセット生成システム1は、
所定のオペレーティングシステム(OS)を搭載した汎
用コンピュータが所定のプログラムを読み込んで実行す
ることにより形成される下記の機能ブロックを具備して
構成される。このプログラムは、通常、コンピュータの
内部あるいは外部記憶装置に記録されて一体の構成要素
として機能するが、上記コンピュータと分離して流通す
る記録媒体、例えばCD−ROM(コンパクトディスク
型ROM)やFD(フレキシブルディスク)等の可搬性
記録メディアに、コンピュータ読み取り可能な形態で記
録され、システム構築時に上記内部あるいは外部記憶装
置にインストールされるものであってもよい。なお、コ
ンピュータ自体は、汎用のもので足りるので、具体的な
ハードウェア構成は省略する。
【0021】図1において、形態素データ作成部11
は、学習データ格納部12から名称タグが入った正解デ
ータの集合である学習データを取り込んで、名称タグ付
き形態素データに変換する。「名称タグ」とは、名称の
種類と名称の開始及び終了を示す記号のことであり、例
えばSGMLタグで表現される。この形態素データに変
換された学習データは、パターン候補抽出部13に送ら
れる。
【0022】パターン候補抽出部13は、名称タグ付き
形態素データに変換された学習データから名称を構成す
る形態素列を抽出し、形態素列の品詞や表記の組み合わ
せからパターン候補を作成する。ここで作成されたパタ
ーン候補は、パターン候補格納部14に格納され、一
方、抽出された形態素列の学習データは、パターン候補
評価部15に送られる。
【0023】パターン候補評価部15は、パターン候補
抽出部13からの学習データをパターン候補格納部14
の格納データと照合することで、学習データの中からパ
ターン候補に適合する形態素列を抽出し、全頻度と、抽
出した形態素列のうち名称であったものの頻度を数え
る。そして、2つの頻度情報からパターン候補が抽出す
る形態素列が名称である比率を統計的検定手法によって
検定し、検定の結果が所定の基準を満たすものをパター
ンとして採択する。採択されたパターンはパターン格納
部16に送られ、パターンセットとして利用される。
【0024】次に、上記各機能ブロックによる具体的な
処理の形態を説明する。最初に、名称タグが入った正解
データから、名称タグが入った形態素データへの変換手
法を説明する。
【0025】図2は、形態素データ作成部11の詳細ブ
ロック図であり、図3は、正解データの一例である。図
3の中の<Person>や</Person>が名称タグで、<Person>
は人名という属性をもつ名称の開始記号、</Person>は
その終了記号を意味する。したがって、<Person>と</Pe
rson>に囲まれた文字列が、人名という属性をもつ名称
である。同様に、<Organization>は組織名、<Location>
は地名を属性に持つ名称タグである。
【0026】形態素データ作成部11では、まず、名称
タグ除去部21において、学習データ格納部12に格納
された正解データから名称タグを取り除いたテキストデ
ータを作成する。図3の正解データから名称タグを除去
したものが、図4に示すデータである。形態素解析部2
2では、名称タグを取り除いたテキストデータを形態素
解析し、形態素データを作成する。図5は、図4に示し
たデータを形態素解析した結果を示したものある。図5
において、1行が一つの形態素に関する情報を表し、<
表記>と</表記>に囲まれた部分が形態素の表記を表す文
字列で、<品詞>と</品詞>に囲まれた部分が形態素の品
詞を表す記号である。Nounは名詞、N-Placeは地名の固
有名詞、N-Personは人名の固有名詞として定義されてい
る。形態素によっては、複数の品詞候補がある場合があ
り、その場合は品詞タグの中に併記して表現される。例
えば図5の“田辺”という形態素は、N-PlaceとN-Perso
nの二つの品詞を持つ。
【0027】名称タグ挿入部23では、形態素解析部2
2で得られた形態素データの表記と学習データ格納部1
2からの正解データの文字列とを比較し、対応する形態
素の間に名称タグを挿入して名称タグ付き形態素データ
を作成し、これを形態素データ格納部24に格納する。
図3の正解データから作成した名称タグ付き形態素デー
タを示したのが図6である。従来の形態素解析ツールの
中には、図3に示すようなSGMLタグが混在したデータを
直接形態素解析できるものもあるが、その場合多くのツ
ールは、タグの位置で必ず形態素が分割されていると解
釈するため、タグがない状態で形態素解析をした場合と
形態素解析の結果が異なる。そこで、本実施形態では、
正解データから名称タグを除去したデータを使い、形態
素解析をした後で名称タグを挿入したものである。
【0028】名称タグ付き形態素データを作成するとき
に、図3に示した名称<Location>日</Location>に、対
応する形態素が、例えば図5の“日米”のように、名称
の分割位置で分割されていない場合がある。このような
場合は、図6の中下段に示すように、形態素を“日”の
ものと“米”のものに分割してそれぞれ名称タグを挿入
し、分割した形態素の品詞には、新しい品詞「Separat
e」を与える。つまり、名称タグで示される名称の区切
り位置が、形態素の区切り位置でない場合、当該形態素
をその位置で2以上の形態素に分割して形態素解析を行
う。
【0029】なお、本実施形態では、上記のように、分
割した形態素の品詞に新しい品詞を定義する手法を使っ
たが、これ以外の品詞を決定する手法も考えられる。一
つは分割前の形態素の品詞情報に、分割されたという情
報を組み合わせた品詞を定義する手法である。例えば、
品詞にサブカテゴリを許す形態素解析ツールであれば、
名詞を分割する場合は、カテゴリに分割前の品詞である
「Noun(名詞)」を、サブカテゴリに「Separate」をもつ
品詞「Noun-Separate」を定義し、これを分割後の形態
素の品詞に与える。
【0030】次に、パターン候補抽出部13の処理内容
を具体的に説明する。パターン候補抽出部13では、ま
ず、名称タグ付き形態素データに変換された学習データ
から、名称タグに囲まれた形態素列の品詞の組み合わせ
を抽出し、これをパターン候補とする。
【0031】例えば、図6に示したデータにおいて、<O
rganization>を構成する形態素列は、下記のようにな
る。 <表記>日本</表記> <品詞>N-Place Noun</品詞> <表記>工業</表記> <品詞> Noun </品詞> <表記>会</表記> <品詞> Suffix </品詞>
【0032】この場合、“日本”の品詞がN-Place とNo
unの2通りの可能性があるため、形態素列の品詞の組み
合わせは、N-Place・Noun・Suffixあるいは、Noun・Nou
n・Suffixの二通りが考えられる。このような場合は、
両方の組み合わせをパターン候補としておく。もし複数
の形態素が、2つ以上の品詞を持つ場合は、すべての組
み合わせの品詞列をパターン候補に加える。図7は、組
織名を属性にもつ名称のパターン候補の例と、そのパタ
ーンに適合する形態素列が学習データに出現する頻度
と、その形態素列が組織名を属性にもつ名称である頻
度、及び評価値をまとめた図表である。評価値について
は後で説明する。
【0033】次に、各々のパターン候補に適合する形態
素列が学習データに出現する頻度を数え、出現頻度があ
る値を超えるもの、例えば10以上の形態素列が適合す
るパターン候補については、パターン候補の一部を品詞
から形態素の表記に変えたパターン候補を作成する。図
8のパターンは、N-Place・Noun・Nounの一部を表記に
変えて作成したパターンである。なお、図8の例では一
つの形態素のみを品詞から表記に変えたが、パターン候
補の2つ以上の形態素を品詞から表記に変えることも考
えられる。
【0034】以上の手続きによりパターン候補の作成が
終了した場合、パターン候補評価部15は、学習データ
の中から各パターン候補に適合する形態素列を抽出し、
その頻度と、その形態素列が名称である頻度を数え、次
に述べる評価式によってパターン候補を評価する。
【0035】パターンの評価方法として、本実施形態で
は次の統計的手法に基づく統計量を利用した評価方法を
使用する。
【0036】
【数3】
【0037】式(1)は、統計的検定において、大きさ
Nの標本の標本比率m/Nを用いて、2項母集団の母比率を
検定するときに用いる母比率Pの統計量で、標準正規分
布に従う。P0は母比率の仮説に使用する比率で、仮説を
P=P0、対立仮説をP>P0として片側検定を行い、T(m)がz
(a)を超えるとき、仮説が棄却率αで棄却されP>P0であ
るといえる。ここでz(a)は標準正規分布関数であり、α
が1%のときz(a)は2.33、αが5%のときz(a)は1.64、αが
10%のときz(a)は1.28である。この統計的検定手法を応
用し、学習データ中のパターンの適合率をm/N、パター
ンに適合する形態素列の学習データ中の出現頻度をN、
期待する適合率をP0としてT(m)を算出し、閾値z(a)を超
えるパターンを採択することにより、ある一定水準P0の
適合率を超えるパターンの選別が期待できる。適合率と
は、抽出した事象のうち、正しい事象の割合のことであ
る。
【0038】図7、図8のT(m)の列は、各パターンの頻
度に対応した式(1)による評価値である。適合率の基
準値として、P0=0.7で評価している。図7、図8の例で
は、閾値を10%、即ち1.28としたときには、組織名のパ
ターンとしてN-Place・N-CompanyとN-Place・Noun・
“会”を採択することになる。以上が本発明の基本的な
手法である。
【0039】上記の実施形態に、各名称の前後の形態素
を使ったパターンを抽出する手法を加味した実施形態も
考えられる。
【0040】すなわち、名称タグの前、あるいは後にあ
る形態素をすべて集め、各形態素ごとの学習データ中に
出現する全頻度と、そのうち名称の前、あるいは後に出
現する頻度を数え、式(1)を使って評価値を算出し、
ある閾値を超えたものを名称の前、あるいは後にある形
態素として登録する。図9は、このような処理により、
人名の後にある形態素として登録された形態素の例であ
る。その後、これらの形態素の集合と、パターンに選ば
れなかった名称パターン候補とを組み合わせたパターン
候補を作成する。新しいパターン候補が作成された場合
は、各パターン候補に適合する形態素列を学習データ中
から抽出し、その出現頻度と、抽出した形態素列が名称
である頻度とを数え、式(1)により評価値を算出す
る。そして、ある閾値を超えたパターン候補をパターン
として採択する。
【0041】例えば、人名の名称のパターン候補N-Pers
onと、図7の形態素の集合とを組み合わせ、パターン候
補< N-Person > [“氏”“さん”“さま”“事務次
官”......“議長”]を作る。このパターンは、名称の
部分と名称以外の部分を区別するパターン表記と、集合
を使ったパターン表記方法とを組み合わせたパターン表
現法の一例であり、< >で囲まれた部分が名称である部
分を表し、[ ]で囲まれた部分に列記されたものが集合
を表している。
【0042】図10は、人名の名称のパターンN-Person
と、< N-Person > [“氏”“さん”“さま”“事務次
官”......“議長”] とを比較したものである。適合率
の基準値として、P0=0.7で評価している。N-PersonはT
(m)の値が小さいのでパターンに採択されないが、名称
の後にくる形態素を加えたパターンは、T(m)の値が大幅
に上昇し、棄却率αを10%に設定した場合は、閾値であ
るz(a)=1.28を超え、パターンとして採択されるように
なる。
【0043】上記の実施形態に、形態素パターンが、別
のパターンの部分として包含される場合のパターンの再
評価法する手段を加えた実施形態もある。例えば、パタ
ーンN-CompanyとパターンN-Place・N-Companyが存在
し、次の形態素列があった場合を考える。 <表記>日本</表記> <品詞>N-Place Noun</品詞> <表記>IBM</表記> <品詞> Noun-Company </品詞>
【0044】このとき、パターンN-Placeは“IBM”
に、パターンN-Place・N-Companyは“日本IBM”にそ
れぞれ適合するが、正しい名称は“日本IBM”で“I
BM”ではない。パターンN-Place・N-Companyが正しい
名称に適合する可能性が高ければ高いほど、N-Place・N
-Companyの一部であるパターンN-Placeが正しくない名
称に適合するケースが増える。そこで、あるパターン候
補(以後、パターン甲と呼ぶ)を包含するパターン候補
がいくつか存在し、その中で評価値が高く、パターンと
して採択されている1つ以上のパターン(以後、パター
ン乙群と呼ぶ)がある場合、パターン甲の評価値は次の
ようにして決める。
【0045】パターンを評価するために、学習データか
らパターン甲に適合する形態素列を抽出するときに、パ
ターン乙群に適合する形態素を学習データから除外して
抽出し、抽出した形態素列の頻度と、形態素列が名称で
ある場合の頻度で式(1)を使って評価する。その結
果、T(m)が閾値を超える場合は、パターン乙群がパター
ン甲よりもパターンマッチング時において優先順位が高
いということを条件に、パターン甲をパターンとして採
択する。
【0046】パターン乙群がパターン甲よりもパターン
マッチング時の優先順位が高ければ、実際のパターンマ
ッチング時には、パターン乙群に適合した形態素列がパ
ターン甲に適合することはないため、この評価方法は適
切である。例えば、パターンN-CompanyとパターンN-Pla
ce・N-Companyが存在し、各パターンに適合する形態素
の頻度情報及び、評価値が図11のようになっている場
合を考える。ここでは、適合率の基準値として、P0=0.7
で評価している。パターンN-Place・N-CompanyはT(m)が
基準値よりも高く、棄却率αが10%で、パターンを採択
する場合の閾値z(a)=1.28を超えているため、パターン
として採択されている。
【0047】この時点では、パターンN-Companyは閾値
を下回っているため、パターンとして採択されていな
い。そこで、学習データからパターンN-Place・N-Compa
nyに適合する形態素列を除外してパターンN-Companyに
適合する形態素列を抽出し、その頻度と形態素列が名称
になる頻度とを算出し、式(1)を使って評価する。そ
の結果が、図11のN-Company(再評価)の項目であ
り、T(m)が閾値1.28を超える。したがって、パターンマ
ッチング処理時に、N-Place・N-CompanyのパターンをN-
Companyのパターンよりも優先的に選択することを条件
にN-Companyをパターンとして採択する。
【0048】上記実施形態に加えて、形態素を分割する
ための分割パターンを生成する手段を加えた実施形態も
ある。
【0049】すなわち、学習データから名称タグが入っ
た形態素データを作成するときに、形態素解析ツールで
は、一つの形態素と解釈された形態素を、名称の分割位
置に対応させるために形態素を分割することがあった。
そのため、パターンマッチングするときに、形態素を分
割する必要があった。そこで、ある形態素が分割される
可能性があった場合、名称タグを除去したデータより作
成した形態素データの中に含まれる分割された形態素と
同じ形態素の頻度(以後、頻度甲と呼ぶ)と、その形態
素が名称タグ付き形態素データで分割されている頻度
(以後、頻度乙と呼ぶ)を数える。形態素が分割される
傾向を、頻度甲と頻度乙を使って式(1)で評価し、評
価結果に応じてパターンマッチング時に分割すべき形態
素として分割パターンに登録する。分割パターンは、分
割する前の形態素の表記と、分割後の二つの形態素の表
記と品詞の組からなるパターンである。
【0050】図13は、分割パターンの表現法の一例を
示したもので、左辺の“日米”は分割前の形態素の表記
を表し、右辺の“日”:Separateと“米”:Separateは
分割後の形態素の表記と品詞を表している。したがっ
て、図13のパターンは、“日米”という表記の形態素
がある場合に、“日”と“米”に分割し、それぞれの形
態素に品詞Separateを与えることを意味する。以上の手
続きを、分割される可能性のある全形態素について実施
する。
【0051】図12は、分割の可能性がある形態素例を
示した図表であり、形態素の表記、分割後の形態素の表
記、名称タグを除去したデータから作成した形態素デー
タ中に出現するその形態素の出現頻度、その形態素が名
称タグ付き形態素データで分割されている頻度、及びT
(m)の値をまとめている。T(m)の算出時に、P0には0.7の
値を使用している。パターンの選択時において閾値であ
る棄却率αを1%にした場合は、z(a)は2.33、T(m)が4.36
であり、z(a)を超えている“日米”を“日”と“米”に
分割するパターンは採択される。なお、他のパターンに
ついては、棄却率αの条件とT(m)とを適宜設定すること
により、同様の手順で採択することができる。
【0052】図14は、図1に示した基本的な構成のパ
ターンセット生成システム1の機能ブロックに、名称の
前後の形態素を使用したパターンを作成する手段と、パ
ターン候補を再評価する手段と、分割パターンを作成す
る手段とを組み合わせた場合の機能ブロック図である。
なお、図1のものと同一機能のものについては同一符号
を付してある。
【0053】図14に示すパターンセット生成システム
2において、データ変換部31は、学習データ格納部1
2から正解データとなる学習データを取り込み、前述の
手法によって名称タグ付き形態素データに変換する。こ
こで、名称が分割可能ならば、分割パターン生成部32
で該当する名称を分割し、分割パターンとして分割パタ
ーン格納部33に登録する。すなわち、形態素を分割す
るときに分割後の形態素(分割後形態素)を保持してお
き、この分割後形態素が名称タグを取り除いた学習デー
タを形態素解析したデータ中に出現する頻度と前記名称
タグ入り形態素データで分割されている頻度とを数え、
両頻度をもとに評価値を求めることで、パターンマッチ
ング時には分割しておいた方がよい分割後形態素を選別
し、この選別結果に基づいて分割パターンを作成してパ
ターン候補とする。このことをもう少し詳しく説明す
る。例えば“東京都知事”という単語を形態素解析する
と、“東京”、“都知事”というように、2つに分割さ
れるが、名称を“東京都”として捉えると定義された場
合、すなわち、学習データが、<Location>東京都</Loca
tion>知事で与えられた場合、形態素が“都知事”であ
ると、パターンマッチング時に名称を構成する形態素を
うまく抽出できなくなる。そのため、“都知事”を
“都”と“知事”の2つの分割後形態素に分割して保持
しておき、それぞれの分割後形態素に、「Separate」や
「N-Separate」を与える。上記のように変換された形
態素データは、パターン候補抽出部13に送られる。パ
ターン候補抽出部13では、名称タグ付き形態素データ
に変換された学習データから、名称タグに囲まれた形態
素列の品詞の組み合わせを抽出し、これをパターン候補
としてパターン候補格納部14に登録するとともに、パ
ターン候補評価部15にも送る。
【0054】パターン候補評価部15は、パターン候補
抽出部13からの学習データをパターン候補格納部14
の格納データと照合することで、学習データの中からパ
ターン候補に適合する形態素列を抽出し、その全頻度
と、抽出した形態素列のうち名称であったものの頻度と
を数える。そして、2つの頻度情報からパターン候補が
抽出する形態素列が名称である比率を統計的検定手法に
より検定し、検定の結果が基準を満たすものをパターン
として採択し、パターン格納部16に登録してパターン
セットとして利用する。
【0055】さらに、形態素抽出部34により、名称の
評価された各形態素から名称の前後にくる形態素を抽出
して形態素格納部35に登録し、続いてパターン評価部
35にて名称の前後にくる形態素を使ったパターンの評
価を行い、パターン候補再評価部37にて前述の手法に
より再評価し、閾値を超えるパターン候補をパターン格
納部16に登録する。これにより、パターンセットを自
動的に生成することができる。
【0056】このようして生成されたパターンセット
は、本発明者らによる実験によれば、再現率、適合率共
に、人手で作成したパターンとの比較において、ほぼ同
等の精度が得られ、パターン作成のひな型としては実用
上十分通用する精度であることが確認されている。再現
率とは、正しく抽出された名称の数と、データ中に含ま
れる抽出すべき名称の数の割合のことで、適合率とは、
抽出した名称のうち正しく抽出した名称の割合のことで
ある。
【0057】また、パターンの作成時間は、Hewlett Pa
ckard C160(商品名;メモリ256MB実装)上で約1時間
かかる場合、同程度の精度のパターンセットを人手で開
発するときに要した時間に比べ、開発時間を大幅に短縮
できた。また、副次的な効果として、パターン作成に有
益な情報となる、パターンごとの学習データ中の出現頻
度と、その適合率のリストを得ることができた。
【0058】
【発明の効果】以上の説明から明らかなように、本発明
によれば、学習データを用意するだけで、コンピュータ
がパターンセットを自動的に生成するため、パターンの
作成経験がない人間でも、短時間でパターンセットを開
発することが可能となる。
【0059】また、自動生成したパターンを人間が理解
できる形式にしたため、人手で高精度のパターンを作成
するときのひな型として利用することができ、最初から
人手で作るよりも開発効率が向上する。
【0060】さらに、副次的な効果として、人手でパタ
ーンを作成するのに有用な、各パターンに適合する形態
素列の学習データ中での頻度と、その形態素列が名称で
ある頻度を抽出したリストを得ることができるようにな
る。
【0061】このことより、テキストから人名や組織名
などの名称を特定する処理において、名称を構成する形
態素の品詞や表記の組み合わせからなる特徴をパターン
として捉え、パターンマッチングにより名称を特定する
際に、自動的に学習データを解析して使用するパターン
セットを生成することができ、これによってパターンセ
ットの開発の労力を軽減することのできるパターンセッ
ト生成システムを提供することができる。
【図面の簡単な説明】
【図1】 本発明のパターンセット生成システムの実施
の一形態を表す機能ブロック図。
【図2】 本実施形態の正解データを名称タグ付き形態
素データに変換する処理の流れに沿った機能ブロック図
【図3】 本実施形態に用いる正解データの一例を示す
図。
【図4】 本実施形態において、図3の正解データから
名称タグを除去したデータを示す図。
【図5】 本実施形態において、図4のデータを形態素
解析した結果を示す図。
【図6】 本実施形態において、図3の正解データから
作成した名称タグ付き形態素データを示す図。
【図7】 本実施形態において、組織名を属性にもつ名
称のパターン候補の例と、そのパターンに適合する形態
素列が学習データに出現する頻度と、その形態素列が組
織名を属性にもつ名称である頻度及び評価値をまとめた
様子を示す図。
【図8】 本実施形態において、パターン候補の一部を
品詞から形態素の表記に変えたパターン例を示す図。
【図9】 本実施形態において、人名の後にある形態素
として登録された形態素の例を示す図。
【図10】 本実施形態において、名称の後の形態素を
使用したパターン候補の一例を示す図。
【図11】 本実施形態において、形態素列の品詞構成
の一例を示す図。
【図12】 本実施形態において、形態素を分割し評価
した一例を示す図。
【図13】 本実施形態における分割パターンの表現法
の一例を示す図。
【図14】 図1の基本的な機能ブロックに、名称の前
後の形態素を使用したパターンを作成する手段と、パタ
ーン候補を再評価する手段と、分割パターンを作成する
手段を組み合わせた場合の機能ブロック図。
【符号の説明】
1,2 パターンセット生成システム 11 形態素データ作成部 12 学習データ格納部 13 パターン候補抽出部 14 パターン候補格納部 15 パターン候補評価部 16 パターン格納部 21 名称タグ除去部 22 形態素解析部 23 名称タグ挿入部 24 形態素データ格納部 31 データ変換部 32 分割パターン生成部 33 分割パターン格納部 34 形態素抽出部 35 形態素格納部 36 パターン評価部 37 パターン候補再評価部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 名称の種類、名詞の開始及び終了を表す
    名称タグがそれぞれ当該名称の前後に挿入された、正解
    データの集合である学習データを取り込んで形態素解析
    を行うことにより、前記学習データを、名称タグ内で形
    態素毎にその品詞の種類が示された名称タグ付き形態素
    データに変換するデータ変換手段と、 このデータ変換手段により名称タグ付き形態素データに
    変換された学習データから前記名称タグに挟まれた形態
    素列の品詞の組み合わせを抽出し、この抽出された品詞
    の組み合わせをパターン候補とするパターン候補作成手
    段と、 このパターン候補作成手段で作成されたパターン候補の
    それぞれについて、当該パターン候補に適合する形態素
    列を前記名称タグ付き形態素データから抽出して、その
    前記名称タグ付き形態素データ中に出現する形態素列の
    頻度とそれが特定の属性をもつ名称である頻度とを数
    え、両頻度を基にして所定の評価値を求めることでパタ
    ーンとしての確からしさを統計的に評価するパターン候
    補評価手段とを備え、 前記パターン候補評価手段の評価結果に基づいて個々の
    パターン候補をパターンとして採択するかどうかを決定
    することを特徴とするパターンセット生成システム。
  2. 【請求項2】 前記パターン候補評価手段で評価を受け
    た名称タグの前または後にある形態素を抽出する形態素
    抽出手段と、 この形態素抽出手段で抽出された個々の形態素が前記名
    称タグ付き形態素データ中に出現する頻度とその名称の
    前または後に出現する頻度とを数えて評価値を算出し、
    この評価値が所定の閾値を超えた形態素の集合と前記パ
    ターンとして採択されなかったパターン候補とを組み合
    わせて新たなパターン候補を作成するパターン候補再作
    成手段と、 このパターン候補再作成手段で作成された新たなパター
    ン候補に適合する形態素列を前記名称タグ付き形態素デ
    ータから抽出し、その出現頻度と抽出した形態素列が特
    定の属性をもつ名称である頻度とを数え、両頻度を基に
    評価値を求めることでパターンとしての確からしさを統
    計的に評価するパターン候補再評価手段とをさらに備
    え、 前記パターン候補評価手段及びパターン候補再評価手段
    の評価値に基づいて個々のパターン候補をパターンとし
    て採択するかどうかを決定することを特徴とする請求項
    1記載のパターンセット生成システム。
  3. 【請求項3】 前記データ変換手段は、前記学習データ
    から前記名称タグを削除して形態素解析を行った後に、
    再度前記名称タグを挿入することで名称タグ付き形態素
    データを生成することを特徴とする請求項1または2記
    載のパターンセット生成システム。
  4. 【請求項4】 前記データ変換手段は、前記学習データ
    の前記名称タグで示される名称の区切り位置が、形態素
    の区切り位置でない場合は、当該形態素をその位置で2
    以上の形態素に分割して形態素解析を行うことを特徴と
    する請求項1または2記載のパターンセット生成システ
    ム。
  5. 【請求項5】 前記データ変換手段は、前記形態素を分
    割するときに分割後形態素を保持しておき、前記分割後
    形態素が前記名称タグを取り除いた学習データを形態素
    解析したデータ中に出現する頻度と前記名称タグ入り形
    態素データで分割されている頻度とを数え、両頻度をも
    とに評価値を求めることで、パターンマッチング時には
    分割しておいた方がよい分割後形態素を選別し、この選
    別結果に基づいて分割パターンを作成してパターン候補
    とすることを特徴とする請求項4記載のパターンセット
    生成システム。
  6. 【請求項6】 前記パターン候補作成手段または前記パ
    ターン候補再作成手段は、前記形態素列の各形態素の品
    詞の種類が複数通りあるとき、前記形態素列の品詞の組
    み合わせを全て抽出してパターン候補に加えることを特
    徴とする請求項1または2記載のパターンセット生成シ
    ステム。
  7. 【請求項7】 前記パターン候補評価手段または前記パ
    ターン候補再評価手段は、前記学習データ中に出現する
    形態素列の頻度が基準値を超えるとき、そのパターン候
    補の一部を品詞から形態素の表記に変えたパターン候補
    を作成し評価することを特徴とする請求項1または2記
    載のパターンセット生成システム。
  8. 【請求項8】 前記パターン候補評価手段または前記パ
    ターン候補再評価手段は、各パターン候補について標準
    正規分布に従った統計量を算出し、この統計量を前記パ
    ターン候補のパターンとしての確からしさを示す評価値
    とすることを特徴とする請求項1または2記載のパター
    ンセット生成システム。
  9. 【請求項9】 前記パターン候補評価手段または前記パ
    ターン候補再評価手段は、パターンに適合する形態素列
    の学習データ中の出現頻度をN、学習データ中のパター
    ンの適合率をm/N、期待する適合率をP0とするときの統
    計量T(m)を次式により算出して評価値とし、 【数1】 前記パターン候補評価手段で算出された評価値が標準正
    規分布関数で表される閾値を超えるパターン候補を選別
    してパターンとしてパターンセットに加えることを特徴
    とする請求項1または2記載のパターンセット生成シス
    テム。
  10. 【請求項10】 前記パターン候補評価手段または前記
    パターン候補再評価手段は、あるパターン候補Aを包含
    するパターン候補が複数存在し、その中でパターンとし
    て採択されうる1以上のパターン候補群Bがあるとき、
    前記パターン候補群Bに適合する形態素を学習データか
    ら除外してパターン候補Aに適合する形態素列を学習デ
    ータから抽出し、その学習データ中に出現する形態素列
    の頻度とそれが特定の属性をもつ名称である頻度を数
    え、両頻度を基にして前記評価値を求めることを特徴と
    する請求項1または2記載のパターンセット生成システ
    ム。
  11. 【請求項11】 名称タグとして名称の種類及び名称の
    開始と終了を示す記号が名称の前後に挿入された、正解
    データの集合である学習データを取り込んで個々の名称
    を構成する形態素の品詞の種類を解析し、名称タグ内で
    形態素毎にその品詞の種類が示された名称タグ付き形態
    素データに変換するデータ変換処理、 このデータ変換処理により名称タグ付き形態素データに
    変換された学習データから名称タグに挟まれた形態素列
    の品詞の組み合わせを抽出し、この抽出された品詞の組
    み合わせをパターン候補とするパターン候補作成処理、 このパターン候補作成処理によって作成されたパターン
    候補のそれぞれについて、当該パターン候補に適合する
    形態素列を前記データ変換処理による変換後の学習デー
    タから抽出して、その学習データ中に出現する形態素列
    の頻度とそれが特定の属性をもつ名称である頻度とを数
    え、両頻度を基にし所定の評価値を求めることでパター
    ンとしての確からしさを統計的に評価するパターン候補
    評価処理、 前記パターン候補評価処理での評価結果に基づいてパタ
    ーン候補をパターンとして採択するかどうかを決定する
    処理を、コンピュータに実行させるプログラムを記録し
    たコンピュータ読み取り可能な記録媒体。
  12. 【請求項12】 前記プログラムが、さらに、 前記パターン候補評価処理で評価を受けた名称タグの前
    または後にある形態素を全て集める形態素抽出処理、 この形態素抽出処理で抽出された各形態素毎の学習デー
    タ中に出現する全頻度とその名称の前または後に出現す
    る頻度とを数えて評価値を算出し、この評価値が所定の
    閾値を超えた形態素の集合と前記パターンとして採択さ
    れなかったパターン候補とを組み合わせて新たなパター
    ン候補を作成するパターン候補再作成処理、 このパターン候補再作成処理で作成された新たなパター
    ン候補に適合する形態素列を前記データ変換処理で変換
    された学習データから抽出し、その出現頻度と抽出した
    形態素列が特定の属性をもつ名称である頻度とを数え、
    両頻度を基に評価値を求めることでパターンとしての確
    からしさを統計的に評価するパターン候補再評価処理、 前記パターン候補評価処理及びパターン候補再評価処理
    の評価値に基づいてパターン候補をパターンとして採択
    するかどうかを決定する処理をコンピュータに実行させ
    るものであること特徴とする請求項11記載の記録媒
    体。
JP23009297A 1997-08-26 1997-08-26 パターンセット生成装置 Expired - Lifetime JP3432118B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23009297A JP3432118B2 (ja) 1997-08-26 1997-08-26 パターンセット生成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23009297A JP3432118B2 (ja) 1997-08-26 1997-08-26 パターンセット生成装置

Publications (2)

Publication Number Publication Date
JPH1166242A true JPH1166242A (ja) 1999-03-09
JP3432118B2 JP3432118B2 (ja) 2003-08-04

Family

ID=16902431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23009297A Expired - Lifetime JP3432118B2 (ja) 1997-08-26 1997-08-26 パターンセット生成装置

Country Status (1)

Country Link
JP (1) JP3432118B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079858A (ja) * 2008-09-29 2010-04-08 Toshiba Solutions Corp 辞書作成支援装置及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010079858A (ja) * 2008-09-29 2010-04-08 Toshiba Solutions Corp 辞書作成支援装置及びプログラム

Also Published As

Publication number Publication date
JP3432118B2 (ja) 2003-08-04

Similar Documents

Publication Publication Date Title
CN108376151B (zh) 问题分类方法、装置、计算机设备和存储介质
CN110297988A (zh) 基于加权LDA和改进Single-Pass聚类算法的热点话题检测方法
CN112506951B (zh) 数据库慢查询日志的处理方法、服务器、计算设备和系统
JP2004164036A (ja) 文書の共通性評価方法
CN111027323A (zh) 一种基于主题模型和语义分析的实体指称项识别方法
US20080201134A1 (en) Computer-readable record medium in which named entity extraction program is recorded, named entity extraction method and named entity extraction apparatus
CN112699645B (zh) 语料标注方法、装置及设备
JP2008039983A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム
CN108021545A (zh) 一种司法文书的案由提取方法及装置
CN110929520A (zh) 非命名实体对象抽取方法、装置、电子设备及存储介质
CN108363691A (zh) 一种用于电力95598工单的领域术语识别系统及方法
JP2019082841A (ja) 生成プログラム、生成方法及び生成装置
CN116227466B (zh) 一种语义不同措辞相似的句子生成方法、装置及设备
CN108536673B (zh) 新闻事件抽取方法及装置
JP2002117027A (ja) 感情情報抽出方法および感情情報抽出プログラムの記録媒体
CN110363248A (zh) 基于图像的移动众包测试报告的计算机识别装置及方法
US20050033566A1 (en) Natural language processing method
CN109800430A (zh) 一种语义理解方法及系统
JPH0736897A (ja) 文書分類装置
JP3432118B2 (ja) パターンセット生成装置
JP2000148770A (ja) 問合せ文書の分類装置および方法ならびに当該方法を記述したプログラムを記録した記録媒体
CN114141235A (zh) 语音语料库生成方法、装置、计算机设备和存储介质
JP4592556B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
JP5441173B2 (ja) 関係情報抽出装置、その方法及びプログラム
JP2007058415A (ja) テキストマイニング装置、テキストマイニング方法、およびテキストマイニング用プログラム

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090523

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090523

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100523

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110523

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120523

Year of fee payment: 9

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130523

Year of fee payment: 10

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140523

Year of fee payment: 11

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term