JP3353829B2

JP3353829B2 - 膨大な文書データからの知識抽出方法、その装置及び媒体

Info

Publication number: JP3353829B2
Application number: JP23967499A
Authority: JP
Inventors: 裕史松澤; 剛志福田; 哲哉那須川; 徹長野; 正幸諸橋
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 1999-08-26
Filing date: 1999-08-26
Publication date: 2002-12-03
Anticipated expiration: 2019-08-26
Also published as: JP2001084250A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、特定の分野を対象
とした大量の文書から知識抽出を行うために、自動的に
パターンを抽出する技術に関するものであり、特に、抽
出された特定のパターンを満足する文書を大量文書の中
から抽出することによって、有用な知識抽出を行う膨大
な文書データからの知識抽出方法、その装置及び媒体に
関する技術である。

【０００２】

【従来の技術】計算機及びネットワーク環境の発達と普
及により、膨大なデータが電子化されて蓄積され、オン
ラインで参照可能となっている。このデータを有効利用
すべく、データマイニングの技術が盛んに研究開発され
てきた。しかし、従来のデータマインニング技術で対象
としているのは、数値を中心とした集計可能な定型デー
タのみである。しかし、大抵のデータにはテキスト部分
（即ち文書データ）が含まれており文書データは基本的
に定型ではないため、数値を中心とした定型データと異
なり集計が困難である。従って、文書データについて
は、基本的には１つ１つ目を通す必要があるため、非常
に手間がかかってしまう。即ち、人手で分析できる文書
データの量には限度があり、せっかく蓄積された膨大な
文書データを持て余してしまうという問題が生じてい
る。このような、非定型のテキスト文書から知識を抽出
する技術は、「テキストマイニング」と呼ばれ最近注目
を浴びている。このテキストマイニングは、コールセン
ターの記録、アンケート結果の集計等での利用だけでな
く、特許関係の文書、営業報告書等あらゆる非定型な文
書の分析に応用可能なことから最も期待されている技術
である。

【０００３】大量の文書の内容を分析する手段として、
類似内容を持つ文書を見つけてカテゴリごとに分類する
方法がある。例えば、現在ウェブの検索サイト等におい
て使われている方法として、予めカテゴリを用意してお
き、人が文書を読みその文書が該当するカテゴリを判断
し分類するというものがある。また、特定のキーワード
を含む文書はあるカテゴリに属するというルールに基づ
いて、この作業を自動的に行うことも可能である。例え
ば、「ABS」、「エアバッグ」というキーワードを含む
文書があれば車というカテゴリに属すると判断できる。
これは大量文書の大分類には適するが、より細かい分類
を行うことは困難である。

【０００４】例えば、コールセンター業務においては、
顧客からの電話内容にはどのような要件が多いのかを分
析することによって、コールセンター業務を改善したい
という要求がある。電話を記録した内容を人手によって
大雑把に分類し、分類した結果から注意深く文書を読
み、ほぼ同一内容の文書を集計する作業で、この要求は
達成できる。しかし、毎月、何万件という問い合わせを
受けるコールセンターの場合、人手で、これを行うのは
非常に労力がかかり、現実には困難である。また、蓄積
された文書は、特定分野を対象とした文書であり、カテ
ゴリを非常に細かく分ける必要があるが、内容を予測し
て事前にカテゴリを用意するのも非常に困難である。例
えば、簡単な「車」というカテゴリではなく、更に細か
く「エンジンの異音の発生」等と細かく分類することが
要求される。このような細かい分類では、分類する人は
文書の内容を更に良く吟味して分類作業をしなければな
らず、その作業量は膨大となる。また、カテゴリの判断
基準が人によって異なったり、同一人物でもその都度違
う判断をする可能性があり、客観的なデータを得ること
が難しい。

【０００５】近年、計算機を用いた文書の分類手法（文
書のクラスタリング）が開発されているが、この手法は
文書中に出現するキーワードから大雑把な分類を行うも
のである。しかし、特定分野を対象とする場合には、よ
り細かな分類が必要であり、従来の手法では対処できな
い。また、クラスタリングの結果、どんな内容の文書が
１つのクラスタに集められたのかは、その文書を人が読
まなければ理解できないという問題点がある。

【０００６】上述のように、大量の文書から語をキーワ
ードとして切り出し、共起する単語のペアを取り出す従
来技術が、データマイニングにおける「相関ルールの抽
出技術」と呼ばれるものである。しかし、この手法では
以下の問題点がある。長い文書において始めに現れる語
と最後に現れる語との間には関連性が無い場合がある
が、これを共起するものとしてカウントしたり、語の係
り受けの関係が無視されているために、例えば「ＡがＢ
するとＣがＤした」と「ＡがＤするとＣがＢした」では
意味が異なるが、共起関係だけを見ると、これら２つの
文書を同じものとして処理してしまう。従って、同一内
容の文書抽出が正しく行われない場合が多い。

【０００７】上述のような、不都合を解決するために
は、特定の単語が特定の順番で出現するものだけを抽出
する方法が考えられる。これがデータマイニングにおけ
る「時系列パターン抽出技術」と呼ばれるものである。
例えば、単語Ａ、単語Ｂ、単語Ｃ、単語Ｄという順序で
単語が出現する文書だけを抽出することができる。しか
し、このルールでは「ＡがＢするとＣがＤした」という
文書の場合は抽出できるが、「Ｃは、ＡがＢすると、Ｄ
した」という文書は、文書の意味は同じだが、単語の順
番が異なっているため抽出できないという問題がある。
即ち、同一内容の文書を抽出するためには、単語の共起
関係、出現順序だけでなく、単語間の係り受けの関係に
も着目する必要がある。

【０００８】

【発明が解決しようとする課題】上述のように、本発明
では、大量の文書から特定のパターンを抽出すること、
また、そのパターンを満足する文書を自動的に抽出する
ことにより、有用な知識抽出を実現する膨大な文書デー
タからの知識抽出方法、その装置及び媒体を提供するも
のである。

【０００９】

【課題を解決するための手段】本発明は、大量の文書デ
ータからの知識抽出方法を対象とする。この知識抽出方
法において、形態素解析技術により１つの文書から単語
を切り出し単語間にある係り受けの関係を推定し係り受
け関係から構文木を構築するステップと、構築された構
文木の中で多くの構文木に含まれている頻出パターンを
与えられたパターンの制約に基づいて発見するステップ
と、発見された頻出パターンへの代入にマッチする文書
を検索するステップと、を含むものである。即ち、本発
明による大量の文書データが格納されている文書データ
用直接アクセス記憶装置から知識抽出を行う方法は、言
語解析装置を用いて前記文書データ用直接アクセス記憶
装置から文書データを読み出し、形態素解析技術によ
り、読み出した文書データの１つの文書から単語を切り
出し単語間にある係り受けの関係を推定し係り受け関係
から構文木データ用直接アクセス記憶装置上に構文木を
構築するステップと、前記構文木データ用直接アクセス
記憶装置上に構築された構文木を読み出し、頻出パター
ン抽出装置を用いて読み出した構文木の中で多くの構文
木に含まれている頻出パターンを、前記構文木中に存在
する少なくとも２つの単語およびこれら単語間の位置関
係、または、前記構文木中に存在する少なくとも２つの
単語およびこれら単語間の位置関係およびこれら単語の
品詞や属性からなるラベルを含むパターンの制約に基づ
いて発見するステップと、特定パターン適合文書抽出装
置を用いて、発見された頻出パターンへの代入にマッチ
する文書を前記文書データ用直接アクセス記憶装置から
検索するステップと、を含むことを特徴とする。なお、
直接アクセス装置とは一般に知られるように磁気ディス
ク装置、固定ディスク装置、フレキシブルディスク装置
を含む、直接アクセスが可能な記憶装置を指す。また、
本発明は、上記方法のステップをコンピュータに実行さ
せるためのプログラムを記録したコンピュータ読み取り
可能な媒体をも含むものである。

【００１０】更に、本発明は、大量の文書データからの
知識抽出装置を対象とする。この知識抽出装置におい
て、基本辞書に含まれない語彙を分野依存辞書に登録す
る言語特徴分析装置、自然言語解析を行う言語解析装
置、特定パターンに適合するデータを発見するパターン
抽出装置及び、抽出した頻出パターンを表示する頻出パ
ターン表示装置を具備し、文書データから一般分野を対
象とする基本辞書と、文節生成処理用の生成規則と、構
文木生成用の生成規則と、分野依存辞書とを含む。上記
構成において、大量文書からの知識抽出を好適に実施で
きる。

【００１１】

【発明の実施の形態】言語特徴分析装置によって言語解
析装置の精度向上のために文書データから分野依存辞書
を作成し、言語解析装置によって係り受けを考慮した構
文木を作成し、パターン抽出装置によって頻出パターン
（即ち、知識）を抽出・出力する。以下、装置の形態で
発明を説明するが、本発明には、方法、プログラム媒体
も含まれることは言うまでもない。具体的な機能として
は、１．形態素解析技術により、１つの文書から単語を切
り出し、単語間における係り受けの関係を推定し、係り
受け関係から構文木を構築する機能、２．大量の文書から構築された大量の構文木の中で、
与えられたパターンの制約に基づいて、多くの構文木に
含まれているような頻出パターンを発見する機能、３．発見された頻出パターンの構文木を有する文書を
出力する機能、等である。

【００１２】図１は、文章から形態素を切り出し、係り
受け関係を抽出し、その係り受け関係から構文木を生成
する過程の概略図を示している。図１の文章”ＡがＢす
ると、ＣがＤする”から、形態素解析、係り受け関係の
抽出を行った結果、「Ａ」が「Ｂする」、「Ｃ」が「Ｄ
する」、「Ｂする」と「Ｄする」という２項関係が抽出
される。ここで２つの単語間の係り受け関係から矢印の
向きが決まる。これらの関係から、図の構文木が生成さ
れる。構文木は有向グラフ（接点を結ぶ枝に向きが有る
グラフ）として表現される。有向グラフ上の節点（ノー
ドと呼ぶ）には、形態素解析で切り出した単語をラベル
として付与する（図中では、Ａ〜Ｄと略記）。２つのノ
ード間を結ぶ枝（アークと呼ぶ）には向きがある。アー
クの向きは、前述のように、単語間の係り受け関係によ
り決まる。図２（ａ）のように、ここで、パターンと
は、構文木中に存在するノードとその位置関係を示す。
ノード、即ち単語の個数は任意である。ここで、各単語
に対して制約を与えることができる（例えば、動詞、専
門用語であること等）。位置関係は、一定のものに制約
しても良いが、単語が少数であれば可能性のある全ての
位置関係であっても良い。パターンの例を示す。いま、
１つの構文木中に、２つの単語Ａ、Ｂがあったとき、Ａ
というラベルを持つノードからＢというラベルを持つノ
ードに構文木中の有向グラフを辿ることで、到達するこ
とができ、更に図２（ｂ）のように、それがある距離内
であるとき、これをＡ−＊→Ｂと記述し、これをパター
ンとすることができる。更に、同様にして、他の単語
Ｃ、Ｄがあって、同時にＡ−＊→Ｂ、Ａ−＊→Ｃ−＊→
Ｄの関係が成り立っているとき、これを４つの単語とそ
の位置関係からなるパターンとする。また、このパター
ンに対しても制約を与えることができる。例えば、上記
Ａに対して動詞である、専門用語である等の制約であ
る。頻出パターンの発見とは、このように複数の単語と
その位置関係を表わすパターンのうち頻出するものを発
見することである。

【００１３】文書が日本語等の場合は、構文木だけでな
く線形リストを構築することもできる。線形リストに対
しても、同様に与えられたパターンの発見をすることが
でき、この場合は処理が高速化される。

【００１４】共起関係については、一般的に文章中の語
句と語句との距離が大きくなるほど、その語句と語句と
の関連性が小さくなることが多いため、距離（例えば、
構文木において、あるノードからあるノードまでに経過
する枝の数（アーク数））という概念を導入する。例え
ば距離＝３と定義する場合は、距離が４以上あるよう
な、語句と語句が離れているノード間を共起関係が無い
ものとして取り扱う等である。この距離は、対象の文書
に応じて適切な値を設定する。図３は本発明の全体構成
を示す図である。また、図４は本発明の処理の流れを示
すフローチャートである。図５は言語解析装置の詳細を
示すものであり、本装置によって構造解析された文書デ
ータを用いて、パターン抽出装置は頻出するパターンを
求め、そのパターンと合致する構文を持つ元の文書を取
り出す。頻出パターン表示装置は、発見された頻出パタ
ーンとそれに合致する構文木を持つ文書を表示する。こ
こで、本発明を構成する１．言語特徴分析装置、２．言
語解析装置、３．パターン抽出装置及び、４．頻出パタ
ーン表示装置について説明する。

【００１５】１．言語特徴分析装置について言語特徴分析装置は、言語解析装置の精度を向上させる
ために分野依存辞書の作成を行う。これは、一般的な辞
書に含まれていない特定分野のための語彙を追加し、そ
の語彙の属性について記述する。また、分野によって意
味や属性が異なる語彙について分野依存辞書を作成す
る。言語解析装置は、分析するデータに合った属性を必
要とするため、分野依存辞書（例えば「装置（１９）」
を「装置（Ｈ／Ｗ）」に書きかえるための辞書）を用意
する必要がある。「装置」や「良−い」といった一般語
については、最初に用意したものをどのデータに対して
も利用できるが、製品名のような特定の属性を持つ語な
どは、分野ごとに作成しなければならない。これを、実
際のデータから調べて分野依存辞書に登録するのが言語
特徴分析装置であり、以下の手順で登録を行う。

【００１６】Ａ．従来技術である形態素解析装置と基本
辞書を用いて文を品詞付き単語列に分割する。Ｂ．分野依存辞書に既に登録済みのものは単語列から削
除する。Ｃ．単語の出現頻度を計算し、単語列を出現頻度の多い
順に並べ替える。Ｄ．この単語列の中から、予め設定した属性に該当する
言葉を見つけて分野依存辞書に追加登録を行う。ここ
で、分野依存辞書中のエントリーの構造を品詞付き単語
列→品詞または属性付き単語列という形にすれば、たと
え形態素解析装置が誤った単語分割や誤った品詞付与を
しても必要な単語と属性を取り出すことができる。

【００１７】２．言語解析装置について言語解析装置は、形態素解析装置、文節生成装置、辞書
適用装置、及び係り受け解析装置を含むものであり、以
下各々について説明する。（１）形態素解析装置入力された文に対して従来技術である形態素解析を行う
ことによって単語ｔに分割した後、基本辞書を用いて単
語列に対してラベルｌ（品詞あるいは属性名に相当する
名前）を付加する。また単語間の距離ｄを重みとして付
加する。以下、形態素 w＝[ t , l , d ]の組とする。
また同義語辞書を用いて、表現のゆれや同義語を１つの
統一された表記に変更する。

【００１８】（２）文節生成装置文（あるいは特定の文脈）に各語句が出現する順番にw₁
, w₂ , ,….w_nとすると、w₁から順に生成規則に従って
文節を決定する。w_nが付属語である場合や、明らかに文
節が切れると判断できるところで文節を区切る。w_kで文
節を区切られた場合、次の文節はw_k＋１から始まり、こ
れを文末になるまで行う。各文節を自立語と付属語の組
合わせにし、これを構文木のノード及びノードからのア
ークとする。また、「反、非」等の接頭語、「ない」等
の助動詞がある語句の場合は、ラベルの符号を反転させ
る。

【００１９】（３）辞書適用装置分野依存辞書によって、単語列中の単語及びラベルを書
き換える。対応する属性名が無い場合は、品詞がそのま
まラベルとして残る。各ノードには単語の他に、品詞等
の情報、アークには助詞の情報等が付加される。

【００２０】例えば、「装置が良くない訳ではない」と
いう文章からは、下記のようなものが出力される。ここ
で用いた形態素解析装置においては常に重みは１にな
り、重みｄの表示を省略する。また番号は品詞を示す。
例えば、19…名詞、75…格助詞「が」、17…形容詞の語
幹、42…形容詞連用形活用語尾、等である。句点（。）
のｄを∞にすること等は、簡単ではあるが効果的な重み
付けの方法である。（１）．形態素解析装置からの出力：［装置，19］
［が,75］[良−い,17]［く,42］［な−い,51］［い,4
3］［訳,94］［で,56］［は,85］［な−い,51］［い,4
3］（２）．文節生成装置からの出力：（［装置，19］
［が,75］）（[良−い,17]［く,42］［な−い,51］
［い,43］）（［訳,94］［で,56］［は,85］）（［な
−い,51］［い,43］）小括弧で区切られているのが文節
である。（３）．辞書適用装置からの出力：（［装置，H/W］
［が,75］）（[良−い,評価]［く,42］［な−い,51］
［い,43］）（［訳,94］［で,56］［は,85］）
（［な−い,51］［い,43］）このように、入力文章から文節毎に分解されて、線形リ
ストの構文構造データが作成される。更に、後述する文
節間の係り受け関係の分析をすることで、有向グラフの
構文構造データを作成することができる。

【００２１】（４）係り受け生成装置文法規則は、係り受け元のノードの自立語（R_sd）、付
属語（R_si）、係り受け先の自立語（R_dd）と付属語（R
_di）、及び係り受けの性質(T)、の組み合わせ｛R_sd , R
_si , R_dd , R_di, T ｝から構成される。この文法規則
を係り受け元のノードN_nと係り受け先のノードN_ｍ（ｎ
ｍ）に適用し、文法規則に合致した場合N_nとN_mに係り受
けの関係があると判断し、N_nからN_mに対して係り受けの
関係をつける。文法規則に合致すれば、係り受けは幾つ
でも持つことができる。また付属語及び係り受けの性質
からアークに重みを付けることもできる。抽出した係り
受けの関係をアークとし、辞書適用装置で抽出した情報
を各ノードに付加することによって、構文木を作成す
る。

【００２２】３．パターン抽出装置について図６に示すように、パターン抽出装置は、頻出パターン
抽出装置と特定パターン適合文書抽出装置を含むもので
あり、以下各々について説明する。

【００２３】（１）頻出パターン抽出装置ここでは、１つのパターンとして、４つの単語（仮にV
a,Vb,Na,Nbとする）とその位置関係としてVa−＊→Vb−
＊→Nb、Va−＊→Naを考える。またVa、Vbは動詞である
こと、Na、Nbは名詞であることを制約として与える。こ
のようなパターンが与えられると頻出パターン抽出装置
は、各構文木に含まれる単語で、VaとNa、VbとNb、Vaと
Vbという係り受けの関係を持ち、かつVa Vbが動詞、Na
Nbが名詞であるような単語の組（Va −Vb− Na− Nb）
を探し、これを集計していく。

【００２４】実現するための一例として具体的には、（イ）Ａ．構文木を解析し、動詞ノードを見つけ、その
ノードから近距離に存在する動詞ノードについて調べ、
動詞と動詞の係り受けの関係にある動詞−動詞のペアを
求める。経路が複数ある場合は、距離が最短となるルー
トでの距離を集計の対象とする。例えば、ノードVaから
有向グラフを辿っていき、一定の距離内にあるノードVb
が存在すればノードVaとノードVbのペアが対象となる。
これを構文木上の全ての動詞ノードに対して行う。例え
ば、ここでVa−Vb、Vb−Vcが発見されたこととする。Ｂ．Ａと同様に、構文木を解析し、動詞ノードから近距
離に存在する名詞ノードについて調べ、係り受けの関係
にある動詞−名詞のペアを求める。例えば、ここでVa−
Na、Vb−Nb、Vc−Ncのペアが発見されたとする。Ｃ．Ａで求めた動詞−動詞の係り受けのペアと、Ｂで求
めた動詞−名詞の係り受けのペアから4つの語からなる
組を求める。例えば、ＡでVa−Vbが発見されて、かつＢ
でVa−Na、Vb−Nbが発見されれば、図７のように、この
４つの語からなる組（Va−Na−Vb−Nb）は集計対象とな
る。同様に（Va−Nb−Vc−Nc）も集計対象となる。

【００２５】（ロ）全ての文書（構文木）に対して、上
記Ａ、Ｂ、Ｃを行い、最終的に集計された４つの語から
なる組の中から、頻出した組み合わせを出力する。（ハ）要素数の多い頻出パターンを抽出する場合を考え
る。パターンとして６つの単語（Va,Vb,Vc,Na,Nb,Nc）
からなり、Va−＊→Vb−＊→Vc−＊→Nc、Va−＊→Na、
Vb−＊→Nbという位置関係を考える。また、Va、Vb、Vc
は動詞であること、Na、Nb、Ncは名詞であることを制約
として与える。このようなパターンが与えられた時に
は、同様にして、Ａで求めた動詞−動詞のペアの中に、
Va−Vb,Vb−Vcというペア（VaはVbに、VbはVcにそれぞ
れ係り受けの関係がある）が存在するか調べ、Ｂで求め
た動詞−名詞の係り受けのペアを用いて、図８のように
６つの語からなる組を抽出する。

【００２６】（２）特定パターン適合文書抽出装置大量文書の中から、頻出パターンを満足する文書を抽出
し、これを出力する。これは、構文解析データ（構文木
データ）に対して、特定のパターンを構築する単語や属
性を全て含んでいるか、含んでいる場合には、それぞれ
の単語間に係り受けの関係があるのか否かを調べること
で実現できる。

【００２７】（３）線形リストからのパターン抽出言語解析装置において、係り受け解析装置にかけるデー
タとして、線形リストの構造を持つ構文解析データが構
築されており、このデータからも以下のようにパターン
を抽出することが可能である。（イ）重み付きの距離を含んだ形態素（線形リストの要
素）wの列ｗ^＊に対し、係り受けの探索範囲を０〜∞で
設定する。ｗは単語ｔ，品詞または属性を表わすラベル
ｌ、右隣の単語との重み付き距離ｄの組である（ｗ＝
［ｔ，ｌ，ｄ］）。この時、探索範囲の値が０というの
は、探索を開始する場所の単語のみを探すことを意味
し、１ならば前後の単語も係り受けの探索候補とするこ
とを意味する。（ロ）探索パターンはＰ=＜ｐ₁,ｐ₂,….,ｐ_n＞、ｐ_１,….,ｐ_ｎ ∈ ｛［ｔ，ｌ］｝で表わすことができる。各ｐ_ｉ(ｉ=1,2,…,n)は、単語
ｔと品詞または属性を表わすラベルｌの組であり、Ｐは
このｐ₁,ｐ₂,….,ｐ_nを順に並べたものである。このと
き、ｐ_ｉと次に続くｐ_ｉ＋１は，（ｉ）で指定した係り
受けの探索範囲以内に存在しなければならない。また、
パターンは、正規表現を用いて記述することもできる。
このパターンＰに一致するものを文章[ｔ，ｌ，ｄ]^＊の
中から探索し、これに一致する線形リストの部分集合の
重み付き距離ｄ＝Σ（ｄ_１，．．．，ｄ_ｎ）（ｄ_１，．．．，ｄ_ｎはパターンにマッチする最初から
最後までのワードの重み付き距離）が最少となるものを
選び出す。

【００２８】（ハ）探索範囲と探索パターンを与えられ
て、入力の単語列[ｔ，ｌ，ｄ]^＊（単語は名前ｔ、属性
名ｌ、右隣の単語との距離ｄという要素からなる）から
パターンに合致する単語の組を取り出したものが、抽出
情報である。例えば、「装置が良くない訳ではない」と
いう文を例にとると、この文から構築された線形リスト
（〔００２０〕参照）から、パターンＰ＝＜［＊，Ｈ／Ｗ］＞により属性名「Ｈ／Ｗ」にマッチする要素［装置，Ｈ／
Ｗ］（距離は省略）を取り出すことができる。Ｐ＝＜［＊，Ｈ／Ｗ｜Ｓ／Ｗ］，［＊，評価］＞により、テキスト中から複合属性［Ｈ／Ｗ］−［評価］
または［Ｓ／Ｗ］−［評価］にマッチする要素の組を探
し、この例では［装置，Ｈ／Ｗ］−［良い，評価］を取
り出すことができる。

【００２０】参照）から、パターンＰ＝＜［＊，Ｈ／Ｗ］＞により属性名「Ｈ／Ｗ」にマッチする要素［装置，Ｈ／
Ｗ］（距離は省略）を取り出すことができる。Ｐ＝＜［＊，Ｈ／Ｗ｜Ｓ／Ｗ］，［＊，評価］＞により、テキスト中から複合属性［Ｈ／Ｗ］−［評価］
または［Ｓ／Ｗ］−［評価］にマッチする要素の組を探
し、この例では［装置，Ｈ／Ｗ］−［良い，評価］を取
り出すことができる。

【００２９】４．頻出パターン表示装置についてパターン抽出装置によって発見された頻出パターンとそ
れにマッチする構文木を有する文書を表示する。

【００３０】本手法を実際のコールセンター業務で作成
された９万文のコールデータを処理して、その有効性を
確認した。以下に実施例の１具体例を示す。始めに個々
の文書から従来技術である形態素解析を行い、係り受け
解析装置によって構文木を構築する。例として簡単な文
章「電源を入れるとフロッピーディスクを要求する絵が
出る。」を用いることとする。この文章からは図９のよ
うな構文木（有向グラフ）が構築される。このグラフ中
で、有向のアークは語句の係り受けの関係を表わしてい
る。また、ノード（各語句）の右肩にある四角は、その
語が動詞であるか名詞であるかを示す（Nは名詞、Vは動
詞を示す）。

【００３１】この構文木を作成するための文法規則は８
５個であり、あるノードの語句が動詞の連体形であれ
ば、そのノード以降に現れる名詞に対して係り受けを行
うというような簡単なものである。この例では、アーク
の重みは全て等しく１とする。有向グラフにおいて、あ
るノードからあるノードまでに経過した枝の数（アーク
数）を距離と定義する。例えば、「電源」と「要求す
る」では２つのアークを経由することで到達できるの
で、距離＝２となる。複数の経路が存在する場合は最短
の経路で計算する。また、抽出する知識としては、ここ
では距離が３以内のものだけを考えることとする。この
ように距離をある程度短くすることで、単語間の関連性
が無いと推定される係り受けを排除することが可能とな
る。上記の構文木から動詞−名詞の係り受けを求める
と、「出る」−「絵」、「要求する」−「フロッピーデ
ィスク」、「入れる」−「電源」等の近距離に存在する
語句のペアを取り出すことができる。

【００３２】更に、動詞−動詞の係り受けにペアを求め
ると、「要求する」−「入れる」、「出る」−「入れ
る」を求めることができる。求めた動詞−動詞、動詞−
名詞の各ペアから、Ｖ１−Ｖ２、Ｖ１−Ｎ１、Ｖ２−Ｎ
２の係り受けの関係になっているものを求めると「電
源」「入れる」「フロッピーディスク」「要求する」や
「フロッピーディスク」「要求する」「絵」「出る」と
いう４つの語からなる組を抽出することができる。ま
た、「電源」「入れる」「フロッピーディスク」「要求
する」「絵」「出る」という６つの語からなる組も抽出でき
る。このように抽出した４つの語からなる組と６つの語
からなる組を集計することで、大量文書の中から同じ単
語を同じ係り受けの構造の中で用いる文書について集計
することができる。

【００３３】「名詞２」−「動詞２」、「名詞１」−「動詞
１」、「動詞１」−「動詞２」という構成の４つの語か
らなる組（即ち知識）を、実際のコールセンターのコー
ル記録文書から抽出してみる。「増設Ｈ／Ｗ」−「外
す」、「BIOS」−「戻す」という４つの語からなる知識
を抽出することができた。この知識の抽出元となった文
章は以下のものである。「増設H/Wを外してBIOSの復
元、FDISKで区画の切り直しリカバリーCDで出荷時に戻
してください」、「増設H/Wを外してBIOSの復元、リカ
バリーCDで出荷時に戻していってもISDNカードが使えな
い」、「増設H/Wを全て外してBIOSをF５で工場設定値に
戻してもレジューム機能の項目が復活できず、BIOS、H/
Wの不具合と考えサービスセンターにて調査が必要と判
断」等である。

【００３４】その他に「ファイル」−「見つからな
い」、「メッセージ」−「出る」という４つの語からな
る知識も抽出することができた。この知識の抽出元とな
った文章は以下のものである。「プログラムファイルエ
ラーのファイルが見つからないとメッセージが出る」、
「“または必要なファイルが見つかりません”のメッセ
ージが出るようになったのでメッセージを消したい」、
「Xで\INSTALLと入力しても“ファイルが見つかりませ
ん”といった旨のエラーメッセージが出てしまいインス
トールできない」等である。

【００３５】また、他に「PC」−「表示する」、「OS」
−「戻る」、「方法」−「分からない」という６つの語
からなる知識も抽出することができた。この知識の抽出
元となった文章は以下のものである。「PCの機種A、黒
い画面に白い文字が表示されていて、××モードからOS
に戻る方法が分からない」、「PCの機種A、ゲーム選択
後、コマンドプロンプトが表示され、OSに戻る方法が分
からない」、「PCの機種A、日本語DOSゲームアイコン選
択後、黒い画面に白い文字で“Cで￥OS"と表示され、OS
に戻る方法が分からない」等である。

【００３６】更に、他に「電源」−「入れる」、「フロ
ッピーディスク」−「要求する」、「絵」−「出る」と
いう６つの語からなる知識も抽出することができた。こ
の知識の抽出元となった文章は以下のものである。「電
源を入れるとフロッピーディスクを要求する絵が出
る」、「ネットワークの設定を確認しようとしたが電源
を入れるとフロッピーディスクを要求する絵が出てOS起
動できない」、「電源を入れるとフロッピーディスクを
要求する絵が出てくる、BIOSでハードディスクは認識し
ている」等である。

【００３７】更に、他に「インターネット」−「接続す
る」、「発信音」−「聞こえない」、「メッセージ」−
「出る」という６つの語からなる知識も抽出することが
できた。この知識の抽出元となった文章は「機種Aのイ
ンターネットに接続しようとすると“発信音が聞こえま
せん”とメッセージが出て繋がらない」、「インターネ
ットに接続しようとすると“発信音が聞こえない”とい
うメッセージが出て接続できない」、「機種Aのインタ
ーネットでプロバイダーに接続しようとすると“発信音
が聞こえません”とメッセージが出る」等である。

【００３８】本発明による知識抽出（頻出パターン発
見）方法のメリットとしては、（１）従来法であるキーワードだけを使った共起関係
や順序関係のデータマイニングの適用では得ることがで
きなかったパターンを抽出することができる。また従来
技術では、誤って見つけてしまうパターンを見つけな
い。（２）抽出された知識（頻出パターン）が人間にとっ
てわかりやすく、視認性に優れる。（３）線形リストを併用することで、処理を高速化で
きる。等がある。

【００３９】

【発明の効果】本発明によって、従来のデータマイニン
グ手法では発見できなかったりまたは誤って発見してい
た知識を、より適切に誤ることなく知識抽出できるよう
になった。また、抽出した知識も視認性に優れ、人間に
とって理解しやすいものとなった。例えば、企業のコー
ルセンター等では、大量の文書に出現するほぼ同一内容
の文書を発見し、出現数の多い内容について調べること
で、顧客からの問い合わせの多い内容に対してＦＡＱの
作成を行ったり、企業のホームページに掲載すること
で、問い合わせ件数の低減をすることができたり、その
内容をオペレータに知らせておくことで回答に要する時
間の削減を容易にすることができる。

【図面の簡単な説明】

【図１】自然言語から構文木を作る過程を示す図であ
る。

【図２】パターンについて示す図である。

【図３】本発明の全体構成を示す図である。

【図４】本発明の処理のフローチャートである。

【図５】言語解析装置の詳細を示す図である。

【図６】パターン抽出装置を示す図である。

【図７】抽出された４つの語からなる組（パターン）
を示す図である。

【図８】抽出された６つの語からなる組（パターン）
を示す図である。

【図９】パターンの例を示す図である。

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩＧ０６Ｆ 17/27 Ｇ０６Ｆ 17/27 Ｅ 17/28 17/28 Ｕ (72)発明者福田剛志神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者那須川哲哉神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者長野徹神奈川県大和市下鶴間1623番地14 日本アイ・ビー・エム株式会社東京基礎研究所内 (72)発明者諸橋正幸東京都多摩市聖ヶ丘４丁目１番地１号多摩大学経営情報学部内 (56)参考文献特開2000−99516（ＪＰ，Ａ) 特開2000−172691（ＪＰ，Ａ) 雄山真弓、岡田孝，構文解析木を対象とするデータマイニング，情報処理学会研究報告（98−ＣＨ−40），日本，社団法人情報処理学会，1998年10月24日，Ｖｏｌ．98，Ｎｏ．97，ｐｐ．17−24, （ＣＳＤＢ国内学会論文1999−01140− 002) 雄山真弓、岡田孝，李貴峰，構文解析木からの知識発見システム，電子情報通信学会技術研究報告（ＮＬＣ98−26〜 31），日本，社団法人電子情報通信学会，1998年10月16日，Ｖｏｌ．98，Ｎｏ 338，ｐｐ．25−32，（ＣＳＤＢ国内学会論文2000−00620−003) 那須川哲哉、諸橋正幸、長野徹，テキストマイニング −膨大な文書データの自動分析による知識発見−，情報処理, 日本，社団法人情報処理学会，1999年４月15日，Ｖｏｌ．40，Ｎｏ．４，ｐｐ．358−364，（ＣＳＤＢ国内学会論文 2000−01213−002) 長野徹、諸橋正幸、那須川哲哉，テキストマイニングのための情報抽出方法, 1999年度人工知能学会全国大会（第13 回）論文集，日本，社団法人人工知能学会，1999年６月15日，ｐｐ．411−412 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G06F 17/30 G06F 9/44 G06F 17/27 G06F 17/28

Claims

(57)【特許請求の範囲】

【請求項１】大量の文書データが格納されている文書
データ用直接アクセス記憶装置から知識抽出を行う方法
において、言語解析装置を用いて前記文書データ用直接アクセス記
憶装置から文書データを読み出し、形態素解析技術によ
り、読み出した文書データの１つの文書から単語を切り
出し単語間にある係り受けの関係を推定し係り受け関係
から構文木データ用直接アクセス記憶装置上に構文木を
構築するステップと、前記構文木データ用直接アクセス記憶装置上に構築され
た構文木を読み出し、頻出パターン抽出装置を用いて読
み出した構文木の中で多くの構文木に含まれている頻出
パターンを、前記構文木中に存在する少なくとも２つの
単語およびこれら単語間の位置関係、または、前記構文
木中に存在する少なくとも２つの単語およびこれら単語
間の位置関係およびこれら単語の品詞や属性からなるラ
ベルを含むパターンの制約に基づいて発見するステップ
と、特定パターン適合文書抽出装置を用いて、発見された頻
出パターンへの代入にマッチする文書を前記文書データ
用直接アクセス記憶装置から検索するステップと、を含むことを特徴とする知識抽出方法。
【請求項２】前述した構文木を構築するステップにお
いて、線形リストを構築し、構築した線形リストをも使
用して頻出パターンを発見する、請求項１に記載の知識
抽出方法。
【請求項３】前述した頻出パターンを発見するステッ
プにおいて、前記線形リストを用いて、探索範囲と単語
とラベルとの組み合わせを正規表現を用いて記述された
パターンを探索して知識を抽出することを特徴とする、
請求項２に記載の知識抽出方法。
【請求項４】大量の文書データからの知識抽出を行う
装置において、基本辞書に含まれない語彙を分野依存辞
書に登録する言語特徴分析装置、自然言語解析を行う言
語解析装置、前記構文木中に存在する少なくとも２つの
単語およびこれら単語間の位置関係、または、前記構文
木中に存在する少なくとも２つの単語およびこれら単語
間の位置関係およびこれら単語の品詞や属性からなるラ
ベルを含むパターンの制約に基づいて特定パターンに適
合するデータを発見するパターン抽出装置及び、抽出し
た頻出パターンを表示する頻出パターン表示装置を具備
し、文書データから一般分野を対象とする基本辞書と、
文節生成処理用の生成規則と、構文木生成用の生成規則
と、分野依存辞書と、を参照して知識抽出を行う、こと
を特徴とする知識抽出装置。
【請求項５】前記言語特徴分析装置は、形態素解析用
辞書を用いて入力文書を品詞付き単語列に分割し、分野
依存辞書を用いて既に登録されている語を単語列から削
除し、残った語に対して出現頻度を計算し、頻度の多い
順序に並び替え、分野依存辞書に追加登録する手段を含
む、ことを特徴とする請求項４に記載の知識抽出装置。
【請求項６】前記言語解析装置は、形態素解析装置、
文節生成装置、辞書適用装置、及び係り受け解析装置を
含み、文節生成規則及び構文木生成規則に応じて、距
離、係り受け、及びラベルを考慮して、線形リスト及び
構文木の形態で構文解析データを生成する手段を含み、前記形態素解析装置は、入力文書を形態素解析を用いて
各単語に分割し、品詞または属性を含むラベルを付加
し、同義語辞書を用いて表現を統一させる手段を含む、
ことを特徴とする請求項４に記載の知識抽出装置。
【請求項７】前記パターン抽出装置は、頻出パターン
抽出装置と特定パターン適合文書抽出装置を含み、前記
頻出パターン抽出装置は、構文解析データを用いて、単
語と、単語の位置関係と、ラベルとの組み合わせに基づ
いて、共起関係を調べ、頻出するパターンを抽出する手
段を含み、前記特定パターン適合文書抽出装置は、構文
解析データが特定のパターンを構築する単語、属性を含
むか否か、各文節間に係り受けの関係があるか否かを検
査することによって、頻出パターンに一致する文書を抽
出し、これを出力する手段を含む、ことを特徴とする請
求項４に記載の知識抽出装置。
【請求項８】前記頻出パターン表示装置は、前記パタ
ーン抽出装置によって発見された頻出パターンとこれに
合致する構文木を持つ文書の表示手段を含む、ことを特
徴とする請求項４に記載の知識抽出装置。
【請求項９】大量の文書データが格納されている文書
データ用直接アクセス記憶装置から知識抽出を行うプロ
グラムにおいて、言語解析装置を用いて前記文書データ用直接アクセス記
憶装置から文書データを読み出し、形態素解析技術によ
り１つの文書から単語を切り出し単語間にある係り受け
の関係を推定し係り受け関係から構文木データ用直接ア
クセス記憶装置上に構文木を構築するステップと、前記構文木データ用直接アクセス記憶装置上に構築され
た構文木を読み出し、頻出パターン抽出装置を用いて読
み出した構築された構文木の中で多くの構文木に含まれ
ている頻出パターンを、前記構文木中に存在する少なく
とも２つの単語およびこれら単語間の位置関係、また
は、前記構文木中に存在する少なくとも２つの単語およ
びこれら単語間の位置関係およびこれら単語の品詞や属
性からなるラベルを含むパターンの制約に基づいて発見
するステップと、特定パターン適合文書抽出装置を用いて、発見された頻
出パターンへの代入にマッチする文書を前記文書用直接
アクセス記憶装置から検索するステップと、をコンピュータに実行させるためのプログラムを記録し
たコンピュータ読み取り可能な媒体。