JP3353829B2 - 膨大な文書データからの知識抽出方法、その装置及び媒体 - Google Patents

膨大な文書データからの知識抽出方法、その装置及び媒体

Info

Publication number
JP3353829B2
JP3353829B2 JP23967499A JP23967499A JP3353829B2 JP 3353829 B2 JP3353829 B2 JP 3353829B2 JP 23967499 A JP23967499 A JP 23967499A JP 23967499 A JP23967499 A JP 23967499A JP 3353829 B2 JP3353829 B2 JP 3353829B2
Authority
JP
Japan
Prior art keywords
words
document
pattern
data
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP23967499A
Other languages
English (en)
Other versions
JP2001084250A (ja
Inventor
裕史 松澤
剛志 福田
哲哉 那須川
徹 長野
正幸 諸橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP23967499A priority Critical patent/JP3353829B2/ja
Publication of JP2001084250A publication Critical patent/JP2001084250A/ja
Application granted granted Critical
Publication of JP3353829B2 publication Critical patent/JP3353829B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、特定の分野を対象
とした大量の文書から知識抽出を行うために、自動的に
パターンを抽出する技術に関するものであり、特に、抽
出された特定のパターンを満足する文書を大量文書の中
から抽出することによって、有用な知識抽出を行う膨大
な文書データからの知識抽出方法、その装置及び媒体に
関する技術である。
【0002】
【従来の技術】計算機及びネットワーク環境の発達と普
及により、膨大なデータが電子化されて蓄積され、オン
ラインで参照可能となっている。このデータを有効利用
すべく、データマイニングの技術が盛んに研究開発され
てきた。しかし、従来のデータマインニング技術で対象
としているのは、数値を中心とした集計可能な定型デー
タのみである。しかし、大抵のデータにはテキスト部分
(即ち文書データ)が含まれており文書データは基本的
に定型ではないため、数値を中心とした定型データと異
なり集計が困難である。従って、文書データについて
は、基本的には1つ1つ目を通す必要があるため、非常
に手間がかかってしまう。即ち、人手で分析できる文書
データの量には限度があり、せっかく蓄積された膨大な
文書データを持て余してしまうという問題が生じてい
る。このような、非定型のテキスト文書から知識を抽出
する技術は、「テキストマイニング」と呼ばれ最近注目
を浴びている。このテキストマイニングは、コールセン
ターの記録、アンケート結果の集計等での利用だけでな
く、特許関係の文書、営業報告書等あらゆる非定型な文
書の分析に応用可能なことから最も期待されている技術
である。
【0003】大量の文書の内容を分析する手段として、
類似内容を持つ文書を見つけてカテゴリごとに分類する
方法がある。例えば、現在ウェブの検索サイト等におい
て使われている方法として、予めカテゴリを用意してお
き、人が文書を読みその文書が該当するカテゴリを判断
し分類するというものがある。また、特定のキーワード
を含む文書はあるカテゴリに属するというルールに基づ
いて、この作業を自動的に行うことも可能である。例え
ば、「ABS」、「エアバッグ」というキーワードを含む
文書があれば車というカテゴリに属すると判断できる。
これは大量文書の大分類には適するが、より細かい分類
を行うことは困難である。
【0004】例えば、コールセンター業務においては、
顧客からの電話内容にはどのような要件が多いのかを分
析することによって、コールセンター業務を改善したい
という要求がある。電話を記録した内容を人手によって
大雑把に分類し、分類した結果から注意深く文書を読
み、ほぼ同一内容の文書を集計する作業で、この要求は
達成できる。しかし、毎月、何万件という問い合わせを
受けるコールセンターの場合、人手で、これを行うのは
非常に労力がかかり、現実には困難である。また、蓄積
された文書は、特定分野を対象とした文書であり、カテ
ゴリを非常に細かく分ける必要があるが、内容を予測し
て事前にカテゴリを用意するのも非常に困難である。例
えば、簡単な「車」というカテゴリではなく、更に細か
く「エンジンの異音の発生」等と細かく分類することが
要求される。このような細かい分類では、分類する人は
文書の内容を更に良く吟味して分類作業をしなければな
らず、その作業量は膨大となる。また、カテゴリの判断
基準が人によって異なったり、同一人物でもその都度違
う判断をする可能性があり、客観的なデータを得ること
が難しい。
【0005】近年、計算機を用いた文書の分類手法(文
書のクラスタリング)が開発されているが、この手法は
文書中に出現するキーワードから大雑把な分類を行うも
のである。しかし、特定分野を対象とする場合には、よ
り細かな分類が必要であり、従来の手法では対処できな
い。また、クラスタリングの結果、どんな内容の文書が
1つのクラスタに集められたのかは、その文書を人が読
まなければ理解できないという問題点がある。
【0006】上述のように、大量の文書から語をキーワ
ードとして切り出し、共起する単語のペアを取り出す従
来技術が、データマイニングにおける「相関ルールの抽
出技術」と呼ばれるものである。しかし、この手法では
以下の問題点がある。長い文書において始めに現れる語
と最後に現れる語との間には関連性が無い場合がある
が、これを共起するものとしてカウントしたり、語の係
り受けの関係が無視されているために、例えば「AがB
するとCがDした」と「AがDするとCがBした」では
意味が異なるが、共起関係だけを見ると、これら2つの
文書を同じものとして処理してしまう。従って、同一内
容の文書抽出が正しく行われない場合が多い。
【0007】上述のような、不都合を解決するために
は、特定の単語が特定の順番で出現するものだけを抽出
する方法が考えられる。これがデータマイニングにおけ
る「時系列パターン抽出技術」と呼ばれるものである。
例えば、単語A、単語B、単語C、単語Dという順序で
単語が出現する文書だけを抽出することができる。しか
し、このルールでは「AがBするとCがDした」という
文書の場合は抽出できるが、「Cは、AがBすると、D
した」という文書は、文書の意味は同じだが、単語の順
番が異なっているため抽出できないという問題がある。
即ち、同一内容の文書を抽出するためには、単語の共起
関係、出現順序だけでなく、単語間の係り受けの関係に
も着目する必要がある。
【0008】
【発明が解決しようとする課題】上述のように、本発明
では、大量の文書から特定のパターンを抽出すること、
また、そのパターンを満足する文書を自動的に抽出する
ことにより、有用な知識抽出を実現する膨大な文書デー
タからの知識抽出方法、その装置及び媒体を提供するも
のである。
【0009】
【課題を解決するための手段】本発明は、大量の文書デ
ータからの知識抽出方法を対象とする。この知識抽出方
法において、形態素解析技術により1つの文書から単語
を切り出し単語間にある係り受けの関係を推定し係り受
け関係から構文木を構築するステップと、構築された構
文木の中で多くの構文木に含まれている頻出パターンを
与えられたパターンの制約に基づいて発見するステップ
と、発見された頻出パターンへの代入にマッチする文書
を検索するステップと、を含むものである。即ち、本発
明による大量の文書データが格納されている文書データ
用直接アクセス記憶装置から知識抽出を行う方法は、言
語解析装置を用いて前記文書データ用直接アクセス記憶
装置から文書データを読み出し、形態素解析技術によ
り、読み出した文書データの1つの文書から単語を切り
出し単語間にある係り受けの関係を推定し係り受け関係
から構文木データ用直接アクセス記憶装置上に構文木を
構築するステップと、前記構文木データ用直接アクセス
記憶装置上に構築された構文木を読み出し、頻出パター
ン抽出装置を用いて読み出した構文木の中で多くの構文
木に含まれている頻出パターンを、前記構文木中に存在
する少なくとも2つの単語およびこれら単語間の位置関
係、または、前記構文木中に存在する少なくとも2つの
単語およびこれら単語間の位置関係およびこれら単語の
品詞や属性からなるラベルを含むパターンの制約に基づ
いて発見するステップと、特定パターン適合文書抽出装
置を用いて、発見された頻出パターンへの代入にマッチ
する文書を前記文書データ用直接アクセス記憶装置から
検索するステップと、を含むことを特徴とする。なお、
直接アクセス装置とは一般に知られるように磁気ディス
ク装置、固定ディスク装置、フレキシブルディスク装置
を含む、直接アクセスが可能な記憶装置を指す。また、
本発明は、上記方法のステップをコンピュータに実行さ
せるためのプログラムを記録したコンピュータ読み取り
可能な媒体をも含むものである。
【0010】更に、本発明は、大量の文書データからの
知識抽出装置を対象とする。この知識抽出装置におい
て、基本辞書に含まれない語彙を分野依存辞書に登録す
る言語特徴分析装置、自然言語解析を行う言語解析装
置、特定パターンに適合するデータを発見するパターン
抽出装置及び、抽出した頻出パターンを表示する頻出パ
ターン表示装置を具備し、文書データから一般分野を対
象とする基本辞書と、文節生成処理用の生成規則と、構
文木生成用の生成規則と、分野依存辞書とを含む。上記
構成において、大量文書からの知識抽出を好適に実施で
きる。
【0011】
【発明の実施の形態】言語特徴分析装置によって言語解
析装置の精度向上のために文書データから分野依存辞書
を作成し、言語解析装置によって係り受けを考慮した構
文木を作成し、パターン抽出装置によって頻出パターン
(即ち、知識)を抽出・出力する。以下、装置の形態で
発明を説明するが、本発明には、方法、プログラム媒体
も含まれることは言うまでもない。具体的な機能として
は、 1. 形態素解析技術により、1つの文書から単語を切
り出し、単語間における係り受けの関係を推定し、係り
受け関係から構文木を構築する機能、 2. 大量の文書から構築された大量の構文木の中で、
与えられたパターンの制約に基づいて、多くの構文木に
含まれているような頻出パターンを発見する機能、 3. 発見された頻出パターンの構文木を有する文書を
出力する機能、等である。
【0012】図1は、文章から形態素を切り出し、係り
受け関係を抽出し、その係り受け関係から構文木を生成
する過程の概略図を示している。図1の文章”AがBす
ると、CがDする”から、形態素解析、係り受け関係の
抽出を行った結果、「A」が「Bする」、「C」が「D
する」、「Bする」と「Dする」という2項関係が抽出
される。ここで2つの単語間の係り受け関係から矢印の
向きが決まる。これらの関係から、図の構文木が生成さ
れる。構文木は有向グラフ(接点を結ぶ枝に向きが有る
グラフ)として表現される。有向グラフ上の節点(ノー
ドと呼ぶ)には、形態素解析で切り出した単語をラベル
として付与する(図中では、A〜Dと略記)。2つのノ
ード間を結ぶ枝(アークと呼ぶ)には向きがある。アー
クの向きは、前述のように、単語間の係り受け関係によ
り決まる。図2(a)のように、ここで、パターンと
は、構文木中に存在するノードとその位置関係を示す。
ノード、即ち単語の個数は任意である。ここで、各単語
に対して制約を与えることができる(例えば、動詞、専
門用語であること等)。位置関係は、一定のものに制約
しても良いが、単語が少数であれば可能性のある全ての
位置関係であっても良い。パターンの例を示す。いま、
1つの構文木中に、2つの単語A、Bがあったとき、A
というラベルを持つノードからBというラベルを持つノ
ードに構文木中の有向グラフを辿ることで、到達するこ
とができ、更に図2(b)のように、それがある距離内
であるとき、これをA−*→Bと記述し、これをパター
ンとすることができる。更に、同様にして、他の単語
C、Dがあって、同時にA−*→B、A−*→C−*→
Dの関係が成り立っているとき、これを4つの単語とそ
の位置関係からなるパターンとする。また、このパター
ンに対しても制約を与えることができる。例えば、上記
Aに対して動詞である、専門用語である等の制約であ
る。頻出パターンの発見とは、このように複数の単語と
その位置関係を表わすパターンのうち頻出するものを発
見することである。
【0013】文書が日本語等の場合は、構文木だけでな
く線形リストを構築することもできる。線形リストに対
しても、同様に与えられたパターンの発見をすることが
でき、この場合は処理が高速化される。
【0014】共起関係については、一般的に文章中の語
句と語句との距離が大きくなるほど、その語句と語句と
の関連性が小さくなることが多いため、距離(例えば、
構文木において、あるノードからあるノードまでに経過
する枝の数(アーク数))という概念を導入する。例え
ば距離=3と定義する場合は、距離が4以上あるよう
な、語句と語句が離れているノード間を共起関係が無い
ものとして取り扱う等である。この距離は、対象の文書
に応じて適切な値を設定する。図3は本発明の全体構成
を示す図である。また、図4は本発明の処理の流れを示
すフローチャートである。図5は言語解析装置の詳細を
示すものであり、本装置によって構造解析された文書デ
ータを用いて、パターン抽出装置は頻出するパターンを
求め、そのパターンと合致する構文を持つ元の文書を取
り出す。頻出パターン表示装置は、発見された頻出パタ
ーンとそれに合致する構文木を持つ文書を表示する。こ
こで、本発明を構成する1.言語特徴分析装置、2.言
語解析装置、3.パターン抽出装置及び、4.頻出パタ
ーン表示装置について説明する。
【0015】1.言語特徴分析装置について 言語特徴分析装置は、言語解析装置の精度を向上させる
ために分野依存辞書の作成を行う。これは、一般的な辞
書に含まれていない特定分野のための語彙を追加し、そ
の語彙の属性について記述する。また、分野によって意
味や属性が異なる語彙について分野依存辞書を作成す
る。言語解析装置は、分析するデータに合った属性を必
要とするため、分野依存辞書(例えば「装置(19)」
を「装置(H/W)」に書きかえるための辞書)を用意
する必要がある。「装置」や「良−い」といった一般語
については、最初に用意したものをどのデータに対して
も利用できるが、製品名のような特定の属性を持つ語な
どは、分野ごとに作成しなければならない。これを、実
際のデータから調べて分野依存辞書に登録するのが言語
特徴分析装置であり、以下の手順で登録を行う。
【0016】A.従来技術である形態素解析装置と基本
辞書を用いて文を品詞付き単語列に分割する。 B.分野依存辞書に既に登録済みのものは単語列から削
除する。 C.単語の出現頻度を計算し、単語列を出現頻度の多い
順に並べ替える。 D.この単語列の中から、予め設定した属性に該当する
言葉を見つけて分野依存辞書に追加登録を行う。ここ
で、分野依存辞書中のエントリーの構造を品詞付き単語
列→品詞または属性付き単語列という形にすれば、たと
え形態素解析装置が誤った単語分割や誤った品詞付与を
しても必要な単語と属性を取り出すことができる。
【0017】2.言語解析装置について 言語解析装置は、形態素解析装置、文節生成装置、辞書
適用装置、及び係り受け解析装置を含むものであり、以
下各々について説明する。 (1)形態素解析装置 入力された文に対して従来技術である形態素解析を行う
ことによって単語tに分割した後、基本辞書を用いて単
語列に対してラベルl(品詞あるいは属性名に相当する
名前)を付加する。また単語間の距離dを重みとして付
加する。以下、形態素 w=[ t , l , d ]の組とする。
また同義語辞書を用いて、表現のゆれや同義語を1つの
統一された表記に変更する。
【0018】(2)文節生成装置 文(あるいは特定の文脈)に各語句が出現する順番にw1
, w2 , ,….wnとすると、w1から順に生成規則に従って
文節を決定する。wnが付属語である場合や、明らかに文
節が切れると判断できるところで文節を区切る。wkで文
節を区切られた場合、次の文節はwk+1から始まり、こ
れを文末になるまで行う。各文節を自立語と付属語の組
合わせにし、これを構文木のノード及びノードからのア
ークとする。また、「反、非」等の接頭語、「ない」等
の助動詞がある語句の場合は、ラベルの符号を反転させ
る。
【0019】(3)辞書適用装置 分野依存辞書によって、単語列中の単語及びラベルを書
き換える。対応する属性名が無い場合は、品詞がそのま
まラベルとして残る。各ノードには単語の他に、品詞等
の情報、アークには助詞の情報等が付加される。
【0020】例えば、「装置が良くない訳ではない」と
いう文章からは、下記のようなものが出力される。ここ
で用いた形態素解析装置においては常に重みは1にな
り、重みdの表示を省略する。また番号は品詞を示す。
例えば、19…名詞、75…格助詞「が」、17…形容詞の語
幹、42…形容詞連用形活用語尾、等である。句点(。)
のdを∞にすること等は、簡単ではあるが効果的な重み
付けの方法である。(1).形態素解析装置からの出力 :[装置,19]
[が,75][良−い,17][く,42][な−い,51][い,4
3][訳,94][で,56][は,85][な−い,51][い,4
3](2).文節生成装置からの出力 :([装置,19]
[が,75]) ([良−い,17][く,42][な−い,51]
[い,43]) ([訳,94][で,56][は,85]) ([な
−い,51][い,43])小括弧で区切られているのが文節
である。(3).辞書適用装置からの出力 :([装置,H/W]
[が,75]) ([良−い,評価][く,42][な−い,51]
[い,43]) ([訳,94][で,56][は,85])
([な−い,51][い,43]) このように、入力文章から文節毎に分解されて、線形リ
ストの構文構造データが作成される。更に、後述する文
節間の係り受け関係の分析をすることで、有向グラフの
構文構造データを作成することができる。
【0021】(4)係り受け生成装置 文法規則は、係り受け元のノードの自立語(Rsd)、付
属語(Rsi)、係り受け先の自立語(Rdd)と付属語(R
di)、及び係り受けの性質(T)、の組み合わせ{Rsd , R
si , Rdd , Rdi , T }から構成される。この文法規則
を係り受け元のノードNnと係り受け先のノードN(n
m)に適用し、文法規則に合致した場合NnとNmに係り受
けの関係があると判断し、NnからNmに対して係り受けの
関係をつける。文法規則に合致すれば、係り受けは幾つ
でも持つことができる。また付属語及び係り受けの性質
からアークに重みを付けることもできる。抽出した係り
受けの関係をアークとし、辞書適用装置で抽出した情報
を各ノードに付加することによって、構文木を作成す
る。
【0022】3.パターン抽出装置について図6に示すように、 パターン抽出装置は、頻出パターン
抽出装置と特定パターン適合文書抽出装置を含むもので
あり、以下各々について説明する。
【0023】(1)頻出パターン抽出装置 ここでは、1つのパターンとして、4つの単語(仮にV
a,Vb,Na,Nbとする)とその位置関係としてVa−*→Vb−
*→Nb、Va−*→Naを考える。またVa、Vbは動詞である
こと、Na、Nbは名詞であることを制約として与える。こ
のようなパターンが与えられると頻出パターン抽出装置
は、各構文木に含まれる単語で、VaとNa、VbとNb、Vaと
Vbという係り受けの関係を持ち、かつVa Vbが動詞、Na
Nbが名詞であるような単語の組(Va −Vb− Na− Nb)
を探し、これを集計していく。
【0024】実現するための一例として具体的には、(イ) A.構文木を解析し、動詞ノードを見つけ、その
ノードから近距離に存在する動詞ノードについて調べ、
動詞と動詞の係り受けの関係にある動詞−動詞のペアを
求める。経路が複数ある場合は、距離が最短となるルー
トでの距離を集計の対象とする。例えば、ノードVaから
有向グラフを辿っていき、一定の距離内にあるノードVb
が存在すればノードVaとノードVbのペアが対象となる。
これを構文木上の全ての動詞ノードに対して行う。例え
ば、ここでVa−Vb、Vb−Vcが発見されたこととする。 B.Aと同様に、構文木を解析し、動詞ノードから近距
離に存在する名詞ノードについて調べ、係り受けの関係
にある動詞−名詞のペアを求める。例えば、ここでVa−
Na、Vb−Nb、Vc−Ncのペアが発見されたとする。 C.Aで求めた動詞−動詞の係り受けのペアと、Bで求
めた動詞−名詞の係り受けのペアから4つの語からなる
組を求める。例えば、AでVa−Vbが発見されて、かつB
でVa−Na、Vb−Nbが発見されれば、図7のように、この
4つの語からなる組(Va−Na−Vb−Nb)は集計対象とな
る。同様に(Va−Nb−Vc−Nc)も集計対象となる。
【0025】(ロ)全ての文書(構文木)に対して、上
記A、B、Cを行い、最終的に集計された4つの語から
なる組の中から、頻出した組み合わせを出力する。(ハ) 要素数の多い頻出パターンを抽出する場合を考え
る。パターンとして6つの単語(Va,Vb,Vc,Na,Nb,Nc)
からなり、Va−*→Vb−*→Vc−*→Nc、Va−*→Na、
Vb−*→Nbという位置関係を考える。また、Va、Vb、Vc
は動詞であること、Na、Nb、Ncは名詞であることを制約
として与える。このようなパターンが与えられた時に
は、同様にして、Aで求めた動詞−動詞のペアの中に、
Va−Vb,Vb−Vcというペア(VaはVbに、VbはVcにそれぞ
れ係り受けの関係がある)が存在するか調べ、Bで求め
た動詞−名詞の係り受けのペアを用いて、図8のように
6つの語からなる組を抽出する。
【0026】(2)特定パターン適合文書抽出装置 大量文書の中から、頻出パターンを満足する文書を抽出
し、これを出力する。これは、構文解析データ(構文木
データ)に対して、特定のパターンを構築する単語や属
性を全て含んでいるか、含んでいる場合には、それぞれ
の単語間に係り受けの関係があるのか否かを調べること
で実現できる。
【0027】(3)線形リストからのパターン抽出 言語解析装置において、係り受け解析装置にかけるデー
タとして、線形リストの構造を持つ構文解析データが構
築されており、このデータからも以下のようにパターン
を抽出することが可能である。(イ) 重み付きの距離を含んだ形態素(線形リストの要
素)wの列wに対し、係り受けの探索範囲を0〜∞で
設定する。wは単語t,品詞または属性を表わすラベル
l、右隣の単語との重み付き距離dの組である(w=
[t,l,d])。この時、探索範囲の値が0というの
は、探索を開始する場所の単語のみを探すことを意味
し、1ならば前後の単語も係り受けの探索候補とするこ
とを意味する。(ロ) 探索パターンは P=<p1,p2,….,pn> 、 p,….,p ∈ {[t,l]} で表わすことができる。各p(i=1,2,…,n)は、単語
tと品詞または属性を表わすラベルlの組であり、Pは
このp1,p2,….,pnを順に並べたものである。このと
き、pと次に続くpi+1は,(i)で指定した係り
受けの探索範囲以内に存在しなければならない。また、
パターンは、正規表現を用いて記述することもできる。
このパターンPに一致するものを文章[t,l,d]
中から探索し、これに一致する線形リストの部分集合の
重み付き距離 d=Σ(d,...,d) (d,...,dはパターンにマッチする最初から
最後までのワードの重み付き距離)が最少となるものを
選び出す。
【0028】(ハ)探索範囲と探索パターンを与えられ
て、入力の単語列[t,l,d](単語は名前t、属性
名l、右隣の単語との距離dという要素からなる)から
パターンに合致する単語の組を取り出したものが、抽出
情報である。例えば、「装置が良くない訳ではない」と
いう文を例にとると、この文から構築された線形リスト
(〔0020〕参照)から、パターン P=<[*,H/W]> により属性名「H/W」にマッチする要素[装置,H/
W](距離は省略)を取り出すことができる。 P=<[*,H/W|S/W],[*,評価]> により、テキスト中から複合属性[H/W]−[評価]
または[S/W]−[評価]にマッチする要素の組を探
し、この例では[装置,H/W]−[良い,評価]を取
り出すことができる。
【0020】参照)から、パターン P=<[*,H/W]> により属性名「H/W」にマッチする要素[装置,H/
W](距離は省略)を取り出すことができる。 P=<[*,H/W|S/W],[*,評価]> により、テキスト中から複合属性[H/W]−[評価]
または[S/W]−[評価]にマッチする要素の組を探
し、この例では[装置,H/W]−[良い,評価]を取
り出すことができる。
【0029】4.頻出パターン表示装置について パターン抽出装置によって発見された頻出パターンとそ
れにマッチする構文木を有する文書を表示する。
【0030】本手法を実際のコールセンター業務で作成
された9万文のコールデータを処理して、その有効性を
確認した。以下に実施例の1具体例を示す。始めに個々
の文書から従来技術である形態素解析を行い、係り受け
解析装置によって構文木を構築する。例として簡単な文
章「電源を入れるとフロッピーディスクを要求する絵が
出る。」を用いることとする。この文章からは図9のよ
うな構文木(有向グラフ)が構築される。このグラフ中
で、有向のアークは語句の係り受けの関係を表わしてい
る。また、ノード(各語句)の右肩にある四角は、その
語が動詞であるか名詞であるかを示す(Nは名詞、Vは動
詞を示す)。
【0031】この構文木を作成するための文法規則は8
5個であり、あるノードの語句が動詞の連体形であれ
ば、そのノード以降に現れる名詞に対して係り受けを行
うというような簡単なものである。この例では、アーク
の重みは全て等しく1とする。有向グラフにおいて、あ
るノードからあるノードまでに経過した枝の数(アーク
数)を距離と定義する。例えば、「電源」と「要求す
る」では2つのアークを経由することで到達できるの
で、距離=2となる。複数の経路が存在する場合は最短
の経路で計算する。また、抽出する知識としては、ここ
では距離が3以内のものだけを考えることとする。この
ように距離をある程度短くすることで、単語間の関連性
が無いと推定される係り受けを排除することが可能とな
る。上記の構文木から動詞−名詞の係り受けを求める
と、「出る」−「絵」、「要求する」−「フロッピーデ
ィスク」、「入れる」−「電源」等の近距離に存在する
語句のペアを取り出すことができる。
【0032】更に、動詞−動詞の係り受けにペアを求め
ると、「要求する」−「入れる」、「出る」−「入れ
る」を求めることができる。求めた動詞−動詞、動詞−
名詞の各ペアから、V1−V2、V1−N1、V2−N
2の係り受けの関係になっているものを求めると「電
源」「入れる」「フロッピーディスク」「要求する」や
「フロッピーディスク」「要求する」「絵」「出る」と
いう4つの語からなる組を抽出することができる。ま
た、「電源」「入れる」「フロッピーディスク」「要求
する」「絵」「出る」という6つの語からなる組も抽出でき
る。このように抽出した4つの語からなる組と6つの語
からなる組を集計することで、大量文書の中から同じ単
語を同じ係り受けの構造の中で用いる文書について集計
することができる。
【0033】「名詞2」−「動詞2」、「名詞1」−「動詞
1」、「動詞1」−「動詞2」という構成の4つの語か
らなる組(即ち知識)を、実際のコールセンターのコー
ル記録文書から抽出してみる。「増設H/W」−「外
す」、「BIOS」−「戻す」という4つの語からなる知識
を抽出することができた。この知識の抽出元となった文
章は以下のものである。「増設H/Wを外してBIOSの復
元、FDISKで区画の切り直しリカバリーCDで出荷時に戻
してください」、「増設H/Wを外してBIOSの復元、リカ
バリーCDで出荷時に戻していってもISDNカードが使えな
い」、「増設H/Wを全て外してBIOSをF5で工場設定値に
戻してもレジューム機能の項目が復活できず、BIOS、H/
Wの不具合と考えサービスセンターにて調査が必要と判
断」等である。
【0034】その他に「ファイル」−「見つからな
い」、「メッセージ」−「出る」という4つの語からな
る知識も抽出することができた。この知識の抽出元とな
った文章は以下のものである。「プログラムファイルエ
ラーのファイルが見つからないとメッセージが出る」、
「“または必要なファイルが見つかりません”のメッセ
ージが出るようになったのでメッセージを消したい」、
「Xで\INSTALLと入力しても“ファイルが見つかりませ
ん”といった旨のエラーメッセージが出てしまいインス
トールできない」等である。
【0035】また、他に「PC」−「表示する」、「OS」
−「戻る」、「方法」−「分からない」という6つの語
からなる知識も抽出することができた。この知識の抽出
元となった文章は以下のものである。「PCの機種A、黒
い画面に白い文字が表示されていて、××モードからOS
に戻る方法が分からない」、「PCの機種A、ゲーム選択
後、コマンドプロンプトが表示され、OSに戻る方法が分
からない」、「PCの機種A、日本語DOSゲームアイコン選
択後、黒い画面に白い文字で“Cで¥OS"と表示され、OS
に戻る方法が分からない」等である。
【0036】更に、他に「電源」−「入れる」、「フロ
ッピーディスク」−「要求する」、「絵」−「出る」と
いう6つの語からなる知識も抽出することができた。こ
の知識の抽出元となった文章は以下のものである。「電
源を入れるとフロッピーディスクを要求する絵が出
る」、「ネットワークの設定を確認しようとしたが電源
を入れるとフロッピーディスクを要求する絵が出てOS起
動できない」、「電源を入れるとフロッピーディスクを
要求する絵が出てくる、BIOSでハードディスクは認識し
ている」等である。
【0037】更に、他に「インターネット」−「接続す
る」、「発信音」−「聞こえない」、「メッセージ」−
「出る」という6つの語からなる知識も抽出することが
できた。この知識の抽出元となった文章は「機種Aのイ
ンターネットに接続しようとすると“発信音が聞こえま
せん”とメッセージが出て繋がらない」、「インターネ
ットに接続しようとすると“発信音が聞こえない”とい
うメッセージが出て接続できない」、「機種Aのインタ
ーネットでプロバイダーに接続しようとすると“発信音
が聞こえません”とメッセージが出る」等である。
【0038】本発明による知識抽出(頻出パターン発
見)方法のメリットとしては、 (1) 従来法であるキーワードだけを使った共起関係
や順序関係のデータマイニングの適用では得ることがで
きなかったパターンを抽出することができる。また従来
技術では、誤って見つけてしまうパターンを見つけな
い。 (2) 抽出された知識(頻出パターン)が人間にとっ
てわかりやすく、視認性に優れる。 (3) 線形リストを併用することで、処理を高速化で
きる。等がある。
【0039】
【発明の効果】本発明によって、従来のデータマイニン
グ手法では発見できなかったりまたは誤って発見してい
た知識を、より適切に誤ることなく知識抽出できるよう
になった。また、抽出した知識も視認性に優れ、人間に
とって理解しやすいものとなった。例えば、企業のコー
ルセンター等では、大量の文書に出現するほぼ同一内容
の文書を発見し、出現数の多い内容について調べること
で、顧客からの問い合わせの多い内容に対してFAQの
作成を行ったり、企業のホームページに掲載すること
で、問い合わせ件数の低減をすることができたり、その
内容をオペレータに知らせておくことで回答に要する時
間の削減を容易にすることができる。
【図面の簡単な説明】
【図1】 自然言語から構文木を作る過程を示す図であ
る。
【図2】 パターンについて示す図である。
【図3】 本発明の全体構成を示す図である。
【図4】 本発明の処理のフローチャートである。
【図5】 言語解析装置の詳細を示す図である。
【図6】 パターン抽出装置を示す図である。
【図7】 抽出された4つの語からなる組(パターン)
を示す図である。
【図8】 抽出された6つの語からなる組(パターン)
を示す図である。
【図9】 パターンの例を示す図である。
───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.7 識別記号 FI G06F 17/27 G06F 17/27 E 17/28 17/28 U (72)発明者 福田 剛志 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 那須川 哲哉 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 長野 徹 神奈川県大和市下鶴間1623番地14 日本 アイ・ビー・エム株式会社 東京基礎研 究所内 (72)発明者 諸橋 正幸 東京都多摩市聖ヶ丘 4丁目1番地1号 多摩大学経営情報学部内 (56)参考文献 特開2000−99516(JP,A) 特開2000−172691(JP,A) 雄山真弓、岡田孝,構文解析木を対象 とするデータマイニング,情報処理学会 研究報告(98−CH−40),日本,社団 法人情報処理学会,1998年10月24日,V ol.98,No.97,pp.17−24, (CSDB国内学会論文1999−01140− 002) 雄山真弓、岡田孝,李貴峰,構文解析 木からの知識発見システム,電子情報通 信学会技術研究報告(NLC98−26〜 31),日本,社団法人電子情報通信学 会,1998年10月16日,Vol.98,No 338,pp.25−32,(CSDB国内学 会論文2000−00620−003) 那須川哲哉、諸橋正幸、長野徹,テキ ストマイニング −膨大な文書データの 自動分析による知識発見−,情報処理, 日本,社団法人情報処理学会,1999年 4月15日,Vol.40,No.4,p p.358−364,(CSDB国内学会論文 2000−01213−002) 長野徹、諸橋正幸、那須川哲哉,テキ ストマイニングのための情報抽出方法, 1999年度人工知能学会全国大会(第13 回)論文集,日本,社団法人人工知能学 会,1999年 6月15日,pp.411−412 (58)調査した分野(Int.Cl.7,DB名) G06F 17/30 G06F 9/44 G06F 17/27 G06F 17/28

Claims (9)

    (57)【特許請求の範囲】
  1. 【請求項1】 大量の文書データが格納されている文書
    データ用直接アクセス記憶装置から知識抽出を行う方法
    において、言語解析装置を用いて前記文書データ用直接アクセス記
    憶装置から文書データを読み出し、 形態素解析技術によ
    、読み出した文書データの1つの文書から単語を切り
    出し単語間にある係り受けの関係を推定し係り受け関係
    から構文木データ用直接アクセス記憶装置上に構文木を
    構築するステップと、前記構文木データ用直接アクセス記憶装置上に構築され
    た構文木を読み出し、頻出パターン抽出装置を用いて読
    み出した 構文木の中で多くの構文木に含まれている頻出
    パターンを、前記構文木中に存在する少なくとも2つの
    単語およびこれら単語間の位置関係、または、前記構文
    木中に存在する少なくとも2つの単語およびこれら単語
    間の位置関係およびこれら単語の品詞や属性からなるラ
    ベルを含むパターンの制約に基づいて発見するステップ
    と、特定パターン適合文書抽出装置を用いて、 発見された頻
    出パターンへの代入にマッチする文書を前記文書データ
    用直接アクセス記憶装置から検索するステップと、 を含むことを特徴とする知識抽出方法。
  2. 【請求項2】 前述した構文木を構築するステップにお
    いて、線形リストを構築し、構築した線形リストをも使
    用して頻出パターンを発見する、請求項1に記載の知識
    抽出方法。
  3. 【請求項3】 前述した頻出パターンを発見するステッ
    プにおいて、前記線形リストを用いて、探索範囲と単語
    とラベルとの組み合わせを正規表現を用いて記述された
    パターンを探索して知識を抽出することを特徴とする、
    請求項2に記載の知識抽出方法。
  4. 【請求項4】 大量の文書データからの知識抽出を行う
    装置において、基本辞書に含まれない語彙を分野依存辞
    書に登録する言語特徴分析装置、自然言語解析を行う言
    語解析装置、前記構文木中に存在する少なくとも2つの
    単語およびこれら単語間の位置関係、または、前記構文
    木中に存在する少なくとも2つの単語およびこれら単語
    間の位置関係およびこれら単語の品詞や属性からなるラ
    ベルを含むパターンの制約に基づいて特定パターンに適
    合するデータを発見するパターン抽出装置及び、抽出し
    た頻出パターンを表示する頻出パターン表示装置を具備
    し、文書データから一般分野を対象とする基本辞書と、
    文節生成処理用の生成規則と、構文木生成用の生成規則
    と、分野依存辞書と、を参照して知識抽出を行う、こと
    を特徴とする知識抽出装置。
  5. 【請求項5】 前記言語特徴分析装置は、形態素解析用
    辞書を用いて入力文書を品詞付き単語列に分割し、分野
    依存辞書を用いて既に登録されている語を単語列から削
    除し、残った語に対して出現頻度を計算し、頻度の多い
    順序に並び替え、分野依存辞書に追加登録する手段を含
    む、ことを特徴とする請求項4に記載の知識抽出装置。
  6. 【請求項6】 前記言語解析装置は、形態素解析装置、
    文節生成装置、辞書適用装置、及び係り受け解析装置を
    含み、文節生成規則及び構文木生成規則に応じて、距
    離、係り受け、及びラベルを考慮して、線形リスト及び
    構文木の形態で構文解析データを生成する手段を含み、 前記形態素解析装置は、入力文書を形態素解析を用いて
    各単語に分割し、品詞または属性を含むラベルを付加
    し、同義語辞書を用いて表現を統一させる手段を含む、
    ことを特徴とする請求項4に記載の知識抽出装置。
  7. 【請求項7】 前記パターン抽出装置は、頻出パターン
    抽出装置と特定パターン適合文書抽出装置を含み、前記
    頻出パターン抽出装置は、構文解析データを用いて、単
    語と、単語の位置関係と、ラベルとの組み合わせに基づ
    いて、共起関係を調べ、頻出するパターンを抽出する手
    段を含み、前記特定パターン適合文書抽出装置は、構文
    解析データが特定のパターンを構築する単語、属性を含
    むか否か、各文節間に係り受けの関係があるか否かを検
    査することによって、頻出パターンに一致する文書を抽
    出し、これを出力する手段を含む、ことを特徴とする請
    求項4に記載の知識抽出装置。
  8. 【請求項8】 前記頻出パターン表示装置は、前記パタ
    ーン抽出装置によって発見された頻出パターンとこれに
    合致する構文木を持つ文書の表示手段を含む、ことを特
    徴とする請求項4に記載の知識抽出装置。
  9. 【請求項9】 大量の文書データが格納されている文書
    データ用直接アクセス記憶装置から知識抽出を行うプロ
    グラムにおいて、言語解析装置を用いて前記文書データ用直接アクセス記
    憶装置から文書データを読み出し、 形態素解析技術によ
    り1つの文書から単語を切り出し単語間にある係り受け
    の関係を推定し係り受け関係から構文木データ用直接ア
    クセス記憶装置上に構文木を構築するステップと、前記構文木データ用直接アクセス記憶装置上に構築され
    た構文木を読み出し、頻出パターン抽出装置を用いて読
    み出した 構築された構文木の中で多くの構文木に含まれ
    ている頻出パターンを、前記構文木中に存在する少なく
    とも2つの単語およびこれら単語間の位置関係、また
    は、前記構文木中に存在する少なくとも2つの単語およ
    びこれら単語間の位置関係およびこれら単語の品詞や属
    性からなるラベルを含むパターンの制約に基づいて発見
    するステップと、特定パターン適合文書抽出装置を用いて、 発見された頻
    出パターンへの代入にマッチする文書を前記文書用直接
    アクセス記憶装置から検索するステップと、 をコンピュータに実行させるためのプログラムを記録し
    たコンピュータ読み取り可能な媒体。
JP23967499A 1999-08-26 1999-08-26 膨大な文書データからの知識抽出方法、その装置及び媒体 Expired - Fee Related JP3353829B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP23967499A JP3353829B2 (ja) 1999-08-26 1999-08-26 膨大な文書データからの知識抽出方法、その装置及び媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP23967499A JP3353829B2 (ja) 1999-08-26 1999-08-26 膨大な文書データからの知識抽出方法、その装置及び媒体

Publications (2)

Publication Number Publication Date
JP2001084250A JP2001084250A (ja) 2001-03-30
JP3353829B2 true JP3353829B2 (ja) 2002-12-03

Family

ID=17048236

Family Applications (1)

Application Number Title Priority Date Filing Date
JP23967499A Expired - Fee Related JP3353829B2 (ja) 1999-08-26 1999-08-26 膨大な文書データからの知識抽出方法、その装置及び媒体

Country Status (1)

Country Link
JP (1) JP3353829B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4772233B2 (ja) * 2001-03-19 2011-09-14 株式会社東芝 文書データ分析プログラム及びコンピュータによる文書データ分析方法並びに文書データ分析システム
JP2002373201A (ja) * 2001-06-13 2002-12-26 Nec Commun Syst Ltd クレーム対応処理システム、クレーム対応処理方法及び該処理実行プログラム
CN1934570B (zh) 2004-03-18 2012-05-16 日本电气株式会社 文本挖掘装置和其方法
JP4671164B2 (ja) * 2004-11-11 2011-04-13 日本電気株式会社 文書クラスタリング装置、クラスタリング方法及びクラスタリングプログラム
JP4575798B2 (ja) * 2005-02-01 2010-11-04 日本放送協会 音声合成装置及び音声合成プログラム
JP4992715B2 (ja) 2005-08-04 2012-08-08 日本電気株式会社 データ処理装置、データ処理方法、データ処理プログラム
JP5299272B2 (ja) * 2007-04-12 2013-09-25 富士通株式会社 分析プログラムおよび分析装置
JP4848317B2 (ja) 2007-06-19 2011-12-28 インターナショナル・ビジネス・マシーンズ・コーポレーション データベースのインデックス作成システム、方法及びプログラム
JP5038939B2 (ja) * 2008-03-03 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索システム、方法及びプログラム
JP4957656B2 (ja) * 2008-06-11 2012-06-20 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
JP5487605B2 (ja) * 2008-12-04 2014-05-07 富士ゼロックス株式会社 情報処理装置及びプログラム
EP2430568A4 (en) * 2009-05-14 2015-11-04 Elsevier Inc METHODS AND SYSTEMS FOR KNOWLEDGE DISCOVERY
JP5367869B2 (ja) * 2012-04-27 2013-12-11 楽天株式会社 集計装置、集計プログラム、集計プログラムを記録したコンピュータ読み取り可能な記録媒体、及び集計方法
JP6176017B2 (ja) 2013-09-17 2017-08-09 富士通株式会社 検索装置、検索方法、およびプログラム
JP6414967B2 (ja) * 2014-11-25 2018-10-31 日本放送協会 文書処理装置およびプログラム
US10445423B2 (en) * 2017-08-17 2019-10-15 International Business Machines Corporation Domain-specific lexically-driven pre-parser

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3887971B2 (ja) * 1998-09-25 2007-02-28 富士ゼロックス株式会社 情報管理装置、情報管理方法及び情報管理プログラムを記録したコンピュータ読み取り可能な記録媒体
JP3583631B2 (ja) * 1998-12-03 2004-11-04 三菱電機株式会社 情報マイニング方法、情報マイニング装置、および情報マイニングプログラムを記録したコンピュータ読み取り可能な記録媒体

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
那須川哲哉、諸橋正幸、長野徹,テキストマイニング −膨大な文書データの自動分析による知識発見−,情報処理,日本,社団法人情報処理学会,1999年 4月15日,Vol.40,No.4,pp.358−364,(CSDB国内学会論文2000−01213−002)
長野徹、諸橋正幸、那須川哲哉,テキストマイニングのための情報抽出方法,1999年度人工知能学会全国大会(第13回)論文集,日本,社団法人人工知能学会,1999年 6月15日,pp.411−412
雄山真弓、岡田孝,李貴峰,構文解析木からの知識発見システム,電子情報通信学会技術研究報告(NLC98−26〜31),日本,社団法人電子情報通信学会,1998年10月16日,Vol.98,No338,pp.25−32,(CSDB国内学会論文2000−00620−003)
雄山真弓、岡田孝,構文解析木を対象とするデータマイニング,情報処理学会研究報告(98−CH−40),日本,社団法人情報処理学会,1998年10月24日,Vol.98,No.97,pp.17−24,(CSDB国内学会論文1999−01140−002)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107797991A (zh) * 2017-10-23 2018-03-13 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统
CN107797991B (zh) * 2017-10-23 2020-11-24 南京云问网络技术有限公司 一种基于依存句法树的知识图谱扩充方法及系统

Also Published As

Publication number Publication date
JP2001084250A (ja) 2001-03-30

Similar Documents

Publication Publication Date Title
JP3353829B2 (ja) 膨大な文書データからの知識抽出方法、その装置及び媒体
Nasukawa et al. Text analysis and knowledge mining system
US6745161B1 (en) System and method for incorporating concept-based retrieval within boolean search engines
Srihari et al. Infoxtract: A customizable intermediate level information extraction engine
JP3266586B2 (ja) データ分析システム
JP2742115B2 (ja) 類似文書検索装置
US20030004932A1 (en) Method and system for knowledge repository exploration and visualization
Kozakov et al. Glossary extraction and utilization in the information search and delivery system for IBM Technical Support
JPWO2003012679A1 (ja) データ処理方法、データ処理システムおよびプログラム
GB2368670A (en) Data acquisition system
Jabbar et al. A survey on Urdu and Urdu like language stemmers and stemming techniques
Piskorski et al. An Intelligent Text Extraction and Navigation System.
JP4378106B2 (ja) 文書検索装置、文書検索方法及びプログラム
JPH11259524A (ja) 情報検索システム、情報検索システムにおける情報処理方法および記録媒体
KR20020027088A (ko) 구문 분석에 의거한 자연어 처리 기술 및 그 응용
JP2012079160A (ja) 情報検索装置及びコンピュータプログラム
JPH03132872A (ja) 索引情報生成装置
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
KR102661438B1 (ko) 인터넷 기사 크롤링, 글로벌 가치 사슬에 영향을 주는 이슈 기사의 요약 서비스를 제공하는 웹크롤러 시스템
Varma Building large scale ontology networks
KR20020054254A (ko) 사전구조를 이용한 한국어 형태소 분석방법
JP3851712B2 (ja) 文書管理システムおよびそのシステムとしてコンピュータを機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体
KR20010008962A (ko) 개념분류망을 이용한 정보 검색 장치 및 그 방법
JP2003099429A (ja) 用語集生成装置及び用語集生成プログラム並びに用語集検索装置
JP2001101207A (ja) 文書要約装置

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees