JP2001216312A - 知識発見装置 - Google Patents

知識発見装置

Info

Publication number
JP2001216312A
JP2001216312A JP2000023848A JP2000023848A JP2001216312A JP 2001216312 A JP2001216312 A JP 2001216312A JP 2000023848 A JP2000023848 A JP 2000023848A JP 2000023848 A JP2000023848 A JP 2000023848A JP 2001216312 A JP2001216312 A JP 2001216312A
Authority
JP
Japan
Prior art keywords
term
document data
document
narrowed
evaluation value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000023848A
Other languages
English (en)
Other versions
JP3379931B2 (ja
Inventor
Katsuhiko Mitobe
勝彦 水戸部
Katsuyuki Doi
功志 土居
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2000023848A priority Critical patent/JP3379931B2/ja
Publication of JP2001216312A publication Critical patent/JP2001216312A/ja
Application granted granted Critical
Publication of JP3379931B2 publication Critical patent/JP3379931B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】複数の文書から、操作者の意図していない関連
タームを抽出する。 【解決手段】 第1の絞り込み条件が与えられると、こ
れに合致する文書が抽出され、絞り込み後の文書から、
タームを抽出して、その評価がなされる。第2の絞り込
み条件が与えられると、前記絞り込み後の文書をさらに
当該絞り込み条件で絞り込んで、タームを抽出して、そ
の評価をする。かかる処理を2回以上行うことにより、
段階的に絞り込み処理が行われ、各段階毎に記憶された
文書から抽出されるタームについて、各絞り込み段階
(世代)の履歴データを折れ線グラフが得られる。かか
る履歴データを表示することにより、操作者は、あるタ
ームについて、自分では意図していない別のタームとの
関連性を得ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】この発明は、文書データから
知識を発見する知識発見装置に関し、特に新たな知識発
見手法に関する。
【0002】
【従来技術およびその課題】従来、多くの数値データを
記憶しておき、これらの数値データから所望の情報や知
識を発見すること(以下、マイニングという)が試みら
れている。さらに、今日では数値の分析だけでなく、テ
キストデータのマイニングをすることが提案されてい
る。例えば、前記あらかじめ多くの文書情報を記憶して
おき、操作者は注目するトピックなどを検索条件として
与えて前記多くの文書情報をクラスタリングし、あるク
ラスタにクラスタリングされた文書情報中について、各
タームのtfidf値を求める。かかるtfidf値を参考にして
ターム間の関連度などを発見することができる。
【0003】しかし、上記知識発見方法では、操作者が
注目するトピックに基づいて、クラスタリングするため
に、操作者が意図しにくい意外な関連や傾向を発見する
ことが困難であった。
【0004】この発明は上記問題を解決し、文書データ
から容易にターム間の関連や傾向を得ることができる知
識発見装置またはその方法を提供することを目的とす
る。また、複数の文書データ間の関連や傾向を得ること
ができる知識発見装置またはその方法を提供することを
目的とする。
【0005】
【課題を解決するための手段および発明の効果】1)本
発明にかかる知識発見装置においては、1)絞り込み対象
の文書データを記憶する候補文書データ記憶手段、2)絞
り込み条件が与えられると、この絞り込み条件に合致す
る文書データを、前記候補文書データから抽出して絞り
込み後文書データとして絞り込み後文書データ記憶手段
に記憶する絞り込み手段、3)絞り込み後文書データ記憶
手段に記憶された絞り込み後文書データを、さらに絞り
込む絞り込み条件が与えられると、前記絞り込み後文書
データから、当該絞り込み条件に合致する文書データを
抽出し、前記絞り込み後文書データ記憶手段に、絞り込
み段階が進んだ絞り込み後文書データとして記憶する再
絞り込み手段、4)前記各絞り込み段階における絞り込み
後文書データからタームを抽出するターム抽出手段、5)
ターム評価規則を記憶するターム評価規則記憶手段、6)
前記ターム評価規則に基づいて前記抽出されたタームの
ターム評価値を演算するターム評価値演算手段、7)前記
抽出されたタームについて、各絞り込み段階におけるタ
ーム評価値がどのように変化したかを示すターム評価値
履歴データを演算するターム評価値履歴データ演算手段
を備えている。このように、絞り込み後文書データ記憶
領域に絞り込み後文書データを各段階毎に記憶してお
き、各段階毎にタームの評価値を演算し、タームの評価
値の履歴データを求めることにより、かかるターム評価
の履歴を参照にして、新たな知識を得ることができる。
【0006】2)本発明にかかるプログラムを記憶した
記録媒体においては、絞り込み条件によって候補文書が
段階的に絞り込まれた絞り込み後文書データを各段階毎
に記憶する絞り込み後文書データ記憶領域から、各文書
データを読み出して、各文書データ中に存在するターム
のターム評価値を演算することにより、複数の文書から
知識を発見する処理をコンピュータに実行させるための
プログラムを記憶した記憶媒体であって、前記各段間毎
の絞り込み後文書データから、ターム評価規則記憶部に
記憶されたターム評価規則に基づいて各タームのターム
評価値を演算し、前記ターム評価値を演算したタームに
ついて、各絞り込み段階におけるターム評価値がどのよ
うに変化したかを示すターム評価値履歴データを演算す
る。このように、絞り込み後文書データ記憶領域に絞り
込み後文書データを各段階毎に記憶しておき、各段階毎
にタームの評価値を演算し、タームの評価値の履歴デー
タを求めることにより、かかる履歴を参照にして、新た
な知識を得ることができる。
【0007】3)本発明にかかるプログラムを記憶した
記録媒体においては、前記ターム評価値履歴データに基
づいて、ターム評価履歴を報知する。これにより、操作
者は前記ターム評価履歴を取得することができる。
【0008】4)本発明にかかるプログラムを記憶した
記録媒体においては、前記各タームのターム評価履歴デ
ータに基づいて、前記ターム評価値の履歴があらかじめ
記憶されている抽出パターンに合致するタームを決定す
る。したがって、あらかじめ抽出パターンを設定してお
くだけで、新たな知識を得ることができる。
【0009】5)本発明にかかるプログラムを記憶した
記録媒体においては、絞り込み条件によって候補文書が
段階的に絞り込まれた絞り込み後文書データを各段階毎
に記憶する絞り込み後文書データ記憶領域から、各文書
データを読み出して文書データ評価値を演算することに
より、複数の文書から知識を発見する処理をコンピュー
タに実行させるためのプログラムを記憶した記憶媒体で
あって、前記各段間毎の絞り込み後文書データから、文
書データ評価規則に基づいて各文書データの文書データ
評価値を演算し、前記文書データ評価値を演算した文書
データについて、各絞り込み段階における文書データ評
価値がどのように変化したかを示す文書データ評価値履
歴データを演算する。かかる文書評価の履歴を参照にし
て、新たな知識を得ることができる。なお、かかる文書
評価値は、当該文書中に含まれている複数のタームに基
づいて行うようにしてもよい。
【0010】6)本発明にかかるプログラムを記憶した
記録媒体においては、前記文書評価値履歴データに基づ
いて、文書評価履歴を報知する。これにより、操作者は
前記ターム評価履歴を取得することができる。
【0011】7)本発明にかかるプログラムを記憶した
記録媒体においては、前記文書評価履歴データに基づい
て、前記文書評価値の履歴があらかじめ記憶されている
抽出パターンに合致する文書を決定する。したがって、
あらかじめ抽出パターンを設定しておくだけで、新たな
知識を得ることができる。
【0012】8)本発明にかかる知識発見装置において
は、1)絞り込み条件によって候補文書が段階的に絞り込
まれた絞り込み後文書データを各段階毎に記憶する絞り
込み後文書データ記憶手段、2)文書評価規則を記憶する
文書評価規則記憶手段、3)前記文書評価規則に基づい
て、前記各絞り込み段階における絞り込み後文書データ
について、前記各文書評価値を演算する文書評価値演算
手段、4)前記抽出された文書について、各絞り込み段階
における文書評価値がどのように変化したかを示す文書
評価値履歴データを演算する文書評価値履歴データ演算
手段を備えている。これにより、かかる文書評価の履歴
を参照にして、新たな知識を得ることができる。
【0013】9)本発明にかかる知識発見方法において
は、絞り込み条件によって候補文書が段階的に絞り込ま
れた絞り込み後文書データを各段階毎に絞り込み後文書
データ記憶領域に記憶しておき、前記絞り込み後文書デ
ータ記憶領域から、各文書データを読み出して、各文書
データ中に存在するタームのターム評価値を演算するこ
とにより、複数の文書から知識を発見するコンピュータ
を用いた知識発見方法であって、前記各段間毎の絞り込
み後文書データから、ターム評価規則記憶部に記憶され
たターム評価規則に基づいて各タームのターム評価値を
演算し、前記ターム評価値を演算したタームについて、
各絞り込み段階におけるターム評価値がどのように変化
したかを示すターム評価値履歴データを演算する。これ
により、複数の絞り込み条件を与えるだけで、前記ター
ム評価値履歴データを得ることができる。かかるターム
評価値履歴データを参照にして、新たな知識を抽出する
ことができる。 10)本発明にかかる知識発見方法においては、絞り込
み条件によって候補文書が段階的に絞り込まれた絞り込
み後文書データを段階毎に絞り込み後文書データ記憶領
域に記憶しておき、前記絞り込み後文書データ記憶領域
から、各文書データを読み出して文書データ評価値を演
算することにより、複数の文書から知識を発見するコン
ピュータを用いた知識発見方法であって、前記各段間毎
の絞り込み後文書データから、文書データ評価規則記憶
部に記憶された文書データ評価規則に基づいて各文書デ
ータの文書データ評価値を演算し、前記文書データ評価
値を演算した文書データについて、各絞り込み段階にお
ける文書データ評価値がどのように変化したかを示す文
書データ評価値履歴データを演算する。これにより、複
数の絞り込み条件を与えるだけで、前記文書評価値履歴
データを得ることができる。かかる文書評価値履歴デー
タを参照にして、新たな知識を抽出することができる。
【0014】
【発明の実施の形態】1.機能ブロック図の説明 本発明の一実施形態を図面に基づいて説明する。図1に
示す知識発見装置1は、候補文書データ記憶手段3、絞
り込み後文書データ記憶手段7、絞り込み手段5、再絞
り込み手段9、ターム抽出手段11、ターム評価規則記
憶手段13、ターム評価値演算手段15、ターム評価値
履歴データ演算手段17、合致ターム決定手段18およ
び合致ターム含有文書特定手段19を備えている。
【0015】候補文書データ記憶手段3は、絞り込み対
象の文書データを複数記憶する。絞り込み手段5は、絞
り込み条件が与えられると、この絞り込み条件に合致す
る文書データを、前記候補文書データ記憶手段3から抽
出して絞り込み後文書データとして絞り込み後文書デー
タ記憶手段7に記憶する。再絞り込み手段9は、絞り込
み後文書データ記憶手段7に記憶された絞り込み後文書
データを、さらに絞り込む絞り込み条件が与えられる
と、前記絞り込み後文書データから、当該絞り込み条件
に合致する文書データを抽出し、絞り込み後文書データ
記憶手段7に、絞り込み段階が進んだ絞り込み後文書デ
ータとして記憶する。ターム抽出手段11は、前記各絞
り込み段階における絞り込み後文書データからタームを
抽出する。ターム評価規則記憶手段13はターム評価規
則を記憶する。ターム評価値演算手段15は、前記ター
ム評価規則に基づいて前記抽出されたタームのターム評
価値を演算する。ターム評価値履歴データ演算手段17
は前記抽出されたタームについて、各絞り込み段階にお
けるターム評価値がどのように変化したかを示すターム
評価値履歴データを演算する。合致ターム決定手段18
は前記各タームのターム評価履歴データに基づいて、前
記ターム評価値の履歴があらかじめ記憶されている抽出
パターンに合致するタームを決定する。合致ターム含有
文書特定手段19は、前記合致すると決定されたターム
を含む文書を候補文書データ記憶手段3に記憶された文
書から特定する。
【0016】なお、ターム抽出手段11は絞り込み後文
書データ記憶手段7に段階的に絞り込み後文書データが
記憶されてから、前記ターム抽出をしてもよく、また、
新たな絞り込み後文書データが記憶されるつど、ターム
抽出をするようにしてもよい。
【0017】なお、本明細書において知識発見装置は、
当該装置自身が新たな知識を発見する場合はもちろん、
人間が新たな知識を発見するための補助を行う知識発見
補助装置を含む概念である。
【0018】2.ハードウェア構成 図1に示す知識発見装置1のハードウェア構成について
図2を用いて説明する。図2は、知識発見装置1をCP
Uを用いて実現したハードウェア構成の一例である。
【0019】知識発見装置1は、CPU23、メモリ2
7、ハードディスク26、CRT30、FDD25、キ
ーボード28、マウス31およびバスライン29を備え
ている。CPU23は、ハードディスク26に記憶され
た制御プログラムにしたがいバスライン29を介して、
各部を制御する。
【0020】この制御プログラムは、FDD25を介し
て、プログラムが記憶されたフレキシブルディスク25
aから読み出されてハードディスク26にインストール
されたものである。なお、フレキシブルディスク以外
に、CD−ROM、ICカード等のプログラムを実体的
に一体化したコンピュータ可読の記録媒体から、ハード
ディスクにインストールさせるようにしてもよい。さら
に、通信回線を用いてダウンロードするようにしてもよ
い。
【0021】本実施形態においては、プログラムをフレ
キシブルディスクからハードディスク26にインストー
ルさせることにより、フレキシブルディスクに記憶させ
たプログラムを間接的にコンピュータに実行させるよう
にしている。しかし、これに限定されることなく、フレ
キシブルディスクに記憶させたプログラムをFDD25
から直接的に実行するようにしてもよい。なお、コンピ
ュータによって、実行可能なプログラムとしては、その
ままのインストールするだけで直接実行可能なものはも
ちろん、一旦他の形態等に変換が必要なもの(例えば、
データ圧縮されているものを、解凍する等)、さらに
は、他のモジュール部分と組合して実行可能なものも含
む。
【0022】ハードディスク26には、プログラム記憶
部26a、文書記憶部26cを有する。プログラム記憶
部26aには、後述するプログラムが記憶されている。
文書記憶部26cには知識を抽出するための文書が複数
記憶されている。本実施形態においては、各文書は、メ
モリ27には、後述する絞り込み処理がされて抽出され
た文書id、抽出されたターム、各タームの評価値、各文
書の評価値等、各種の演算結果が記憶される。
【0023】なお、絞り込み結果については直接文書の
内容を記憶するようにしてもよい。
【0024】3.フローチャート つぎに、ハードディスク26のプログラム記憶部26a
に記憶されているプログラムについて、図5、図6を用
いて説明する。以下では、ターム「ダイオキシン」に関
する新たな知識を取得する場合を、例として説明する。
【0025】操作者は、文書を絞り込むための絞り込み
条件をキーボード28から与える。ここでは、絞り込み
条件「ダイオキシン」が与えられたものとする。これに
より、CPU23は図3の処理を開始する。まず、世代
番号nを初期化(n=1)し(ステップS1)、第n-1世代
(この場合第0世代)における絞り込み後の文書から、
与えられた絞り込み条件「ダイオキシン」に合致する文
書を抽出する(ステップS3)。この場合、n=1であ
るので、ハードディスク26の文書データ記憶部26c
に記憶された全文書から、前記絞り込み条件「ダイオキ
シン」に合致する文書を抽出し、当該文書のidを第1世
代における絞り込み後文書としてメモリ27に記憶す
る。
【0026】なお、本実施形態においては、絞り込み条
件を含む文書を抽出するようにしたが、これに限定され
ず、与えられた絞り込み条件に対して、自然文検索のよ
うに、あらかじめ設定された規則によって検索キーワー
ドを決定し、各文書についてスコアを演算して、スコア
の高いものから抽出するなど、一般的な絞り込み処理を
するようにしてもよい。
【0027】つぎに、CPU23は、第n世代(この場
合第1世代)における絞り込み後の文書から、タームを
抽出して、その評価を行う(ステップS5)。本実施形
態においては、あるタームについて当該タームを抽出で
きる文書数を各タームの評価値とした。これより、図4
に示すようなターム毎の評価値を得ることができる。こ
の場合であれば、ターム「円」を抽出できる文書が42
あったことを示している。他のタームについても同様で
ある。
【0028】なお、ターム評価手法としては、これ以外
にも、tfidf値を用いるなど、通常の手法を用いる
ことができる。tfidf法とは、情報検索におけるキ
ーワード決定の手法であり、ある文書中におけるそのタ
ームの出現頻度を示すtf(term frequency)および
全文書中で当該タームがいかに少ない文書でしか現れな
いかを示すidf(inverse document frequency)を
用いて、タームの評価をする手法である。例えば、特定
の文書には頻繁に出現するが、他の文書には出現しない
場合には、tfidf値が大きくなる。
【0029】CPU23は世代番号nをインクリメント
し(ステップS7)、世代番号nが3以上であるか否か
判断する(ステップS9)。この場合世代番号nが2で
あるので、3以上でないと判断して、つぎの絞り込み条
件候補となるターム決定処理をおこなう(ステップS1
7)。本実施形態においては、ステップS5で評価され
たタームのうち評価値の高い上位50件をCRT30に
表示させ、操作者がいずれかを選択することにより、絞
り込み条件として決定するようにした。ただし、これに
限定されずに、前記評価値に基づいて候補タームを自動
的に決定したり、評価値の高いもののうち、任意のもの
を自動的に選択するようにしてもよい。このようにし
て、つぎの絞り込み条件の候補を表示することにより、
操作者の意図していなかったタームによる絞り込みが可
能となるとともに、後述するように、当該タームの評価
値の履歴を得ることもできる。
【0030】ステップS17で絞り込み条件が決定され
るとステップS3の絞り込み処理を行う。ここでは、タ
ーム「ゴミ焼却炉」が絞り込み条件として選択された場
合について説明する。この場合、n=2であるので、第
1世代における絞り込み後の文書をターム「ゴミ焼却
炉」でさらに絞り込んで、第2世代における絞り込み後
文書として、文書のidをメモリ27に記憶する。このよ
うにして絞り込み対象文書が段階的に絞り込まれる。
【0031】つぎに、CPU23は、第n世代(この場
合第2世代)における絞り込み後の文書から、タームを
抽出して、その評価を行う(ステップS5)。
【0032】CPU23は、世代番号nをインクリメン
トし(ステップS7)、世代番号nが3以上であるか否
か判断する(ステップS9)。この場合、世代番号n=
3であるので、ターム履歴処理を行う(ステップS1
1)。ターム履歴処理について、図5を用いて説明す
る。ステップS5の処理を2回以上行うことにより、絞
り込み処理が行われた文書から抽出されるタームについ
て、図5に示すように、各世代の履歴データを求めるこ
とができる。例えば、図5に示すターム「自治体」の履
歴データは、評価値がだんだん高くなるように変化して
いることが分かる。なお、この場合、各世代における評
価値は世代毎に正規化するようにすればよい。
【0033】つぎに、CPU23は、履歴データから注
目すべきタームがあるか否か判断する(ステップS1
3)。本実施形態においては、前記得られた各タームの
評価値の変化が所定のパターンに合致するものを注目す
べきタームであると判断するようにした。本実施形態に
おいては、所定のパターンとしては、世代が進むにつれ
て評価値が急激に上昇または下降する場合とした。例え
ば、第1世代では評価値0.2だったタームが、第2世
代で評価値0.9になったような場合やその逆の場合で
ある。図5に示す例では、ターム「自治体」とターム
「異業種」がかかる所定のパターンに合致するタームで
あるとして、CRT30に表示される。
【0034】このようにして、報知されたデータは、各
絞り込み段階におけるタームの評価値そのものではな
く、前回以前の絞り込み段階における評価値の履歴であ
る。したがって、これらを参照することにより、各絞り
込み段階における絞り込み条件とタームの評価値との関
連性を発見しやすくなる。
【0035】また、本実施形態においては、ターム評価
履歴が所定のパターンに合致する場合を報知するように
したが、操作者からターム評価履歴の参照を希望するタ
ームを入力があると、これを表示するようにしてもよ
い。
【0036】また、このように、ターム評価値の履歴か
ら所定のパターンに合致するタームについて、絞り込み
条件の候補タームとして報知するようにしてもよい。
【0037】また、ステップS13にて評価値の変化が
所定のパターンに合致するものが存在しない場合には、
ステップS17にて、新たな絞り込み条件として注目す
べきタームを決定するようにすればよい。
【0038】かかる処理を繰り返すことにより、多数の
文書データから操作者の意図しない知識を容易に抽出す
ることができる。
【0039】また、ステップS15にて、表示したター
ムについて、当該タームを含む文書を表示するようにし
てもよく、また、タームを表示することなく、当該ター
ムを含む文書を表示するようにしてもよい。
【0040】なお、本実施形態においては、段階的絞り
込み条件の履歴が操作者に理解しやすいように、図7に
示すような絞り込み条件のツリー構造を表示するように
している。
【0041】なお、本実施形態においては、抽出するタ
ームのパターンとして、世代が進むにつれて評価値が急
激に上昇または下降する場合としたが、これに限定され
ず、だんだん上昇または下降する場合、途中でとぎれる
場合、高い値または低い値で変化がない場合、さらに、
世代が進むにつれて評価値が一旦上昇してから下降する
場合、逆に、世代が進むにつれて評価値が急激に下降か
ら上昇する場合についても、注目タームとするようにし
てもよい。
【0042】かかる履歴データのパターンについて説明
する。図6Aに示すように、世代が進むにつれて評価値
がだんだん上昇する場合は、操作者が興味を持っている
トピック(話題)に直接関連しているタームであること
を意味する。この場合、トピックとしてタームを用いて
いるので、検索条件として入力したタームと評価値の上
昇しているタームとが正の相関関係にあることがわか
る。すなわち、文書の絞り込みが操作者の興味と一致し
ていることを示している。かかる絞り込みをさらに進め
て、抽出したタームを操作者に提示することにより、簡
易に関連するタームを取り出すことが可能となる。これ
により、操作者の意図していなかったタームを発掘する
ことができる。
【0043】また、図6Bに示すように、世代が進むに
つれて評価値がだんだん下降する場合は、操作者が興味
を持っているトピックに直接関連していないタームであ
ることを意味する。したがって、操作者は、かかる履歴
データの変化から、1また2世代以上絞り込み段階を戻
って、別の絞り込み条件で絞り込み処理をすることによ
り、操作が興味を持っているトピックに絞り込み対象文
書を修正することができる。なお、逆に操作者はかかる
タームにトピックを切り換えて、下降しているタームに
関連するトピックに注目するようにしてもよい。
【0044】また、図6Cに示すように、世代が進むと
評価値がゼロとなる場合は、急激に下降した場合の極端
な場合であり、その世代における絞り込み条件によっ
て、注目するトピックに全く関連しなくなったタームで
あることを意味する。
【0045】また、図6Dに示すように、高い評価値で
ほぼ一定のタームは、世代が進んでも、常に出現するの
で、注目に値しないタームであることが多い。例えば日
付の「日」や、「時」などである。また、逆に低い評価
値でほぼ一定のタームは、注目するトピックに関連し、
且つ、文書データ全体での出現数の少ないタームである
ので、注目するタームであることもある。たとえば、操
作者の注目するトピックに関連する会社名、人名、商品
名等の特異的な固有名詞が該当する。
【0046】また、図6Eに示すように、世代が進むに
つれて評価値が一旦上昇してから下降する場合は、評価
値が最大となる以後の絞り込み段階にて、注目するトピ
ックと関連が徐々になくなっていることを示している。
注目トピックを変えない場合には、一旦ピークとなる段
階に戻って、別の絞り込み条件で絞り込みをすることが
できる。また、注目トピックを変えるようにしてもよ
い。
【0047】また、図6Fに示すように、世代が進むに
つれて評価値が一旦下降してから上昇する場合は、評価
値が最小となる以後の絞り込み段階にて、注目するトピ
ックと徐々に関連していることを示している。一旦最小
となる段階よりも前に戻って、別の絞り込み条件で絞り
込みをすることができる。また、一旦最小となる段階に
戻って、注目トピックを変えるようにしてもよい。
【0048】なお、本実施形態においては、第1の絞り
込み条件が与えられると、これに合致する文書が抽出さ
れ、絞り込み後の文書から、タームを抽出して、その評
価がなされる。そして、第2の絞り込み条件が与えられ
ると、前記絞り込み後の文書をさらに当該絞り込み条件
で絞り込んで、タームを抽出して、その評価をする。か
かる処理を2回以上行うことにより、段階的に絞り込み
処理が行われ、各段階毎に記憶された文書から抽出され
るタームについて、各絞り込み段階(世代)の履歴デー
タを折れ線グラフが得られる。かかる履歴データを表示
することにより、操作者は、あるタームについて、自分
では意図していない別のタームとの関連性を得ることが
できる。
【0049】なお、本実施形態においては、各絞り込み
段階における絞り込み後文書データを段階毎に記憶して
いるので、絞り込み段階を戻すことができる。例えば、
絞り込み段階を戻す場合には、図3ステップS13とス
テップS17の間に、戻り命令があったか否か判断する
ステップを追加し、戻り命令が与えられると、該当する
段階まで絞り込み状況を戻すようにすればよい。かかる
戻り命令についてはつぎのようにして与えることもでき
る。本実施形態においては、図7に示すように絞り込み
条件の履歴をツリー構造で表示して、操作者に報知する
ようにしている。この場合、ターム「ダイオキシン」、
「ゴミ焼却炉」、「自治体」、「シェア」と段階的に絞
り込まれている。操作者が、ターム「シェア」まで絞り
込んだ段階で、ポインティングデバイスで、ターム「ゴ
ミ焼却炉」をクリックした場合には、戻り命令が与えら
れたと判断して、その世代、すなわち、この場合第2世
代の絞り込みが行われた状態に戻るようにすればよい。
【0050】このようにして、さらに絞り込んだ状態を
図8に示す。図8では、絞り込み条件がターム「A」,
ターム「B」,ターム「C」,ターム「D」と絞り込まれ
た後、ターム「A」にもどって、さらに,ターム「E」,
ターム「F」,ターム「G」と絞り込まれた状態を示
す。そして、履歴データとしては、戻った世代について
は履歴として考えずに、戻ってさらに絞り込み処理がな
された状態の履歴データ、この場合、ターム「A」,タ
ーム「E」,ターム「F」,ターム「G」における各ター
ムの評価値の履歴データ、が求められる。
【0051】図8においてはかかる世代を戻す処理後、
さらに別のタームで絞り込むことにより、ターム3とタ
ーム5が関連性があるタームであるという知識を得るこ
とができる。
【0052】また、最終世代における絞り込み条件とし
て与えたタームと同じ傾向にあるタームを注目タームと
して決定するようにしてもよい。特に、最終世代におけ
る絞り込み条件について、図6Aに示すような上昇傾向
にある場合には、同様に評価値が上昇しているターム
は、絞り込み条件と正の相関関係があるので、新たな知
識取得が可能となる。たとえば、相関度の高いタームを
抽出するようにすればよい。相関度としては、絞り込み
条件として与えたタームの評価値との相関係数を計算し
て、正または負の相関係数の大きいタームを自動的に抽
出するようにしてもよい。
【0053】4.第2の実施形態 上記実施形態においては、絞り込み後文書データからタ
ームを抽出して、当該タームの評価値の履歴データを演
算するようにしたが、絞り込み後文書データについて各
文書データの評価値を演算して、同様に当該文書の評価
値の履歴データを演算するようにしてもよい。これによ
り、操作者の注目しているトピックに合致する文書を簡
易に見つけだすことができる。
【0054】また、この場合ステップS17にて、絞り
込み条件として、上記実施形態と同様に、タームを抽出
するようにしてもよい。
【0055】また、予期していない知識を抽出しやすく
するために、操作者の注目しているトピックに合致する
文書から、従来の手法を用いて重要タームを抽出するよ
うにしてもよい。例えば、当該文書における主題に関連
しているようなタームを重要タームとして取り出すよう
にしてもよい。
【0056】各文書の評価値履歴データのパターンにつ
いては上記ターム評価値履歴データの場合とほぼ同じで
あるが、図6Dに示すように、高い評価値でほぼ一定の
文書は、操作者の注目しているトピックをすべて含む文
書であり、注目に値する。
【0057】5.他の実施形態 本実施形態においては、絞り込み条件として1つのター
ムを与える場合について説明したが、2以上のタームを
与えて、2次元ベクトルの履歴を演算するようにしても
い。例えば、2つのタームを与える場合には、2つのタ
ームの評価値と世代の3次元のグラフを表示するように
すればよい。この場合、一例としては、図9に示すよう
に、z軸上に等間隔にn個のx-y平面に並行に2次元平面
を設け、第n世代の評価値をn番目の2次元平面にプロッ
トし、同一タームの値を結べばよい。
【0058】3つ以上の場合については、任意の1また
は2の要素を取り出してプロットするようにすればよ
い。
【0059】上記実施形態においては、ステップS17
にて、絞り込み条件としてタームを表示して、操作者に
選択させるようにしたが、かかる絞り込み条件を候補と
して表示することなく、操作者が自ら考えて、絞り込み
条件を与えるようにしてもよい。
【0060】また、本実施形態においては、抽出した文
書のidをメモリに記憶するようにしたが、このようなフ
ァイル特定データだけでなく、ファイルの実データまた
は双方を絞り込み後文書としてメモリに記憶するように
してもよい。また、メモリでなくても、記憶装置であれ
ばどこに記憶してもよい。
【0061】なお、本明細書においては、ターム評価値
および文書データ評価値については、値そのものだけで
なく、より履歴の変化をわかりやすくするために、変化
を強調できるように値を二乗したり、対数(log)をと
ったものも含む。
【0062】また、本実施形態においては、日本語の文
書の場合について説明したが、他の言語、例えば、英
語、中国語、韓国語等についても同様に適用することが
できる。
【0063】また、プログラムの一部の処理をオペレー
ティングシステム(OS)にさせるようにしてもよい。
【0064】本実施形態においては、図1に示す機能を
実現する為に、CPU23を用い、ソフトウェアによっ
てこれを実現している。しかし、その一部もしくは全て
を、ロジック回路等のハードウェアによって実現しても
よい。
【0065】本実施形態においては、文書データが自己
のコンピュータに記憶されている場合について説明した
が、ネットワーク(LANやインターネット等)に接続
された他のコンピュータに記憶されているものを用いる
こともできる。
【0066】なお、本発明にかかるプログラムを記憶し
た記録媒体においては、複数の文書データ中に存在する
タームのターム評価値を演算することにより、複数の文
書から知識を発見する処理をコンピュータに実行させる
ためのプログラムを記憶した記憶媒体であって、複数の
絞り込み条件が与えられると、候補文書を段階的に絞り
込んで絞り込み後文書データ記憶領域に段階毎に記憶
し、前記各段間毎の絞り込み後文書データから、ターム
評価規則に基づいて各タームのターム評価値を演算し、
前記ターム評価値を演算したタームについて、各絞り込
み段階におけるターム評価値がどのように変化したかを
示すターム評価値履歴データを演算する。これにより、
複数の絞り込み条件を与えるだけで、前記ターム評価値
履歴データを得ることができ、かかるターム評価履歴デ
ータを参照にして、新たな知識を得ることができる。
【0067】また、本発明にかかるプログラムを記憶し
た記録媒体においては、前記絞り込み後の文書から抽出
されたタームを絞り込み条件の候補として報知する。し
たがって、操作者が絞り込み条件を容易に決定すること
ができる。
【0068】また、本発明にかかるプログラムを記憶し
た記録媒体においては、前記合致すると決定されたター
ムを含む文書を特定する。決定された文書に基づいて、
新たな知識を取得することができる。
【0069】また、本発明にかかるプログラムを記憶し
た記録媒体においては、絞り込み後文書から抽出された
タームを絞り込み条件の候補として報知する。したがっ
て、操作者が絞り込み条件を容易に決定することができ
る。
【0070】また、本発明にかかるプログラムを記憶し
た記録媒体においては、複数の文書データ中に存在する
タームのターム評価値を演算することにより、複数の文
書から知識を発見する処理をコンピュータに実行させる
ためのプログラムを記憶した記憶媒体であって、複数の
絞り込み条件が与えられると、候補文書を段階的に絞り
込んで絞り込み後文書データ記憶領域に段階毎に記憶
し、前記各段間毎の絞り込み後文書データについて、タ
ーム評価規則に基づいて文書評価値を演算し、前記文書
データ評価値を演算した文書データについて、各絞り込
み段階における文書データ評価値がどのように変化した
かを示す文書データ評価値履歴データを演算する。これ
により、複数の絞り込み条件を与えるだけで、前記文書
評価値履歴データを得ることができ、かかる文書評価の
履歴を参照にして、新たな知識を得ることができる。
【0071】また、本発明にかかるプログラムを記憶し
た記録媒体においては、前記合致すると決定された文書
を報知する。したがって、操作者は、決定された文書に
基づいて、新たな知識を取得する。
【0072】また、本発明にかかる知識発見装置におい
ては、1)絞り込み対象の文書データを記憶する候補文書
データ記憶手段、2)絞り込み条件が与えられると、この
絞り込み条件に合致する文書データを、前記候補文書デ
ータから抽出して絞り込み後文書データとして絞り込み
後文書データ記憶手段に記憶する絞り込み手段、3)絞り
込み後文書データ記憶手段に記憶された絞り込み後文書
データを、さらに絞り込む絞り込み条件が与えられる
と、前記絞り込み後文書データから、当該絞り込み条件
に合致する文書データを抽出し、前記絞り込み後文書デ
ータ記憶手段に絞り込み段階が進んだ絞り込み後文書デ
ータとして記憶する再絞り込み手段、4)文書評価規則を
記憶する文書評価規則記憶手段、5)前記文書評価規則に
基づいて、前記各絞り込み段階における絞り込み後文書
データについて、前記各文書評価値を演算する文書評価
値演算手段、6)前記抽出された文書について、各絞り込
み段階における文書評価値がどのように変化したかを示
す文書評価値履歴データを演算する文書評価値履歴デー
タ演算手段を備えている。これにより、複数の絞り込み
条件を与えるだけで、前記文書評価値履歴データを得る
ことができる。したがって、かかる文書評価の履歴を参
照にして、新たな知識を得ることができる。
【0073】また、この発明は、コンピュータの第1の
記憶領域に記憶された複数の文書データから知識を抽出
する知識抽出方法であって、1)第1の絞り込み条件が与
えられると、前記第1の記憶領域に記憶された前記複数
の絞り込み対象文書データから前記第1の絞り込み条件
に合致する文書データを抽出し、2)前記抽出された文書
中に存在するタームについて、ターム評価規則記憶部に
記憶されたターム評価規則に基づいて評価値を決定し、
各タームについて第1絞り込み条件における評価値とし
て記憶し、3)第2の絞り込み条件が与えられると、前記
抽出した文書データから、前記第2の絞り込み条件に合
致する文書データを抽出し、4)前記抽出された文書中に
存在するタームについて、前記ターム評価規則に基づい
て評価値を決定し、各タームについて前記第2の絞り込
み条件における評価値として記憶し、5)前記第1および
第2の絞り込み条件における評価値が決定された各ター
ムについて、前記第1及び第2の絞り込み条件によっ
て、タームの評価値がどのように変化したかを示すター
ム評価値履歴データを演算するを特徴とするコンピュー
タを用いた知識抽出方法として把握することもできる。
【図面の簡単な説明】
【図1】本発明にかかる知識発見装置1の機能ブロック
図である。
【図2】図1に示す知識発見装置をCPUを用いて実現
したハードウエア構成の一例を示す図である。
【図3】知識発見処理のフローチャートである。
【図4】抽出されたタームとその評価値のテーブルであ
る。
【図5】評価値の履歴を示す図である。
【図6】履歴データのパターンを示す図である。
【図7】段階的絞り込み条件における各絞り込み条件の
関係を示す図である。
【図8】戻り処理した場合のツリー構造と、ターム評価
値の履歴を示す図である。
【図9】3次元表示した場合の図である。
【符号の説明】
23・・・CPU 27・・・メモリ

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】絞り込み対象の文書データを記憶する候補
    文書データ記憶手段、 絞り込み条件が与えられると、この絞り込み条件に合致
    する文書データを、前記候補文書データから抽出して絞
    り込み後文書データとして絞り込み後文書データ記憶手
    段に記憶する絞り込み手段、 絞り込み後文書データ記憶手段に記憶された絞り込み後
    文書データを、さらに絞り込む絞り込み条件が与えられ
    ると、前記絞り込み後文書データから、当該絞り込み条
    件に合致する文書データを抽出し、前記絞り込み後文書
    データ記憶手段に、絞り込み段階が進んだ絞り込み後文
    書データとして記憶する再絞り込み手段、 前記各絞り込み段階における絞り込み後文書データから
    タームを抽出するターム抽出手段、 ターム評価規則を記憶するターム評価規則記憶手段、 前記ターム評価規則に基づいて前記抽出されたタームの
    ターム評価値を演算するターム評価値演算手段、 前記抽出されたタームについて、各絞り込み段階におけ
    るターム評価値がどのように変化したかを示すターム評
    価値履歴データを演算するターム評価値履歴データ演算
    手段、 を備えた知識発見装置。
  2. 【請求項2】絞り込み条件によって候補文書が段階的に
    絞り込まれた絞り込み後文書データが、各段階毎に記憶
    された絞り込み後文書データ記憶領域から、各文書デー
    タを読み出して、各文書データ中に存在するタームのタ
    ーム評価値を演算することにより、複数の文書から知識
    を発見する処理をコンピュータに実行させるためのプロ
    グラムを記憶した記憶媒体であって、 前記各段間毎の絞り込み後文書データから、ターム評価
    規則に基づいて各タームのターム評価値を演算し、 前記ターム評価値を演算したタームについて、各絞り込
    み段階におけるターム評価値がどのように変化したかを
    示すターム評価値履歴データを演算すること、 を特徴とするプログラムを記憶した記憶媒体。
  3. 【請求項3】請求項2のプログラムを記憶した記録媒体
    において、 さらに、前記ターム評価値履歴データに基づいて、ター
    ム評価履歴を報知すること、 を特徴とするもの。
  4. 【請求項4】請求項2または3のプログラムを記憶した
    記録媒体において、 前記各タームのターム評価履歴データに基づいて、前記
    ターム評価値の履歴があらかじめ記憶されている抽出パ
    ターンに合致するタームを決定すること、 を特徴とするもの。
  5. 【請求項5】絞り込み条件によって候補文書が段階的に
    絞り込まれた絞り込み後文書データを各段階毎に記憶す
    る絞り込み後文書データ記憶領域から、各文書データを
    読み出して文書データ評価値を演算することにより、複
    数の文書から知識を発見する処理をコンピュータに実行
    させるためのプログラムを記憶した記憶媒体であって、 前記各段間毎の絞り込み後文書データから、文書データ
    評価規則記憶部に記憶された文書データ評価規則に基づ
    いて各文書データの文書データ評価値を演算し、 前記文書データ評価値を演算した文書データについて、
    各絞り込み段階における文書データ評価値がどのように
    変化したかを示す文書データ評価値履歴データを演算す
    ること、 を特徴とするプログラムを記憶した記憶媒体。
  6. 【請求項6】請求項5のプログラムを記憶した記録媒体
    において、 さらに、前記文書評価値履歴データに基づいて、文書評
    価履歴を報知すること、 を特徴とするもの。
  7. 【請求項7】請求項5のプログラムを記憶した記録媒体
    において、 前記文書評価履歴データに基づいて、前記文書評価値の
    履歴があらかじめ記憶されている抽出パターンに合致す
    る文書を決定すること、 を特徴とするもの。
  8. 【請求項8】絞り込み条件によって候補文書が段階的に
    絞り込まれた絞り込み後文書データを各段階毎に記憶す
    る絞り込み後文書データ記憶手段、 文書評価規則を記憶する文書評価規則記憶手段、 前記文書評価規則に基づいて、前記各絞り込み段階にお
    ける絞り込み後文書データについて、前記各文書評価値
    を演算する文書評価値演算手段、 前記抽出された文書について、各絞り込み段階における
    文書評価値がどのように変化したかを示す文書評価値履
    歴データを演算する文書評価値履歴データ演算手段、 を備えた知識発見装置。
  9. 【請求項9】絞り込み条件によって候補文書が段階的に
    絞り込まれた絞り込み後文書データを各段階毎に絞り込
    み後文書データ記憶領域に記憶しておき、前記絞り込み
    後文書データ記憶領域から、各文書データを読み出し
    て、各文書データ中に存在するタームのターム評価値を
    演算することにより、複数の文書から知識を発見するコ
    ンピュータを用いた知識発見方法であって、 前記各段間毎の絞り込み後文書データから、ターム評価
    規則に基づいて各タームのターム評価値を演算し、 前記ターム評価値を演算したタームについて、各絞り込
    み段階におけるターム評価値がどのように変化したかを
    示すターム評価値履歴データを演算すること、 を特徴とするコンピュータを用いた知識発見方法。
  10. 【請求項10】絞り込み条件によって候補文書が段階的
    に絞り込まれた絞り込み後文書データを各段階毎に絞り
    込み後文書データ記憶領域に記憶しておき、前記絞り込
    み後文書データ記憶領域から、各文書データを読み出し
    て文書データ評価値を演算することにより、複数の文書
    から知識を発見するコンピュータを用いた知識発見方法
    であって、 前記各段間毎の絞り込み後文書データから、文書データ
    評価規則記憶部に記憶された文書データ評価規則に基づ
    いて各文書データの文書データ評価値を演算し、 前記文書データ評価値を演算した文書データについて、
    各絞り込み段階における文書データ評価値がどのように
    変化したかを示す文書データ評価値履歴データを演算す
    ること、 を特徴とするコンピュータを用いた知識発見方法。
JP2000023848A 2000-02-01 2000-02-01 知識発見装置 Expired - Fee Related JP3379931B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2000023848A JP3379931B2 (ja) 2000-02-01 2000-02-01 知識発見装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2000023848A JP3379931B2 (ja) 2000-02-01 2000-02-01 知識発見装置

Publications (2)

Publication Number Publication Date
JP2001216312A true JP2001216312A (ja) 2001-08-10
JP3379931B2 JP3379931B2 (ja) 2003-02-24

Family

ID=18549941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000023848A Expired - Fee Related JP3379931B2 (ja) 2000-02-01 2000-02-01 知識発見装置

Country Status (1)

Country Link
JP (1) JP3379931B2 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6472231A (en) * 1987-09-11 1989-03-17 Matsushita Electric Ind Co Ltd Information retrieving device
JPH05314182A (ja) * 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH09218881A (ja) * 1996-02-09 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> 追加検索語候補提示方法、文書検索方法およびそれらの装置
JPH11272709A (ja) * 1998-03-19 1999-10-08 Ntt Data Corp ファイル検索方式
JPH11338873A (ja) * 1998-05-26 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6472231A (en) * 1987-09-11 1989-03-17 Matsushita Electric Ind Co Ltd Information retrieving device
JPH05314182A (ja) * 1992-05-13 1993-11-26 Fujitsu Ltd 情報検索装置
JPH09218881A (ja) * 1996-02-09 1997-08-19 Nippon Telegr & Teleph Corp <Ntt> 追加検索語候補提示方法、文書検索方法およびそれらの装置
JPH11272709A (ja) * 1998-03-19 1999-10-08 Ntt Data Corp ファイル検索方式
JPH11338873A (ja) * 1998-05-26 1999-12-10 Nippon Telegr & Teleph Corp <Ntt> 再検索方法及び装置及び再検索プログラムを格納した記憶媒体及び追加検索語候補提示方法及び装置及び追加検索語候補提示プログラムを格納した記憶媒体

Also Published As

Publication number Publication date
JP3379931B2 (ja) 2003-02-24

Similar Documents

Publication Publication Date Title
JP5316158B2 (ja) 情報処理装置、全文検索方法、全文検索プログラム、及び記録媒体
US7769771B2 (en) Searching a document using relevance feedback
US8190613B2 (en) System, method and program for creating index for database
US20040002945A1 (en) Program for changing search results rank, recording medium for recording such a program, and content search processing method
US20040230570A1 (en) Search processing method and apparatus
JP2009003888A (ja) キーワード提示のための装置、方法、及びプログラム
JP6664599B2 (ja) 曖昧性評価装置、曖昧性評価方法、及び曖昧性評価プログラム
CN112328872A (zh) 一种信息展示方法、信息搜索方法及装置
JP2020513128A (ja) トピック構造化方法、検索結果提供方法、コンピュータプログラムおよびトピック構造化システム
JP2010287020A (ja) 同義語展開システム及び同義語展開方法
CN110968789A (zh) 电子书推送方法、电子设备及计算机存储介质
Manaf et al. Comparison of carp rabin algorithm and Jaro-Winkler distance to determine the equality of Sunda languages
JP2006178599A (ja) 文書検索装置および方法
JP2010072727A (ja) 履歴処理装置、履歴処理方法および履歴処理プログラム
US20200279000A1 (en) Information processing apparatus and non-transitory computer readable medium storing program
CN110738048A (zh) 一种关键词提取方法、装置及终端设备
CN116383340A (zh) 信息搜索方法、装置、电子设备和存储介质
Hindle Stopping duplicate bug reports before they start with Continuous Querying for bug reports
CN112148988B (zh) 用于生成信息的方法、装置、设备以及存储介质
JP3379931B2 (ja) 知識発見装置
US10546061B2 (en) Predicting terms by using model chunks
JP2003345824A (ja) 文書検索装置及び文書検索方法、文書検索プログラム
CN117591624B (zh) 一种基于语义索引关系的测试用例推荐方法
EP0679999A1 (en) A method and apparatus for storage and retrieval of data
JP2831837B2 (ja) 文書検索装置

Legal Events

Date Code Title Description
R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20081213

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111213

Year of fee payment: 9

LAPS Cancellation because of no payment of annual fees