JP4047831B2 - 文書検索装置及びクラスタリングプログラム - Google Patents

文書検索装置及びクラスタリングプログラム Download PDF

Info

Publication number
JP4047831B2
JP4047831B2 JP2004107756A JP2004107756A JP4047831B2 JP 4047831 B2 JP4047831 B2 JP 4047831B2 JP 2004107756 A JP2004107756 A JP 2004107756A JP 2004107756 A JP2004107756 A JP 2004107756A JP 4047831 B2 JP4047831 B2 JP 4047831B2
Authority
JP
Japan
Prior art keywords
document
difference
clustering result
data
clustering
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004107756A
Other languages
English (en)
Other versions
JP2005293266A (ja
Inventor
淳哉 佐々木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Toshiba Digital Solutions Corp
Original Assignee
Toshiba Corp
Toshiba Solutions Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp, Toshiba Solutions Corp filed Critical Toshiba Corp
Priority to JP2004107756A priority Critical patent/JP4047831B2/ja
Publication of JP2005293266A publication Critical patent/JP2005293266A/ja
Application granted granted Critical
Publication of JP4047831B2 publication Critical patent/JP4047831B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書データベースに登録されている文書データを利用者からの要求に応じて検索する文書検索装置に係り、特に文書データが更新される際の更新前後の差分に対するクラスタリングを行うための文書検索装置及びクラスタリングプログラムに関する。
データの集合に対して一定の基準に従ってクラスタリングし、データ集合の傾向を分析することがある。このような分析方法をクラスタリング分析と呼ぶ。データの集合をクラスタリングするクラスタリング技術は、主として文書データベースに登録(蓄積)されている文書データを利用者からの要求に応じて検索する文書検索装置に適用される(例えば、特許文献1参照)。クラスタリング技術によれば、文書データベースに登録されている文書データの集合において、それぞれのデータに対して形態素解析を行い、単語の出現頻度や共起頻度などの一定の基準に従ってクラスタリングを行うことで、単語のクラスタ(グルーピング)を作成することができる。このクラスタリングの結果からデータ集合の傾向を把握することができ、更にデータをそれぞれのクラスタに振り分けることでデータの分類を行うことができる。
文書検索装置による文書検索の対象となる文書データベースのデータは更新される。そこで従来の文書検索装置では、更新された文書データ(文書ファイル)を利用者に提示するために、更新された文書データを更新日時順(例えば新しい順)に一覧表示する更新データ提示技術が一般に適用されている。この他に、頻繁に更新の行われた文書データを更新頻度の高い順に一覧表示(つまりにランキング表示)する更新データ提示技術が適用されることもある。
特開2003−345810(段落0009、0010、0018)
上記した従来のクラスタリング技術において、利用者は、クラスタリング結果から、文書データの集合全体の傾向を把握することができる。この文書データの集合は更新される。しかし、文書データの集合が大きく変化しない限り、更新前のクラスタリング結果と更新後のクラスタリング結果との間に大きな差は生じない。このため従来のクラスタリング技術において、更新された文書データの傾向を把握することは難しい。例えば定期的にクラスタリングを行って、クラスタリング結果を先行するクラスタリング結果と比較しても、更新された文書データの傾向を把握することは難しい。
そこで文書検索装置において、上記のクラスタリング技術と上記の更新データ提示技術とを併用することが考えられる。しかし、従来の更新データ提示技術のように、更新日時順、或いは更新頻度順の並びの更新データの一覧を単に表示しただけでは、実際に文書データのどの部分が更新されたかという情報を得ることはできない。また、更新データの量が多い場合は、更新された内容の傾向を把握することが難しい。
本発明は上記事情を考慮してなされたものでその目的は、更新された文書データの内容についての傾向を利用者が把握することを可能とする文書検索装置及びクラスタリングプログラムを提供することにある。
本発明の1つの観点によれば、文書データベースに登録されている文書データを利用者からの要求に応じて検索する文書検索装置が提供される。この文書検索装置は、上記文書データベースに登録されている文書データが更新される際の更新前後の差分を差分データとして抽出する差分データ抽出手段と、この差分データ抽出手段によって抽出された差分データを差分データベースに登録する差分データ登録手段と、上記差分データベースに登録されている差分データの集合に対してクラスタリングを実行することにより差分クラスタリング結果を取得する差分データクラスタリング実行手段と、上記差分クラスタリング結果を表示装置に表示するクラスタリング結果表示手段とを備える。
このような構成においては、文書データベースに登録されている文書データが更新される際の更新前後の差分が差分データとして抽出され、その抽出された差分データの集合に対してクラスタリング(以下、差分クラスタリングと称する)が行われることにより、更新された文書データの内容についてのクラスタリング結果である差分クラスタリング結果が取得される。したがって、この差分クラスタリング結果を表示装置を介して利用者に提示することにより、従来技術のように文書データベース全体、つまり文書データベースに登録されている更新された文書データを含む文書データの集合に対してクラスタリングを行うのに比べて、利用者は文書データベース中の更新された情報の傾向を把握することができる。
特に、文書データベース全体に対するクラスタリングの結果(文書クラスタリング結果)と上記差分クラスタリング結果とを、上記文書クラスタリング結果に含まれるクラスタを単位に統合するならば、文書クラスタリング結果には文書データ更新の差異が反映されにくくても、この統合結果を利用者に提示することにより、利用者は、この統合結果から文書データベース全体のクラスタ毎の更新の傾向を把握することができる。
本発明によれば、文書データベース上の文書データが更新される際の更新前後の差分を差分データとして差分データベースに蓄積し、その差分データベース上の差分データについてクラスタリングを実行して、そのクラスタリング結果を利用者に提示することにより、更新された内容(差分)についての傾向を利用者が把握することを可能とし、更新された内容について分類された情報を取得することが可能となる。
以下、本発明の一実施形態につき図面を参照して説明する。
図1は本発明の一実施形態に係る文書検索装置の構成を示すブロック図である。図1の文書検索装置は、文書データベース(以下、文書DBと称する)11と、文書クラスタリング結果データベース(以下、文書クラスタリング結果DBと称する)12と、差分データベース(以下、差分DBと称する)13と、差分クラスタリング結果データベース(以下、差分クラスタリング結果DBと称する)14と、キーボード及びマウスを含む入力装置15と、表示装置16とを備えている。図1の文書検索装置はまた、文書データ登録部21と、文書データクラスタリング実行部22と、差分データ抽出部23と、差分データ登録部24と、差分データクラスタリング実行部25と、比較差分指定部26と、クラスタリング結果統合部27と、クラスタリング結果表示部28とを備えている。
文書DB11は、クラスタリングの対象となる文書データの集合を格納するのに用いられる。文書クラスタリング結果DB12は、文書DB11に格納されている文書データの集合に対するクラスタリングの結果(文書クラスタリング結果)を格納するのに用いられる。差分DB13は、後述する差分データの集合を格納するのに用いられる。差分クラスタリング結果DB14は、差分DB13に格納されている差分データの集合に対するクラスタリングの結果(差分クラスタリング結果)を格納するのに用いられる。
文書データ登録部21は、クラスタリングの対象となる文書データを文書DB11に登録する。この文書データの登録は、文書DB11に既に登録されている文書データを旧文書データとして、当該旧文書データを新文書データに更新する文書データ更新を含む。文書データ登録部21は、文書DB11への登録対象となる文書データに対して形態素解析(単語に分割する)を行い、その結果を文書DB11に登録する。文書データクラスタリング実行部22は、差分DB13に登録されている文書データの集合に対して、クラスタリングを実行する。
差分データ抽出部23は、文書データ登録部21によるデータ登録時に、登録される新文書データと文書DB11内の対応する旧文書データとを比較し、差分データを抽出する。差分データ登録部24は、差分データ抽出部23によって抽出された差分データの集合に対して、形態素解析(単語に分割する)を行い、その結果を差分DB13に登録する。
差分データクラスタリング実行部25は、文書DB11に登録されている差分データの集合に対して、クラスタリングを実行する。比較差分指定部26は、利用者とのインタフェースをなし、差分データクラスタリング実行部25によるクラスタリングの対象となる差分データを特定するための2つの時刻(で示される時刻範囲)を利用者の入力操作に応じて指定する。
クラスタリング結果統合部27は、文書クラスタリング結果DB12及び差分クラスタリング結果DB14にそれぞれ格納されているクラスタリング結果を統合する。クラスタリング結果表示部28は、クラスタリング結果統合部27により統合されたクラスタリング結果、文書クラスタリング結果DB12に格納されているクラスタリング結果、或いは差分クラスタリング結果DB14に格納されているクラスタリング結果を表示する。
本実施形態において、図1の文書検索装置はパーソナルコンピュータによって実現され、文書データ登録部21、文書データクラスタリング実行部22、差分データ抽出部23、差分データ登録部24、差分データクラスタリング実行部25、比較差分指定部26、クラスタリング結果統合部27及びクラスタリング結果表示部28は、対応する処理を記述したプログラム(クラスタリングプログラム)を、当該コンピュータが読み取って実行することにより実現される。このプログラムは、コンピュータで読み取り可能な記憶媒体(フロッピー(登録商標)ディスクに代表される磁気ディスク、CD−ROM、DVDに代表される光ディスク、フラッシュメモリに代表される半導体メモリ等)に予め格納して頒布可能である。このプログラムが、ネットワークを介してダウンロード(頒布)されても構わない。
また本実施形態では、文書DB11、文書クラスタリング結果DB12、差分DB13及び差分クラスタリング結果DB14の各DBが、上記コンピュータの外部記憶装置、例えばハードディスク装置(HDD)上に置かれる構成を適用している。しかし、これらのDB11〜14が、文書検索装置から独立に設けられる構成、例えば文書検索装置(を実現するコンピュータ)とネットワーク接続されたデータベースサーバコンピュータ上に置かれる構成であっても構わない。
次に、図1の文書検索装置における差分クラスタリングを含む動作について、図2のフローチャートを参照して説明する。
文書データ登録部21は、文書データを文書DB11に登録するための処理を行う(ステップS1)。この登録処理では、文書データ登録部21は文書データの形態素解析を行い、単語単位に分割する。文書データ登録部21は、この単語単位に分割された文書データの集合を文書DB11に登録する。文書データ登録部21によって登録される文書データが、磁気ディスク、光ディスク等の可搬型の記憶媒体から読み込まれるものであっても、或いはネットワークを介して転送されるものであっても構わない。
さて、ステップS1で文書DB11に登録される文書データが、当該文書DB11に既に登録されている文書データ(既登録文書データ)に対する更新された文書データ(更新文書データ)の場合、当該文書DB11上では、既登録文書データが更新文書データに更新される。差分データ抽出部23は、文書データ登録部21による文書DB11への文書データ(更新文書データ)登録処理時には、更新の対象となる既登録文書データ(つまり旧文書データ)と更新文書データ(つまり新文書データ)とを比較し、差分データを抽出する(ステップS2)。
差分データは、
1)新規に追加されたデータ
2)更新されたデータ
3)削除されたデータ
の3種に分類される。一般に更新文書データ(つまり新文書データ)上では、データの「追加」「更新(変更)」「削除」が発生する。ここで、文書データは、タイトル、及び本文という構造を持っているものとする。
差分データ抽出部23は、上記ステップS2における差分データの抽出を、文書データ(文書)を構成する単位文毎に行う。即ち差分データ抽出部23は、新文書データと旧文書データとを、単位文毎に比較する。この単位文毎の比較で差異を検出したならば、差分データ抽出部23は、新文書データ内の該当する単位文(新文書データ及び旧文書データの一方のみに含まれている単位文)全体を差分データとして抽出する。
この単位文、つまり差分データの抽出の単位となる単位文としては、例えば
1)改行を区切りとした単位文
2)句点を区切りとした単位文
3)文書の構造情報(章、節など)から推定される区切りをもとにした単位文
等が利用可能である。また、単位文を段落としても構わない。
単位文の決定には、正規表現によるパターンマッチングを用いると良い。この正規表現の例を以下に示す。
1)改行、句点、読点で区切る場合
正規表現は
[¥n。、]
のように表される。ここで、[ ]は括弧内の任意の1文字を表し、¥nは改行文字を表す。
2)章、節毎に区切る場合
正規表現は、
^第[0−9]+章¥n
^第[0−9]+章¥s[^。]+¥n
^[0−9]¥.[0−9]¥s[^。]+¥n
のように表される。ここで、“+”は直前の文字の1回以上の繰り返しを表し、“^”は行頭を表す([]内の“^”を除く)。[^ ]は[ ]内にない任意の1文字を表し、“¥s”は空白文字を表し、“¥.”はピリオドを表す。
今、差分データ抽出部23が、次の正規表現
^第[0−9]+章¥s[^。]+¥n
^[0−9]¥.[0−9]¥s[^。]+¥n
[□◇・]
に基づいて文書データを単位文に区切るように設定されているものとする。
この場合、例えば図3(a)に示す文書300は、図3(b)に示す単位文301,302,303,304,305…に区切られる。
ここで、上記ステップS2における差分データ抽出処理の手順について、図4及び図5のフローチャートを参照して説明する。
まず差分データ抽出部23は、新文書と旧文書それぞれを単位文に分割する(ステップS10)。次に差分データ抽出部23は、新文書中の単位文を指定するポインタiと、旧文書中の単位文を指定するポインタjとを、それぞれ初期値1に設定する(ステップS111)。
次に差分データ抽出部23は、新文書のi番目の単位文と旧文書のj番目の単位文とを比較する(ステップS12)。もし、両単位文が同一内容である場合(ステップS13)、差分データ抽出部23はポインタi,jをいずれも1インクリメントする(ステップS14)。そして、新文書及び旧文書中に、インクリメント後のポインタi及びjで指定される次の単位文がそれぞれあるならば(ステップS15,S16)、差分データ抽出部23は当該次の単位文を比較する(ステップS12)。
これに対し、新文書のi番目の単位文と旧文書のj番目の単位文の内容が異なる場合には、差分データ抽出部23は、新文書のi番目の単位文と同一内容の文を、旧文書のj番目の単位文に後続する単位文列、例えばj+1〜j+kmax(kmaxは予め定められた整数であり、例えば2)番目の単位文列の中から探す処理、或いは旧文書のj番目の単位文と同一内容の文を、新文書のi番目の単位文に後続する単位文列、例えばi+1〜i+kmax番目の単位文列の中から探す処理を実行する。即ち差分データ抽出部23は、新文書のi番目の単位文と旧文書のj+k番目の単位文とを比較する処理(ステップS18)と、旧文書のj番目の単位文と新文書のi+k番目の単位文とを比較する処理(ステップS20)とを、いずれかの処理の結果、同一内容の文が検出されるまで(ステップS19またはS21)、kの値を初期値1から1ずつインクリメントしながら(ステップS22)、k=kmaxを上限に繰り返す(ステップS23)。
もし、新文書のi番目の単位文と旧文書のj+k番目の単位文とが同一内容である場合(ステップS19)、差分データ抽出部23は、旧文書のj〜j+k−1番目の単位文を、削除された差分データとして抽出し、当該差分データを差分データ登録部24に渡す(ステップS24)。このステップS24で差分データ登録部24に渡される差分データには、削除データであることを示す削除タグが付される。差分データ抽出部23はステップS24を実行すると、iを1インクリメントすると共に、jをk+1インクリメントする(ステップS25)。
次に、旧文書のj番目の単位文と新文書のi+k番目の単位文とが同一内容である場合(ステップS21)、差分データ抽出部23は、新文書のi〜i+k−1番目の単位文を、追加された差分データとして抽出し、当該差分データを差分データ登録部24に渡す(ステップS26)。このステップS26で差分データ登録部24に渡される差分データには、当該データが追加データであることを示す追加タグが付される。差分データ抽出部23はステップS26を実行すると、iをk+1インクリメントすると共に、jを1インクリメントする(ステップS27)。
一方、旧文書のj+1〜j+kmax番目の単位文列の中から、新文書のi番目の単位文と同一内容の文が見つからず、且つ新文書のi+1〜i+kmax番目の単位文列の中から、旧文書のj番目の単位文と同一内容の文が見つからなかった場合、差分データ抽出部23はステップS28に進む。このステップS28において、差分データ抽出部23は、新文書のi番目の単位文と旧文書のj番目の単位文とを、それぞれ更新後の差分データと更新前の差分データとして抽出し、当該差分データを差分DB13に登録する。このステップS28で差分データ登録部24に渡される1対の差分データにはいずれも、更新前データまたは更新後データのいずれかであることを示す更新タグが付される。差分データ抽出部23はステップS28を実行すると、i,jをいずれも1インクリメントする(ステップS14)。
差分データ抽出部23は、ステップS14,S25またはS27を実行すると、当該ステップS14,S25またはS27で更新されたi,jをもとに、i及びjで指定される次の単位文がそれぞれ新文書及び旧文書中にあるかを調べる(ステップS15,S16,S30)。もし、i及びjで指定される次の単位文がそれぞれ新文書及び旧文書中にあるならば(ステップS15,S16)、差分データ抽出部23は当該次の単位文を比較する(ステップS12)。
これに対し、新文書中にiで指定される次の単位文(i番目の単位文)はあるものの、旧文書中にjで指定される次の単位文がない場合、つまり旧文書の全単位文について処理し終えた場合(ステップS15,S16)、差分データ抽出部23は、新文書中のi番目以降の単位文を、追加された差分データとして抽出し、当該差分データを、追加タグを付して差分データ登録部24に渡す(ステップS29)。これにより、1つの文書データについて、更新前後の差分データを抽出する差分データ抽出処理が終了する。また、旧文書中にjで指定される次の単位文(j番目の単位文)はあるものの、新文書中にiで指定される次の単位文がない場合、つまり新文書の全単位文について処理し終えた場合(ステップS15,S30)、差分データ抽出部23は、旧文書中のj番目以降の単位文を、削除された差分データとして抽出し、当該差分データを、削除タグを付して差分データ登録部24に渡す(ステップS31)。これにより、上記差分データ抽出処理が終了する。また、i及びjで指定される次の単位文がいずれもないならば、そのまま上記差分データ抽出処理が終了する。
上述の差分データ抽出の例を、図6に示す。図6において、旧文書61は、単位文A,B,C,D,E,F,G,Hに区切られている。一方、新文書は、単位文A,B’,X,C,D,F,G,Hに区切られている。kmax=2とすると、図6の例では、新文書62のi=2番目の単位文B’または旧文書61のj=2番目の単位文Bと同一内容の単位文は、ステップS18〜S23がkmax=2回繰り返されても、それぞれ旧文書61の3〜4番目の単位文列及び新文書62の3〜4番目の単位文列から見つけることはできない。この場合、単位文B’及びBは、それぞれ更新後の差分データ及び更新前の差分データとして抽出される(ステップS28)。
次の単位文、即ち新文書62のi=3番目の単位文X及び旧文書61のj=3番目の単位文Cに関しては、j=3番目の単位文Cが新文書62のi=4番目の単位文Cと同一内容であることが、1回目のステップS20,S21の処理で検出される。この場合、新文書の3番目の単位文Xが、追加された差分データとして抽出される(ステップS26)。
すると、次の単位文は、新文書62のi=5番目の単位文D及び旧文書61のj=4番目の単位文Dとなる(ステップS27)。この場合、i=5番目の単位文D及びj=4番目の単位文Dは同一内容であることが検出される(ステップS12,S13)。
ここでは、次の単位文は、新文書62のi=6番目の単位文F及び旧文書61のj=5番目の単位文Eとなる(ステップS14)。この場合、i=6番目の単位文F及びj=5番目の単位文Eに関しては、i=6番目の単位文Fが旧文書61のi=6番目の単位文Fと同一内容であることが、1回目のステップS18,S19の処理で検出される。この場合、旧文書の5番目の単位文Eが、削除された差分データとして抽出される(ステップS24)。
すると、次の単位文は、新文書62のi=6番目の単位文F及び旧文書61のj=6番目の単位文Fとなる(ステップS25)。i=6番目の単位文F及び旧文書61のj=6番目の単位文Fは同一内容であり、更に新文書62及び旧文書61の後続の単位文についても同一内容であることが、いずれもステップS12,S13の処理で、順次検出される。
さて、差分データ抽出部23によって抽出されて差分データ登録部24に渡される各差分データには、上記したように当該差分データが、「追加」「更新」「削除」のいずれに関するデータであるかを示すタグが付されている。また、差分データ抽出部23から差分データ登録部24には、差分データが抽出される文書データ単位で、当該文書データを特定するためのキー情報(以下、文書IDと称する)が渡される。文書IDには、例えば文書データのファイル名またはロケーション情報が用いられる。このロケーション情報には、例えばURL(Uniform Resource Locator)が用いられる。
ここで、図2のフローチャートに従う動作の説明に戻る。差分データ登録部24は、差分データ抽出部23から渡された差分データを差分DB13に登録するための処理を行う(ステップS3)。この登録処理では、差分データ登録部24は差分データの形態素解析を行い、単語単位に分割する。文書データ登録部21は、この単語単位に分割された差分データの集合を、対応する文書データの文書ID及び時刻情報と共に差分DB13に登録する。この時刻情報は、当該時刻情報が付されている差分データに対応する文書データの更新時刻を示す。つまり時刻情報は、当該時刻情報が付されている差分データが、いつの時点における差分データであるかを示す。
比較差分指定部26は、表示装置16の表示画面を用いた入力要求により、利用者に対し、差分データクラスタリング実行部25によるクラスタリング(差分クラスタリング)の対象となる差分データの集合を指定させる。ここでは、画面表示された例えば一定時間間隔の時刻列T1,T2,T3,T4,…の中から、任意の2つの連続する時刻Ti,Ti+1を、利用者により例えば入力装置15のマウスを用いて選択させることで、その時刻Ti,Ti+1の範囲内の差分データの集合を差分クラスタリングの対象として指定させることができる。また、比較差分指定部26は、差分クラスタリングの対象とする差分データの種類(更新種類)を指定することもできる。ここでは、「追加」「更新」「削除」の中から、1つ以上の任意の種類が指定可能である。
比較差分指定部26は、利用者の操作によって指定された時刻Ti,Ti+1(更には差分データの種類)をクラスタリング結果表示部28に対して通知する。差分データクラスタリング実行部25は、差分DB13に登録されている差分データの集合の中から、比較差分指定部26によって通知(指定)された時刻Ti,Ti+1の範囲内の差分データの集合を選択し、その選択された差分データの集合に対して、クラスタリングを実行する(ステップS4)。ここで、時刻Ti,Ti+1の範囲内の差分データの集合は、文書データ単位で、差分データと共に差分DB13に登録された時刻情報をもとに選択される。また、差分データの種類が指定されている場合には、時刻Ti,Ti+1の範囲内の差分データの集合の中から、指定された種類の差分データの集合だけが選択される。差分データクラスタリング実行部25によるクラスタリングの結果(差分クラスタリング結果)は差分クラスタリング結果DB14に格納される。
クラスタリング結果統合部27は、文書クラスタリング結果DB12に格納されている、文書DB11内の文書データの集合に対するクラスタリング結果(文書クラスタリング結果)と、差分クラスタリング結果DB14に格納されている、差分DB13から選択された時刻Ti,Ti+1の範囲内の(指定された種類の)差分データの集合に対するクラスタリング結果(差分クラスタリング結果)とを統合(マージ)する(ステップS5)。ここでは、クラスタリング結果統合部27は、文書クラスタリング結果の中から利用者によって指定されたクラスタについて、当該文書クラスタリング結果と差分クラスタリング結果とを統合する。
クラスタリング結果表示部28は、差分クラスタリング結果DB14に格納されている差分クラスタリング結果を、表示装置の表示画面に表示する(ステップS6)。この他に、クラスタリング結果表示部28は、文書クラスタリング結果DB12に格納されている文書クラスタリング結果、またはクラスタリング結果統合部27によって統合された結果を表示することもできる。クラスタリング結果表示部28は、クラスタリング結果表示指定部280を含んでいる。クラスタリング結果表示指定部280は、差分クラスタリング結果、文書クラスタリング結果、または文書クラスタリング結果と差分クラスタリング結果との統合結果のいずれを表示するかを、表示画面を介して利用者に指定させる。
図7に、文書クラスタリング結果の表示画面例を示し、図8に差分クラスタリング結果の表示画面例を示す。図7及び図8には、対応するクラスタリングで作成された各クラスタを示す見出し(項目)と、当該クラスタに属する(分類される)文書の数とが示されている。図8の差分クラスタリング結果には、文書データの集合全体をクラスタリングした図7の文書クラスタリング結果からは把握できない、当該文書データの集合中の更新データの傾向が現れている。つまり、本実施形態においては、文書DB11上で更新された文書データの差分データについてクラスタリングを行って、更新された内容(差分)についてクラスタを作成し、そのクラスタを利用者に提示することで、利用者は、文書DB11中の更新されたデータの傾向を把握することができる。また利用者は、更新された内容について分類された情報を取得できる。しかも、差分クラスタリングの対象となる差分データは、パターンマッチングにより単位文を決定して、その決定された単位文毎に抽出されるため、有効性の高い差分データを抽出でき、更新の傾向をより効果的に利用者に提示することができる。
今、図7の文書クラスタリング結果が表示されている状態で、利用者が入力装置15のマウスを操作して、見出しが「ニュース」のクラスタを選択したものとする。するとクラスタリング結果表示指定部280は、クラスタリング結果統合部27に対し、見出しが「ニュース」のクラスタについて、文書クラスタリング結果と差分クラスタリング結果とを統合することを指示する。クラスタリング結果統合部27は、クラスタリング結果表示指定部280からの統合指示に従い、見出しが「ニュース」のクラスタについて、文書クラスタリング結果と差分クラスタリング結果とを統合する(組み合わせる)。
このクラスタリング結果統合部27による統合処理の手順について、図9のフローチャートを参照して説明する。
クラスタリング結果統合部27は、文書クラスタリング結果中の、利用者によって選択された「ニュース」のクラスタ(以下、文書クラスタと称する)について、その文書クラスタに属する文書の文書IDの集合を検出する(ステップS41)。次に、クラスタリング結果統合部27は、差分クラスタリング結果中の各クラスタの中から、1つのクラスタ(以下、差分クラスタと称する)を選択する(ステップS42)。ここでは、上位階層のクラスタから順に選択するものとする。クラスタリング結果統合部27は、ステップS42で選択された差分クラスタに属する文書の文書IDの集合を検出する(ステップS43)。
次にクラスタリング結果統合部27は、ステップS41で検出された文書IDの集合及びステップS43で検出された文書IDの集合のいずれにも含まれる文書IDの集合、つまり利用者によって選択された文書クラスタ及びステップS42で選択された差分クラスタのいずれにも属する(共通に分類される)文書の文書IDの集合を検出する(ステップS44)。
クラスタリング結果統合部27は、ステップS42で選択された差分クラスタを、ステップS44で検出された文書IDの集合で示される文書の集合のみが属する(統合後の)差分クラスタに変更する(ステップS45)。ここでは、変更後の差分クラスタに属する文書の数(つまり選択された文書クラスタ及び差分クラスタのいずれにも属する文書の数)がカウントされる。次にクラスタリング結果統合部27は、変更後の差分クラスタを、選択された文書クラスタに統合する(ステップS46)。
クラスタリング結果統合部27は、以上のステップS42〜S46を、差分クラスタリング結果中の全クラスタについて実行する(ステップS47)。これにより、クラスタリング結果統合部27は、利用者により選択された、見出しが「ニュース」のクラスタについて、図7の文書クラスタリング結果と図8の差分クラスタリング結果とを統合した結果を取得することができる。
クラスタリング結果表示部28は、クラスタリング結果統合部27によって取得された、見出しが「ニュース」のクラスタについて、文書クラスタリング結果と差分クラスタリング結果とを統合した統合結果を、表示装置16に表示する。
この統合結果の表示画面例を図10に示す。利用者は、図10の統合結果が表示されることにより、自身が文書クラスタリング結果から選択したクラスタについて、どのような更新傾向があったかを表示画面上で把握することができる。つまり利用者は、文書DB11全体に対する文書クラスタリング結果で示される各クラスタを適宜選択することで、そのクラスタ毎の更新の傾向を把握することができる。ここで、文書クラスタリング結果と統合される差分クラスタリング結果に、「削除」「更新」または「追加」の中から利用者により選択された種類の差分データの集合に対する差分クラスタリング結果を用いることも可能である。
[変形例]
次に、上述の差分クラスタリングを自然言語検索に適用した、上記実施形態の変形例について、図11の表示画面例及び図12のフローチャートを参照して説明する。
クラスタリング結果表示部28は、図11(a)に示す検索入力画面110を表示装置16に表示する。検索入力画面110には、検索のための質問文を入力するのに用いられる入力ボックス111と、検索実行を指示するための検索ボタン112とが配置されている。検索入力画面110には更に、更新傾向の表示方法を選択して指示するための、例えば4つの更新傾向表示指示ボタン113-1,113-2,113-3,113-4が配置されている。ボタン113-1,113-2,113-3,113-4は、更新傾向の表示なし、「追加」に関する更新傾向の表示、「更新」に関する更新傾向の表示、「削除」に関する更新傾向の表示を、それぞれ指示するのに用いられる。
この変形例では、差分データクラスタリング実行部25は、上記ステップS4において、「追加」「更新」「削除」の各差分データ種類(更新種類)毎に、対応する差分データの集合に対するクラスタリングを行う。この差分データクラスタリング実行部25による差分データ種類毎のクラスタリング結果は、差分クラスタリング結果DB14に格納される。また、差分データクラスタリング実行部25は、差分クラスタリングで生成された各クラスタについて、当該クラスタに属する文書データに基づき、当該クラスタの特徴を表すための従来から良く知られているプロファイル情報を生成する。
以下、プロファイル情報について簡単に説明する。クラスタのプロファイル情報は、例えば特徴ベクトルで表現される。このクラスタの特徴ベクトルは、文書の特徴ベクトルに基づいて作成される。ここでは、クラスタの特徴ベクトルは、当該クラスタに属する各文書の特徴ベクトルを加算することにより作成される。文書の特徴ベクトルは、TF(Term Frequency)/IDF(Inverse Document Frequency)の単語の重みを用いて作成される。文書の特徴ベクトルは、当該文書に出現する単語を次元(要素)とし、当該単語の重みを次元量として表される。単語の重み(TF/IDFの単語の重み)は、当該単語が出現する文書DB(ここでは文書DB11)内の文書の数に対する当該単語の出現回数の割合、つまり当該単語の出現頻度によって表される。
さて、図11(a)に示す検索入力画面110が表示装置16に表示されている状態で、入力装置15を用いた利用者の操作により、入力ボックス111に質問文が入力されたものとする。また、図11(a)の例のように、検索入力画面110上の更新傾向表示指示ボタン113-1,113-2,113-3,113-4のうちの「追加」に関する更新傾向の表示を指示するボタン113-2が選択されたものとする。
この状態で、検索入力画面110上の検索ボタン112が選択されると、クラスタリング結果表示部28はまず、解析手段として機能する。即ち、クラスタリング結果表示部28は、入力ボックス111に入力された質問文を形態素解析し、質問文の特徴ベクトルを作成する(ステップS51)。この質問文の特徴ベクトルは、上記した文書の特徴ベクトルを作成する場合と同様に、TF/IDFの単語重みをもとに作成される。次にクラスタリング結果表示部28(解析手段)は、質問文の特徴ベクトルと、差分データクラスタリング実行部25による差分クラスタリング結果のうち、選択された更新傾向表示指示ボタン113-2に対応する更新種類の差分クラスタリング結果に含まれている各クラスタ(差分クラスタ)の特徴ベクトルとの間の類似度(関連性の度合い)を算出(解析)する(ステップS52)。この類似度は、質問文の特徴ベクトルと上記各クラスタの特徴ベクトルとの内積をとることにより算出される。
次にクラスタリング結果表示部28は関連クラスタ選択手段として機能して、質問文の特徴ベクトルと差分クラスタリング結果の各クラスタの特徴ベクトルとの間の類似度を、予め定められた閾値と比較する(ステップS53)。クラスタリング結果表示部28(関連クラスタ選択手段)は、ステップS53での比較結果をもとに、質問文の特徴ベクトルとの間の類似度が閾値より高い全てのクラスタ(差分クラスタ)を、当該質問文と関連したクラスタであるとして選択する(ステップS54)。ここで、解析手段及び関連クラスタ選択手段を、クラスタリング結果表示部28から独立して設けることも可能である。
クラスタリング結果表示部28は、質問文と関連したクラスタがステップS54で選択されると、図11(b)に示す検索結果画面120上に、この選択されたクラスタの一覧121を表示する(ステップS55)。これにより利用者は、自身が入力した質問文に関連する更新データの傾向を把握することができる。
本実施形態では、検索ボタン112が選択されると、入力された質問文から切り出されるキーワードを用いて、文書DB11に登録されている文書データ集合を対象とする文書検索、つまり通常の文書検索(自然言語検索)が行われる。そこで、クラスタリング結果表示部28は図11(b)に示すように、検索結果画面120上に、この通常の文書検索の結果122も表示する(ステップS56)。
利用者は、クラスタの一覧121が表示されている場合、入力装置15を操作することにより、その一覧121から所望のクラスタを選択することができる。クラスタリング結果表示部28は、クラスタの一覧121からクラスタが選択されると(ステップS57)、その選択されたクラスタに属する文書の一覧を表示する(ステップS58)。
なお、本発明は、上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合せにより種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。
本発明の一実施形態に係る文書検索装置の構成を示すブロック図。 同実施形態における差分クラスタリングを含む動作の手順を示すフローチャート。 正規表現によるパターンマッチングを用いた単位文の決定を説明するための図。 図2のステップS2における差分データ抽出処理を説明するためのフローチャートの一部を示す図。 図2のステップS2における差分データ抽出処理を説明するためのフローチャートの残りを示す図。 差分データ抽出例を示す図。 文書クラスタリング結果の表示画面例を示す図。 差分クラスタリング結果の表示画面例を示す図。 クラスタリング結果統合部27によるクラスタリング結果統合処理の手順を示すフローチャート。 文書クラスタリング結果と差分クラスタリング結果とを統合した統合結果の表示画面例を示す図。 検索入力画面及び検索結果画面の例を示す図。 差分クラスタリングを自然言語検索に適用した場合の動作を説明するためのフローチャート。
符号の説明
11…文書DB、12…文書クラスタリング結果DB、13…差分DB、14…差分クラスタリング結果DB、15…入力装置、16…表示装置、21…文書データ登録部、22…文書データクラスタリング実行部、23…差分データ抽出部、24…差分データ登録部、26…比較差分指定部、27…クラスタリング結果統合部、28…クラスタリング結果表示部、111…入力ボックス、113-1,113-2,113-3,113-4…更新傾向表示指示ボタン、280…クラスタリング結果表示指定部(統合指示手段、解析手段、関連クラスタ選択手段)。

Claims (10)

  1. 文書データベースに登録されている文書データを利用者からの要求に応じて検索する文書検索装置において、
    前記文書データベースに登録されている文書データが更新される際の更新前後の差分を差分データとして抽出する差分データ抽出手段と、
    前記差分データ抽出手段によって抽出された差分データを差分データベースに登録する差分データ登録手段と、
    前記差分データベースに登録されている差分データの集合に対してクラスタリングを実行することにより差分クラスタリング結果を取得する差分データクラスタリング実行手段と、
    前記差分クラスタリング結果を表示装置に表示するクラスタリング結果表示手段と
    を具備することを特徴とする文書検索装置。
  2. 前記文書データベースに登録されている文書データの集合に対してクラスタリングを実行することにより文書クラスタリング結果を取得する文書データクラスタリング実行手段と、
    前記文書クラスタリング結果と前記差分クラスタリング結果とを、前記文書クラスタリング結果に含まれるクラスタを単位に統合するクラスタリング結果統合手段とを更に具備し、
    前記クラスタリング結果表示手段は、前記文書クラスタリング結果及び前記クラスタリング結果統合手段による統合結果を前記表示装置に表示する
    ことを特徴とする請求項1記載の文書検索装置。
  3. 前記文書クラスタリング結果が前記表示装置に表示されている状態で、当該文書クラスタリング結果から任意のクラスタが利用者の操作に応じて選択された場合に、前記文書クラスタリング結果と前記差分クラスタリング結果との統合を前記クラスタリング結果統合手段に指示する統合指示手段を更に具備し、
    前記クラスタリング結果統合手段は、前記統合指示手段からの指示に応じ、前記選択されたクラスタについて、前記文書クラスタリング結果と前記差分クラスタリング結果とを統合する
    ことを特徴とする請求項2記載の文書検索装置。
  4. 前記クラスタリング結果統合手段は、前記差分クラスタリング結果に含まれているクラスタの各々を、当該クラスタ及び前記選択されたクラスタに共通に分類される文書データのみを含むクラスタに変更し、変更されたクラスタを前記文書クラスタリング結果の前記選択されたクラスタに統合することを特徴とする請求項3記載の文書検索装置。
  5. 前記差分データ抽出手段は、前記文書データベースに登録されている文書データが更新される際の更新前の文書データと更新後の文書データとを単位文に分割し、当該単位文のうち、前記更新前の文書データ及び前記更新後の文書データの一方のみに含まれている単位文を前記差分データとして抽出することを特徴とする請求項1記載の文書検索装置。
  6. 前記差分データクラスタリング実行手段によるクラスタリングの対象となる差分データの集合を特定するための任意の時刻範囲を利用者の操作に応じて指定する比較差分指定手段を更に具備し、
    前記差分データ登録手段は、前記差分データ抽出手段によって抽出された差分データに更新時刻を示す時刻情報を付して、当該時刻情報が付された差分データを前記差分データベースに登録し、
    前記差分データクラスタリング実行手段は、前記差分データベースに登録されている差分データのうち、前記比較差分指定手段によって指定された時刻範囲の更新時刻を示す時刻情報が付加された差分データの集合に対してクラスタリングを実行する
    ことを特徴とする請求項1記載の文書作成装置。
  7. 利用者の操作に応じて文書検索のための質問文が入力された場合、当該質問文と前記差分クラスタリング結果に含まれているクラスタとの関連性の度合いを解析する解析手段と、
    前記解析手段による解析結果をもとに、前記差分クラスタリング結果の中から、前記質問文と関連したクラスタを選択する関連クラスタ選択手段と
    を更に具備し、
    前記クラスタリング結果表示手段は、前記関連クラスタ選択手段によって選択されたクラスタの一覧を前記表示装置に表示する
    ことを特徴とする請求項1記載の文書検索装置。
  8. 前記クラスタリング結果表示手段は、前記表示装置に表示されている前記クラスタの一覧からの利用者の操作に従う任意のクラスタの選択を受け付けて、当該任意のクラスタに属する文書の一覧を前記表示装置に表示する
    ことを特徴とする請求項7記載の文書検索装置。
  9. 文書データベースに登録されている文書データを利用者からの要求に応じて検索する文書検索装置に適用されるクラスタリングプログラムであって、
    前記情報検索装置に、
    前記文書データベースに登録されている文書データが更新される際の更新前後の差分を差分データとして抽出するステップと、
    抽出された差分データを差分データベースに登録するステップと、
    前記差分データベースに登録されている差分データの集合に対してクラスタリングを実行することにより差分クラスタリング結果を取得するステップと、
    前記差分クラスタリング結果を表示装置に表示するステップと
    を実行させるためのクラスタリングプログラム。
  10. 前記文書検索装置に、
    前記文書データベースに登録されている文書データの集合に対してクラスタリングを実行することにより文書クラスタリング結果を取得するステップと、
    前記文書クラスタリング結果と前記差分クラスタリング結果とを、前記文書クラスタリング結果に含まれるクラスタを単位に統合するステップと、
    前記文書クラスタリング結果と前記差分クラスタリング結果との統合結果を前記表示装置に表示するステップと
    を更に実行させるための請求項9記載のクラスタリングプログラム。
JP2004107756A 2004-03-31 2004-03-31 文書検索装置及びクラスタリングプログラム Expired - Fee Related JP4047831B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004107756A JP4047831B2 (ja) 2004-03-31 2004-03-31 文書検索装置及びクラスタリングプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004107756A JP4047831B2 (ja) 2004-03-31 2004-03-31 文書検索装置及びクラスタリングプログラム

Publications (2)

Publication Number Publication Date
JP2005293266A JP2005293266A (ja) 2005-10-20
JP4047831B2 true JP4047831B2 (ja) 2008-02-13

Family

ID=35326123

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004107756A Expired - Fee Related JP4047831B2 (ja) 2004-03-31 2004-03-31 文書検索装置及びクラスタリングプログラム

Country Status (1)

Country Link
JP (1) JP4047831B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010125781A1 (ja) * 2009-04-27 2010-11-04 パナソニック株式会社 データ処理装置、データ処理方法、プログラム、及び集積回路

Also Published As

Publication number Publication date
JP2005293266A (ja) 2005-10-20

Similar Documents

Publication Publication Date Title
JP4638439B2 (ja) ウェブ検索の個人化
US7769771B2 (en) Searching a document using relevance feedback
JP4810469B2 (ja) 検索支援装置、プログラム及び検索支援システム
US8433698B2 (en) Matching and recommending relevant videos and media to individual search engine results
US7065707B2 (en) Segmenting and indexing web pages using function-based object models
JP5212610B2 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
JP6652490B2 (ja) 多ディメンション・データー構造に対する実行のためのクエリー構築
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
US20090083230A1 (en) Apparatus and method for supporting information searches
JP2008515049A (ja) 文書構造に基づいた検索結果の表示
JP2006251866A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US8782049B2 (en) Keyword presenting device
EP2689355A2 (en) Systems and method for enabling searches of a document corpus and generation of search queries
JP2003016089A (ja) 情報検索システム及びサーバ
WO2018090468A1 (zh) 视频节目的搜索方法和装置
JP5345987B2 (ja) 文書検索装置、文書検索方法および文書検索プログラム
CN102257490A (zh) 文档信息选择方法和计算机程序产品
JP2000222418A (ja) データベース検索方法および装置
JP5269399B2 (ja) 構造化文書検索装置、方法およびプログラム
JP4047831B2 (ja) 文書検索装置及びクラスタリングプログラム
JP7428250B2 (ja) 文書検索の性能を評価する方法、システム、および装置
JP4933869B2 (ja) 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体
JP2004157649A (ja) 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
JP7101946B2 (ja) 検索システム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070731

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070928

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20071120

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071122

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4047831

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101130

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111130

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121130

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131130

Year of fee payment: 6

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees