JP4047831B2 - 文書検索装置及びクラスタリングプログラム - Google Patents
文書検索装置及びクラスタリングプログラム Download PDFInfo
- Publication number
- JP4047831B2 JP4047831B2 JP2004107756A JP2004107756A JP4047831B2 JP 4047831 B2 JP4047831 B2 JP 4047831B2 JP 2004107756 A JP2004107756 A JP 2004107756A JP 2004107756 A JP2004107756 A JP 2004107756A JP 4047831 B2 JP4047831 B2 JP 4047831B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- difference
- clustering result
- data
- clustering
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
図1は本発明の一実施形態に係る文書検索装置の構成を示すブロック図である。図1の文書検索装置は、文書データベース(以下、文書DBと称する)11と、文書クラスタリング結果データベース(以下、文書クラスタリング結果DBと称する)12と、差分データベース(以下、差分DBと称する)13と、差分クラスタリング結果データベース(以下、差分クラスタリング結果DBと称する)14と、キーボード及びマウスを含む入力装置15と、表示装置16とを備えている。図1の文書検索装置はまた、文書データ登録部21と、文書データクラスタリング実行部22と、差分データ抽出部23と、差分データ登録部24と、差分データクラスタリング実行部25と、比較差分指定部26と、クラスタリング結果統合部27と、クラスタリング結果表示部28とを備えている。
文書データ登録部21は、文書データを文書DB11に登録するための処理を行う(ステップS1)。この登録処理では、文書データ登録部21は文書データの形態素解析を行い、単語単位に分割する。文書データ登録部21は、この単語単位に分割された文書データの集合を文書DB11に登録する。文書データ登録部21によって登録される文書データが、磁気ディスク、光ディスク等の可搬型の記憶媒体から読み込まれるものであっても、或いはネットワークを介して転送されるものであっても構わない。
1)新規に追加されたデータ
2)更新されたデータ
3)削除されたデータ
の3種に分類される。一般に更新文書データ(つまり新文書データ)上では、データの「追加」「更新(変更)」「削除」が発生する。ここで、文書データは、タイトル、及び本文という構造を持っているものとする。
1)改行を区切りとした単位文
2)句点を区切りとした単位文
3)文書の構造情報(章、節など)から推定される区切りをもとにした単位文
等が利用可能である。また、単位文を段落としても構わない。
1)改行、句点、読点で区切る場合
正規表現は
[¥n。、]
のように表される。ここで、[ ]は括弧内の任意の1文字を表し、¥nは改行文字を表す。
正規表現は、
^第[0−9]+章¥n
^第[0−9]+章¥s[^。]+¥n
^[0−9]¥.[0−9]¥s[^。]+¥n
のように表される。ここで、“+”は直前の文字の1回以上の繰り返しを表し、“^”は行頭を表す([]内の“^”を除く)。[^ ]は[ ]内にない任意の1文字を表し、“¥s”は空白文字を表し、“¥.”はピリオドを表す。
^第[0−9]+章¥s[^。]+¥n
^[0−9]¥.[0−9]¥s[^。]+¥n
[□◇・]
に基づいて文書データを単位文に区切るように設定されているものとする。
まず差分データ抽出部23は、新文書と旧文書それぞれを単位文に分割する(ステップS10)。次に差分データ抽出部23は、新文書中の単位文を指定するポインタiと、旧文書中の単位文を指定するポインタjとを、それぞれ初期値1に設定する(ステップS111)。
クラスタリング結果統合部27は、文書クラスタリング結果中の、利用者によって選択された「ニュース」のクラスタ(以下、文書クラスタと称する)について、その文書クラスタに属する文書の文書IDの集合を検出する(ステップS41)。次に、クラスタリング結果統合部27は、差分クラスタリング結果中の各クラスタの中から、1つのクラスタ(以下、差分クラスタと称する)を選択する(ステップS42)。ここでは、上位階層のクラスタから順に選択するものとする。クラスタリング結果統合部27は、ステップS42で選択された差分クラスタに属する文書の文書IDの集合を検出する(ステップS43)。
次に、上述の差分クラスタリングを自然言語検索に適用した、上記実施形態の変形例について、図11の表示画面例及び図12のフローチャートを参照して説明する。
クラスタリング結果表示部28は、図11(a)に示す検索入力画面110を表示装置16に表示する。検索入力画面110には、検索のための質問文を入力するのに用いられる入力ボックス111と、検索実行を指示するための検索ボタン112とが配置されている。検索入力画面110には更に、更新傾向の表示方法を選択して指示するための、例えば4つの更新傾向表示指示ボタン113-1,113-2,113-3,113-4が配置されている。ボタン113-1,113-2,113-3,113-4は、更新傾向の表示なし、「追加」に関する更新傾向の表示、「更新」に関する更新傾向の表示、「削除」に関する更新傾向の表示を、それぞれ指示するのに用いられる。
Claims (10)
- 文書データベースに登録されている文書データを利用者からの要求に応じて検索する文書検索装置において、
前記文書データベースに登録されている文書データが更新される際の更新前後の差分を差分データとして抽出する差分データ抽出手段と、
前記差分データ抽出手段によって抽出された差分データを差分データベースに登録する差分データ登録手段と、
前記差分データベースに登録されている差分データの集合に対してクラスタリングを実行することにより差分クラスタリング結果を取得する差分データクラスタリング実行手段と、
前記差分クラスタリング結果を表示装置に表示するクラスタリング結果表示手段と
を具備することを特徴とする文書検索装置。 - 前記文書データベースに登録されている文書データの集合に対してクラスタリングを実行することにより文書クラスタリング結果を取得する文書データクラスタリング実行手段と、
前記文書クラスタリング結果と前記差分クラスタリング結果とを、前記文書クラスタリング結果に含まれるクラスタを単位に統合するクラスタリング結果統合手段とを更に具備し、
前記クラスタリング結果表示手段は、前記文書クラスタリング結果及び前記クラスタリング結果統合手段による統合結果を前記表示装置に表示する
ことを特徴とする請求項1記載の文書検索装置。 - 前記文書クラスタリング結果が前記表示装置に表示されている状態で、当該文書クラスタリング結果から任意のクラスタが利用者の操作に応じて選択された場合に、前記文書クラスタリング結果と前記差分クラスタリング結果との統合を前記クラスタリング結果統合手段に指示する統合指示手段を更に具備し、
前記クラスタリング結果統合手段は、前記統合指示手段からの指示に応じ、前記選択されたクラスタについて、前記文書クラスタリング結果と前記差分クラスタリング結果とを統合する
ことを特徴とする請求項2記載の文書検索装置。 - 前記クラスタリング結果統合手段は、前記差分クラスタリング結果に含まれているクラスタの各々を、当該クラスタ及び前記選択されたクラスタに共通に分類される文書データのみを含むクラスタに変更し、変更されたクラスタを前記文書クラスタリング結果の前記選択されたクラスタに統合することを特徴とする請求項3記載の文書検索装置。
- 前記差分データ抽出手段は、前記文書データベースに登録されている文書データが更新される際の更新前の文書データと更新後の文書データとを単位文に分割し、当該単位文のうち、前記更新前の文書データ及び前記更新後の文書データの一方のみに含まれている単位文を前記差分データとして抽出することを特徴とする請求項1記載の文書検索装置。
- 前記差分データクラスタリング実行手段によるクラスタリングの対象となる差分データの集合を特定するための任意の時刻範囲を利用者の操作に応じて指定する比較差分指定手段を更に具備し、
前記差分データ登録手段は、前記差分データ抽出手段によって抽出された差分データに更新時刻を示す時刻情報を付して、当該時刻情報が付された差分データを前記差分データベースに登録し、
前記差分データクラスタリング実行手段は、前記差分データベースに登録されている差分データのうち、前記比較差分指定手段によって指定された時刻範囲の更新時刻を示す時刻情報が付加された差分データの集合に対してクラスタリングを実行する
ことを特徴とする請求項1記載の文書作成装置。 - 利用者の操作に応じて文書検索のための質問文が入力された場合、当該質問文と前記差分クラスタリング結果に含まれているクラスタとの関連性の度合いを解析する解析手段と、
前記解析手段による解析結果をもとに、前記差分クラスタリング結果の中から、前記質問文と関連したクラスタを選択する関連クラスタ選択手段と
を更に具備し、
前記クラスタリング結果表示手段は、前記関連クラスタ選択手段によって選択されたクラスタの一覧を前記表示装置に表示する
ことを特徴とする請求項1記載の文書検索装置。 - 前記クラスタリング結果表示手段は、前記表示装置に表示されている前記クラスタの一覧からの利用者の操作に従う任意のクラスタの選択を受け付けて、当該任意のクラスタに属する文書の一覧を前記表示装置に表示する
ことを特徴とする請求項7記載の文書検索装置。 - 文書データベースに登録されている文書データを利用者からの要求に応じて検索する文書検索装置に適用されるクラスタリングプログラムであって、
前記情報検索装置に、
前記文書データベースに登録されている文書データが更新される際の更新前後の差分を差分データとして抽出するステップと、
抽出された差分データを差分データベースに登録するステップと、
前記差分データベースに登録されている差分データの集合に対してクラスタリングを実行することにより差分クラスタリング結果を取得するステップと、
前記差分クラスタリング結果を表示装置に表示するステップと
を実行させるためのクラスタリングプログラム。 - 前記文書検索装置に、
前記文書データベースに登録されている文書データの集合に対してクラスタリングを実行することにより文書クラスタリング結果を取得するステップと、
前記文書クラスタリング結果と前記差分クラスタリング結果とを、前記文書クラスタリング結果に含まれるクラスタを単位に統合するステップと、
前記文書クラスタリング結果と前記差分クラスタリング結果との統合結果を前記表示装置に表示するステップと
を更に実行させるための請求項9記載のクラスタリングプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004107756A JP4047831B2 (ja) | 2004-03-31 | 2004-03-31 | 文書検索装置及びクラスタリングプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2004107756A JP4047831B2 (ja) | 2004-03-31 | 2004-03-31 | 文書検索装置及びクラスタリングプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2005293266A JP2005293266A (ja) | 2005-10-20 |
JP4047831B2 true JP4047831B2 (ja) | 2008-02-13 |
Family
ID=35326123
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004107756A Expired - Fee Related JP4047831B2 (ja) | 2004-03-31 | 2004-03-31 | 文書検索装置及びクラスタリングプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4047831B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010125781A1 (ja) * | 2009-04-27 | 2010-11-04 | パナソニック株式会社 | データ処理装置、データ処理方法、プログラム、及び集積回路 |
-
2004
- 2004-03-31 JP JP2004107756A patent/JP4047831B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2005293266A (ja) | 2005-10-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4638439B2 (ja) | ウェブ検索の個人化 | |
US7769771B2 (en) | Searching a document using relevance feedback | |
JP4810469B2 (ja) | 検索支援装置、プログラム及び検索支援システム | |
US8433698B2 (en) | Matching and recommending relevant videos and media to individual search engine results | |
US7065707B2 (en) | Segmenting and indexing web pages using function-based object models | |
JP5212610B2 (ja) | 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム | |
JP6652490B2 (ja) | 多ディメンション・データー構造に対する実行のためのクエリー構築 | |
US20050081146A1 (en) | Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus | |
US20090083230A1 (en) | Apparatus and method for supporting information searches | |
JP2008515049A (ja) | 文書構造に基づいた検索結果の表示 | |
JP2006251866A (ja) | 情報処理装置および方法、プログラム、並びに記録媒体 | |
US8782049B2 (en) | Keyword presenting device | |
EP2689355A2 (en) | Systems and method for enabling searches of a document corpus and generation of search queries | |
JP2003016089A (ja) | 情報検索システム及びサーバ | |
WO2018090468A1 (zh) | 视频节目的搜索方法和装置 | |
JP5345987B2 (ja) | 文書検索装置、文書検索方法および文書検索プログラム | |
CN102257490A (zh) | 文档信息选择方法和计算机程序产品 | |
JP2000222418A (ja) | データベース検索方法および装置 | |
JP5269399B2 (ja) | 構造化文書検索装置、方法およびプログラム | |
JP4047831B2 (ja) | 文書検索装置及びクラスタリングプログラム | |
JP7428250B2 (ja) | 文書検索の性能を評価する方法、システム、および装置 | |
JP4933869B2 (ja) | 文書検索装置、文書検索方法、文書検索プログラムおよび記録媒体 | |
JP2004157649A (ja) | 階層化されたユーザプロファイル作成方法およびシステム並びに階層化されたユーザプロファイル作成プログラムおよびそれを記録した記録媒体 | |
JP2002032394A (ja) | 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体 | |
JP7101946B2 (ja) | 検索システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070731 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070928 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20071120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071122 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4047831 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101130 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111130 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121130 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131130 Year of fee payment: 6 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S533 | Written request for registration of change of name |
Free format text: JAPANESE INTERMEDIATE CODE: R313533 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |