JP2002207760A - 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 - Google Patents

文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Info

Publication number
JP2002207760A
JP2002207760A JP2001002810A JP2001002810A JP2002207760A JP 2002207760 A JP2002207760 A JP 2002207760A JP 2001002810 A JP2001002810 A JP 2001002810A JP 2001002810 A JP2001002810 A JP 2001002810A JP 2002207760 A JP2002207760 A JP 2002207760A
Authority
JP
Japan
Prior art keywords
document
search
related word
keyword
processing unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001002810A
Other languages
English (en)
Inventor
Homare Kanie
誉 蟹江
Mikihiko Tokunaga
幹彦 徳永
Hitoshi Tanaka
仁士 田中
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP2001002810A priority Critical patent/JP2002207760A/ja
Priority to US10/034,991 priority patent/US20020174113A1/en
Publication of JP2002207760A publication Critical patent/JP2002207760A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 ユーザの意図に合った適切な関連語を検索し
て文書検索作業の効率を向上させることが可能な技術を
提供する。 【解決手段】 キーワードを用いて文書データベースか
ら所望の文書を検索する文書検索方法において、入力さ
れたキーワードに関連する関連語とその関連語の有効期
間を抽出するステップと、前記抽出した関連語を検索語
として文書の検索を行うステップと、前記抽出した有効
期間内の文書を前記検索された文書の中から選択するス
テップとを有するものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はキーワードを用いて
文書データベースに格納されている文書から所望の文書
を検索する文書検索装置に関し、特にキーワードとその
キーワードに関連する関連語の検索を行う文書検索装置
に適用して有効な技術に関するものである。
【0002】
【従来の技術】文書が大量に登録された文書データベー
スから所望の文書を検索する処理として全文検索があ
る。これはユーザの指定したキーワードが文書内に存在
するものを所望の文書として検出する検索である。この
検索ではユーザが任意のキーワードを指定できるが、キ
ーワードがその関連語及び異表記によって表現された文
書に関して検索に漏れが存在する問題があった。この問
題を解消する為にキーワードの同義語、類義語等キーワ
ードに関連する語も検索語として検索することにより、
検索漏れを減らすという手法がある。しかしキーワード
の関連語まで検索すると、検索漏れは少なくなるが、ユ
ーザの意図とは異なる文書が検索されることも増え、ユ
ーザの所望している文書と検索された文書との適合率が
低くなるという問題があった。
【0003】この様な問題を解決する為に、キーワード
の関連語に関連の強度を設け、ユーザからキーワードと
関連度を元に検索することで、余計な検索結果が出ない
様にすることが提案されている。例えば、ユーザの意図
に合った適切な関連語を得ることができ、文書検索作業
をより効率的に行う文書検索装置については特開平9−
44506号公報に記載されている。その概要は、展開
する関連語グループの関連度の範囲などの関連度条件を
関連度条件入力手段により入力し、関連語同士の関連の
度合いを示す関連度が関連度条件入力手段により指定さ
れた関連度条件を満たしていればその関連語グループに
属する語を検索語として検索に用いるものである。
【0004】
【発明が解決しようとする課題】上記従来技術の文書検
索装置では、キーワードに対して関連の強度が時間の経
過と共に変化せず、一定に決まってしまっているため、
時間と共に類義語や関連語が変化する様なキーワードに
対しての検索を行った場合、長い時間をかけて蓄積され
たデータベースからは所望の文書が検索されない場合が
ある。また時間と共にキーワードに対して複数の関連語
を登録してしまうと、検索結果に所望の文書以上の文書
が含まれてしまう。
【0005】本発明の目的は上記問題を解決し、ユーザ
の意図に合った適切な関連語を検索して文書検索作業の
効率を向上させることが可能な技術を提供することにあ
る。
【0006】本発明の他の目的はその有効期間内の関連
語の検索速度を向上させることが可能な技術を提供する
ことにある。
【0007】本発明の他の目的は既存のシステムを大幅
に変更することなく有効期間内の関連語の検索を行う構
成に拡張することが可能な技術を提供することにある。
【0008】
【課題を解決するための手段】本発明は、キーワードを
用いて文書データベースから所望の文書を検索する文書
検索装置において、キーワードに関連する関連語の検索
をその関連語の有効期間内の文書について行うものであ
る。
【0009】本発明では、予めキーワードに関連する関
連語とその関連語の有効期間を時系列関連語辞書に保持
しておき、文書を検索しようとするユーザによってキー
ワードが入力されると、入力されたキーワードに関連す
る関連語とその関連語の有効期間を時系列関連語辞書か
ら抽出する。そして前記抽出した関連語を検索語として
文書の検索を行った後、その検索結果の文書の中から前
記抽出した有効期間内の文書を選択し、前記入力された
キーワードに関連する関連語の検索結果として保持す
る。
【0010】この様に本発明では、時間の経過によって
類義語や関連語が変わっていくキーワードにより文書を
検索する際、そのキーワード自身による検索の他に、当
該キーワードから展開される同義語や類義語等の関連語
の有効期間内の文書を検索して当該関連語の検索結果と
するので、時間の経過に対応した適切な関連語の検索を
行うことができ、ユーザの所望する文書の漏れやノイズ
を少なくすることができる。
【0011】以上の様に本発明の文書検索装置によれ
ば、キーワードに関連する関連語の検索をその関連語の
有効期間内の文書について行うので、ユーザの意図に合
った適切な関連語を検索して文書検索作業の効率を向上
させることが可能である。
【0012】
【発明の実施の形態】(実施形態1)以下にキーワード
に関連する関連語とその関連語の有効期間を時系列関連
語辞書から抽出し、関連語を検索語とした検索結果から
その関連語の有効期間内の文書を選択する実施形態1の
文書検索装置について説明する。
【0013】図1は本実施形態の文書検索装置100の
概略構成を示す図である。図1に示す様に本実施形態の
文書検索装置100は、CPU101と、メモリ102
と、磁気ディスク装置103と、入力装置104と、出
力装置105と、CD−ROM装置106と、時系列関
連語辞書130と、全文検索データベース150とを有
している。
【0014】CPU101は、文書検索装置100全体
の動作を制御する装置である。メモリ102は、文書検
索装置100全体の動作を制御する際にその為の各種処
理プログラムやデータをロードする記憶装置である。
【0015】磁気ディスク装置103は、前記各種処理
プログラムやデータを格納しておく記憶装置である。入
力装置104は、キーワードに関連する関連語を含みそ
の関連語の有効期間内の文書を検索する為の各種入力を
行う装置である。
【0016】出力装置105は、前記文書の検索に伴う
各種出力を行う装置である。CD−ROM装置106
は、前記各種処理プログラムを記録したCD−ROMの
内容を読み出す装置である。時系列関連語辞書130
は、任意のキーワードに対する関連語とその関連語の有
効期間を保持する辞書であり、関連語、有効期間、関連
元語を1組にしてデータを保持するものである。全文検
索データベース150は、任意のキーワードまたはその
関連語を含む文書とその文書を検索する為の全文検索イ
ンデクスを保持するデータベースである。
【0017】また文書検索装置100は、キーワード入
力処理部110と、時系列関連語展開処理部120と、
検索処理部140と、検索結果選択処理部160と、検
索結果保持処理部170とを有している。
【0018】キーワード入力処理部110は、アプリケ
ーション等の外部から検索の為のキーワードと検索要求
を受け取る処理部である。時系列関連語展開処理部12
0は、キーワード入力処理部110によって入力された
キーワードに関連する関連語とその関連語の有効期間を
時系列関連語辞書130から抽出する処理部である。
【0019】検索処理部140は、前記抽出した関連語
を検索語として全文検索データベース150に格納され
た文書の検索を行う処理部である。検索結果選択処理部
160は、検索処理部140で検索された文書の作成日
時と関連語の有効期間との照合を行い、前記抽出した有
効期間内の文書を前記検索された文書の中から選択する
処理部である。検索結果保持処理部170は、検索結果
選択処理部160での選択によって得られた文書を検索
結果として保持する処理部である。
【0020】文書検索装置100をキーワード入力処理
部110、時系列関連語展開処理部120、検索処理部
140、検索結果選択処理部160及び検索結果保持処
理部170として機能させる為のプログラムは、CD−
ROM等の記録媒体に記録され磁気ディスク等に格納さ
れた後、メモリにロードされて実行されるものとする。
なお前記プログラムを記録する記録媒体はCD−ROM
以外の他の記録媒体でも良い。
【0021】本実施形態では、キーワードに関連する関
連語を検索語とする検索について説明するが、キーワー
ドを検索語とする検索も別途行われているものとし、他
の実施形態についても同様であるものとする。
【0022】図2は本実施形態の検索処理の処理手順を
示すフローチャートである。図2に示すフローチャート
を元に図1の様に構成された本実施形態の処理について
説明する。
【0023】まずステップ201で文書検索装置100
のキーワード入力処理部110は、アプリケーション等
の外部から検索の為のキーワードと検索要求を入力す
る。ステップ202で時系列関連語展開処理部120
は、時系列関連語辞書130を参照して、キーワード入
力処理部110により入力されたキーワードに一致する
関連元語を探し、キーワードに一致する関連元語に対応
する関連語と有効期間を抽出して、前記入力されたキー
ワードの有効期間情報付きの関連語一覧としてメモリに
展開する。
【0024】次にステップ203で検索処理部140
は、ステップ202で展開された関連語を含む文書を全
文検索データベース150から検索し、その関連語を含
む文書の作成日と検索の対象となった関連語を一覧とし
てメモリに展開する。
【0025】ステップ204で検索結果選択処理部16
0は、検索でヒットした文書数をループ回数に設定して
ステップ205へ進む。ステップ205では、ステップ
203で検索された文書の作成日がステップ202で抽
出した関連語の有効期間内であるかどうかを調べ、その
文書の作成日が関連語の有効期間内であればステップ2
06に進む。ステップ206で検索結果保持処理部17
0は、その文書を一意に識別する為の文書識別子を一覧
に追加して検索結果としてメモリ保持する。またその文
書の作成日が関連語の有効期間内でなければステップ2
05に戻り、次の文書に対して同様の処理を行う。
【0026】図3は本実施形態の検索処理の具体例を示
す図である。次に、図3に示す通り具体例を用いて実際
の処理内容を説明する。例えば「首相」という語をキー
ワードとして検索する場合を考える。
【0027】まず、キーワード入力処理部110が「首
相」というキーワード301を入力したとする。時系列
関連語展開処理部120は、時系列関連語辞書130を
用いて関連語と有効期間を抽出し、一覧302としてメ
モリに展開する。時系列関連語辞書130は、「首相」
というキーワードに対して、関連語として「歴代の首相
の名前」、有効期間として「歴任した期間」を保持して
いる。また、この他に時系列関連語辞書130は、「大
統領」というキーワードに対して、関連語として「歴代
のアメリカ大統領の名前」、その有効期間として「歴任
した期間」を保持している。ここでは「首相」というキ
ーワードを「歴代の首相の名前」と「歴任した期間」の
一覧302として展開している。
【0028】検索処理部140は、全文検索データベー
ス150を用いて一覧302にある関連語を含む文書を
検索する。この際に作成日時及び対象となった関連語を
一覧でメモリに展開する。ここでは全文検索データベー
ス150を検索した結果、1997.10.29に作成され対象の
関連語が「橋本龍太郎」である文書0010の他、文書000
1、文書0013、文書0102、文書0025、文書0123及び文書0
254が一覧303として展開されている。
【0029】検索結果選択処理部160は、一覧303
に展開されているそれぞれの文書に関して文書作成日時
が一覧302で取得している関連語の有効期間に一致す
るかどうかを判定し、一致するものを検索結果304に
追加し、そうでない場合には検索結果304に含めない
処理を行う。ここでは文書0010の作成日時「1997.10.2
9」は関連語「橋本龍太郎」の有効期間「1996.01.11-19
98.07.30」に含まれているので検索結果304に追加す
るが、文書0013の作成日時「1997.03.03」は関連語「小
渕恵三」の有効期間「1998.07.30以降」に含まれていな
いので検索結果304としていない。こうして得られた
検索結果304を検索結果保持処理部170で保持す
る。
【0030】従来の方法では、時間的に意味が変化する
キーワードに対しても一定の関連語に展開して検索を行
う為、ユーザが意図するものとは異なるものまで検索結
果に含まれ、ユーザが所望の文書かどうかの判定作業に
多大な時間を要していたが、本実施形態によれば、キー
ワードの時間の経過による意味の違いを意識し、展開さ
れた関連語の有効期間内の文書を検索するので、関連語
の検索の際にユーザが意図しない文書が検索されること
が少なくなり、検索作業の効率を向上させることが可能
となる。
【0031】以上説明した様に本実施形態の文書検索装
置によれば、キーワードに関連する関連語の検索をその
関連語の有効期間内の文書について行うので、ユーザの
意図に合った適切な関連語を検索して文書検索作業の効
率を向上させることが可能である。 (実施形態2)以下にキーワードに関連する関連語の検
索をその有効期間内の検索インデクスを用いて行う実施
形態2の文書検索装置について説明する。
【0032】図4は本実施形態の文書検索装置100の
概略構成を示す図である。図4に示す様に本実施形態の
文書検索装置100は、時系列関連語辞書230と、時
系列全文検索データベース250とを有している。
【0033】時系列関連語辞書230は、任意のキーワ
ードに対する関連語とその関連語の有効期間を保持する
辞書であり、関連語、有効期間、関連元語を1組にして
データを保持するものである。時系列全文検索データベ
ース250は、任意のキーワードまたはその関連語を含
む文書と、その文書を検索する為の単位期間毎の全文検
索インデクスを保持するデータベースであり、単位期間
とその期間内に作成された文書への全文検索インデクス
を組にしてデータを保持するものである。
【0034】また文書検索装置100は、キーワード入
力処理部210と、時系列関連語展開処理部220と、
時系列検索処理部240と、検索結果保持処理部260
とを有している。
【0035】キーワード入力処理部210は、アプリケ
ーション等の外部から検索の為のキーワードと検索要求
を受け取る処理部である。時系列関連語展開処理部22
0は、キーワード入力処理部210によって入力された
キーワードに関連する関連語とその関連語の有効期間を
時系列関連語辞書230から抽出する処理部である。
【0036】時系列検索処理部240は、前記抽出した
関連語を検索語とし、時系列全文検索データベース25
0の単位期間毎の検索インデクスの内、その関連語の有
効期間内の検索インデクスを用いて文書の検索を行う処
理部である。検索結果保持処理部260は、時系列検索
処理部240での検索によって得られた文書を検索結果
として保持する処理部である。
【0037】文書検索装置100をキーワード入力処理
部210、時系列関連語展開処理部220、時系列検索
処理部240及び検索結果保持処理部260として機能
させる為のプログラムは、CD−ROM等の記録媒体に
記録され磁気ディスク等に格納された後、メモリにロー
ドされて実行されるものとする。なお前記プログラムを
記録する記録媒体はCD−ROM以外の他の記録媒体で
も良い。
【0038】図5は本実施形態の検索処理の処理手順を
示すフローチャートである。図5に示すフローチャート
を元に図4の様に構成された本実施形態の処理について
説明する。
【0039】まずステップ501で文書検索装置100
のキーワード入力処理部210は、アプリケーション等
の外部から検索の為のキーワードと検索要求を入力す
る。ステップ502で時系列関連語展開処理部220
は、時系列関連語辞書230を参照して、キーワード入
力処理部210により入力されたキーワードに一致する
関連元語を探し、キーワードに一致する関連元語に対応
する関連語と有効期間を抽出して、前記入力されたキー
ワードの有効期間情報付きの関連語一覧としてメモリに
展開する。
【0040】ステップ503で時系列検索処理部240
は、ステップ502で展開された関連語数をループ回数
に設定してステップ504へ進む。ステップ504で
は、時系列全文検索データベース250に存在する全文
検索インデクス数をループ回数に設定してステップ50
5へ進む。
【0041】ステップ505では、全文検索インデクス
の単位期間と関連語の有効期間とを比較し、それらが重
なる場合にはステップ506へ進む。ステップ506で
は、その全文検索インデクスを用いて当該関連語の検索
を行う。ステップ507では、ステップ506での検索
の結果、文書が検索されたかどうかを調べ、文書が検索
された場合にはステップ508へ進む。
【0042】ステップ508では、検索された文書数を
ループ回数に設定してステップ509に進む。ステップ
509では、前記検索された文書の作成日時が関連語の
有効期間内であるかどうかを調べ、文書の作成日時が関
連語の有効期間内である場合にはステップ510へ進
む。ステップ510で検索結果保持処理部260は、そ
の文書を一意に識別する為の文書識別子を一覧に追加し
て検索結果としてメモリに保持する。
【0043】ステップ509で文書の作成日時が関連語
の有効期間内であるかどうかを調べた結果、文書の作成
日時が関連語の有効期間内でなければ次の文書の作成日
時が関連語の有効期間内であるかどうかを調べる。また
ステップ505で全文検索インデクスの単位期間と関連
語の有効期間とを比較した結果、それらが重ならない場
合には次の全文検索インデクスの単位期間について比較
を行う。また全ての全文検索インデクスの単位期間につ
いてその関連語の有効期間との比較が終了した場合に
は、次の関連語の有効期間について全文検索インデクス
の単位期間との比較を行う。
【0044】図6は本実施形態の検索処理の具体例を示
す図である。次に、図6に示す通り具体例を用いて実際
の処理内容を説明する。例えば「首相」という語をキー
ワードとして検索する場合を考える。
【0045】まず、キーワード入力処理部210から
「首相」というキーワード601を入力したとする。時
系列関連語展開処理部220は、時系列関連語辞書23
0を用いて関連語と有効期間を抽出し、一覧602とし
てメモリに展開する。時系列関連語辞書230には、
「首相」というキーワードに対して、関連語として「歴
代の首相の名前」、有効期間として「歴任した期間」を
保持している。また、この他に時系列関連語辞書230
は、「大統領」というキーワードに対して、関連語とし
て「歴代のアメリカ大統領の名前」、有効期間として
「歴任した期間」を保持している。ここでは「首相」と
いうキーワードを「歴代の首相の名前」と「歴任した期
間」の一覧602として展開している。
【0046】時系列検索処理部240は、一覧602を
元に時系列全文検索データベース250を用いて文書の
検索を行う。例えば関連語「小渕恵三」の有効期間は
「1998.07.30以降」であるから、時系列全文検索データ
ベース250の期間「1998.07.30-1998.12.31」と「199
9.01.01-1999.12.31」と「2000.01.01以降」の全文検索
インデクスを検索する。後者の全文検索インデクス中に
「小渕恵三」を含む文書0102が存在し、且つ文書0102の
作成日時は「2000.03.05」であり、関連語「小渕恵三」
の有効期間「1998.07.30以降」に当てはまることから、
文書0102は所望の文書と判定し、検索結果603として
追加する。また時系列全文検索データベース250の期
間「1997.01.01-1997.12.31」の全文検索インデクス中
にキーワード「小渕恵三」を含む文書0013と文書0009が
存在するが、これは関連語「小渕恵三」の有効期間「19
98.07.30以降」に当てはまらないので検索結果603に
含まれることはない。
【0047】一覧602に展開されたそれぞれの関連語
に対して同様の処理を行って検索結果603とし、検索
結果保持処理部260で保持する。
【0048】本実施形態によれば、時系列全文検索デー
タベース250の全文検索インデクスが単位期間で分か
れていることからデータベース中の文書全体に検索をか
けずに済み、また全文検索インデクスから検索される文
書の量も全体から検索される文書の量に比べて限られる
ので、文書の作成日時と関連語の有効期間チェックをす
る回数が少なくなることから効率的な検索が行えると言
える。
【0049】以上説明した様に本実施形態の文書検索装
置によれば、キーワードに関連する関連語の検索をその
有効期間内の検索インデクスを用いて行うので、その有
効期間内の関連語の検索速度を向上させることが可能で
ある。 (実施形態3)以下に関連語の有効期間を関連語有効期
間データベースから取得し、キーワードに関連する関連
語の検索結果からその関連語の有効期間内の文書を選択
する実施形態3の文書検索装置について説明する。
【0050】図7は本実施形態の文書検索装置100の
概略構成を示す図である。図7に示す様に本実施形態の
文書検索装置100は、関連語辞書330と、全文検索
データベース350と、関連語有効期間データベース3
70とを有している。
【0051】関連語辞書330は、任意のキーワードを
関連語に展開する為の関連語の集合を管理する辞書であ
る。全文検索データベース350は、任意のキーワード
またはその関連語を含む文書とその文書を検索する為の
全文検索インデクスを保持するデータベースである。
【0052】関連語有効期間データベース370は、任
意のキーワードに対する関連語の有効期間を取得する為
にキーワード、関連語と有効期間の関係を管理している
データベースであり、関連語、有効期間、関連元語を1
組にしてデータを保持するものである。
【0053】また文書検索装置100は、キーワード入
力処理部310と、関連語展開処理部320と、検索処
理部340と、検索結果選択処理部360と、検索結果
保持処理部380とを有している。
【0054】キーワード入力処理部310は、アプリケ
ーション等の外部から検索の為のキーワードと検索要求
を受け取る処理部である。関連語展開処理部320は、
キーワード入力処理部310によって入力されたキーワ
ードに関連する関連語を関連語辞書330から抽出する
処理部である。
【0055】検索処理部340は、前記抽出した関連語
を検索語として全文検索データベース350に格納され
た文書の検索を行う処理部である。検索結果選択処理部
360は、関連語展開処理部320で抽出した関連語の
有効期間を関連語有効期間データベース370から取得
し、検索処理部340で検索された文書の作成日時と関
連語の有効期間との照合を行い、前記取得した有効期間
内の文書を前記検索された文書の中から選択する処理部
である。検索結果保持処理部380は、検索結果選択処
理部360での選択によって得られた文書を検索結果と
して保持する処理部である。
【0056】文書検索装置100をキーワード入力処理
部310、関連語展開処理部320、検索処理部34
0、検索結果選択処理部360及び検索結果保持処理部
380として機能させる為のプログラムは、CD−RO
M等の記録媒体に記録され磁気ディスク等に格納された
後、メモリにロードされて実行されるものとする。なお
前記プログラムを記録する記録媒体はCD−ROM以外
の他の記録媒体でも良い。
【0057】図8は本実施形態の検索処理の処理手順を
示すフローチャートである。図8に示すフローチャート
を元に、図7の様に構成された本実施形態の動作につい
て説明する。
【0058】まずステップ801で文書検索装置100
のキーワード入力処理部310は、アプリケーション等
の外部から検索の為のキーワードと検索要求を入力す
る。ステップ802で関連語展開処理部320は、関連
語辞書330を参照して、キーワード入力処理部310
により入力されたキーワードに関連する関連語を抽出し
て、前記入力されたキーワードの関連語一覧としてメモ
リに展開する。
【0059】ステップ803で検索処理部340は、ス
テップ802で展開された関連語を含む文書を全文検索
データベース350から検索し、ヒットした対象の関連
語、文書の作成日時を取得する。
【0060】ステップ804で検索結果選択処理部36
0は、ステップ803の検索でヒットした文書数をルー
プ回数に設定してステップ805に進む。ステップ80
5では、検索を行った関連語の有効期間を関連語有効期
間データベース370から取得する。
【0061】ステップ806では、前記取得した関連語
の有効期間と文書の作成日時とを比較し、文書の作成日
時が関連語の有効期間内であればステップ807へ進
み、そうでなければ次の文書の作成日時が関連語の有効
期間内であるかどうかを調べる。ステップ807で検索
結果保持処理部380は、その文書を一意に識別する為
の文書識別子を一覧に追加して検索結果としてメモリに
保持する。
【0062】図9は本実施形態の検索処理の具体例を示
す図である。次に図9に示す通り具体例を用いて処理内
容を説明する。例えば「首相」という語をキーワードと
して検索する場合を考える。
【0063】まず、キーワード入力処理部310から
「首相」というキーワード901を入力したとする。関
連語展開処理部320は、関連語辞書330を用いて
「首相」というキーワードを含む関連語グループの関連
語の一覧902をメモリに展開する。ここでは「首相」
というキーワードに対して「歴代の首相の名前」に展開
されていることを示している。検索処理部340は一覧
902を元に全文検索データベース350を用いて文書
の検索を行い、ヒットした文書のID、対象の関連語、
作成日時を一覧903としてメモリに展開する。
【0064】検索結果選択処理部360は、一覧903
のそれぞれの文書に対して関連語有効期間データベース
370から関連語の有効期間を取得し、文書の作成日時
との比較を行う。例えば文書0010については、関連語有
効期間データベース370から取得した関連語「橋本龍
太郎」の有効期間が「1996.01.11-1998.07.30」であ
り、文書の作成日時「1997.10.29」が有効期間内である
ので検索結果904に追加される。また、文書0013につ
いては、関連語有効期間データベース370から取得し
た関連語「小渕恵三」の有効期間が「1998.07.30以降」
であり、文書の作成日時「1997.03.03」が有効期間内で
はないので検索結果904にならない。一覧903で展
開されたそれぞれの文書に対して同様の処理を行って検
索結果904とし、検索結果保持処理部380で保持す
る。
【0065】本実施形態の文書検索装置100では、前
半の検索処理部340までは既にある構成を用いること
が可能であり、その構成に検索結果選択処理部360及
び関連語有効期間データベース370を加えることで実
装することができることから、既存の構成に対して機能
拡張しやすい形態であると言える。
【0066】以上説明した様に本実施形態の文書検索装
置によれば、関連語の有効期間を関連語有効期間データ
ベースから取得し、キーワードに関連する関連語の検索
結果からその関連語の有効期間内の文書を選択するの
で、既存のシステムを大幅に変更することなく有効期間
内の関連語の検索を行う構成に拡張することが可能であ
る。
【0067】
【発明の効果】本発明によればキーワードに関連する関
連語の検索をその関連語の有効期間内の文書について行
うので、ユーザの意図に合った適切な関連語を検索して
文書検索作業の効率を向上させることが可能である。
【図面の簡単な説明】
【図1】実施形態1の文書検索装置の概略構成を示す図
である。
【図2】実施形態1の検索処理の処理手順を示すフロー
チャートである。
【図3】実施形態1の検索処理の具体例を示す図であ
る。
【図4】実施形態2の文書検索装置の概略構成を示す図
である。
【図5】実施形態2の検索処理の処理手順を示すフロー
チャートである。
【図6】実施形態2の検索処理の具体例を示す図であ
る。
【図7】実施形態3の文書検索装置の概略構成を示す図
である。
【図8】実施形態3の検索処理の処理手順を示すフロー
チャートである。
【図9】実施形態3の検索処理の具体例を示す図であ
る。
【符号の説明】
100…文書検索装置、101…CPU、102…メモ
リ、103…磁気ディスク装置、104…入力装置、1
05…出力装置、106…CD−ROM装置、130…
時系列関連語辞書、150…全文検索データベース、1
10…キーワード入力処理部、120…時系列関連語展
開処理部、140…検索処理部、160…検索結果選択
処理部、170…検索結果保持処理部、301…キーワ
ード、302〜303…一覧、304…検索結果、23
0…時系列関連語辞書、250…時系列全文検索データ
ベース、210…キーワード入力処理部、220…時系
列関連語展開処理部、240…時系列検索処理部、26
0…検索結果保持処理部、601…キーワード、602
…一覧、603…検索結果、330…関連語辞書、35
0…全文検索データベース、370…関連語有効期間デ
ータベース、310…キーワード入力処理部、320…
関連語展開処理部、340…検索処理部、360…検索
結果選択処理部、380…検索結果保持処理部、901
…キーワード、902〜903…一覧、904…検索結
果。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 田中 仁士 神奈川県横浜市戸塚区戸塚町5030番地 株 式会社日立製作所ソフトウェア事業部内 Fターム(参考) 5B075 NK00 NK35 NR05 QP05

Claims (5)

    【特許請求の範囲】
  1. 【請求項1】 キーワードを用いて文書データベースか
    ら所望の文書を検索する文書検索方法において、 入力されたキーワードに関連する関連語とその関連語の
    有効期間を抽出するステップと、前記抽出した関連語を
    検索語として文書の検索を行うステップと、前記抽出し
    た有効期間内の文書を前記検索された文書の中から選択
    するステップとを有することを特徴とする文書検索方
    法。
  2. 【請求項2】 キーワードを用いて文書データベースか
    ら所望の文書を検索する文書検索方法において、 入力されたキーワードに関連する関連語とその関連語の
    有効期間を抽出するステップと、前記抽出した関連語を
    検索語とし、単位期間毎の検索インデクスの内、その関
    連語の有効期間内の検索インデクスを用いて文書の検索
    を行うステップとを有することを特徴とする文書検索方
    法。
  3. 【請求項3】 キーワードを用いて文書データベースか
    ら所望の文書を検索する文書検索方法において、 入力されたキーワードに関連する関連語を抽出するステ
    ップと、前記抽出した関連語を検索語として文書の検索
    を行うステップと、前記入力されたキーワードに関連す
    る関連語の有効期間を取得し、前記取得した有効期間内
    の文書を前記検索された文書の中から選択するステップ
    とを有することを特徴とする文書検索方法。
  4. 【請求項4】 キーワードを用いて文書データベースか
    ら所望の文書を検索する文書検索装置において、 入力されたキーワードに関連する関連語とその関連語の
    有効期間を抽出する時系列関連語展開処理部と、前記抽
    出した関連語を検索語として文書の検索を行う検索処理
    部と、前記抽出した有効期間内の文書を前記検索された
    文書の中から選択する検索結果選択処理部とを備えるこ
    とを特徴とする文書検索装置。
  5. 【請求項5】 キーワードを用いて文書データベースか
    ら所望の文書を検索する文書検索装置としてコンピュー
    タを機能させる為のプログラムを記録したコンピュータ
    読み取り可能な記録媒体において、 入力されたキーワードに関連する関連語とその関連語の
    有効期間を抽出する時系列関連語展開処理部と、前記抽
    出した関連語を検索語として文書の検索を行う検索処理
    部と、前記抽出した有効期間内の文書を前記検索された
    文書の中から選択する検索結果選択処理部としてコンピ
    ュータを機能させる為のプログラムを記録したことを特
    徴とする記録媒体。
JP2001002810A 2001-01-10 2001-01-10 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体 Pending JP2002207760A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2001002810A JP2002207760A (ja) 2001-01-10 2001-01-10 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
US10/034,991 US20020174113A1 (en) 2001-01-10 2002-01-03 Document retrieval method /device and storage medium storing document retrieval program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001002810A JP2002207760A (ja) 2001-01-10 2001-01-10 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002207760A true JP2002207760A (ja) 2002-07-26

Family

ID=18871253

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001002810A Pending JP2002207760A (ja) 2001-01-10 2001-01-10 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体

Country Status (2)

Country Link
US (1) US20020174113A1 (ja)
JP (1) JP2002207760A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108912A (ja) * 2005-10-12 2007-04-26 Matsushita Electric Ind Co Ltd データ管理装置、データ管理方法およびデータ管理プログラム
JP2011159251A (ja) * 2010-02-04 2011-08-18 Toppan Printing Co Ltd 電子チラシ情報検索装置
JP2011159250A (ja) * 2010-02-04 2011-08-18 Toppan Printing Co Ltd 電子チラシ情報検索装置
JP2020119254A (ja) * 2019-01-23 2020-08-06 株式会社日立製作所 テキストデータ収集装置及び方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7599914B2 (en) * 2004-07-26 2009-10-06 Google Inc. Phrase-based searching in an information retrieval system
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7580929B2 (en) * 2004-07-26 2009-08-25 Google Inc. Phrase-based personalization of searches in an information retrieval system
US7702618B1 (en) 2004-07-26 2010-04-20 Google Inc. Information retrieval system for archiving multiple document versions
US7711679B2 (en) 2004-07-26 2010-05-04 Google Inc. Phrase-based detection of duplicate documents in an information retrieval system
US7580921B2 (en) 2004-07-26 2009-08-25 Google Inc. Phrase identification in an information retrieval system
US7584175B2 (en) 2004-07-26 2009-09-01 Google Inc. Phrase-based generation of document descriptions
US7567959B2 (en) 2004-07-26 2009-07-28 Google Inc. Multiple index based information retrieval system
US7199571B2 (en) * 2004-07-27 2007-04-03 Optisense Network, Inc. Probe apparatus for use in a separable connector, and systems including same
US8086594B1 (en) 2007-03-30 2011-12-27 Google Inc. Bifurcated document relevance scoring
US8166045B1 (en) 2007-03-30 2012-04-24 Google Inc. Phrase extraction using subphrase scoring
US7702614B1 (en) 2007-03-30 2010-04-20 Google Inc. Index updating using segment swapping
US7693813B1 (en) 2007-03-30 2010-04-06 Google Inc. Index server architecture using tiered and sharded phrase posting lists
US7925655B1 (en) 2007-03-30 2011-04-12 Google Inc. Query scheduling using hierarchical tiers of index servers
US8166021B1 (en) 2007-03-30 2012-04-24 Google Inc. Query phrasification
US8117223B2 (en) 2007-09-07 2012-02-14 Google Inc. Integrating external related phrase information into a phrase-based indexing information retrieval system
KR100915295B1 (ko) * 2008-01-22 2009-09-03 성균관대학교산학협력단 검색 결과 자동 분류 시스템 및 그 방법
US9501506B1 (en) 2013-03-15 2016-11-22 Google Inc. Indexing system
US9483568B1 (en) 2013-06-05 2016-11-01 Google Inc. Indexing system
CN105574192A (zh) * 2015-12-24 2016-05-11 张梅云 一种计算机文件检索方法
US11790047B2 (en) * 2020-08-27 2023-10-17 Consilio, LLC Diversity sampling for technology-assisted document review

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH021057A (ja) * 1988-01-20 1990-01-05 Ricoh Co Ltd 文書検索装置
US5953723A (en) * 1993-04-02 1999-09-14 T.M. Patents, L.P. System and method for compressing inverted index files in document search/retrieval system
JP3173411B2 (ja) * 1997-03-17 2001-06-04 富士ゼロックス株式会社 関連文書検索装置及び関連文書検索プログラムを記録した記録媒体
JP2965010B2 (ja) * 1997-08-30 1999-10-18 日本電気株式会社 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体
US6236987B1 (en) * 1998-04-03 2001-05-22 Damon Horowitz Dynamic content organization in information retrieval systems
JP3278406B2 (ja) * 1998-12-10 2002-04-30 富士通株式会社 ドキュメント検索仲介装置、ドキュメント検索システム、および、ドキュメント検索仲介プログラムを記録した記録媒体
US6631496B1 (en) * 1999-03-22 2003-10-07 Nec Corporation System for personalizing, organizing and managing web information

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007108912A (ja) * 2005-10-12 2007-04-26 Matsushita Electric Ind Co Ltd データ管理装置、データ管理方法およびデータ管理プログラム
JP2011159251A (ja) * 2010-02-04 2011-08-18 Toppan Printing Co Ltd 電子チラシ情報検索装置
JP2011159250A (ja) * 2010-02-04 2011-08-18 Toppan Printing Co Ltd 電子チラシ情報検索装置
JP2020119254A (ja) * 2019-01-23 2020-08-06 株式会社日立製作所 テキストデータ収集装置及び方法
JP7085499B2 (ja) 2019-01-23 2022-06-16 株式会社日立製作所 テキストデータ収集装置及び方法
JP2022116312A (ja) * 2019-01-23 2022-08-09 株式会社日立製作所 テキストデータ収集装置及び方法
JP7425827B2 (ja) 2019-01-23 2024-01-31 株式会社日立製作所 テキストデータ収集装置及び方法

Also Published As

Publication number Publication date
US20020174113A1 (en) 2002-11-21

Similar Documents

Publication Publication Date Title
JP2002207760A (ja) 文書検索方法及びその実施装置並びにその処理プログラムを記録した記録媒体
KR101153033B1 (ko) 사본 탐지 및 삭제 방법
US6246977B1 (en) Information retrieval utilizing semantic representation of text and based on constrained expansion of query words
US8255386B1 (en) Selection of documents to place in search index
US7536382B2 (en) Query rewriting with entity detection
US8209318B2 (en) Product searching system and method using search logic according to each category
US20070294235A1 (en) Hashed indexing
US20110004609A1 (en) Generating search results based on user feedback
JP2004501424A (ja) 中心用語辞典を利用した表題語の中心用語抽出方法及びそれを利用した情報検索システム及びその方法
US20070073653A1 (en) Patent related search method and system
JP2007249899A (ja) 検索処理プログラム
JP4237813B2 (ja) 構造化文書管理システム
Sriram et al. A session-based search engine
US8375017B1 (en) Automated keyword analysis system and method
CN115544225A (zh) 基于语义的数字档案信息关联检索方法
JPH09198396A (ja) 文書検索装置
JP3249743B2 (ja) 文書検索システム
JP3614765B2 (ja) 概念辞書拡張装置
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
KR100372078B1 (ko) 관련어 검색 방법
JP2011108242A (ja) 利用者の要求に応じて動的にもっとも適したイメージを抽出して提供するための方法、システム及びコンピューター判読可能な記録媒体
JPH081642B2 (ja) キーワード検索方式
JP3287307B2 (ja) 構造化文書検索システム、構造化文書検索方法および構造化文書検索用プログラムを記録した記録媒体
CN115640442A (zh) 一种资讯的筛选方法及装置
TW202316291A (zh) 專利檢索系統及其方法