JP2004355166A - 関連文書検索装置 - Google Patents

関連文書検索装置 Download PDF

Info

Publication number
JP2004355166A
JP2004355166A JP2003150073A JP2003150073A JP2004355166A JP 2004355166 A JP2004355166 A JP 2004355166A JP 2003150073 A JP2003150073 A JP 2003150073A JP 2003150073 A JP2003150073 A JP 2003150073A JP 2004355166 A JP2004355166 A JP 2004355166A
Authority
JP
Japan
Prior art keywords
keyword
document
mail
search
identification number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2003150073A
Other languages
English (en)
Inventor
Masamutsu Fuchigami
正睦 渕上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2003150073A priority Critical patent/JP2004355166A/ja
Publication of JP2004355166A publication Critical patent/JP2004355166A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】関連文書を検索するためのキーワードを提示する関連文書検索装置を提供する。
【解決手段】文書指定部10により識別番号ID−Aが指定されたとき、キーワードDB検索部18ではキーワードDB20を用いて、識別番号ID−Aに対応するキーワードKW−Aを含む文書の識別番号ID−Bを検索し、さらに識別番号ID−Bに対応するキーワードKW−Bを検索する。文書DB検索部22では文書DB24から識別番号ID−Bに対応する文書Bを読み出す。共起検出部26では文書DB検索部22により読み出された文書B中に現れる、キーワードKW−Bを構成する各キーワードの出現回数を計測し、計測した出現回数の大きさに基づいてキーワードを絞り込む。キーワード提示部16では、キーワード絞込部28により絞り込まれたキーワードを追加キーワードとしてキーワードKW−Aと共に提示する。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、関連文書(関連電子メールを含む)を検索するキーワードを提示する関連文書検索装置に関する。
【0002】
【従来の技術】
文書検索装置により関連文書を検索する場合、一般に、検索キーワードを利用する。従来、キーワードを検索に利用する方法として、利用者が、文書検索装置に対して関連文書のキーワードを手作業により指定する方法や、文書検索装置が、指定された文書からキーワードを自動的に抽出し、これを関連文書のキーワードとして検索を行なう方法などがあった。また、文書検索の際に指定された検索キーワードに関連した語句を、単語共起データベースおよびシソーラス辞書を用いて自動的に抽出し、この語句を関連キーワードとして文書検索の際に指定された検索キーワードに加えて文書を検索する方法があった(例えば、特許文献1参照)。
【0003】
【特許文献1】
特許第2850952 号公報。
【0004】
【発明が解決しようとする課題】
しかしながら、利用者が検索キーワードを手作業により指定する方法では、検索キーワードに関連した語句を加えたい場合、利用者自身が関連語句を推定してこれを手作業で入力する必要があった。また、特許文献1による方法では、指定されたキーワードの関連語句を自動的に抽出し、この関連語句を指定されたキーワードに加えて検索を行なうものの、関連語句に期待する語句が含まれるかどうかは検索結果を見るまでは判断することができず、期待しない関連語句が含まれる場合も生ずるという問題点があった。
【0005】
本発明はこのような従来技術の問題点を解消し、関連文書を検索するキーワードを提示する関連文書検索装置を提供することを目的とする。
【0006】
【課題を解決するための手段】
本発明による関連文書検索装置は上記の問題を解決するために、文書と、文書に付与された識別番号と、文書に含まれる複数のキーワードとを文書毎に記録した文書データベースと、文書データベースを用いて、識別番号により指定された文書に含まれる特定のキーワードを含む文書を検索し、検索された文書に含まれる他のキーワードを文書毎に検索するキーワード検索手段と、キーワード検索手段により検索された各文書に含まれる他のキーワードがキーワード検索手段により検索された全文書中に現れる傾向をスコアとして求め、スコアが所定値となった他のキーワードを、追加する検索キーワードとしてとして出力する共起キーワード検出手段とを含むことを特徴とする。
【0007】
この場合、文書は電子メールであり、文書データベースは、電子メールと、電子メールに付与された識別番号と、電子メールに含まれる複数のキーワードと、電子メールに関連する関連電子メールの識別番号とを電子メール毎に記録した電子メールデータベースであり、装置は、さらに電子メールデータベースを用いて、特定の識別番号により指定された電子メールに関連する全ての関連電子メールを検索する関連電子メール検索手段を有し、キーワード検索手段は、関連電子メール検索手段で検索された全ての関連電子メールを対象として、特定の識別番号により指定された電子メールに含まれる特定のキーワードを検索して特定のキーワードを含む電子メールを検索し、検索された電子メールに含まれる他のキーワードを電子メール毎に検索するものとしてもよい。
【0008】
また、本発明による関連文書検索方法は、文書と、文書に付与された識別番号と、文書に含まれる複数のキーワードとを文書毎に記録した文書データベースを用いて、識別番号により指定された文書に含まれる特定のキーワードを含む文書を検索し、検索された文書に含まれる他のキーワードを文書毎に検索するキーワード検索工程と、キーワード検索工程により検索された各文書に含まれる他のキーワードがキーワード検索工程により検索された全文書中に現れる傾向をスコアとして求め、スコアが所定値となった他のキーワードを、追加する検索キーワードとしてとして出力する共起キーワード検出工程とを含むことを特徴とする。
【0009】
また、本発明による関連文書検索方法は、電子メールと、電子メールに付与された識別番号と、電子メールに含まれる複数のキーワードと、電子メールに関連する関連電子メールの識別番号とを電子メール毎に記録した電子メールデータベースを用いて、特定の識別番号により指定された電子メールに関連する全ての関連電子メールを検索する関連電子メール検索工程と、関連電子メール検索工程により検索された全ての関連電子メールを対象として、特定の識別番号により指定された電子メールに含まれる特定のキーワードを検索して特定のキーワードを含む電子メールを検索し、検索された電子メールに含まれる他のキーワードを電子メール毎に検索するキーワード検索工程と、キーワード検索工程により検索された各電子メールに含まれる他のキーワードがキーワード検索工程により検索された全電子メール中に現れる傾向をスコアとして求め、スコアが所定値となった他のキーワードを、追加する検索キーワードとしてとして出力する共起キーワード検出工程とを含むことを特徴とする。
【0010】
【発明の実施の形態】
次に添付図面を参照して本発明による関連文書検索装置の実施例を詳細に説明する。図1は、関連文書検索装置の実施例を示すブロック図である。この関連文書検索装置は、指定された文書(電子メールを含む)のキーワードと共に現れるキーワードから所定の条件を満たすキーワードを追加キーワードとして選択し、これを指定された文書に含まれるキーワードと共に、関連文書検索用のキーワード候補として提示するものであり、文書指定部10、キーワード検索部12、共起キーワード検索部14、キーワード提示部16および各部を制御する制御部(図示せず)を含む。
【0011】
文書指定部10は、外部から関連文書を検索したい文書に付与された文書ID(以下、識別番号という)を受け取り、受け取った識別番号をキーワード検索部12に出力するインターフェースである。文書指定部10に接続されるキーワード検索部12は、識別番号とキーワード、識別番号と文書とをそれぞれ対応付けるものであり、キーワードDB検索部18、キーワードDB20、文書DB検索部22および文書DB24から構成される。ここで、キーワードDB検索部18は、キーワードDB20および電子メール指定部10と接続され、電子メールDB検索部22は、キーワードDB検索部18および電子メールDB24と接続されている。
【0012】
キーワードDB検索部18は、キーワードDB20を用いて識別番号またはキーワードを検索するのである。具体的には、文書指定部10から識別番号(例えば、識別番号ID−A)が入力されたとき、キーワードDB20を用いて、識別番号ID−Aの文書に含まれるキーワード(例えば、キーワードKW−A)を検索する。次いで、キーワードKW−Aを含む全て文書の識別番号(例えば、識別番号ID−B)を、キーワードKW−Aを構成するキーワード毎に検索し、さらに、検索された識別番号ID−Bの文書に含まれるキーワード(例えば、キーワードKW−B)を、識別番号ID−Bを構成する識別番号毎に検索する。
【0013】
なお、一般に、文書には複数のキーワードが含まれので、キーワードKW−Aは複数のキーワードからなり、同じキーワードを含む文書は複数存在するので、識別番号ID−Bは複数の識別番号からなる。キーワードDB検索部18は、検索したキーワードKW−A、識別番号ID−BおよびキーワードKW−Bをキーワード提示部16、文書DB検索部22および共起キーワード検出部14へそれぞれ出力する。
【0014】
キーワードDB20は、文書に付与された識別番号とその文書に含まれるキーワードとの対応を記録するデータベースであり、識別番号とキーワードの組の列を保持する。したがって、識別番号を指定することにより、対応する文書に含まれるキーワードを検索し、また、キーワードを指定することにより、対応するキーワードを含む文書の識別番号を検索することができる。なお、本実施例では、文書DB24に記憶されている各文書の識別番号およびキーワードは、すべてキーワードDB20に記録されているものとする。
【0015】
文書DB検索部22は、指定された識別番号の文書を文書DB24から読み出すものである。具体的には、キーワードDB検索部18から識別番号ID−Bが入力されたとき、文書DB24から識別番号ID−Bの文書(例えば、文書B)を読み出し、共起キーワード検出部14へ出力する。文書DB24は、文書を記録するデータベースであり、各文書には一意な識別番号が付与されている。したがって、識別番号を指定することにより対応する文書を読み出すことができる。
【0016】
なお、キーワードDB20および文書DB24を、文書、識別番号およびキーワードを文書毎に記録する文書データベースで置き換え、キーワードDB検索部18および文書DB検索部22を、両者の機能を有する文書検索部で置き換えてもよい。
【0017】
キーワード検索部12に接続される共起キーワード検出部14は、キーワード間の共起関係を検索するものであり、共起検出部26とキーワード絞込部28とから構成される。ここで、共起検出部26はキーワード検索部12のキーワードDB検索部18と文書DB検索部22とに接続され、キーワード絞込部28は共起検出部26に接続されている。
【0018】
共起検出部26は、指定された文書に含まれるキーワードと共起するキーワードを検索し、この共起するキーワードが出現する傾向をスコアとして求めるものである。具体的には、文書DB検索部22から入力される文書BおよびキーワードDB検索部18から入力されるキーワードKW−Bを用いて、文書B中に現れるキーワードKW−Bの出現回数を、キーワードKW−Aを構成する各キーワードに対応する文書毎およびキーワード毎に計測し、計測した各出現回数をキーワード毎に集計する。共起検出部26は、集計した出現回数をキーワード絞込部28へ出力する。
【0019】
キーワード絞込部28は、共起キーワードの中から関連文書の検索に適したキーワードを出現回数の大きさに基づいて選択するものである。具体的には、共起検出部26から入力される出現回数の中からあらかじめ設定された閾値を超える出現回数だけを取り出し、取り出した出現回数に対応するキーワードを追加する検索キーワードとして出力する。この場合、出力する追加キーワードの数を、出現回数の値が大きい方から順番に選択して一定数に制限してもよい。
【0020】
なお、本実施例では、共起検出部26が算出するスコアに出現回数を用いる例を示したが、これに限定されるものではない。例えば、距離を加味してスコアをつけることにより入力文書中のキーワードに接近したキーワード、すなわち入力文書との関連性が高いキーワードをキーワード絞込部28に優先的に選択させることができる。つまり、まずキーワード間の距離として単語数(隣接する語同士の場合は距離1、以下1語入る毎に1づつ増加)を計測し、キーワード毎に距離の逆数を計算し、この値を積算した値を、距離を加味したスコアとして使用することによってキーワード間の距離が短く、キーワード数が多いほど高いスコアとすることができる。
【0021】
また、本実施例では、キーワード毎に集計する例を示したが、シソーラスを用いて抽出した類似語を同一視して集計することもできる。また、本実施例では、追加されるキーワードの絞り込みに共起の度合いのみを用いているが、他の要素を絞り込みの選定基準に加えることができる。例えば、キーワードの最終出現時刻などが使用できる。
【0022】
キーワード絞込部28およびキーワードDB検索部18に接続されるキーワード提示部16は、関連文書を検索するための検索キーワードの候補を外部に出力するインターフェースである。具体的には、キーワードDB検索部18からキーワードKW−Aが入力され、キーワード絞込部28から追加キーワードが入力されたとき、入力されたキーワードKW−Aおよび追加キーワードを外部へ出力する。利用者は、キーワード提示部16から出力されるキーワードから所望のキーワードを選択して関連文書の検索に使用する。
【0023】
このように構成された図1の関連文書検索装置の動作を、図2のフローチャートを参照して説明する。利用者は、関連文書を検索しようとする文書に付与された識別番号(ID−A)を文書指定部10に入力する。文書指定部10に入力された識別番号ID−Aは、キーワード検索部12のキーワードDB検索部18に入力される。キーワードDB検索部18では、キーワードDB20を用いて、入力された識別番号ID−Aの文書に含まれるキーワードKW−Aを検索し、検索したキーワードKW−Aをキーワード提示部16へ出力する(図2のステップS100)。
【0024】
ステップS100からS102に移行すると制御部では、ステップS100の処理においてキーワードDB検索部18により検索されたキーワードKW−Aを構成するキーワードの全てについて、ステップS104からステップS112までの処理が実行されたかどうかを判定し、処理の実行が終了していない場合にはステップS104の処理に移行し、処理の実行が終了している場合にはステップS114の処理に移行するように各部を制御する。
【0025】
ステップS104に移行した場合キーワードDB検索部18では、キーワードKW−Aを構成するキーワードの中から、ステップS104からステップS112までの処理がまだ行なわれていないキーワードの一つ(例えば、キーワードKW−Ax)を選択し、キーワードDB20を用いて、キーワードKW−Axを含む全ての文書の識別番号を検索し、検索した識別番号ID−Bxを文書DB検索部22へ出力する。
【0026】
ステップS106に移行すると文書DB検索部22では、キーワードDB検索部18から入力された識別番号ID−Bxに対応する文書Bxを、文書DB24から、識別番号ID−Bxを構成する識別番号毎に読み出し、読み出した文書Bxを共起キーワード検出部14の共起検出部26へ出力する。
【0027】
ステップS108に移行するとキーワードDB検索部18では、キーワードDB20を用いて、ステップS104で検出された識別番号ID−Bxの文書に含まれるキーワードKW−Bxを、識別番号ID−Bxを構成する識別番号毎に検索する。これにより、指定された文書中には直接現れないが、指定された文書中に現れるキーワードと関連するキーワードを得ることができる。キーワードDB検出部18では、検索したキーワードKW−Bxを共起キーワード検出部14の共起検出部26へ出力する。なお、ステップS108の処理は、ステップS106の処理を実行する前に実行してもよい。
【0028】
ステップS110へ移行すると共起検出部26では、文書DB検索部22から入力される文書BxとキーワードDB検索部18から入力されるキーワードKW−Bxとを用いて、文書Bx中に現れるキーワードの出現回数を、文書Bxを構成する文書毎およびキーワード毎に計測する。
【0029】
ステップS112へ移行すると共起検出部26では、ステップS110において計測したキーワードの出現回数を、文書Bx を構成する文書の全体についてキーワード毎に集計し、その集計結果を、前回このステップS110で得た出現回数の積算値にキーワード毎に加算して新たな積算値を得る。ステップS112からS102へ戻る。
【0030】
このようなステップS104からステップS112までの処理を、ステップS100で検索されたキーワードKW−Aを構成する全てのキーワードについて実行することにより、指定された文書に含まれるキーワードKW−Aと共起するキーワードを抽出し、抽出された各キーワードが、キーワードKW−Aを含む全文書中に現れる出現回数を算出することができる。
【0031】
ステップS114に移行した場合、キーワード絞込部28では、共起検出部26により積算された出現回数とあらかじめ設定された閾値とをキーワードごとに比較して閾値を超える出現回数を取り出す。これにより、キーワードKW−Aに対する関連性が深いキーワードを選択することができる。そして、閾値を超える出現回数の数が一定数より多い場合には、閾値を超える出現回数の中から値の大きい順に一定数だけ取り出し、取り出した出現回数に対応するキーワードを追加する検索キーワードとしてキーワード提示部16へ出力する。
【0032】
ステップS116へ移行するとキーワード提示部16では、キーワードDB検索部18から入力されるキーワードKW−Aに、キーワード絞込部28から入力される追加キーワードを追加し、これを関連文書の検索キーワード候補として外部へ出力する。文書検索装置の利用者は、キーワード提示部16から出力されるキーワードから所望のキーワードを選択して関連文書の検索に使用する。
【0033】
なお、本実施例では、関連文書指定部10により識別番号が指定されたとき、指定された識別番号の文書に含まれるキーワードをキーワードDB20から検索している。したがって、識別番号がキーワードDB20に記録されていない場合には、識別番号を用いて文書を指定できない。そこで、図3に示すように、図1のキーワードDB検索部18にキーワード抽出部30を接続し、文書が文書指定部10に入力された場合には、キーワード抽出部30を使用してその文書からキーワードを抽出し、これをキーワードDB20から検索されるキーワードとして用いれば、識別番号がキーワードDB20に登録されていない文書にも対応することができる。
【0034】
また、本実施例では、検索キーワードの提示が要求される毎に追加キーワードを算出する例を示したが、定期的にまたは利用者が明示的に指定したときに、指定された識別番号に対応する追加キーワードを算出してデータベース等に記録しておき、検索キーワードを提示する場合には、そのデータベース等から指定された識別番号に対応する追加キーワードを検索し、これを追加分として提示してもよい。これにより、追加キーワードを迅速に提示することができる。
【0035】
図4は、追加キーワードを文書ID毎に記録する追加キーワードDB32を、図1のキーワード検索部12に設けた実施例である。関連文書検索装置は、定期的にまたは利用者が明示的に指定したとき、図2に示す一連の処理を実行して追加キーワードを算出し、算出した追加キーワードを、指定された識別番号に対応させる形で追加キーワードDB32に記録し、既に追加キーワードが記録されている場合にはこれを更新する。そして、識別番号により文書が指定されたとき、その識別番号に対応する追加キーワードを追加キーワードDB32から検索し、これをキーワード提示部16から出力する。
【0036】
以上説明したように本実施例によれば、文書中に直接現れないが関連の強いキーワードを検索用キーワード候補として提示することができるので、利用者は期待する関連語句を検索することが可能となる。例えば、キーワードして「モバイル」を含む文書に対し、「携帯電話」を、関連文書を検索するためのキーワードとして提示することができる。また、例えば、携帯端末上では表示情報量が少なく操作性が限定されるが、本発明を利用することにより、関連文書を検索するためのキーワードを選択項目として追加提示することが可能となり、キーワードの入力操作の簡便化を図ることができる。
【0037】
図5は、関連文書検索装置の他の実施例を示すブロック図である。この関連文書検索装置は、関連電子メールの検索キーワードを提示するものであり、電子メール指定部50、キーワード検索部52、関連電子メール検出部54、共起キーワード検出部56、キーワード提示部58および各部を制御する制御部(図示せず)を含む。電子メール指定部50は、外部から関連電子メールを検索しようとする電子メールに付与された電子メールID(以下、識別番号という)を受け取り、受け取った識別番号をキーワード検索部52へ出力するインターフェースである。
【0038】
電子メール指定部50に接続されるキーワード検索部52は、識別番号とキーワード、識別番号と電子メールとをそれぞれ対応付けるものであり、キーワードDB検索部60、キーワードDB62、電子メールDB検索部64および電子メールDB66から構成される。ここで、キーワードDB検索部60は、キーワードDB62、電子メール指定部50および関連電子メール検出部54と接続され、電子メールDB検索部64は、キーワードDB検索部60、電子メールDB66および関連電子メール検出部54と接続されている。
【0039】
キーワードDB検索部60は、キーワードDB62を用いて識別番号またはキーワードを検索するのである。具体的には、電子メール指定部50から識別番号(例えば、識別番号ID−E)が入力されたとき、キーワードDB62を用いて、識別番号ID−Eの電子メールに含まれるキーワード(例えば、キーワードKW−E)を検索し、次いで、キーワードKW−Eを含む電子メールの識別番号(例えば、識別番号ID−F)を検索する。そして、検索したキーワードKW−Eをキーワード提示部58へ、識別番号ID−Fを電子メールDB検索部64および関連電子メール検出部54へそれぞれ出力する。
【0040】
また、キーワードDB検索部60は、関連電子メール検出部54から識別番号(例えば、識別番号ID−H)が入力されたとき、キーワードDB62を用いて、識別番号ID−Hの電子メールに含まれるキーワード(例えば、キーワードKW−H)を検索し、検索したキーワードKW−Hを共起キーワード検出部56へ出力する。なお、図1の装置の場合と同様に、キーワードKW−EおよびKW−Hは複数のキーワードからなり、識別番号ID−FおよびID−Hは複数の識別番号からなる。
【0041】
キーワードDB62は、電子メールに付与されている識別番号と電子メールに含まれるキーワードとの対応を記録するデータベースであり、識別番号とキーワードの組の列を保持する。なお、本実施例では、電子メールDB66に記録されている各電子メールに対応する識別番号およびキーワードは、すべてキーワードDB62に記録されているものとする。
【0042】
電子メールDB検索部64は、電子メールDB66から電子メールを読み出すものであり、また、関連電子メールの識別番号を検索するものである。具体的には、キーワードDB検索部60から識別番号ID−Fが入力されたとき、電子メールDB66から、識別番号ID−Fの電子メール(例えば、電子メールF)を読み出し、これを共起キーワード検出部56へ出力する。また、関連電子メール検出部54から関連識別番号の検索を指示されたとき、電子メールDB66を用いて、指示された識別番号(例えば、識別番号ID−X)の電子メールに関連する関連電子メールの識別番号を検索する。
【0043】
すなわち、電子メールDB検索部64は、(a)識別番号ID−Xの電子メールの返信元として指定された識別番号、(b)識別番号ID−Xの電子メールの参照先として指定された識別番号、(c)識別番号ID−Xの電子メールに付与された題名の先頭からReとそれに続く“:”(コロン)と空白文字を取り除いたもの(大文字、小文字は無視する、以下同様)および題名の先頭からFwdとそれに続く“:”(コロン)と空白文字を取り除いたもののいずれかを含む題名を持つ識別番号のいずれかに該当する識別番号を、電子メールDB66を用いて検索し、関連電子メール検出部54へ出力する。
【0044】
なお、本実施例では、前記の(a)から(c)までのいずれかの条件を満たす識別番号の電子メール関連電子メールとしている、電子メール間の関連を示すものであれば自由に用いることができる。例えば、電子メール本文中での引用元を示す記述などがある。
【0045】
電子メールDB66は、電子メールを記録するデータベースであり、記録されている電子メール毎に、電子メールに付与された識別番号、電子メールに付与された題名、返信元に付与された識別番号、参照先に付与された識別番号等が保持されている。
【0046】
なお、キーワードDB62および電子メールDB66を、電子メール、電子メールに含まれるキーワード、電子メールに付与された識別番号、電子メールに付与された題名、返信元に付与された識別番号、参照先に付与された識別番号等を電子メール毎に記録する電子メールデータベースで置き換え、キーワードDB検索部60および電子メールDB検索部64を、両者の機能を有する電子メールキーワード検索部で置き換えてもよい。
【0047】
電子メール指定部50に接続されている関連電子メール検出部54は、電子メール指定部50により指定された識別番号の電子メールに関連する全電子メールの識別番号を抽出するものである。具体的には、電子メール指定部50から識別番号ID−Eが入力されたとき、電子メールDB検索部64に対して識別番号ID−Eに関連する識別番号の検索を指示し、検索された関連識別番号を受け取ると、さらに、その関連識別番号に関連する識別番号の検索を指示する。このような関連識別番号の検索処理を再帰的に実行し、識別番号ID−Eに関連する全ての識別番号(例えば、識別番号ID−G)を抽出する。ただし、同一の識別番号は2度以上抽出しない。なお、関連電子メール検出部54が電子メールDB66を直接制御して関連識別番号を検索するように構成してもよい。
【0048】
関連電子メール検出部54は、識別番号ID−Eに関連する全ての識別番号ID−Gの検索を終了したとき、識別番号ID−Gと検索キーワードDB検索部60から入力される識別番号ID−Fとに共通する識別番号(ID−H)を選択する。これにより、指定された電子メールに含まれるキーワードKEを含む電子メールから、指定された電子メールと文脈的に関連する電子メールを選択することができる。関連電子メール検出部54は、選択した識別番号ID−HをキーワードDB検索部60へ出力する。
【0049】
キーワード検索部52に接続される共起キーワード検出部56は、キーワード間の共起関係を検索する電子メール共起キーワード検出部であり、共起検出部68とキーワード絞込部70とから構成される。ここで、共起検出部68は、キーワード検索部52のキーワードBD検索部60と電子メールDB検索部64とに接続され、キーワード絞込部70は共起検出部68に接続されている。
【0050】
共起検出部68は、図1の共起検出部26と基本的には同じものであり、指定されたキーワードと共起するキーワードを検索するものである。具体的には、電子メールDB検索部64から入力される電子メールFおよびキーワードDB検索部60から入力されるキーワードKW−Hを用いて、電子メールF中に現れるキーワードKW−Hの出現回数を、キーワードKW−Eを構成する各キーワードに対応する電子メール毎およびキーワード毎に計測し、計測した各出現回数をキーワード毎に集計する。共起検出部68は、集計した出現回数をキーワード絞込部70へ出力する。
【0051】
キーワード絞込部70は、図1のキーワード絞込部28と基本的には同じものであり、共起キーワードの中から関連電子メールの検索に適したキーワードを出現回数の大きさに基づいて選択するものである。具体的には、共起検出部68から入力される出現回数の中からあらかじめ設定された閾値を超える出現回数だけを取り出し、取り出した出現回数に対応するキーワードを追加する検索キーワードとして出力する。この場合、出力する追加キーワードの数を、出現回数の値が大きい方から順番に選択して一定数に制限してもよい。
【0052】
なお、本実施例では、共起の検出にキーワードの出現回数を用いているが、これに限定されるものではない。例えば、キーワード間の距離を用いて共起を検出してもよい。また、本実施例では、キーワード毎に集計する例を示したが、シソーラスを用いて抽出した類似語を同一視して集計することもできる。また、本実施例では、追加されるキーワードの絞り込みに共起の度合いのみを用いているが、他の要素を絞り込みの選定基準に加えることができる。例えば、キーワードの最終出現時刻、キーワードの出現位置(件名、本文、引用文、等)などが使用できる。
【0053】
キーワード絞込部70およびキーワードDB検索部60に接続されるキーワード提示部58は、図1のキーワード提示部16と基本的には同じものであり、関連電子メールを検索するための検索キーワードの候補を外部に出力するインターフェースである。具体的には、キーワードDB検索部60からキーワードKW−Eが入力され、キーワード絞込部70から追加キーワードが入力されたとき、キーワードKW−Eおよび追加キーワードを外部へ出力する。利用者は、キーワード提示部58から出力されるキーワードから所望のキーワードを選択して関連電子メールの検索に使用する。
【0054】
このように構成された関連文書検索装置の動作を、図6のフローチャートを参照して説明する。利用者は、関連電子メールを検索しようとする電子メールに付与されている識別番号(ID−E)を電子メール指定部50に入力する。電子メール指定部50に入力された識別番号ID−Eは、キーワード検索部52のキーワードDB検索部60と関連電子メール検出部54へ出力される。
【0055】
キーワードDB検索部60では、電子メール指定部50から識別番号ID−Eが入力されたとき、キーワードDB62を用いて、識別番号ID−Eの電子メールに含まれるキーワードKW−Eを検索し、検索したキーワードKW−Eをキーワード提示部58へ出力する(図6のステップS200)。
【0056】
ステップS202に移行すると制御部では、ステップS200においてキーワードDB検索部60により検索されたキーワードKW−Eを構成するキーワードの全てについて、ステップS204からS214までの処理が実行されたかどうかを判定し、処理の実行が終了していない場合にはステップS204の処理に移行し、処理の実行が終了している場合にはステップS216の処理に移行するように各部を制御する。
【0057】
ステップS204に移行した場合キーワードDB検索部60では、キーワードKW−Eを構成するキーワードの中から、まだステップS204からステップS214までの処理が行なわれていないキーワード(例えば、キーワードKW−Ex)を選択し、キーワードDB62を用いて、キーワードKW−Exを含む全ての電子メールの識別番号を検索し、検索した識別番号ID−Fxを電子メールDB検索部64へ出力する。
【0058】
ステップS206に移行すると電子メールDB検索部64では、キーワードDB検索部60から入力された識別番号ID−Fxに対応する電子メールFxを、電子メールDB66から、識別番号ID−Fxを構成する識別番号毎に読み出し、読み出した電子メールFxを共起キーワード検出部56の共起検出部68へ出力する。
【0059】
ステップS208に移行すると関連電子メール検出部54では、電子メール指定部50から入力された識別番号ID−Exに関連する関連識別番号の検索を、キーワード検索部52の電子メールDB検索部64に対して指示する。電子メールDB検索部64では、この指示に応じて、指示された識別番号ID−Exの電子メールに関連する電子メールの識別番号を所定の手順に従って検索し、検索した関連識別番号を関連電子メール検出部54へ出力する。
【0060】
関連電子メール検出部54では、関連識別番号を受け取ると、さらに、その関連識別番号に関連する関連識別番号を検索するように電子メールDB検索部64に対して指示する。このような処理を再帰的に実行し、識別番号ID−Exに関連する全ての識別番号ID−Gxを検索する。そして、識別番号ID−Gxの検索を終了すると、キーワードDB検索部60から入力された識別番号ID−Fxを構成する識別番号および識別番号ID−Gxを構成する識別番号に共通する識別番号を選択し、これを識別番号ID−HxとしてキーワードDB検索部60へ出力する。ステップS208からS210に移行する。
【0061】
ステップS210に移行するとキーワードDB検索部60では、キーワードDB62を用いて、関連電子メール検出部54から入力される識別番号ID−Hxの電子メールに含まれるキーワードKW−Hxを検索し、検索したキーワードKW−Hxを共起キーワード検出部56の共起検出部68へ出力する。
【0062】
ステップS212に移行すると共起検出部68では、電子メールDB検索部64から入力される電子メールFxとキーワードDB検索部60から入力されるキーワードKW−Hxを用いて、電子メールFx中に現れるキーワードの出現回数を、電子メールFxを構成する電子メール毎およびキーワードKW−Hxを構成するキーワード毎に計測する。
【0063】
ステップS214に移行すると共起検出部68では、ステップS212において計測したキーワードの出現回数を、電子メールFxを構成する電子メールの全体についてキーワード毎に集計し、その集計結果を、前回このステップS214で得た出現回数の積算値にキーワード毎に加算して新たな積算値を得る。ステップS214からS202の処理へ戻る。
【0064】
このようなステップS202からステップS214までの処理を、ステップS200で検索されたキーワードKW−Eを構成する全てのキーワードに対して実行することにより、指定された電子メールに含まれるキーワードKW−Eと共起するキーワードを、指定された電子メールと文脈的に関連する電子メールから抽出し、抽出された各キーワードが、キーワードKW−Eを含む全電子メール中に現れる出現回数を算出することができる。
【0065】
ステップS216に移行した場合、キーワード絞込部70では、共起検出部68により積算された出現回数とあらかじめ設定された閾値とをキーワードごとに比較して閾値を超える出現回数を取り出す。そして、閾値を超える出現回数の数が一定数より多い場合には、閾値を超える出現回数に中から値の大きい順に一定数だけ取り出し、取り出した出現回数に対応するキーワードを追加する検索キーワードとしてキーワード提示部58へ出力する。
【0066】
ステップS218に移行するとキーワード提示部58では、キーワード検索部52のキーワードDB検索部60から入力されるキーワードKW−Eにキーワード絞込部70から入力される追加キーワードを追加し、これを関連電子メールの検索キーワード候補として外部へ出力する。
【0067】
なお、本実施例では、関連電子メール指定部50により識別番号が指定されたとき、指定された識別番号の電子メールに含まれるキーワードをキーワードDB62から検索している。したがって、識別番号がキーワードDB62に記録されていない場合には、識別番号を用いて電子メールを指定することができない。そこで、図3の場合と同様に、図5のキーワードDB検索部60にキーワード抽出部を接続し、電子メール指定部50に電子メールが入力された場合には、そのキーワード抽出部を使用して電子メールからキーワードを抽出し、これをキーワードDB62から検索されるキーワードとして用いれば、識別番号がキーワードDB62に登録されていない電子メールにも対応することができる。
【0068】
また、本実施例では、検索キーワードの提示が要求される毎に追加キーワードを算出しているが、図4の場合と同様に、定期的または利用者が明示的に指定したとき、あるいは新規メールが追加されたとき、指定された識別番号に対応する追加キーワードを算出してデータベース等に記録しておき、検索キーワードを提示する際に、そのデータベース等から記録しておいた追加キーワードを検索し、これを追加キーワードとして提示してもよい。これにより、追加キーワードを迅速に提示することができる。
【0069】
以上説明したように本実施例によれば、図1に示す実施例の場合と同様な効果を得ることができる。また、指定された電子メールの題名、返信元、参照先等を考慮して関連電子メールを検索し、その関連電子メールからキーワードを抽出しているので、関連電子メールの文脈が反映されたキーワードのみを提示することが可能となる。
【0070】
【発明の効果】
以上説明したように本発明による関連文書検索装置によれば、文書中に直接現れないが関連の強いキーワードを検索用キーワード候補として提示することができるので、利用者は期待する関連語句を検索することが可能となる。また、本発明を利用して、関連文書を検索するためのキーワードを選択項目として追加提示するように設定すれば、キーワードの入力操作の簡便化を図ることができる。
【0071】
また、本発明による関連電子メール検索装置によれば、上記の関連文書検索装置により得られる効果と同様な効果が得られる。また、指定された電子メールの題名、返信元、参照先等を考慮して関連電子メールを検索し、その関連電子メールからキーワードを抽出しているので、関連電子メールの文脈が反映されたキーワードを提示することができる。
【図面の簡単な説明】
【図1】本発明による関連文書検索装置の実施例を示すブロック図である。
【図2】図1に示す関連文書検索装置の動作を示すフローチャートである。
【図3】図1に示す関連文書検索装置におけるキーワード検索部の他の実施例を示すブロック図である。
【図4】図1に示す関連文書検索装置におけるキーワード検索部のさらに他の実施例を示すブロック図である。
【図5】本発明による関連文書検索装置の他の実施例を示すブロック図である。
【図6】図5に示す関連文書検索装置の動作を示すフローチャートである。
【符号の説明】
10 文書指定部
12 キーワード検索部
14 共起キーワード検出部
16 キーワード提示部
18 キーワードDB検索部
20 キーワードDB
22 文書DB検索部
24 文書DB
26 共起検出部
28 キーワード絞込部

Claims (11)

  1. 文書と、該文書に付与された識別番号と、該文書に含まれる複数のキーワードとを文書毎に記録した文書データベースと、
    該文書データベースを用いて、前記識別番号により指定された文書に含まれる特定のキーワードを含む文書を検索し、該検索された文書に含まれる他のキーワードを文書毎に検索するキーワード検索手段と、
    該キーワード検索手段により検索された各文書に含まれる前記他のキーワードが該キーワード検索手段により検索された全文書中に現れる傾向をスコアとして求め、該スコアが所定値となった前記他のキーワードを、追加する検索キーワードとしてとして出力する共起キーワード検出手段とを含むことを特徴とする関連文書検索装置。
  2. 請求項1に記載の装置において、前記文書は電子メールであり、
    前記文書データベースは、該電子メールと、該電子メールに付与された識別番号と、該電子メールに含まれる複数のキーワードと、該電子メールに関連する関連電子メールの識別番号とを電子メール毎に記録した電子メールデータベースであり、
    該装置は、さらに前記電子メールデータベースを用いて、特定の前記識別番号により指定された電子メールに関連する全ての前記関連電子メールを検索する関連電子メール検索手段を有し、
    前記キーワード検索手段は、前記関連電子メール検索手段で検索された前記全ての関連電子メールを対象として、前記特定の識別番号により指定された電子メールに含まれる特定のキーワードを検索して該特定のキーワードを含む電子メールを検索し、該検索された電子メールに含まれる他のキーワードを電子メール毎に検索することを特徴とする関連文書検索装置。
  3. 請求項2に記載の装置において、前記関連電子メール検索手段は、電子メールに付与された参照先または返信元で指定された電子メールおよび電子メールに付与された題名を題名に含む電子メールのいずれかに該当する電子メールを再帰的に検索して、指定された電子メールに関連する全ての関連電子メールを検索することを特徴とする関連文書検索装置。
  4. 請求項1に記載の装置において、前記共起キーワード検出手段は、前記スコアとして前記他のキーワードが前記キーワード検索手段により検索された全文書中に現れる出現回数を計測し、該出現回数が所定の閾値以上となった前記他のキーワードを、追加する検索キーワードとして出力することを特徴とする関連文書検索装置。
  5. 請求項1に記載の装置において、前記共起キーワード検出手段は、前記スコアとして前記キーワード検索手段により検索された全文書中の前記特定のキーワードと前記他のキーワードとの距離の逆数を積算し、該距離の逆数の積算が所定の閾値よりも大きい値となった前記他のキーワードを、追加する検索キーワードとして出力することを特徴とする関連文書検索装置。
  6. 請求項4に記載の装置において、前記共起キーワード検出手段は、出力する追加キーワードの数を出現回数の大きさに従って一定数に制限することを特徴とする関連文書検索装置。
  7. 請求項1に記載の装置において、前記キーワード検索手段は、入力文書からキーワードを抽出するキーワード抽出手段を備え、該キーワード抽出手段により抽出されたキーワードを前記文書データベースを用いて検索したキーワードとして用いることを特徴とする関連文書検索装置。
  8. 請求項1に記載の装置において、前記キーワード検索手段は、識別番号と追加キーワードとを識別番号毎に記録した追加キーワードデータベースを備え、該追加キーワードデータベースを用いて、識別番号により指定された文書に対応する追加キーワードを検索することを特徴とする関連文書検索装置。
  9. 請求項8に記載の装置において、該装置は、あらかじめ指定された期間毎にまたは外部から指示されたとき、前記文書データベースに記録されている各文書に対する追加キーワードを算出して前記追加キーワードデータベースに記録することを特徴とする関連文書検索装置。
  10. 文書と、該文書に付与された識別番号と、該文書に含まれる複数のキーワードとを文書毎に記録した文書データベースを用いて、前記識別番号により指定された文書に含まれる特定のキーワードを含む文書を検索し、該検索された文書に含まれる他のキーワードを文書毎に検索するキーワード検索工程と、
    該キーワード検索工程により検索された各文書に含まれる前記他のキーワードが該キーワード検索工程により検索された全文書中に現れる傾向をスコアとして求め、該スコアが所定値となった前記他のキーワードを、追加する検索キーワードとしてとして出力する共起キーワード検出工程とを含むことを特徴とする関連文書検索方法。
  11. 電子メールと、該電子メールに付与された識別番号と、該電子メールに含まれる複数のキーワードと、該電子メールに関連する関連電子メールの識別番号とを電子メール毎に記録した電子メールデータベースを用いて、特定の前記識別番号により指定された電子メールに関連する全ての前記関連電子メールを検索する関連電子メール検索工程と、
    該関連電子メール検索工程により検索された前記全ての関連電子メールを対象として、前記特定の識別番号により指定された電子メールに含まれる特定のキーワードを検索して該特定のキーワードを含む電子メールを検索し、該検索された電子メールに含まれる他のキーワードを電子メール毎に検索するキーワード検索工程と、
    該キーワード検索工程により検索された各電子メールに含まれる前記他のキーワードが該キーワード検索工程により検索された全電子メール中に現れる傾向をスコアとして求め、該スコアが所定値となった前記他のキーワードを、追加する検索キーワードとしてとして出力する共起キーワード検出工程とを含むことを特徴とする関連文書検索方法。
JP2003150073A 2003-05-28 2003-05-28 関連文書検索装置 Withdrawn JP2004355166A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003150073A JP2004355166A (ja) 2003-05-28 2003-05-28 関連文書検索装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003150073A JP2004355166A (ja) 2003-05-28 2003-05-28 関連文書検索装置

Publications (1)

Publication Number Publication Date
JP2004355166A true JP2004355166A (ja) 2004-12-16

Family

ID=34045978

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003150073A Withdrawn JP2004355166A (ja) 2003-05-28 2003-05-28 関連文書検索装置

Country Status (1)

Country Link
JP (1) JP2004355166A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2026273A1 (en) 2007-08-16 2009-02-18 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for processing email, and apparatus for searching email

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2026273A1 (en) 2007-08-16 2009-02-18 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for processing email, and apparatus for searching email
US9032031B2 (en) 2007-08-16 2015-05-12 Kabushiki Kaisha Toshiba Apparatus, method and computer program product for processing email, and apparatus for searching email

Similar Documents

Publication Publication Date Title
KR100229395B1 (ko) 서로 관련한 하이퍼텍스트 문서 검색용 하이퍼텍스트 문서 검색 장치
US7424421B2 (en) Word collection method and system for use in word-breaking
US9032031B2 (en) Apparatus, method and computer program product for processing email, and apparatus for searching email
JP3855551B2 (ja) 検索方法及び検索システム
US8595229B2 (en) Search query generator apparatus
WO2000075809A1 (fr) Procede de triage d'informations, trieur d'informations, support enregistre sur lequel le programme de triage d'informations est enregistre
JPH1049549A (ja) 文書検索装置
US20040158558A1 (en) Information processor and program for implementing information processor
JP2001084255A (ja) 文書検索装置および方法
JP2007140721A (ja) 文書専門度取得プログラム
JP7434125B2 (ja) 文書検索装置、文書検索方法、及びプログラム
JP2004178421A (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
JP2009080559A (ja) 検索システム、方法およびプログラム
JP5418138B2 (ja) 文書検索システム、情報処理装置およびプログラム
JP2008077252A (ja) 文書ランキング方法、文書検索方法、文書ランキング装置、文書検索装置、及び記録媒体
JP2004355166A (ja) 関連文書検索装置
Kalaivani et al. The effect of stop word removal and stemming in datapreprocessing
JP4389102B2 (ja) 技術文献検索システム
JP2002215647A (ja) テキストマイニング装置及びそれに用いるテキストマイニング方法並びにそれらに用いるプログラム
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2002117043A (ja) 文書検索装置、文書検索方法およびその方法を実施するためのプログラムを記録した記録媒体
JP2008090396A (ja) 電子文書検索方法、電子文書検索装置及びプログラム
JP7428035B2 (ja) データ検索装置、データ検索方法およびプログラム
JPH08305695A (ja) 文書処理装置
JP2005141449A (ja) 情報フィルタリング用プロファイル作成装置、情報フィルタリング用プロファイル作成方法および記録媒体

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20060801