JP5308199B2 - 文書検索システム - Google Patents

文書検索システム Download PDF

Info

Publication number
JP5308199B2
JP5308199B2 JP2009063880A JP2009063880A JP5308199B2 JP 5308199 B2 JP5308199 B2 JP 5308199B2 JP 2009063880 A JP2009063880 A JP 2009063880A JP 2009063880 A JP2009063880 A JP 2009063880A JP 5308199 B2 JP5308199 B2 JP 5308199B2
Authority
JP
Japan
Prior art keywords
mail
document
search
similar
space
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2009063880A
Other languages
English (en)
Other versions
JP2010218190A (ja
Inventor
昌平 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009063880A priority Critical patent/JP5308199B2/ja
Publication of JP2010218190A publication Critical patent/JP2010218190A/ja
Application granted granted Critical
Publication of JP5308199B2 publication Critical patent/JP5308199B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、文書の検索のための技術に関する。
文書検索に関する技術として、例えば、特許文献1及び2に開示の技術がある。
特許文献1によれば、まず、キーワード、文書ID及び文書断片のうちのいずれか1種類の情報が入力され、入力された情報が類似文書型データベースに送られ、類似文書型データベースから、その情報から特定される文書に含まれている複数の特徴単語が抽出される。そして、抽出されたそれぞれの特徴単語が、キーワード型データベースに送られる。これにより、特徴単語を含んだ文書が検索される。
特許文献2によれば、まず、対象文書(検索条件文書)が入力され、入力された対象文書から複数のキーワードが抽出され、それぞれのキーワードを用いて、キーワード検索が行われる。そのキーワード検索により、キーワードを含んだ文書が検索される。そして、その検索により見つかった複数の文書の中から、上記の対象文書に類似する文書が検索される(つまり類似文書検索が行われる)。
特開2002−222208号公報 特開2004−151959号公報
特許文献1によれば、検索のために入力される情報は、キーワード、文書ID及び文書断片のうちのいずれか1種類である。一方、特許文献2によれば、検索のために入力される情報は、対象文書のみである。
このため、いずれの特許文献に記載の技術でも、検索結果の方向性を指定することができない。従って、文書検索の精度が低く、それ故、ユーザの望む文書が提示される確率は低い。
そこで、本発明の目的は、文書検索の精度を向上することにある。
検索手段が、キーワードに関する所定の条件に適合し且つ対象文書と類似する文書を複数の文書の中から検索する。つまり、検索手段は、キーワードと対象文書の両方を用いて文書を検索する。そのキーワードは、対象文書に含まれていてもいなくても良い。
これにより、類似文書検索とキーワード検索が併用されることで、類似文書検索の結果に一定の方向性が与えられるので、ユーザの望む文書が得られる確率を向上させることができる。
なお、「キーワードに関する所定の条件に適合する文書」とは、例えば、そのキーワードをk個含む又は含まない文書である(kは自然数)。典型的にはkは1であると考えられるが、kは2以上であっても良い。この場合、例えば、条件が「キーワード「ABC」を2個含む」であれば、キーワード「ABC」を1個だけ含んでいる文書は、「キーワードに関する所定の条件に適合する文書」に該当しない文書である。
また、「文書」は、文字を含んだ電子データであれば、どのようなデータでも良い(例えば、表や画像を含んだ文書であっても良い)。
図1は、本発明の第一実施形態に係る文書検索システムが適用されたメール監査システムを有するコンピュータシステムを示す。 図2は、本発明の第一実施形態での検索処理の流れの一例を示す。 図3は、本発明の第一実施形態での検索処理における二次検索の説明図である。 図4は、本発明の第二実施形態に係る文書検索システムが適用されたメール監査システムを有するコンピュータシステムを示す。 図5は、本発明の第二実施形態での検索処理の説明図である。 図6(A)は、類似メール空間の類似カテゴリに分類されているメール群から少なくとも一つのメールを選択する方法(以下、メール選択方法)の第一の例の説明図である。図6(B)は、メール選択方法の第二の例の説明図である。図6(C)は、メール選択方法の第三の例の説明図である。図6(D)は、メール選択方法の第四の例の説明図である。 図7は、本発明の第二実施形態での検索処理の流れの一例を示す。 図8は、図6(D)に示したメール選択方法の説明の補足図である。
以下、文書が電子メール(以下、単に「メール」と言う)である場合を例に採り、図面を参照しながら本発明の幾つかの実施形態について詳細に説明する。
図1は、本発明の第一実施形態に係る文書検索システムが適用されたメール監査システム103を有するコンピュータシステムを示す。
社内端末101と社外端末105との間で、社内ネットワーク111及び社外ネットワーク112を経由して、メールが送受信される。社内端末101及び社外端末105は、例えば、パーソナルコンピュータ或いはサーバマシンである。社内ネットワーク111は、例えばLAN(Local Area Network)である。社外ネットワーク112は、例えば、社内ネットワーク111とは異なる外部のイントラネットやインターネットを含んだネットワークである。
社内ネットワーク111に、メールサーバ107及びメール監査システム103が接続されている。
メールサーバ107は、社内ネットワーク111を経由して送受信された電子メールを記憶する。
メール監査システム103は、社内ネットワーク11を経由する電子メール、特に、例えば、社内から社外に送信されるメール(いわゆるアウトバウンドメール)をチェックする。
メール監査システム103は、例えば、CPU131と、記憶資源(例えば、メモリ132及び記憶装置135)と、外部の装置との通信を制御するインターフェイス装置(通信I/F)133とを備える。
メモリ132は、例えば、種々のコンピュータプログラムや、CPU131が行う処理に使用される種々のデータ等を記憶する。コンピュータプログラムとしては、例えば、検索プログラム321がある。
CPU131は、メモリ132に記憶されているコンピュータプログラムを実行することにより、メール検索を行うことができる。具体的には、例えば、CPU131は、検索プログラム321を実行することにより、検索部301の機能を実現する。
記憶装置135は、類似メールデータベース(類似メールDB)441と、キーワードデータベース(キーワードDB)442とを記憶する。類似メールDB441は、類似メール検索で使用されるDBである。キーワードDB442は、キーワード検索で使用されるDBである。
本実施形態において、検索部301は、キーワードと対象メールの両方を用いてメールをメールサーバ107から検索する。検索部301は、例えば、メール監査システム103と通信可能なユーザ端末(例えば、社内端末101、或いは、社内ネットワーク111と非経由にメール監査システム103に接続されている通信端末)を介しユーザから、検索の指示を受け、その指示に応答して、検索処理を行い、そのユーザ端末に検索結果を出力することができる。出力された検索結果は、ユーザ端末のディスプレイ画面に表示される。
図2は、検索部301が行う検索処理の流れを示す。
キーワードが入力される(S101)。このキーワードは、例えば、ユーザから入力されたキーワードである。もちろん、それに限らず、例えば、メモリ132に記憶されているキーワードリストから任意に選択されたキーワードであっても良い。
検索部301が、入力されたキーワードを用いた一次検索(キーワード検索)を行う(S102)。具体的には、例えば、検索部301は、入力されたキーワードを含んだメールを、メールサーバ107が有する複数のメールから検索する。この結果、例えば、メールサーバ107が有する10000通のメール(グループC)から、10通のメール(グループA)が検索されたとする。
S102での検索により見つかった10通のメール(グループA)から少なくとも1通のメールが自動的に選択される(S103)。選択の基準としては、例えば、S101で入力されたキーワードを幾つ含むかという基準がある。ここでは、S101で入力されたキーワードを1番多く含むメールXと、そのキーワードを2番目に多く含むメールYが選択されたとする。
ここで選択されたメールが、対象メールとされる。「対象メール」とは、類似メール検索の対象(起点)となるメールである。
検索部301が、キーワードを用いたキーワード検索と対象メールを用いた類似メール検索との両方である二次検索を行う。この二次検索では、S101で入力されたキーワードを含まず且つ対象メールと類似するメールが検索される。この結果、例えば、グループCにおけるグループA以外のグループB(9990通のメール)から、対象メールXに類似する18通のメールと、対象メールYに類似する22通のメールが検索されたとする。
検索部301は、検索結果を出力する(S105)。この検索結果には、例えば、検索ヒット数とメールリストが含まれる。検索ヒット数は、例えば、一次検索で見つかったメールの数と、二次検索で見つかったメールの数との合計である。メールリストは、例えば、一次検索で見つかったメールに関する情報(例えば、送信元及び送信先のメールアドレス、メール本文)と、二次検索で見つかったメールに関する情報とを含んでいる。
以上が、検索処理の流れである。なお、この流れは一例であり、例えば以下のいずれかの変形例が採用されても良い。すなわち、S102では、S101で入力されたキーワードを含まないメールが検索されても良い。S103では、グループAからユーザが対象メールを選択しても良い。S104では、S101で入力されたキーワードとは別のキーワード(例えば、S103で選択された対象メールに含まれているキーワード、或いは、ユーザが別途入力したキーワード)が用いられても良い。S104では、キーワードを含むメールが検索されてもよい。
図3を参照して、二次検索について詳細に説明する。
二次検索では、類似メールDB441及びキーワードDB442が用いられる。
類似メールDB441は、各類似度とメールとの関係を表すテーブルである。本実施形態での類似メール検索は、LSH(Locality Sensitive Hashing)、つまり近似近傍点探索手法を用いた類似メール検索である。このため、メールの類似度は、メールのハッシュ値である。
キーワードDB442は、各キーワードとそのキーワードを含むメールとの関係を表すテーブルである。
本実施形態では、既存メール群(メールサーバ107に記憶されているメール群)443における各メール451が、事前に(例えば夜間バッチで)、類似メールDB441及びキーワードDB442に登録される。具体的には、類似メールDB441について言えば、全てのメール451のそれぞれのハッシュ値が算出され、そのハッシュ値に対応した欄に、そのメール451のIDが追記される(そのハッシュ値が類似メールDB441に未登録であれば、そのハッシュ値とメールIDが類似メールDB441に登録される)。一方、キーワードDB442について言えば、メール451から単語が抽出され、その単語と同じキーワードに対応した欄に、そのメール451のIDが追記される(抽出された単語がキーワードDB442に未登録であれば、その単語(キーワード)とメールIDがキーワードDB442に登録される)。
二次検索では、類似メール検索と、キーワード検索と、検索結果統合とが行われる。類似メール検索では、検索部301が、対象メールのハッシュ値を算出し、そのハッシュ値に対応した全てのメールID(第一のメールID群)を類似メールDB441から取得する。キーワード検索では、検索部301が、キーワードに対応した全てのメールID(第二のメールID群)をキーワードDB442から取得する。検索結果統合では、例えば条件が「指定されたキーワードを含まない」であれば、検索部301が、第一のメールID群から、第二のメールID群に含まれているメールIDと異なるメールIDを全て取得する(条件が「指定されたキーワードを含む」であれば、検索部301は、第一のメールID群から、第二のメールID群に含まれているメールIDと同じメールIDを全て取得する)。その取得されたメールIDが、二次検索でヒットしたメールのIDである。対象メールを図2の対象メールXとすれば、この二次検索でヒットしたメールのIDは、上記18通のメールのIDである。
以上が、第一の実施形態についての説明である。なお、類似メール検索としては、LSHの手法に従う類似メール検索に限らず、他の手法に従う類似メール検索が採用されても良い。
上述した第一の実施形態によれば、二次検索では、類似メール検索とキーワード検索が併用されるので、類似メール検索の結果に一定の方向性が与えられる。故に、ユーザの望むメールが得られる確率を向上させることができる。具体的には、例えば、下記の第1及び第2のケースで、ユーザの望むメールが得られる確率が向上する。
第1のケース:キーワード型監査における検索漏れを防ぐ。
「キーワード型監査」とは、例えば、予め用意されているNGキーワードリストに登録されているNGキーワードが含まれている送信メールを抽出し、抽出された送信メールの本文を人手等で確認することで、会社に不利益となる送信メール(以下、危険メール)が社外に流出していないかどうかを監査する手法である。本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、NGキーワード「XXX」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(危険メール)を対象メールとし、「対象メールに類似するメールであってキーワード「ABC」を含まないメール」を二次検索で検索する。これにより、NGキーワード「ABC」を含まないメール群の中から、NGキーワード「ABC」を含む危険メールに類似したメールを見つけることができる。つまり、検索の網羅性が確保され、危険メールの流出検知の確実性が向上する。
第2のケース:キーワード検索での検索結果を絞り込む。
本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、ユーザからのキーワード「DFG」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(ユーザ所望のメール)を対象メールとし、「対象メールに類似するメールであってキーワード「DFG」を含むメール」を二次検索で検索する。つまり、ユーザが入力したキーワード「DFG」に加えて類似メール検索で絞り込みを行う。これにより、ユーザが新たにキーワードを追加入力すること無く、ユーザ所望のメール以外のメールの数が少なくなるよう、検索結果を絞り込むことができる。
本発明の第二の実施形態を説明する。その際、第一の実施形態との相違点を主に説明し、第一の実施形態との共通点については説明を省略或いは簡略する。なお、以下の説明では、メールID=x(xは整数)のメールを「メール#x」と表記する。
図4は、本発明の第二実施形態に係る文書検索システムが適用されたメール監査システム803を有するコンピュータシステムを示す。
記憶装置135に、類似メールDB441が複数個用意される。言い換えれば、本実施形態では、複数の類似メール空間が定義されている。本実施形態では、複数の類似メール空間として、例えば、類似メール空間A及びBが定義されているとする。このため、類似メールDB441として、類似メールDB441A及び441Bが用意されているとする。
CPU131で実現される検索部801(CPU131で実行される検索プログラム821)は、検索部301が有する機能に代えて又は加えて、類似メール空間を辿っていく類似メール検索を行う機能を有する。
図5は、検索部801が行う類似メール検索の説明図である。
類似メール空間A及びBは、LSHの異なる類似度モデルに基づいて定義された空間である。すなわち、類似メール空間A(第一の類似メールDB441A)における各ハッシュ値(カテゴリ)と、類似メール空間B(第二の類似メールDB441B)における各ハッシュ値(カテゴリ)は、異なる類似度モデルに従い算出されている。例えば、類似メール空間Aについてのハッシュ値は、類似度モデルAに従う方法で得られ、類似メール空間Bについてのハッシュ値は、類似度モデルBに従う方法で得られる。
メールサーバ107が記憶するメール群(既存メール群)における各メールについて、予め、類似メール空間A及びBのそれぞれの類似度モデルに従ってそれぞれのハッシュ値が算出される。そして、各メールが、それぞれのハッシュ値に従い類似メール空間AとBのそれぞれに分類される。
検索部801は、例えば、対象メールが入力された場合、下記の処理(5−1)〜(5−6)を行うことで、対象メールに類似するメールとして、メール#4を検索することができる。
(5−1)対象メールの初めの検索範囲である類似メール空間Aの類似度モデルAに従って、対象メールのハッシュ値=48を算出する。
(5−2):類似メール空間Aからハッシュ値=48に該当するメール群を検索する。
(5−3):(5−2)の検索で見つかったメール群から、所定の方法で、メール#5を選択する。
(5−4):(5−3)で選択されたメール#5のID=5をキーに、この(5−4)の直前の検索範囲とは別の検索範囲である類似メール空間Bを参照する。これにより、類似メール空間Bから、メール#5が分類されているハッシュ値=948のメール群が見つかる。
(5−5):(5−4)で見つかったメール群から、所定の方法で、メール#8を選択する。
(5−6):(5−5)で選択されたメール#8のID=8をキーに、この(5−6)の直前の検索範囲とは別の検索範囲である類似メール空間Aを参照する。これにより、類似メール空間Aから、メール#8が分類されているハッシュ値=18のメール群が見つかる。
(5−7):(5−6)で見つかったメール群に含まれているメール#4は、類似度モデルBに従うハッシュ値が483である。この(5−6)の直前の検索範囲である類似メール空間Bでは、ハッシュ値=483には、メール#1も分類されている。メール#1は、最初の検索範囲の類似メール空間Aにおいて、対象メールと同じハッシュ値=48に分類されているメールである。以上のことから、メール#4は、対象メールに類似するメール#1に類似しており、メール#1が、対象メールに類似しているということになる。このため、メール#4を、対象メールに類似するメールと判定する。
以上のようにして、初めの検索範囲の類似メール空間Aでは対象メールに非類似であるが、別の類似メール空間Bでは対象メールに類似するようなメール#4を見つけることができる。
対象メールに類似するメールは、一つの類似メール空間Aだけを参照しても見つからない。別の言い方をすれば、対象メールを基に一つの類似メール空間Aだけを参照して見つかったメールは、必ずしも対象メールに類似しているとは限らない。
本実施例では、複数の類似度モデルに従う複数の類似メール空間を定義して各メールをそれぞれの類似メール空間に分類しておき、対象メールを基に類似メール空間を辿る(上記例では、類似メール空間A及びBを交互に参照する)。つまり、対象メールに類似するメールを、複数の観点から検索する。これにより、対象メールに実は類似しているメール#4を検索することができる。言い換えれば、類似メール検索の精度を全体として向上することができる。
以上の処理は一例であり、例えば以下のいずれかの変形例が採用されても良い。
例えば、上記の例では、類似メール空間Aが最初に参照されるが、どの類似メール空間を最初の参照先とするかは、予め定義されていても良いし、ランダム或いは他の方法で変更されても良い。
また、例えば、該当するハッシュ値に分類されているメール群の検索の際に(例えば上記の(5−2)や(5−4)の検索の際に)、第一の実施形態のようにキーワード検索が併用されても良い。具体的には、例えば、(5−1)の検索では、ハッシュ値=48に分類されているメールであってキーワード「HIJ」を含まない(又は含む)メールが検索される。キーワード「HIJ」は、対象メールから抽出されたキーワードであっても良いし、対象メールに含まれておらずユーザから入力されたキーワードであっても良い。また、例えば、(5−3)の検索では、ハッシュ値=948に分類されているメールであってキーワード「KLM」を含まない(又は含む)メールが検索される。キーワード「KLM」は、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメール(例えば、ハッシュ値=48に分類されているいずれかのメール、又は、選択されたメール#5)から抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。
また、例えば、キーワード検索は、最後の絞り込みで採用されて良い。すなわち、対象メールを基に類似メール空間を辿った結果として取得された、対象メールに類似するメール群から、キーワード「NOP」を含まない(又は含む)メールが検索されても良い。キーワード「NOP」は、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメール(例えば、空間Aのハッシュ値=48に分類されているいずれかのメール、空間Bのハッシュ値=483に分類されているいずれかのメール、又は、選択されたメール#5又はメール#8)から抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。
また、例えば、類似メール空間を辿る際、キーワード検索が全く併用されなくても良い。言い換えれば、キーワードDB442は無くても良い。
また、複数の類似メール空間に、異なる種類の類似メール検索手法に従う類似メール空間が含まれていても良い。上記の例で言えば、LSHに従う類似メール空間の他に、他の類似メール検索手法に従う類似メール空間(例えば、カテゴリとして、ハッシュ値ではなく、「業務」、「私用」などのようなメール種類が採用された空間)が含まれていても良い。
ところで、(5−3)及び(5−5)における「所定の方法」(すなわち、類似メール空間Aのハッシュ値=48から一つのメール#5を選択する方法、及び、類似メール空間Bのハッシュ値=948から一つのメール#8を選択する方法)とは、例えば、図6に示す(A)〜(D)のいずれかの方法である。
図6(A)の方法は、キーワードで選択する法である。図6(A)の例によれば、空間Aのハッシュ値=48に分類されているメール群から、入力されたキーワードを含まない(又は含む)メール#5が選択される。なお、入力されたキーワードは、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメールから抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。
図6(B)の方法は、ユーザが手動で選択する方法である。図6(B)の例によれば、ユーザが、ハッシュ値=48に分類されている各メールを閲覧し(例えば各メールの本文を閲覧し)、所望のメール#5を選択する。
図6(C)の方法は、全文単語検索で選択する方法である。図6(C)の例によれば、ハッシュ値=48に分類されている全てのメールから様々な単語が抽出され、メール毎の単語統計とメール群全体の単語統計とが算出され、メール群全体の単語統計と、メール毎の単語統計とを基に、メール#5が選択される。具体的には、例えば、メール群全体の単語統計によれば、単語「立て替え」が最も多く存在し、単語「立て替え」が最も多く存在するメールは、ハッシュ値=48に分類されているメール群のうちメール#5のため、メール#5が選択される。なお、全文単語検索では、対象メールに含まれている単語も考慮されても良い。
図6(D)の方法は、入力のメールを中心とした半径Rの距離を、取得されるメール数がP個(Pは自然数)になるよう調整することで、半径Rの範囲内にあるメールを選択する方法である。「入力のメール」とは、(5−2)では対象メールであり、(5−4)ではメール#5である。この入力のメールを、図8にあげるとおり、ベクトルに変換し、類似メール空間へ投影する。ベクトルへの変換はどのように行われても構わないが、たとえば、ここでは、メール文中に含まれる単語を用いるものとする。メール文中に含まれる単語をについて、あらかじめ別途リストアップしておいた単語リストと比較し、単語リストに含まれるものについては“1”、含まれないものについては“0”とする。これによりベクトルが形成される。なお、リストアップする単語の種類を変えることで異なる類似メール空間が形成される。図6(D)の例によれば、類似ベクトル空間において対象メールWを中心とした半径Rの距離を、R1からR2に縮めることで、ハッシュ値=48に分類されているメール群を1つのメール#5に絞り込むことが行われる。
なお、ベクトルの変換に用いる要素は、単語以外に、メールの送信時刻、添付ファイル、或いは送信形態(新規メールであるか、転送であるか、返信であるか、等)が用いられてもよい。また、単語を用いる場合でも、単語の有無ではなく、含まれる単語の数が用いられてもよい。
以上の図6(A)〜図6(D)の方法のうちの少なくとも一つが、該当するハッシュ値に分類されているメール群の検索結果の絞り込み(例えば、上記の(5−2)や(5−4)の検索の結果の絞り込み)に利用されても良い。例えば、対象メールの初めの類似メール空間Aでのハッシュ値=48に10000通のメールが分類されている場合、10000通のメールを絞り込むために、図6(A)〜図6(D)の方法のうちの少なくとも一つが利用されても良い。
図7は、検索部801が行う検索処理の流れを示す。以下の説明では、説明を分かり易くするために、適宜、図5に示したハッシュ値及びメールIDを使用する。
検索部801は、対象メールが入力された場合(S701)、対象メールの初めの検索範囲となる類似メール空間(空間A)の類似度モデルに従って、対象メールのハッシュ値(例えば48)を算出する(S702)。
次に、検索部801は、算出されたハッシュ値と同一のハッシュ値に分類されているメール群を初めの類似メール空間(空間A)から検索する(S703)。
次に、検索部801は、直前の検索範囲の類似メール空間(空間A)とは別の類似メール空間(空間B)から、直前の検索により見つかったメール群から選択されたメール(メール#5)が属するハッシュ値に分類されているメール群を検索する(S704)。具体的には、例えば、検索部801は、上記選択されたメールのメールIDをキーに、別の類似メール空間を参照することで、その別の類似メール空間から、選択されたメールが属するハッシュ値に分類されているメール群を検索する。なお、上記「選択されたメール」とは、直前の検索により見つかったメール群から図6(A)〜(D)の方法のいずれかの方法で選択されたメールである(これは、以下の説明でも同様である)。
次に、検索部801は、S704の検索により見つかったメール群から選択されたメール(メール#8)が対象メールと所定の関係があるか否かを判断する(S705)。言い換えれば、検索部801は、類似メール検索を終了して良いかどうかを判断する。
S705の判断の結果が否定的であれば(S705:NO)、検索部801は、S704を再実行する。具体的には、例えば、直前回のS704の検索範囲は類似メール空間Bであったため、検索部801は、直前回に選択されたメールのID=8をキーに、別の類似メール空間Aを参照する。これにより、別の類似メール空間Aから、メール#8が属するハッシュ値=18に分類されているメール群を見つけることができる。
以上のように、検索部801は、S705の判断の結果として肯定的な結果が得られるまで、S704を繰り返すことになる。従って、S704での直前の検索範囲とは、S703での検索範囲(初めの検索範囲である類似メール空間A)、又は、直前回のS704での検索範囲である。
S704の判断の結果が肯定的であれば(S704:YES)、検索部801は、最後のS704の検索により見つかったメール(メール#4)を、対象メールに類似するメールと判断する(S706)。
ここで、S705の判断における「所定の関係」とは、S704の検索により見つかったメール(メール#4)と、対象メールの初めの検索範囲(類似メール空間A)でのハッシュ値(=48)に分類されているメール(メール#1)が、そのS704の直前の検索範囲(類似メール空間B)において同一のハッシュ値(=483)に分類されていることである。
このような検索処理により、図5を参照して説明した検索が行われることになる。すなわち、類似メール空間A及びBを交互に参照することになり、その結果として、対象メールに実は類似するメール#4が検索される。
以上、第二の実施形態によれば、複数の類似メール検索を組み合わせることで、個々の類似メール検索の精度の低さを補うことができ、全体としての類似メール検索の精度を向上させることができる。
上述した本発明の幾つかの実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱することなく、その他の様々な態様でも実施することができる。
103,803…メール監査システム

Claims (4)

  1. キーワードを入力するキーワード入力手段と、
    対象文書を入力する対象文書入力手段と、
    前記キーワードに関する所定の条件に適合し且つ前記対象文書と類似する文書を複数の文書の中から検索する検索手段と、
    を備え、
    異なる観点に従う異なる文書空間があり、各文書空間に、その文書空間の観点に基づいて決定された複数の類似カテゴリがあり、
    各文書は、いずれか二以上の文書空間のいずれかの類似カテゴリに分類されており、
    前記検索手段が、以下の(A)乃至(D)の処理:
    (A)前記対象文書の初めの検索範囲とされる文書空間の観点に基づき、前記対象文書のその文書空間での類似カテゴリを特定する、
    (B)前記特定された類似カテゴリと同一の類似カテゴリに分類されている文書を前記初めの文書空間から検索する;
    (C)この(C)の処理の直前の検索範囲とは別の文書空間から、この(C)の直前の処理により見つかった文書と同一の類似カテゴリに分類されている文書を検索する;
    (D)前記(C)の処理により見つかった文書が前記対象文書と所定の関係があるか否かを判断する;
    を実行し、
    前記(D)の判断の結果が否定的であれば、前記検索手段は、前記(C)の処理を再実行し、
    前記(D)の判断の結果が肯定的であれば、前記検索手段は、前記(C)の処理により見つかった文書を、前記対象文書に類似する文書と判断し、
    前記(B)及び/又は(C)の処理により見つかった文書は、キーワードに関する所定の条件に適合する文書である、
    文書検索システム。
  2. 前記所定の関係とは、前記(C)の処理により見つかった文書と、前記対象文書の前記初めの文書空間での類似カテゴリに分類されている文書が、前記(C)の処理の直前の検索範囲の文書空間において同一の類似カテゴリに分類されていることである、
    請求項1記載の文書検索システム。
  3. 前記(C)の処理の直前の検索範囲から見つかった文書とは、その検索範囲から見つかった二以上の文書がキーワードを用いて絞り込まれた文書である、
    請求項1又は2記載の文書検索システム。
  4. 少なくとも1つの文書空間は、LSH(Locality Sensitive
    Hashing)の類似度モデルに基づく空間であり、
    各類似度カテゴリは、ハッシュ値であり、
    前記(C)の処理の直前の検索範囲から見つかった文書とは、その(C)での検索のために入力された文書と同一のハッシュ値を有する複数の文書のうちの、その入力された文書を中心とした調整後の半径R以内の範囲に属する文書である、
    請求項1又は2記載の文書検索システム。
JP2009063880A 2009-03-17 2009-03-17 文書検索システム Expired - Fee Related JP5308199B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009063880A JP5308199B2 (ja) 2009-03-17 2009-03-17 文書検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009063880A JP5308199B2 (ja) 2009-03-17 2009-03-17 文書検索システム

Publications (2)

Publication Number Publication Date
JP2010218190A JP2010218190A (ja) 2010-09-30
JP5308199B2 true JP5308199B2 (ja) 2013-10-09

Family

ID=42976979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009063880A Expired - Fee Related JP5308199B2 (ja) 2009-03-17 2009-03-17 文書検索システム

Country Status (1)

Country Link
JP (1) JP5308199B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5742506B2 (ja) * 2011-06-27 2015-07-01 日本電気株式会社 文書類似度算出装置
JP7183845B2 (ja) * 2019-02-12 2022-12-06 日本電気株式会社 メールシステム、データ復元装置、データ復元方法、およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116290A (ja) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp 文書分類管理方法及び文書検索方法
JP4021583B2 (ja) * 1999-04-08 2007-12-12 富士通株式会社 情報検索装置、情報検索方法、及びその方法を実現するプログラムを記録した記録媒体
JP3974377B2 (ja) * 2001-11-05 2007-09-12 日本電信電話株式会社 情報蓄積・検索装置及び方法、情報蓄積・検索プログラムならびにそのプログラムを記録した記録媒体

Also Published As

Publication number Publication date
JP2010218190A (ja) 2010-09-30

Similar Documents

Publication Publication Date Title
Fu et al. Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement
JP6612303B2 (ja) ユーザコンタクトエントリのデータ設定
US7827165B2 (en) Providing a social network aware input dictionary
US9298710B2 (en) Document search system which reflects the situation of using documents in the search results
WO2017143930A1 (zh) 一种搜索结果排序方法及其设备
US9727647B1 (en) Annotating articles
JP2004062893A (ja) 重み付き編集距離に基づく例文の自動検索用システムおよび方法
JP6390139B2 (ja) 文書検索装置、文書検索方法、プログラム、及び、文書検索システム
JP5308199B2 (ja) 文書検索システム
JP2008123527A (ja) 検索結果の最適化方法及び装置
JP6038232B2 (ja) 効率的なメール検索のためのメールサービスシステムおよび方法
JP5179564B2 (ja) クエリセグメント位置決定装置
JP5265420B2 (ja) 文書検索システム
JP6194180B2 (ja) 文章マスク装置及び文章マスクプログラム
JP5953851B2 (ja) 文書管理装置及びプログラム
JP5127553B2 (ja) 情報処理装置、情報処理方法、プログラム及び記録媒体
CN112905871A (zh) 热点关键词推荐方法、装置、终端及存储介质
JP6321874B1 (ja) サーバー装置
JP5223293B2 (ja) 位置表現抽出装置、方法及びプログラム
US11151103B1 (en) Method for providing an indication of the exact search hit within a large universe of contextual information
JP6160427B2 (ja) 差分抽出システム及びプログラム
JP6141091B2 (ja) 情報処理装置、情報処理方法、サーバ装置、プログラム、記録媒体
KR101400412B1 (ko) 검색 시스템 및 그의 동의어 생성 방법
JP6767825B2 (ja) データ管理装置、データ管理方法、およびデータ管理プログラム
JP5893474B2 (ja) 検索式妥当性判断装置、特許検索装置、検索式妥当性判断方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees