JP5265420B2 - Document search system - Google Patents
Document search system Download PDFInfo
- Publication number
- JP5265420B2 JP5265420B2 JP2009063884A JP2009063884A JP5265420B2 JP 5265420 B2 JP5265420 B2 JP 5265420B2 JP 2009063884 A JP2009063884 A JP 2009063884A JP 2009063884 A JP2009063884 A JP 2009063884A JP 5265420 B2 JP5265420 B2 JP 5265420B2
- Authority
- JP
- Japan
- Prior art keywords
- document
- search
- similar
- space
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
本発明は、文書の検索のための技術に関する。 The present invention relates to a technique for searching for a document.
文書検索に関する技術として、例えば、特許文献1及び2に開示の技術がある。
As a technique related to document search, for example, there are techniques disclosed in
特許文献1によれば、まず、キーワード、文書ID及び文書断片のうちのいずれか1種類の情報が入力され、入力された情報が類似文書型データベースに送られ、類似文書型データベースから、その情報から特定される文書に含まれている複数の特徴単語が抽出される。そして、抽出されたそれぞれの特徴単語が、キーワード型データベースに送られる。これにより、特徴単語を含んだ文書が検索される。
According to
特許文献2によれば、まず、対象文書(検索条件文書)が入力され、入力された対象文書から複数のキーワードが抽出され、それぞれのキーワードを用いて、キーワード検索が行われる。そのキーワード検索により、キーワードを含んだ文書が検索される。そして、その検索により見つかった複数の文書の中から、上記の対象文書に類似する文書が検索される(つまり類似文書検索が行われる)。
According to
ところで、一般に、類似文書検索の精度は低い。言い換えれば、類似文書検索で検索される文書がユーザの望む文書である確率は低い。具体的には、例えば、対象文書に或る観点では類似していると考えられる文書が検索されることがあるものの、全体としては、ユーザの望む文書とはかなり違った文書が検索されることは少なくない。 By the way, generally, the accuracy of similar document retrieval is low. In other words, the probability that the document searched by the similar document search is the document desired by the user is low. Specifically, for example, a document that is considered to be similar to the target document from a certain point of view may be searched, but as a whole, a document that is significantly different from the document desired by the user is searched. There are many.
そこで、本発明の目的は、類似文書検索の精度を向上することにある。 Accordingly, an object of the present invention is to improve the accuracy of similar document search.
異なる観点に従う異なる文書空間が予め定義される。各文書空間には、その文書空間の観点に基づいて決定された複数の類似カテゴリがある。検索対象となる複数の文書のそれぞれが、いずれか二以上の文書空間のいずれかの類似カテゴリに分類される。 Different document spaces according to different viewpoints are predefined. Each document space has a plurality of similar categories determined based on the viewpoint of the document space. Each of the plurality of documents to be searched is classified into any similar category in any two or more document spaces.
検索手段が、以下の(A)乃至(D)の処理:
(A)対象文書の初めの検索範囲とされる文書空間の観点に基づき、対象文書のその文書空間での類似カテゴリを特定する、
(B)特定された類似カテゴリと同一の類似カテゴリに分類されている文書を初めの文書空間から検索する;
(C)この(C)の処理の直前の検索範囲とは別の文書空間における、この(C)の直前の処理により見つかった文書と同一の類似カテゴリに分類されている文書を、検索する;
(D)上記(C)の処理により見つかった文書が対象文書と所定の関係があるか否かを判断する;
を実行する。上記(D)の判断の結果が否定的であれば、検索手段は、上記(C)を再実行する。一方、上記(D)の判断の結果が肯定的であれば、検索手段は、上記(C)の処理により見つかった文書を、対象文書に類似する文書と判断する。
The search means performs the following processes (A) to (D):
(A) Based on the viewpoint of the document space that is the first search range of the target document, the similar category of the target document in the document space is specified.
(B) Searching for documents classified in the same similar category as the identified similar category from the original document space;
(C) Search for a document classified in the same similar category as the document found by the processing immediately before (C) in a document space different from the search range immediately before the processing of (C);
(D) It is determined whether the document found by the process (C) has a predetermined relationship with the target document;
Execute. If the result of the determination in (D) is negative, the retrieval unit re-executes (C). On the other hand, if the result of the determination in (D) is affirmative, the search means determines that the document found by the process in (C) is a document similar to the target document.
これにより、複数の類似文書検索を組み合わせることで、個々の類似文書検索の精度の低さを補うことができ、全体としての類似文書検索の精度を向上させることができる。 Thus, by combining a plurality of similar document searches, it is possible to compensate for the low accuracy of individual similar document searches and to improve the accuracy of similar document searches as a whole.
なお、所定の関係とは、例えば、上記(C)の処理により見つかった文書と、対象文書の初めの文書空間での類似カテゴリに分類されている文書が、上記(C)の処理の直前の検索範囲の文書空間において同一の類似カテゴリに分類されていることである。 The predetermined relationship is, for example, that a document found by the process (C) and a document classified into a similar category in the first document space of the target document are immediately before the process (C). In the document space of the search range, they are classified into the same similar category.
また、「(C)の処理の直前の検索範囲」とは、(B)の処理での検索範囲、又は、直前回の(C)の処理での検索範囲である。 The “search range immediately before the process (C)” is the search range in the process (B) or the search range in the last process (C).
また、上記(B)及び/又は(C)において検索された文書は、キーワードに関する所定の条件に適合する文書であっても良い。この場合、「キーワードに関する所定の条件に適合する文書」とは、例えば、そのキーワードをk個含む又は含まない文書である(kは自然数)。典型的にはkは1であると考えられるが、kは2以上であっても良い。この場合、例えば、条件が「キーワード「ABC」を2個含む」であれば、キーワード「ABC」を1個だけ含んでいる文書は、「キーワードに関する所定の条件に適合する文書」に該当しない文書である。 Further, the document searched in the above (B) and / or (C) may be a document that meets a predetermined condition relating to a keyword. In this case, “a document that satisfies a predetermined condition regarding a keyword” is, for example, a document that includes or does not include k keywords (k is a natural number). Typically, k is considered to be 1, but k may be 2 or more. In this case, for example, if the condition is “includes two keywords“ ABC ””, a document including only one keyword “ABC” does not correspond to “a document that satisfies a predetermined condition regarding keywords”. It is.
また、「文書」は、文字を含んだ電子データであれば、どのようなデータでも良い(例えば、表や画像を含んだ文書であっても良い)。 The “document” may be any data as long as it is electronic data including characters (for example, it may be a document including a table or an image).
以下、文書が電子メール(以下、単に「メール」と言う)である場合を例に採り、図面を参照しながら本発明の幾つかの実施形態について詳細に説明する。 Hereinafter, taking a case where a document is an electronic mail (hereinafter simply referred to as “mail”) as an example, some embodiments of the present invention will be described in detail with reference to the drawings.
図1は、本発明の第一実施形態に係る文書検索システムが適用されたメール監査システム103を有するコンピュータシステムを示す。
FIG. 1 shows a computer system having a
社内端末101と社外端末105との間で、社内ネットワーク111及び社外ネットワーク112を経由して、メールが送受信される。社内端末101及び社外端末105は、例えば、パーソナルコンピュータ或いはサーバマシンである。社内ネットワーク111は、例えばLAN(Local Area Network)である。社外ネットワーク112は、例えば、社内ネットワーク111とは異なる外部のイントラネットやインターネットを含んだネットワークである。
Mail is transmitted and received between the
社内ネットワーク111に、メールサーバ107及びメール監査システム103が接続されている。
A
メールサーバ107は、社内ネットワーク111を経由して送受信された電子メールを記憶する。
The
メール監査システム103は、社内ネットワーク11を経由する電子メール、特に、例えば、社内から社外に送信されるメール(いわゆるアウトバウンドメール)をチェックする。
The
メール監査システム103は、例えば、CPU131と、記憶資源(例えば、メモリ132及び記憶装置135)と、外部の装置との通信を制御するインターフェイス装置(通信I/F)133とを備える。
The
メモリ132は、例えば、種々のコンピュータプログラムや、CPU131が行う処理に使用される種々のデータ等を記憶する。コンピュータプログラムとしては、例えば、検索プログラム321がある。
The
CPU131は、メモリ132に記憶されているコンピュータプログラムを実行することにより、メール検索を行うことができる。具体的には、例えば、CPU131は、検索プログラム321を実行することにより、検索部301の機能を実現する。
The
記憶装置135は、類似メールデータベース(類似メールDB)441と、キーワードデータベース(キーワードDB)442とを記憶する。類似メールDB441は、類似メール検索で使用されるDBである。キーワードDB442は、キーワード検索で使用されるDBである。
The
本実施形態において、検索部301は、キーワードと対象メールの両方を用いてメールをメールサーバ107から検索する。検索部301は、例えば、メール監査システム103と通信可能なユーザ端末(例えば、社内端末101、或いは、社内ネットワーク111と非経由にメール監査システム103に接続されている通信端末)を介しユーザから、検索の指示を受け、その指示に応答して、検索処理を行い、そのユーザ端末に検索結果を出力することができる。出力された検索結果は、ユーザ端末のディスプレイ画面に表示される。
In the present embodiment, the
図2は、検索部301が行う検索処理の流れを示す。
FIG. 2 shows the flow of search processing performed by the
キーワードが入力される(S101)。このキーワードは、例えば、ユーザから入力されたキーワードである。もちろん、それに限らず、例えば、メモリ132に記憶されているキーワードリストから任意に選択されたキーワードであっても良い。
A keyword is input (S101). This keyword is, for example, a keyword input by the user. Of course, the keyword is not limited thereto, and may be a keyword arbitrarily selected from a keyword list stored in the
検索部301が、入力されたキーワードを用いた一次検索(キーワード検索)を行う(S102)。具体的には、例えば、検索部301は、入力されたキーワードを含んだメールを、メールサーバ107が有する複数のメールから検索する。この結果、例えば、メールサーバ107が有する10000通のメール(グループC)から、10通のメール(グループA)が検索されたとする。
The
S102での検索により見つかった10通のメール(グループA)から少なくとも1通のメールが自動的に選択される(S103)。選択の基準としては、例えば、S101で入力されたキーワードを幾つ含むかという基準がある。ここでは、S101で入力されたキーワードを1番多く含むメールXと、そのキーワードを2番目に多く含むメールYが選択されたとする。 At least one mail is automatically selected from the 10 mails (group A) found by the search in S102 (S103). As a selection criterion, for example, there is a criterion for how many keywords input in S101 are included. Here, it is assumed that the mail X including the most keyword input in S101 and the mail Y including the second most keyword are selected.
ここで選択されたメールが、対象メールとされる。「対象メール」とは、類似メール検索の対象(起点)となるメールである。 The mail selected here is the target mail. The “target mail” is a mail that is a target (starting point) of similar mail search.
検索部301が、キーワードを用いたキーワード検索と対象メールを用いた類似メール検索との両方である二次検索を行う。この二次検索では、S101で入力されたキーワードを含まず且つ対象メールと類似するメールが検索される。この結果、例えば、グループCにおけるグループA以外のグループB(9990通のメール)から、対象メールXに類似する18通のメールと、対象メールYに類似する22通のメールが検索されたとする。
The
検索部301は、検索結果を出力する(S105)。この検索結果には、例えば、検索ヒット数とメールリストが含まれる。検索ヒット数は、例えば、一次検索で見つかったメールの数と、二次検索で見つかったメールの数との合計である。メールリストは、例えば、一次検索で見つかったメールに関する情報(例えば、送信元及び送信先のメールアドレス、メール本文)と、二次検索で見つかったメールに関する情報とを含んでいる。
The
以上が、検索処理の流れである。なお、この流れは一例であり、例えば以下のいずれかの変形例が採用されても良い。すなわち、S102では、S101で入力されたキーワードを含まないメールが検索されても良い。S103では、グループAからユーザが対象メールを選択しても良い。S104では、S101で入力されたキーワードとは別のキーワード(例えば、S103で選択された対象メールに含まれているキーワード、或いは、ユーザが別途入力したキーワード)が用いられても良い。S104では、キーワードを含むメールが検索されてもよい。 The above is the flow of search processing. This flow is an example, and for example, any of the following modifications may be adopted. That is, in S102, a mail that does not include the keyword input in S101 may be searched. In S103, the user may select the target mail from group A. In S104, a keyword different from the keyword input in S101 (for example, a keyword included in the target mail selected in S103 or a keyword input separately by the user) may be used. In S104, an email including a keyword may be searched.
図3を参照して、二次検索について詳細に説明する。 The secondary search will be described in detail with reference to FIG.
二次検索では、類似メールDB441及びキーワードDB442が用いられる。
In the secondary search, the
類似メールDB441は、各類似度とメールとの関係を表すテーブルである。本実施形態での類似メール検索は、LSH(Locality Sensitive Hashing)、つまり近似近傍点探索手法を用いた類似メール検索である。このため、メールの類似度は、メールのハッシュ値である。
The
キーワードDB442は、各キーワードとそのキーワードを含むメールとの関係を表すテーブルである。
The
本実施形態では、既存メール群(メールサーバ107に記憶されているメール群)443における各メール451が、事前に(例えば夜間バッチで)、類似メールDB441及びキーワードDB442に登録される。具体的には、類似メールDB441について言えば、全てのメール451のそれぞれのハッシュ値が算出され、そのハッシュ値に対応した欄に、そのメール451のIDが追記される(そのハッシュ値が類似メールDB441に未登録であれば、そのハッシュ値とメールIDが類似メールDB441に登録される)。一方、キーワードDB442について言えば、メール451から単語が抽出され、その単語と同じキーワードに対応した欄に、そのメール451のIDが追記される(抽出された単語がキーワードDB442に未登録であれば、その単語(キーワード)とメールIDがキーワードDB442に登録される)。
In the present embodiment, each
二次検索では、類似メール検索と、キーワード検索と、検索結果統合とが行われる。類似メール検索では、検索部301が、対象メールのハッシュ値を算出し、そのハッシュ値に対応した全てのメールID(第一のメールID群)を類似メールDB441から取得する。キーワード検索では、検索部301が、キーワードに対応した全てのメールID(第二のメールID群)をキーワードDB442から取得する。検索結果統合では、例えば条件が「指定されたキーワードを含まない」であれば、検索部301が、第一のメールID群から、第二のメールID群に含まれているメールIDと異なるメールIDを全て取得する(条件が「指定されたキーワードを含む」であれば、検索部301は、第一のメールID群から、第二のメールID群に含まれているメールIDと同じメールIDを全て取得する)。その取得されたメールIDが、二次検索でヒットしたメールのIDである。対象メールを図2の対象メールXとすれば、この二次検索でヒットしたメールのIDは、上記18通のメールのIDである。
In the secondary search, similar mail search, keyword search, and search result integration are performed. In the similar mail search, the
以上が、第一の実施形態についての説明である。なお、類似メール検索としては、LSHの手法に従う類似メール検索に限らず、他の手法に従う類似メール検索が採用されても良い。 The above is the description of the first embodiment. The similar mail search is not limited to the similar mail search according to the LSH technique, and a similar mail search according to another technique may be employed.
上述した第一の実施形態によれば、二次検索では、類似メール検索とキーワード検索が併用されるので、類似メール検索の結果に一定の方向性が与えられる。故に、ユーザの望むメールが得られる確率を向上させることができる。具体的には、例えば、下記の第1及び第2のケースで、ユーザの望むメールが得られる確率が向上する。 According to the first embodiment described above, since the similar mail search and the keyword search are used in the secondary search, a certain directionality is given to the result of the similar mail search. Therefore, it is possible to improve the probability of obtaining the mail desired by the user. Specifically, for example, in the following first and second cases, the probability of obtaining a user's desired mail is improved.
第1のケース:キーワード型監査における検索漏れを防ぐ。
「キーワード型監査」とは、例えば、予め用意されているNGキーワードリストに登録されているNGキーワードが含まれている送信メールを抽出し、抽出された送信メールの本文を人手等で確認することで、会社に不利益となる送信メール(以下、危険メール)が社外に流出していないかどうかを監査する手法である。本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、NGキーワード「XXX」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(危険メール)を対象メールとし、「対象メールに類似するメールであってキーワード「ABC」を含まないメール」を二次検索で検索する。これにより、NGキーワード「ABC」を含まないメール群の中から、NGキーワード「ABC」を含む危険メールに類似したメールを見つけることができる。つまり、検索の網羅性が確保され、危険メールの流出検知の確実性が向上する。
First case: Prevent search omission in keyword type audit.
“Keyword-type audit” refers to, for example, extracting outgoing mail containing NG keywords registered in a prepared NG keyword list, and manually checking the text of the extracted outgoing mail This is a method for auditing whether outgoing e-mails (hereinafter referred to as dangerous e-mails) that are disadvantageous to the company have leaked outside the company. The present embodiment can be applied to this case as follows. That is, the
第2のケース:キーワード検索での検索結果を絞り込む。
本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、ユーザからのキーワード「DFG」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(ユーザ所望のメール)を対象メールとし、「対象メールに類似するメールであってキーワード「DFG」を含むメール」を二次検索で検索する。つまり、ユーザが入力したキーワード「DFG」に加えて類似メール検索で絞り込みを行う。これにより、ユーザが新たにキーワードを追加入力すること無く、ユーザ所望のメール以外のメールの数が少なくなるよう、検索結果を絞り込むことができる。
Second case: The search result in the keyword search is narrowed down.
The present embodiment can be applied to this case as follows. That is, the
本発明の第二の実施形態を説明する。その際、第一の実施形態との相違点を主に説明し、第一の実施形態との共通点については説明を省略或いは簡略する。なお、以下の説明では、メールID=x(xは整数)のメールを「メール#x」と表記する。 A second embodiment of the present invention will be described. At that time, differences from the first embodiment will be mainly described, and description of common points with the first embodiment will be omitted or simplified. In the following description, a mail with mail ID = x (x is an integer) is represented as “mail #x”.
図4は、本発明の第二実施形態に係る文書検索システムが適用されたメール監査システム803を有するコンピュータシステムを示す。
FIG. 4 shows a computer system having a
記憶装置135に、類似メールDB441が複数個用意される。言い換えれば、本実施形態では、複数の類似メール空間が定義されている。本実施形態では、複数の類似メール空間として、例えば、類似メール空間A及びBが定義されているとする。このため、類似メールDB441として、類似メールDB441A及び441Bが用意されているとする。
A plurality of
CPU131で実現される検索部801(CPU131で実行される検索プログラム821)は、検索部301が有する機能に代えて又は加えて、類似メール空間を辿っていく類似メール検索を行う機能を有する。
The search unit 801 (
図5は、検索部801が行う類似メール検索の説明図である。
FIG. 5 is an explanatory diagram of similar mail search performed by the
類似メール空間A及びBは、LSHの異なる類似度モデルに基づいて定義された空間である。すなわち、類似メール空間A(第一の類似メールDB441A)における各ハッシュ値(カテゴリ)と、類似メール空間B(第二の類似メールDB441B)における各ハッシュ値(カテゴリ)は、異なる類似度モデルに従い算出されている。例えば、類似メール空間Aについてのハッシュ値は、類似度モデルAに従う方法で得られ、類似メール空間Bについてのハッシュ値は、類似度モデルBに従う方法で得られる。
Similar mail spaces A and B are spaces defined based on different similarity models of LSH. That is, each hash value (category) in the similar mail space A (first
メールサーバ107が記憶するメール群(既存メール群)における各メールについて、予め、類似メール空間A及びBのそれぞれの類似度モデルに従ってそれぞれのハッシュ値が算出される。そして、各メールが、それぞれのハッシュ値に従い類似メール空間AとBのそれぞれに分類される。
For each mail in the mail group (existing mail group) stored in the
検索部801は、例えば、対象メールが入力された場合、下記の処理(5−1)〜(5−6)を行うことで、対象メールに類似するメールとして、メール#4を検索することができる。
(5−1)対象メールの初めの検索範囲である類似メール空間Aの類似度モデルAに従って、対象メールのハッシュ値=48を算出する。
(5−2):類似メール空間Aからハッシュ値=48に該当するメール群を検索する。
(5−3):(5−2)の検索で見つかったメール群から、所定の方法で、メール#5を選択する。
(5−4):(5−3)で選択されたメール#5のID=5をキーに、この(5−4)の直前の検索範囲とは別の検索範囲である類似メール空間Bを参照する。これにより、類似メール空間Bから、メール#5が分類されているハッシュ値=948のメール群が見つかる。
(5−5):(5−4)で見つかったメール群から、所定の方法で、メール#8を選択する。
(5−6):(5−5)で選択されたメール#8のID=8をキーに、この(5−6)の直前の検索範囲とは別の検索範囲である類似メール空間Aを参照する。これにより、類似メール空間Aから、メール#8が分類されているハッシュ値=18のメール群が見つかる。
(5−7):(5−6)で見つかったメール群に含まれているメール#4は、類似度モデルBに従うハッシュ値が483である。この(5−6)の直前の検索範囲である類似メール空間Bでは、ハッシュ値=483には、メール#1も分類されている。メール#1は、最初の検索範囲の類似メール空間Aにおいて、対象メールと同じハッシュ値=48に分類されているメールである。以上のことから、メール#4は、対象メールに類似するメール#1に類似しており、メール#1が、対象メールに類似しているということになる。このため、メール#4を、対象メールに類似するメールと判定する。
For example, when a target mail is input, the
(5-1) The hash value = 48 of the target mail is calculated according to the similarity model A of the similar mail space A that is the initial search range of the target mail.
(5-2): A mail group corresponding to hash value = 48 is searched from the similar mail space A.
(5-3):
(5-4): Using ID = 5 of the
(5-5):
(5-6): Using ID = 8 of the
(5-7):
以上のようにして、初めの検索範囲の類似メール空間Aでは対象メールに非類似であるが、別の類似メール空間Bでは対象メールに類似するようなメール#4を見つけることができる。
As described above, it is possible to find
対象メールに類似するメールは、一つの類似メール空間Aだけを参照しても見つからない。別の言い方をすれば、対象メールを基に一つの類似メール空間Aだけを参照して見つかったメールは、必ずしも対象メールに類似しているとは限らない。 A mail similar to the target mail is not found even if only one similar mail space A is referred to. In other words, a mail found by referring to only one similar mail space A based on the target mail is not necessarily similar to the target mail.
本実施例では、複数の類似度モデルに従う複数の類似メール空間を定義して各メールをそれぞれの類似メール空間に分類しておき、対象メールを基に類似メール空間を辿る(上記例では、類似メール空間A及びBを交互に参照する)。つまり、対象メールに類似するメールを、複数の観点から検索する。これにより、対象メールに実は類似しているメール#4を検索することができる。言い換えれば、類似メール検索の精度を全体として向上することができる。
In this embodiment, a plurality of similar mail spaces according to a plurality of similarity models are defined, each mail is classified into each similar mail space, and the similar mail space is traced based on the target mail (in the above example, similar mail spaces are traced). The mail spaces A and B are alternately referred to). That is, a mail similar to the target mail is searched from a plurality of viewpoints. Thus, it is possible to search for
以上の処理は一例であり、例えば以下のいずれかの変形例が採用されても良い。 The above processing is an example, and for example, any one of the following modifications may be adopted.
例えば、上記の例では、類似メール空間Aが最初に参照されるが、どの類似メール空間を最初の参照先とするかは、予め定義されていても良いし、ランダム或いは他の方法で変更されても良い。 For example, in the above example, the similar mail space A is referred to first, but which similar mail space is set as the first reference destination may be defined in advance, or may be changed randomly or by another method. May be.
また、例えば、該当するハッシュ値に分類されているメール群の検索の際に(例えば上記の(5−2)や(5−4)の検索の際に)、第一の実施形態のようにキーワード検索が併用されても良い。具体的には、例えば、(5−1)の検索では、ハッシュ値=48に分類されているメールであってキーワード「HIJ」を含まない(又は含む)メールが検索される。キーワード「HIJ」は、対象メールから抽出されたキーワードであっても良いし、対象メールに含まれておらずユーザから入力されたキーワードであっても良い。また、例えば、(5−3)の検索では、ハッシュ値=948に分類されているメールであってキーワード「KLM」を含まない(又は含む)メールが検索される。キーワード「KLM」は、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメール(例えば、ハッシュ値=48に分類されているいずれかのメール、又は、選択されたメール#5)から抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。 Further, for example, when searching for a mail group classified into the corresponding hash value (for example, when searching for (5-2) or (5-4) above), as in the first embodiment Keyword search may be used in combination. Specifically, for example, in the search of (5-1), mails that are classified as hash value = 48 and do not include (or include) the keyword “HIJ” are searched. The keyword “HIJ” may be a keyword extracted from the target mail, or may be a keyword that is not included in the target mail and input from the user. Further, for example, in the search of (5-3), mails that are classified as hash value = 948 and do not include (or include) the keyword “KLM” are searched. The keyword “KLM” is either a target mail or a mail that has been searched (or selected) so far (for example, any mail classified as hash value = 48 or selected mail # 5). The keyword may be extracted from the above, or may be a keyword input by the user separately.
また、例えば、キーワード検索は、最後の絞り込みで採用されて良い。すなわち、対象メールを基に類似メール空間を辿った結果として取得された、対象メールに類似するメール群から、キーワード「NOP」を含まない(又は含む)メールが検索されても良い。キーワード「NOP」は、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメール(例えば、空間Aのハッシュ値=48に分類されているいずれかのメール、空間Bのハッシュ値=483に分類されているいずれかのメール、又は、選択されたメール#5又はメール#8)から抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。
In addition, for example, keyword search may be adopted in the final narrowing down. That is, a mail that does not include (or includes) the keyword “NOP” may be searched from a mail group similar to the target mail acquired as a result of tracing the similar mail space based on the target mail. The keyword “NOP” is either a target mail or a mail that has been searched (or selected) so far (for example, any mail classified into the hash value of space A = 48, the hash value of space B = It may be a keyword extracted from any mail classified as 483, selected
また、例えば、類似メール空間を辿る際、キーワード検索が全く併用されなくても良い。言い換えれば、キーワードDB442は無くても良い。
Further, for example, when tracing a similar mail space, keyword search may not be used at all. In other words, the
また、複数の類似メール空間に、異なる種類の類似メール検索手法に従う類似メール空間が含まれていても良い。上記の例で言えば、LSHに従う類似メール空間の他に、他の類似メール検索手法に従う類似メール空間(例えば、カテゴリとして、ハッシュ値ではなく、「業務」、「私用」などのようなメール種類が採用された空間)が含まれていても良い。 The plurality of similar mail spaces may include similar mail spaces according to different types of similar mail search methods. In the above example, in addition to a similar mail space according to LSH, a similar mail space according to another similar mail search method (for example, mail such as “business”, “private”, etc., not a hash value as a category) The space in which the type is adopted may be included.
ところで、(5−3)及び(5−5)における「所定の方法」(すなわち、類似メール空間Aのハッシュ値=48から一つのメール#5を選択する方法、及び、類似メール空間Bのハッシュ値=948から一つのメール#8を選択する方法)とは、例えば、図6に示す(A)〜(D)のいずれかの方法である。
By the way, the “predetermined method” in (5-3) and (5-5) (that is, the method of selecting one
図6(A)の方法は、キーワードで選択する法である。図6(A)の例によれば、空間Aのハッシュ値=48に分類されているメール群から、入力されたキーワードを含まない(又は含む)メール#5が選択される。なお、入力されたキーワードは、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメールから抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。
The method of FIG. 6A is a method of selecting by a keyword. According to the example of FIG. 6A,
図6(B)の方法は、ユーザが手動で選択する方法である。図6(B)の例によれば、ユーザが、ハッシュ値=48に分類されている各メールを閲覧し(例えば各メールの本文を閲覧し)、所望のメール#5を選択する。
The method of FIG. 6B is a method in which the user manually selects. According to the example of FIG. 6B, the user browses each mail classified as hash value = 48 (for example, browses the body of each mail) and selects a desired
図6(C)の方法は、全文単語検索で選択する方法である。図6(C)の例によれば、ハッシュ値=48に分類されている全てのメールから様々な単語が抽出され、メール毎の単語統計とメール群全体の単語統計とが算出され、メール群全体の単語統計と、メール毎の単語統計とを基に、メール#5が選択される。具体的には、例えば、メール群全体の単語統計によれば、単語「立て替え」が最も多く存在し、単語「立て替え」が最も多く存在するメールは、ハッシュ値=48に分類されているメール群のうちメール#5のため、メール#5が選択される。なお、全文単語検索では、対象メールに含まれている単語も考慮されても良い。
The method of FIG. 6C is a method of selecting by full-text word search. According to the example of FIG. 6C, various words are extracted from all mail classified as hash value = 48, word statistics for each mail and word statistics for the entire mail group are calculated, and the mail
図6(D)の方法は、入力のメールを中心とした半径Rの距離を、取得されるメール数がP個(Pは自然数)になるよう調整することで、半径Rの範囲内にあるメールを選択する方法である。「入力のメール」とは、(5−2)では対象メールであり、(5−4)ではメール#5である。この入力のメールを、図8にあげるとおり、ベクトルに変換し、類似メール空間へ投影する。ベクトルへの変換はどのように行われても構わないが、たとえば、ここでは、メール文中に含まれる単語を用いるものとする。メール文中に含まれる単語をについて、あらかじめ別途リストアップしておいた単語リストと比較し、単語リストに含まれるものについては“1”、含まれないものについては“0”とする。これによりベクトルが形成される。なお、リストアップする単語の種類を変えることで異なる類似メール空間が形成される。図6(D)の例によれば、類似ベクトル空間において対象メールWを中心とした半径Rの距離を、R1からR2に縮めることで、ハッシュ値=48に分類されているメール群を1つのメール#5に絞り込むことが行われる。
The method of FIG. 6D adjusts the distance of the radius R around the input mail so that the number of acquired mails is P (P is a natural number) and is within the range of the radius R. This is a method of selecting mail. The “input mail” is the target mail in (5-2), and is
なお、ベクトルの変換に用いる要素は、単語以外に、メールの送信時刻、添付ファイル、或いは送信形態(新規メールであるか、転送であるか、返信であるか、等)が用いられてもよい。また、単語を用いる場合でも、単語の有無ではなく、含まれる単語の数が用いられてもよい。 In addition to words, elements used for vector conversion may be email transmission time, attached file, or transmission format (new email, forwarding, reply, etc.). . Even when using words, the number of included words may be used instead of the presence or absence of words.
以上の図6(A)〜図6(D)の方法のうちの少なくとも一つが、該当するハッシュ値に分類されているメール群の検索結果の絞り込み(例えば、上記の(5−2)や(5−4)の検索の結果の絞り込み)に利用されても良い。例えば、対象メールの初めの類似メール空間Aでのハッシュ値=48に10000通のメールが分類されている場合、10000通のメールを絞り込むために、図6(A)〜図6(D)の方法のうちの少なくとも一つが利用されても良い。 At least one of the methods of FIGS. 6A to 6D described above can narrow down the search results of the mail group classified into the corresponding hash value (for example, the above (5-2) and ( (5-4) Search result refinement). For example, in a case where 10,000 mails are classified into hash value = 48 in the similar mail space A at the beginning of the target mail, in order to narrow down 10,000 mails, FIG. 6 (A) to FIG. 6 (D). At least one of the methods may be used.
図7は、検索部801が行う検索処理の流れを示す。以下の説明では、説明を分かり易くするために、適宜、図5に示したハッシュ値及びメールIDを使用する。
FIG. 7 shows the flow of search processing performed by the
検索部801は、対象メールが入力された場合(S701)、対象メールの初めの検索範囲となる類似メール空間(空間A)の類似度モデルに従って、対象メールのハッシュ値(例えば48)を算出する(S702)。
When the target mail is input (S701), the
次に、検索部801は、算出されたハッシュ値と同一のハッシュ値に分類されているメール群を初めの類似メール空間(空間A)から検索する(S703)。
Next, the
次に、検索部801は、直前の検索範囲の類似メール空間(空間A)とは別の類似メール空間(空間B)から、直前の検索により見つかったメール群から選択されたメール(メール#5)が属するハッシュ値に分類されているメール群を検索する(S704)。具体的には、例えば、検索部801は、上記選択されたメールのメールIDをキーに、別の類似メール空間を参照することで、その別の類似メール空間から、選択されたメールが属するハッシュ値に分類されているメール群を検索する。なお、上記「選択されたメール」とは、直前の検索により見つかったメール群から図6(A)〜(D)の方法のいずれかの方法で選択されたメールである(これは、以下の説明でも同様である)。
Next, the
次に、検索部801は、S704の検索により見つかったメール群から選択されたメール(メール#8)が対象メールと所定の関係があるか否かを判断する(S705)。言い換えれば、検索部801は、類似メール検索を終了して良いかどうかを判断する。
Next, the
S705の判断の結果が否定的であれば(S705:NO)、検索部801は、S704を再実行する。具体的には、例えば、直前回のS704の検索範囲は類似メール空間Bであったため、検索部801は、直前回に選択されたメールのID=8をキーに、別の類似メール空間Aを参照する。これにより、別の類似メール空間Aから、メール#8が属するハッシュ値=18に分類されているメール群を見つけることができる。
If the result of the determination in S705 is negative (S705: NO), the
以上のように、検索部801は、S705の判断の結果として肯定的な結果が得られるまで、S704を繰り返すことになる。従って、S704での直前の検索範囲とは、S703での検索範囲(初めの検索範囲である類似メール空間A)、又は、直前回のS704での検索範囲である。
As described above, the
S704の判断の結果が肯定的であれば(S704:YES)、検索部801は、最後のS704の検索により見つかったメール(メール#4)を、対象メールに類似するメールと判断する(S706)。
If the determination result in S704 is affirmative (S704: YES), the
ここで、S705の判断における「所定の関係」とは、S704の検索により見つかったメール(メール#4)と、対象メールの初めの検索範囲(類似メール空間A)でのハッシュ値(=48)に分類されているメール(メール#1)が、そのS704の直前の検索範囲(類似メール空間B)において同一のハッシュ値(=483)に分類されていることである。 Here, the “predetermined relationship” in the determination in S705 is the hash value (= 48) in the mail (mail # 4) found by the search in S704 and the initial search range (similar mail space A) of the target mail. That is, the mail (mail # 1) classified into the same hash value (= 483) in the search range (similar mail space B) immediately before S704.
このような検索処理により、図5を参照して説明した検索が行われることになる。すなわち、類似メール空間A及びBを交互に参照することになり、その結果として、対象メールに実は類似するメール#4が検索される。
With such a search process, the search described with reference to FIG. 5 is performed. That is, the similar mail spaces A and B are alternately referred to, and as a result, the
以上、第二の実施形態によれば、複数の類似メール検索を組み合わせることで、個々の類似メール検索の精度の低さを補うことができ、全体としての類似メール検索の精度を向上させることができる。 As described above, according to the second embodiment, by combining a plurality of similar mail searches, it is possible to compensate for the low accuracy of individual similar mail searches and to improve the accuracy of similar similar mail searches as a whole. it can.
上述した本発明の幾つかの実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱することなく、その他の様々な態様でも実施することができる。 The several embodiments of the present invention described above are examples for explaining the present invention, and are not intended to limit the scope of the present invention only to those embodiments. The present invention can be implemented in various other modes without departing from the gist thereof.
103,803…メール監査システム 103,803 ... Mail audit system
Claims (6)
対象文書を入力する対象文書入力手段と、
複数の文書から前記対象文書に類似する文書を検索する検索手段と
を備え、
各文書空間に、その文書空間の観点に基づいて決定された複数の類似カテゴリがあり、
各文書は、いずれか二以上の文書空間のいずれかの類似カテゴリに分類されており、
前記検索手段が、以下の(A)乃至(D)の処理:
(A)前記対象文書の初めの検索範囲とされる文書空間の観点に基づき、前記対象文書のその文書空間での類似カテゴリを特定する、
(B)前記特定された類似カテゴリと同一の類似カテゴリに分類されている文書を前記初めの文書空間から検索する;
(C)この(C)の処理の直前の検索範囲とは別の文書空間から、この(C)の直前の処理により見つかった文書と同一の類似カテゴリに分類されている文書を検索する;
(D)前記(C)の処理により見つかった文書が前記対象文書と所定の関係があるか否かを判断する;
を実行し、
前記(D)の判断の結果が否定的であれば、前記検索手段は、前記(C)の処理を再実行し、
前記(D)の判断の結果が肯定的であれば、前記検索手段は、前記(C)の処理により見つかった文書を、前記対象文書に類似する文書と判断する、
文書検索システム。 Different document spaces according to different perspectives,
A target document input means for inputting the target document;
Search means for searching a document similar to the target document from a plurality of documents,
Each document space has a number of similar categories determined from the perspective of that document space,
Each document is classified into one of the similar categories in any two or more document spaces,
The search means performs the following processes (A) to (D):
(A) identifying a similar category of the target document in the document space based on the viewpoint of the document space that is the first search range of the target document;
(B) searching the first document space for documents classified in the same similar category as the identified similar category;
(C) Search a document classified in the same similar category as the document found by the process immediately before (C) from a document space different from the search range immediately before the process of (C);
(D) determining whether the document found by the process of (C) has a predetermined relationship with the target document;
Run
If the result of the determination in (D) is negative, the search means re-executes the process in (C),
If the result of the determination in (D) is affirmative, the search means determines that the document found by the process in (C) is a document similar to the target document.
Document search system.
請求項1記載の文書検索システム。 The predetermined relationship is that a document found by the process (C) and a document classified into a similar category in the first document space of the target document are searched immediately before the process (C). Being in the same similar category in the document space of the scope,
The document search system according to claim 1.
請求項1又は2記載の文書検索システム。 The document found from the search range immediately before the process (C) is a document in which two or more documents found from the search range are narrowed down using keywords.
The document search system according to claim 1 or 2.
各類似度カテゴリは、ハッシュ値であり、
前記(C)の処理の直前の検索範囲から見つかった文書とは、その(C)での検索のために入力された文書と同一のハッシュ値を有する複数の文書のうちの、その入力された文書を中心とした調整後の半径R以内の範囲に属する文書である、
請求項1又は2記載の文書検索システム。 At least one document space is a space based on a similarity model of LSH (Locality Sensitive Hashing),
Each similarity category is a hash value,
The document found from the search range immediately before the process of (C) is the input of a plurality of documents having the same hash value as the document input for the search in (C). A document belonging to a range within an adjusted radius R centered on the document;
The document search system according to claim 1 or 2.
請求項1乃至4のうちのいずれか1項に記載の文書検索システム。 The document found by the processing of (B) and / or (C) is a document that meets a predetermined condition regarding keywords.
The document search system according to any one of claims 1 to 4.
複数の文書から前記対象文書に類似する文書を検索するステップと
をコンピュータに実行させるコンピュータプログラムであって、
異なる観点に従う異なる文書空間があり、各文書空間に、その文書空間の観点に基づいて決定された複数の類似カテゴリがあり、
各文書は、いずれか二以上の文書空間のいずれかの類似カテゴリに分類されており、
前記検索するステップでは、以下の(A)乃至(D)の処理:
(A)前記対象文書の初めの検索範囲とされる文書空間の観点に基づき、前記対象文書のその文書空間での類似カテゴリを特定する、
(B)前記特定された類似カテゴリと同一の類似カテゴリに分類されている文書を前記初めの文書空間から検索する;
(C)この(C)の処理の直前の検索範囲とは別の文書空間から、この(C)の直前の処理により見つかった文書と同一の類似カテゴリに分類されている文書を検索する;
(D)前記(C)の処理により見つかった文書が前記対象文書と所定の関係があるか否かを判断する;
を実行し、
前記(D)の判断の結果が否定的であれば、前記(C)の処理を再実行し、
前記(D)の判断の結果が肯定的であれば、前記(C)の処理により見つかった文書を、前記対象文書に類似する文書と判断する、
コンピュータプログラム。 Entering the target document; and
A computer program for causing a computer to execute a step of searching for a document similar to the target document from a plurality of documents,
There are different document spaces that follow different perspectives, and each document space has multiple similar categories that are determined based on that document space perspective,
Each document is classified into one of the similar categories in any two or more document spaces,
In the searching step, the following processes (A) to (D) are performed:
(A) identifying a similar category of the target document in the document space based on the viewpoint of the document space that is the first search range of the target document;
(B) searching the first document space for documents classified in the same similar category as the identified similar category;
(C) Search a document classified in the same similar category as the document found by the process immediately before (C) from a document space different from the search range immediately before the process of (C);
(D) determining whether the document found by the process of (C) has a predetermined relationship with the target document;
Run
If the result of the determination in (D) is negative, re-execute the process in (C),
If the result of the determination in (D) is affirmative, the document found by the process in (C) is determined as a document similar to the target document.
Computer program.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009063884A JP5265420B2 (en) | 2009-03-17 | 2009-03-17 | Document search system |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009063884A JP5265420B2 (en) | 2009-03-17 | 2009-03-17 | Document search system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010218191A JP2010218191A (en) | 2010-09-30 |
JP5265420B2 true JP5265420B2 (en) | 2013-08-14 |
Family
ID=42976980
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009063884A Expired - Fee Related JP5265420B2 (en) | 2009-03-17 | 2009-03-17 | Document search system |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5265420B2 (en) |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH10116290A (en) * | 1996-10-11 | 1998-05-06 | Mitsubishi Electric Corp | Document classification managing method and document retrieving method |
JP4021583B2 (en) * | 1999-04-08 | 2007-12-12 | 富士通株式会社 | Information search apparatus, information search method, and recording medium storing program for realizing the method |
-
2009
- 2009-03-17 JP JP2009063884A patent/JP5265420B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2010218191A (en) | 2010-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Fu et al. | Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement | |
JP6612303B2 (en) | Data settings for user contact entries | |
WO2017143930A1 (en) | Method of sorting search results, and device for same | |
JP2004062893A (en) | System and method for automatic retrieval of example sentence based on weighted editing distance | |
US9727647B1 (en) | Annotating articles | |
JP2019020794A (en) | Document management device, document management system, and program | |
JP6038232B2 (en) | Mail service system and method for efficient mail search | |
JP5308199B2 (en) | Document search system | |
JP5179564B2 (en) | Query segment position determination device | |
JP5265420B2 (en) | Document search system | |
JP6194180B2 (en) | Text mask device and text mask program | |
JP2007241452A (en) | Document information processor | |
JP5127553B2 (en) | Information processing apparatus, information processing method, program, and recording medium | |
JP2013196311A (en) | Document management device and program | |
CN112905871A (en) | Hot keyword recommendation method and device, terminal and storage medium | |
JP6034584B2 (en) | Patent search support device, patent search support method, and program | |
JP2008234204A (en) | Document retrieval device, method and program | |
JP6554841B2 (en) | Information processing apparatus and information processing program | |
US11151103B1 (en) | Method for providing an indication of the exact search hit within a large universe of contextual information | |
JP6160427B2 (en) | Difference extraction system and program | |
JP5730798B2 (en) | Information search apparatus, information search method, and program | |
JP6767825B2 (en) | Data management equipment, data management methods, and data management programs | |
JP5893474B2 (en) | Retrieval formula validity judgment device, patent retrieval device, retrieval formula validity judgment method, and program | |
CN110297825B (en) | Data processing method, device, computer equipment and storage medium | |
JP2009104528A (en) | Position representation extraction device, method, and program |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130423 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130501 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |