JP2010218190A - Document retrieval system - Google Patents

Document retrieval system Download PDF

Info

Publication number
JP2010218190A
JP2010218190A JP2009063880A JP2009063880A JP2010218190A JP 2010218190 A JP2010218190 A JP 2010218190A JP 2009063880 A JP2009063880 A JP 2009063880A JP 2009063880 A JP2009063880 A JP 2009063880A JP 2010218190 A JP2010218190 A JP 2010218190A
Authority
JP
Japan
Prior art keywords
document
mail
search
keyword
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2009063880A
Other languages
Japanese (ja)
Other versions
JP5308199B2 (en
Inventor
Shohei Abe
昌平 阿部
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nomura Research Institute Ltd
Original Assignee
Nomura Research Institute Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nomura Research Institute Ltd filed Critical Nomura Research Institute Ltd
Priority to JP2009063880A priority Critical patent/JP5308199B2/en
Publication of JP2010218190A publication Critical patent/JP2010218190A/en
Application granted granted Critical
Publication of JP5308199B2 publication Critical patent/JP5308199B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

<P>PROBLEM TO BE SOLVED: To provide a technology capable of improving the accuracy of document retrieval. <P>SOLUTION: A retrieval means retrieves a document similar to a target document and fit for a prescribed condition related to a keyword from a plurality of documents. That is, the retrieval means retrieves the document by the use of both the target document and the keyword. Thus, because both the similar document retrieval and the keyword retrieval are used, prescribed directionality is imparted to a result of the similar document retrieval, so that a probability that the document desired by a user can be obtained is improved. <P>COPYRIGHT: (C)2010,JPO&INPIT

Description

本発明は、文書の検索のための技術に関する。   The present invention relates to a technique for searching for a document.

文書検索に関する技術として、例えば、特許文献1及び2に開示の技術がある。   As a technique related to document search, for example, there are techniques disclosed in Patent Documents 1 and 2.

特許文献1によれば、まず、キーワード、文書ID及び文書断片のうちのいずれか1種類の情報が入力され、入力された情報が類似文書型データベースに送られ、類似文書型データベースから、その情報から特定される文書に含まれている複数の特徴単語が抽出される。そして、抽出されたそれぞれの特徴単語が、キーワード型データベースに送られる。これにより、特徴単語を含んだ文書が検索される。   According to Patent Document 1, first, any one type of information of a keyword, a document ID, and a document fragment is input, and the input information is sent to a similar document type database. A plurality of feature words included in the document identified from the above are extracted. Then, each extracted characteristic word is sent to the keyword database. Thereby, a document including the characteristic word is searched.

特許文献2によれば、まず、対象文書(検索条件文書)が入力され、入力された対象文書から複数のキーワードが抽出され、それぞれのキーワードを用いて、キーワード検索が行われる。そのキーワード検索により、キーワードを含んだ文書が検索される。そして、その検索により見つかった複数の文書の中から、上記の対象文書に類似する文書が検索される(つまり類似文書検索が行われる)。   According to Patent Document 2, first, a target document (search condition document) is input, a plurality of keywords are extracted from the input target document, and a keyword search is performed using each keyword. By the keyword search, a document including the keyword is searched. Then, a document similar to the target document is searched from a plurality of documents found by the search (that is, a similar document search is performed).

特開2002−222208号公報JP 2002-222208 A 特開2004−151959号公報JP 2004-151959 A

特許文献1によれば、検索のために入力される情報は、キーワード、文書ID及び文書断片のうちのいずれか1種類である。一方、特許文献2によれば、検索のために入力される情報は、対象文書のみである。   According to Patent Document 1, the information input for the search is any one of a keyword, a document ID, and a document fragment. On the other hand, according to Patent Document 2, the information input for the search is only the target document.

このため、いずれの特許文献に記載の技術でも、検索結果の方向性を指定することができない。従って、文書検索の精度が低く、それ故、ユーザの望む文書が提示される確率は低い。   For this reason, the direction of the search result cannot be specified by any technique described in any of the patent documents. Accordingly, the accuracy of document search is low, and therefore the probability that a document desired by the user is presented is low.

そこで、本発明の目的は、文書検索の精度を向上することにある。   Accordingly, an object of the present invention is to improve the accuracy of document retrieval.

検索手段が、キーワードに関する所定の条件に適合し且つ対象文書と類似する文書を複数の文書の中から検索する。つまり、検索手段は、キーワードと対象文書の両方を用いて文書を検索する。そのキーワードは、対象文書に含まれていてもいなくても良い。   Search means searches a plurality of documents for a document that satisfies a predetermined condition relating to a keyword and is similar to the target document. That is, the search means searches for a document using both the keyword and the target document. The keyword may or may not be included in the target document.

これにより、類似文書検索とキーワード検索が併用されることで、類似文書検索の結果に一定の方向性が与えられるので、ユーザの望む文書が得られる確率を向上させることができる。   Thus, since the similar document search and the keyword search are used in combination, a certain direction is given to the result of the similar document search, so that it is possible to improve the probability of obtaining the document desired by the user.

なお、「キーワードに関する所定の条件に適合する文書」とは、例えば、そのキーワードをk個含む又は含まない文書である(kは自然数)。典型的にはkは1であると考えられるが、kは2以上であっても良い。この場合、例えば、条件が「キーワード「ABC」を2個含む」であれば、キーワード「ABC」を1個だけ含んでいる文書は、「キーワードに関する所定の条件に適合する文書」に該当しない文書である。   Note that “a document that satisfies a predetermined condition regarding a keyword” is, for example, a document that includes or does not include k keywords (k is a natural number). Typically, k is considered to be 1, but k may be 2 or more. In this case, for example, if the condition is “includes two keywords“ ABC ””, a document including only one keyword “ABC” does not correspond to “a document that satisfies a predetermined condition regarding keywords”. It is.

また、「文書」は、文字を含んだ電子データであれば、どのようなデータでも良い(例えば、表や画像を含んだ文書であっても良い)。   The “document” may be any data as long as it is electronic data including characters (for example, it may be a document including a table or an image).

図1は、本発明の第一実施形態に係る文書検索システムが適用されたメール監査システムを有するコンピュータシステムを示す。FIG. 1 shows a computer system having a mail audit system to which a document search system according to a first embodiment of the present invention is applied. 図2は、本発明の第一実施形態での検索処理の流れの一例を示す。FIG. 2 shows an example of the flow of search processing in the first embodiment of the present invention. 図3は、本発明の第一実施形態での検索処理における二次検索の説明図である。FIG. 3 is an explanatory diagram of the secondary search in the search process according to the first embodiment of the present invention. 図4は、本発明の第二実施形態に係る文書検索システムが適用されたメール監査システムを有するコンピュータシステムを示す。FIG. 4 shows a computer system having a mail auditing system to which the document search system according to the second embodiment of the present invention is applied. 図5は、本発明の第二実施形態での検索処理の説明図である。FIG. 5 is an explanatory diagram of search processing in the second embodiment of the present invention. 図6(A)は、類似メール空間の類似カテゴリに分類されているメール群から少なくとも一つのメールを選択する方法(以下、メール選択方法)の第一の例の説明図である。図6(B)は、メール選択方法の第二の例の説明図である。図6(C)は、メール選択方法の第三の例の説明図である。図6(D)は、メール選択方法の第四の例の説明図である。FIG. 6A is an explanatory diagram of a first example of a method for selecting at least one mail from a mail group classified into a similar category in a similar mail space (hereinafter referred to as a mail selection method). FIG. 6B is an explanatory diagram of a second example of the mail selection method. FIG. 6C is an explanatory diagram of a third example of the mail selection method. FIG. 6D is an explanatory diagram of a fourth example of the mail selection method. 図7は、本発明の第二実施形態での検索処理の流れの一例を示す。FIG. 7 shows an example of the flow of search processing in the second embodiment of the present invention. 図8は、図6(D)に示したメール選択方法の説明の補足図である。FIG. 8 is a supplementary diagram for explaining the mail selection method shown in FIG.

以下、文書が電子メール(以下、単に「メール」と言う)である場合を例に採り、図面を参照しながら本発明の幾つかの実施形態について詳細に説明する。   Hereinafter, taking a case where a document is an electronic mail (hereinafter simply referred to as “mail”) as an example, some embodiments of the present invention will be described in detail with reference to the drawings.

図1は、本発明の第一実施形態に係る文書検索システムが適用されたメール監査システム103を有するコンピュータシステムを示す。   FIG. 1 shows a computer system having a mail audit system 103 to which a document search system according to the first embodiment of the present invention is applied.

社内端末101と社外端末105との間で、社内ネットワーク111及び社外ネットワーク112を経由して、メールが送受信される。社内端末101及び社外端末105は、例えば、パーソナルコンピュータ或いはサーバマシンである。社内ネットワーク111は、例えばLAN(Local Area Network)である。社外ネットワーク112は、例えば、社内ネットワーク111とは異なる外部のイントラネットやインターネットを含んだネットワークである。   Mail is transmitted and received between the internal terminal 101 and the external terminal 105 via the internal network 111 and the external network 112. The in-house terminal 101 and the outside terminal 105 are, for example, personal computers or server machines. The in-house network 111 is, for example, a LAN (Local Area Network). The external network 112 is, for example, a network including an external intranet and the Internet different from the internal network 111.

社内ネットワーク111に、メールサーバ107及びメール監査システム103が接続されている。   A mail server 107 and a mail audit system 103 are connected to the in-house network 111.

メールサーバ107は、社内ネットワーク111を経由して送受信された電子メールを記憶する。   The mail server 107 stores e-mails transmitted / received via the in-house network 111.

メール監査システム103は、社内ネットワーク11を経由する電子メール、特に、例えば、社内から社外に送信されるメール(いわゆるアウトバウンドメール)をチェックする。   The mail auditing system 103 checks e-mails that pass through the in-house network 11, in particular, e.g., e-mails that are transmitted from the company to the outside (so-called outbound mails).

メール監査システム103は、例えば、CPU131と、記憶資源(例えば、メモリ132及び記憶装置135)と、外部の装置との通信を制御するインターフェイス装置(通信I/F)133とを備える。   The mail audit system 103 includes, for example, a CPU 131, storage resources (for example, the memory 132 and the storage device 135), and an interface device (communication I / F) 133 that controls communication with an external device.

メモリ132は、例えば、種々のコンピュータプログラムや、CPU131が行う処理に使用される種々のデータ等を記憶する。コンピュータプログラムとしては、例えば、検索プログラム321がある。   The memory 132 stores, for example, various computer programs, various data used for processing performed by the CPU 131, and the like. An example of the computer program is a search program 321.

CPU131は、メモリ132に記憶されているコンピュータプログラムを実行することにより、メール検索を行うことができる。具体的には、例えば、CPU131は、検索プログラム321を実行することにより、検索部301の機能を実現する。   The CPU 131 can perform a mail search by executing a computer program stored in the memory 132. Specifically, for example, the CPU 131 implements the function of the search unit 301 by executing the search program 321.

記憶装置135は、類似メールデータベース(類似メールDB)441と、キーワードデータベース(キーワードDB)442とを記憶する。類似メールDB441は、類似メール検索で使用されるDBである。キーワードDB442は、キーワード検索で使用されるDBである。   The storage device 135 stores a similar mail database (similar mail DB) 441 and a keyword database (keyword DB) 442. The similar mail DB 441 is a DB used for similar mail search. The keyword DB 442 is a DB used for keyword search.

本実施形態において、検索部301は、キーワードと対象メールの両方を用いてメールをメールサーバ107から検索する。検索部301は、例えば、メール監査システム103と通信可能なユーザ端末(例えば、社内端末101、或いは、社内ネットワーク111と非経由にメール監査システム103に接続されている通信端末)を介しユーザから、検索の指示を受け、その指示に応答して、検索処理を行い、そのユーザ端末に検索結果を出力することができる。出力された検索結果は、ユーザ端末のディスプレイ画面に表示される。   In the present embodiment, the search unit 301 searches for mail from the mail server 107 using both the keyword and the target mail. The search unit 301 receives, for example, from a user via a user terminal that can communicate with the mail audit system 103 (for example, the in-house terminal 101 or a communication terminal that is connected to the mail audit system 103 without going through the in-house network 111). A search instruction can be received, a search process can be performed in response to the instruction, and the search result can be output to the user terminal. The output search result is displayed on the display screen of the user terminal.

図2は、検索部301が行う検索処理の流れを示す。   FIG. 2 shows the flow of search processing performed by the search unit 301.

キーワードが入力される(S101)。このキーワードは、例えば、ユーザから入力されたキーワードである。もちろん、それに限らず、例えば、メモリ132に記憶されているキーワードリストから任意に選択されたキーワードであっても良い。   A keyword is input (S101). This keyword is, for example, a keyword input by the user. Of course, the keyword is not limited thereto, and may be a keyword arbitrarily selected from a keyword list stored in the memory 132, for example.

検索部301が、入力されたキーワードを用いた一次検索(キーワード検索)を行う(S102)。具体的には、例えば、検索部301は、入力されたキーワードを含んだメールを、メールサーバ107が有する複数のメールから検索する。この結果、例えば、メールサーバ107が有する10000通のメール(グループC)から、10通のメール(グループA)が検索されたとする。   The search unit 301 performs a primary search (keyword search) using the input keyword (S102). Specifically, for example, the search unit 301 searches for a mail including the input keyword from a plurality of mails included in the mail server 107. As a result, for example, it is assumed that ten mails (group A) are retrieved from 10,000 mails (group C) that the mail server 107 has.

S102での検索により見つかった10通のメール(グループA)から少なくとも1通のメールが自動的に選択される(S103)。選択の基準としては、例えば、S101で入力されたキーワードを幾つ含むかという基準がある。ここでは、S101で入力されたキーワードを1番多く含むメールXと、そのキーワードを2番目に多く含むメールYが選択されたとする。   At least one mail is automatically selected from the 10 mails (group A) found by the search in S102 (S103). As a selection criterion, for example, there is a criterion for how many keywords input in S101 are included. Here, it is assumed that the mail X including the most keyword input in S101 and the mail Y including the second most keyword are selected.

ここで選択されたメールが、対象メールとされる。「対象メール」とは、類似メール検索の対象(起点)となるメールである。   The mail selected here is the target mail. The “target mail” is a mail that is a target (starting point) of similar mail search.

検索部301が、キーワードを用いたキーワード検索と対象メールを用いた類似メール検索との両方である二次検索を行う。この二次検索では、S101で入力されたキーワードを含まず且つ対象メールと類似するメールが検索される。この結果、例えば、グループCにおけるグループA以外のグループB(9990通のメール)から、対象メールXに類似する18通のメールと、対象メールYに類似する22通のメールが検索されたとする。   The search unit 301 performs a secondary search that is both a keyword search using a keyword and a similar email search using a target email. In this secondary search, a mail that does not include the keyword input in S101 and is similar to the target mail is searched. As a result, for example, it is assumed that 18 mails similar to the target mail X and 22 mails similar to the target mail Y are retrieved from the group B (9990 mails) other than the group A in the group C.

検索部301は、検索結果を出力する(S105)。この検索結果には、例えば、検索ヒット数とメールリストが含まれる。検索ヒット数は、例えば、一次検索で見つかったメールの数と、二次検索で見つかったメールの数との合計である。メールリストは、例えば、一次検索で見つかったメールに関する情報(例えば、送信元及び送信先のメールアドレス、メール本文)と、二次検索で見つかったメールに関する情報とを含んでいる。   The search unit 301 outputs the search result (S105). This search result includes, for example, the number of search hits and a mail list. The number of search hits is, for example, the total of the number of emails found in the primary search and the number of emails found in the secondary search. The mail list includes, for example, information related to mails found in the primary search (for example, sender and destination mail addresses and mail text) and information related to mails found in the secondary search.

以上が、検索処理の流れである。なお、この流れは一例であり、例えば以下のいずれかの変形例が採用されても良い。すなわち、S102では、S101で入力されたキーワードを含まないメールが検索されても良い。S103では、グループAからユーザが対象メールを選択しても良い。S104では、S101で入力されたキーワードとは別のキーワード(例えば、S103で選択された対象メールに含まれているキーワード、或いは、ユーザが別途入力したキーワード)が用いられても良い。S104では、キーワードを含むメールが検索されてもよい。   The above is the flow of search processing. This flow is an example, and for example, any of the following modifications may be adopted. That is, in S102, a mail that does not include the keyword input in S101 may be searched. In S103, the user may select the target mail from group A. In S104, a keyword different from the keyword input in S101 (for example, a keyword included in the target mail selected in S103 or a keyword input separately by the user) may be used. In S104, an email including a keyword may be searched.

図3を参照して、二次検索について詳細に説明する。   The secondary search will be described in detail with reference to FIG.

二次検索では、類似メールDB441及びキーワードDB442が用いられる。   In the secondary search, the similar mail DB 441 and the keyword DB 442 are used.

類似メールDB441は、各類似度とメールとの関係を表すテーブルである。本実施形態での類似メール検索は、LSH(Locality Sensitive Hashing)、つまり近似近傍点探索手法を用いた類似メール検索である。このため、メールの類似度は、メールのハッシュ値である。   The similar mail DB 441 is a table representing the relationship between each similarity and the mail. The similar mail search in the present embodiment is a similar mail search using LSH (Locality Sensitive Hashing), that is, an approximate neighborhood search method. For this reason, the mail similarity is a mail hash value.

キーワードDB442は、各キーワードとそのキーワードを含むメールとの関係を表すテーブルである。   The keyword DB 442 is a table that represents the relationship between each keyword and mail that includes the keyword.

本実施形態では、既存メール群(メールサーバ107に記憶されているメール群)443における各メール451が、事前に(例えば夜間バッチで)、類似メールDB441及びキーワードDB442に登録される。具体的には、類似メールDB441について言えば、全てのメール451のそれぞれのハッシュ値が算出され、そのハッシュ値に対応した欄に、そのメール451のIDが追記される(そのハッシュ値が類似メールDB441に未登録であれば、そのハッシュ値とメールIDが類似メールDB441に登録される)。一方、キーワードDB442について言えば、メール451から単語が抽出され、その単語と同じキーワードに対応した欄に、そのメール451のIDが追記される(抽出された単語がキーワードDB442に未登録であれば、その単語(キーワード)とメールIDがキーワードDB442に登録される)。   In the present embodiment, each mail 451 in the existing mail group (mail group stored in the mail server 107) 443 is registered in advance (for example, in a night batch) in the similar mail DB 441 and the keyword DB 442. Specifically, for the similar mail DB 441, the hash values of all the mails 451 are calculated, and the ID of the mail 451 is added to the column corresponding to the hash value (the hash value is similar mail). If it is not registered in the DB 441, its hash value and mail ID are registered in the similar mail DB 441). On the other hand, regarding the keyword DB 442, a word is extracted from the mail 451, and the ID of the mail 451 is added to the column corresponding to the same keyword as the word (if the extracted word is not registered in the keyword DB 442). The word (keyword) and the mail ID are registered in the keyword DB 442).

二次検索では、類似メール検索と、キーワード検索と、検索結果統合とが行われる。類似メール検索では、検索部301が、対象メールのハッシュ値を算出し、そのハッシュ値に対応した全てのメールID(第一のメールID群)を類似メールDB441から取得する。キーワード検索では、検索部301が、キーワードに対応した全てのメールID(第二のメールID群)をキーワードDB442から取得する。検索結果統合では、例えば条件が「指定されたキーワードを含まない」であれば、検索部301が、第一のメールID群から、第二のメールID群に含まれているメールIDと異なるメールIDを全て取得する(条件が「指定されたキーワードを含む」であれば、検索部301は、第一のメールID群から、第二のメールID群に含まれているメールIDと同じメールIDを全て取得する)。その取得されたメールIDが、二次検索でヒットしたメールのIDである。対象メールを図2の対象メールXとすれば、この二次検索でヒットしたメールのIDは、上記18通のメールのIDである。   In the secondary search, similar mail search, keyword search, and search result integration are performed. In the similar mail search, the search unit 301 calculates a hash value of the target mail, and acquires all mail IDs (first mail ID group) corresponding to the hash value from the similar mail DB 441. In the keyword search, the search unit 301 acquires all mail IDs (second mail ID group) corresponding to the keywords from the keyword DB 442. In the search result integration, for example, if the condition is “does not include the specified keyword”, the search unit 301 sends a mail that is different from the mail ID included in the second mail ID group from the first mail ID group. All IDs are acquired (if the condition is “include specified keyword”, the search unit 301 uses the same mail ID as the mail ID included in the second mail ID group from the first mail ID group. All). The acquired mail ID is the ID of the mail hit in the secondary search. If the target mail is the target mail X in FIG. 2, the ID of the mail hit in the secondary search is the ID of the 18 mails.

以上が、第一の実施形態についての説明である。なお、類似メール検索としては、LSHの手法に従う類似メール検索に限らず、他の手法に従う類似メール検索が採用されても良い。   The above is the description of the first embodiment. The similar mail search is not limited to the similar mail search according to the LSH technique, and a similar mail search according to another technique may be employed.

上述した第一の実施形態によれば、二次検索では、類似メール検索とキーワード検索が併用されるので、類似メール検索の結果に一定の方向性が与えられる。故に、ユーザの望むメールが得られる確率を向上させることができる。具体的には、例えば、下記の第1及び第2のケースで、ユーザの望むメールが得られる確率が向上する。   According to the first embodiment described above, since the similar mail search and the keyword search are used in the secondary search, a certain directionality is given to the result of the similar mail search. Therefore, it is possible to improve the probability of obtaining the mail desired by the user. Specifically, for example, in the following first and second cases, the probability of obtaining a user's desired mail is improved.

第1のケース:キーワード型監査における検索漏れを防ぐ。
「キーワード型監査」とは、例えば、予め用意されているNGキーワードリストに登録されているNGキーワードが含まれている送信メールを抽出し、抽出された送信メールの本文を人手等で確認することで、会社に不利益となる送信メール(以下、危険メール)が社外に流出していないかどうかを監査する手法である。本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、NGキーワード「XXX」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(危険メール)を対象メールとし、「対象メールに類似するメールであってキーワード「ABC」を含まないメール」を二次検索で検索する。これにより、NGキーワード「ABC」を含まないメール群の中から、NGキーワード「ABC」を含む危険メールに類似したメールを見つけることができる。つまり、検索の網羅性が確保され、危険メールの流出検知の確実性が向上する。
First case: Prevent search omission in keyword type audit.
“Keyword-type audit” refers to, for example, extracting outgoing mail containing NG keywords registered in a prepared NG keyword list, and manually checking the text of the extracted outgoing mail This is a method for auditing whether outgoing e-mails (hereinafter referred to as dangerous e-mails) that are disadvantageous to the company have leaked outside the company. The present embodiment can be applied to this case as follows. That is, the search unit 301 searches a mail including the NG keyword “XXX” by a primary search, sets a mail (dangerous mail) selected from the mail group found by the primary search as a target mail, and “similar to the target mail”. A secondary search is performed for a mail that does not include the keyword “ABC”. Thereby, it is possible to find a mail similar to the dangerous mail including the NG keyword “ABC” from the mail group not including the NG keyword “ABC”. That is, the completeness of the search is ensured and the certainty of detection of dangerous mail outflow is improved.

第2のケース:キーワード検索での検索結果を絞り込む。
本ケースには、以下のように本実施形態を適用することができる。すなわち、検索部301が、ユーザからのキーワード「DFG」を含んだメールを一次検索で検索し、一次検索で見つかったメール群から選択されたメール(ユーザ所望のメール)を対象メールとし、「対象メールに類似するメールであってキーワード「DFG」を含むメール」を二次検索で検索する。つまり、ユーザが入力したキーワード「DFG」に加えて類似メール検索で絞り込みを行う。これにより、ユーザが新たにキーワードを追加入力すること無く、ユーザ所望のメール以外のメールの数が少なくなるよう、検索結果を絞り込むことができる。
Second case: The search result in the keyword search is narrowed down.
The present embodiment can be applied to this case as follows. That is, the search unit 301 searches a mail including the keyword “DFG” from the user by a primary search, and selects a mail selected from the mail group found by the primary search (user desired mail) as a target mail. A secondary search is performed for a mail similar to the mail and including the keyword “DFG”. In other words, in addition to the keyword “DFG” input by the user, the similar mail search is used for narrowing down. As a result, the search result can be narrowed down so that the number of mails other than the user-desired mails is reduced without the user newly inputting a keyword.

本発明の第二の実施形態を説明する。その際、第一の実施形態との相違点を主に説明し、第一の実施形態との共通点については説明を省略或いは簡略する。なお、以下の説明では、メールID=x(xは整数)のメールを「メール#x」と表記する。   A second embodiment of the present invention will be described. At that time, differences from the first embodiment will be mainly described, and description of common points with the first embodiment will be omitted or simplified. In the following description, a mail with mail ID = x (x is an integer) is represented as “mail #x”.

図4は、本発明の第二実施形態に係る文書検索システムが適用されたメール監査システム803を有するコンピュータシステムを示す。   FIG. 4 shows a computer system having a mail audit system 803 to which the document search system according to the second embodiment of the present invention is applied.

記憶装置135に、類似メールDB441が複数個用意される。言い換えれば、本実施形態では、複数の類似メール空間が定義されている。本実施形態では、複数の類似メール空間として、例えば、類似メール空間A及びBが定義されているとする。このため、類似メールDB441として、類似メールDB441A及び441Bが用意されているとする。   A plurality of similar mail DBs 441 are prepared in the storage device 135. In other words, in the present embodiment, a plurality of similar mail spaces are defined. In the present embodiment, it is assumed that, for example, similar mail spaces A and B are defined as a plurality of similar mail spaces. For this reason, it is assumed that similar mail DBs 441A and 441B are prepared as the similar mail DB 441.

CPU131で実現される検索部801(CPU131で実行される検索プログラム821)は、検索部301が有する機能に代えて又は加えて、類似メール空間を辿っていく類似メール検索を行う機能を有する。   The search unit 801 (search program 821 executed by the CPU 131) realized by the CPU 131 has a function of performing a similar mail search that follows the similar mail space instead of or in addition to the function of the search unit 301.

図5は、検索部801が行う類似メール検索の説明図である。   FIG. 5 is an explanatory diagram of similar mail search performed by the search unit 801.

類似メール空間A及びBは、LSHの異なる類似度モデルに基づいて定義された空間である。すなわち、類似メール空間A(第一の類似メールDB441A)における各ハッシュ値(カテゴリ)と、類似メール空間B(第二の類似メールDB441B)における各ハッシュ値(カテゴリ)は、異なる類似度モデルに従い算出されている。例えば、類似メール空間Aについてのハッシュ値は、類似度モデルAに従う方法で得られ、類似メール空間Bについてのハッシュ値は、類似度モデルBに従う方法で得られる。   Similar mail spaces A and B are spaces defined based on different similarity models of LSH. That is, each hash value (category) in the similar mail space A (first similar mail DB 441A) and each hash value (category) in the similar mail space B (second similar mail DB 441B) are calculated according to different similarity models. Has been. For example, the hash value for the similar mail space A is obtained by a method according to the similarity model A, and the hash value for the similar mail space B is obtained by a method according to the similarity model B.

メールサーバ107が記憶するメール群(既存メール群)における各メールについて、予め、類似メール空間A及びBのそれぞれの類似度モデルに従ってそれぞれのハッシュ値が算出される。そして、各メールが、それぞれのハッシュ値に従い類似メール空間AとBのそれぞれに分類される。   For each mail in the mail group (existing mail group) stored in the mail server 107, each hash value is calculated in advance according to each similarity model of the similar mail spaces A and B. Each mail is classified into the similar mail spaces A and B according to the respective hash values.

検索部801は、例えば、対象メールが入力された場合、下記の処理(5−1)〜(5−6)を行うことで、対象メールに類似するメールとして、メール#4を検索することができる。
(5−1)対象メールの初めの検索範囲である類似メール空間Aの類似度モデルAに従って、対象メールのハッシュ値=48を算出する。
(5−2):類似メール空間Aからハッシュ値=48に該当するメール群を検索する。
(5−3):(5−2)の検索で見つかったメール群から、所定の方法で、メール#5を選択する。
(5−4):(5−3)で選択されたメール#5のID=5をキーに、この(5−4)の直前の検索範囲とは別の検索範囲である類似メール空間Bを参照する。これにより、類似メール空間Bから、メール#5が分類されているハッシュ値=948のメール群が見つかる。
(5−5):(5−4)で見つかったメール群から、所定の方法で、メール#8を選択する。
(5−6):(5−5)で選択されたメール#8のID=8をキーに、この(5−6)の直前の検索範囲とは別の検索範囲である類似メール空間Aを参照する。これにより、類似メール空間Aから、メール#8が分類されているハッシュ値=18のメール群が見つかる。
(5−7):(5−6)で見つかったメール群に含まれているメール#4は、類似度モデルBに従うハッシュ値が483である。この(5−6)の直前の検索範囲である類似メール空間Bでは、ハッシュ値=483には、メール#1も分類されている。メール#1は、最初の検索範囲の類似メール空間Aにおいて、対象メールと同じハッシュ値=48に分類されているメールである。以上のことから、メール#4は、対象メールに類似するメール#1に類似しており、メール#1が、対象メールに類似しているということになる。このため、メール#4を、対象メールに類似するメールと判定する。
For example, when a target mail is input, the search unit 801 can search mail # 4 as a mail similar to the target mail by performing the following processes (5-1) to (5-6). it can.
(5-1) The hash value = 48 of the target mail is calculated according to the similarity model A of the similar mail space A that is the initial search range of the target mail.
(5-2): A mail group corresponding to hash value = 48 is searched from the similar mail space A.
(5-3): Mail # 5 is selected by a predetermined method from the mail group found in the search of (5-2).
(5-4): Using ID = 5 of the mail # 5 selected in (5-3) as a key, a similar mail space B which is a different search range from the search range immediately before (5-4) refer. As a result, a mail group having a hash value = 948 in which the mail # 5 is classified is found from the similar mail space B.
(5-5): Mail # 8 is selected from the mail group found in (5-4) by a predetermined method.
(5-6): Using ID = 8 of the mail # 8 selected in (5-5) as a key, a similar mail space A that is a different search range from the search range immediately before (5-6) refer. As a result, a mail group of hash value = 18 in which the mail # 8 is classified is found from the similar mail space A.
(5-7): Mail # 4 included in the mail group found in (5-6) has a hash value 483 according to the similarity model B. In the similar mail space B that is the search range immediately before (5-6), mail # 1 is also classified with hash value = 483. Mail # 1 is mail classified into the same hash value = 48 as the target mail in the similar mail space A in the first search range. From the above, the mail # 4 is similar to the mail # 1 similar to the target mail, and the mail # 1 is similar to the target mail. For this reason, mail # 4 is determined to be mail similar to the target mail.

以上のようにして、初めの検索範囲の類似メール空間Aでは対象メールに非類似であるが、別の類似メール空間Bでは対象メールに類似するようなメール#4を見つけることができる。   As described above, it is possible to find mail # 4 that is dissimilar to the target mail in the similar mail space A in the first search range, but similar to the target mail in another similar mail space B.

対象メールに類似するメールは、一つの類似メール空間Aだけを参照しても見つからない。別の言い方をすれば、対象メールを基に一つの類似メール空間Aだけを参照して見つかったメールは、必ずしも対象メールに類似しているとは限らない。   A mail similar to the target mail is not found even if only one similar mail space A is referred to. In other words, a mail found by referring to only one similar mail space A based on the target mail is not necessarily similar to the target mail.

本実施例では、複数の類似度モデルに従う複数の類似メール空間を定義して各メールをそれぞれの類似メール空間に分類しておき、対象メールを基に類似メール空間を辿る(上記例では、類似メール空間A及びBを交互に参照する)。つまり、対象メールに類似するメールを、複数の観点から検索する。これにより、対象メールに実は類似しているメール#4を検索することができる。言い換えれば、類似メール検索の精度を全体として向上することができる。   In this embodiment, a plurality of similar mail spaces according to a plurality of similarity models are defined, each mail is classified into each similar mail space, and the similar mail space is traced based on the target mail (in the above example, similar mail spaces are traced). The mail spaces A and B are alternately referred to). That is, a mail similar to the target mail is searched from a plurality of viewpoints. Thus, it is possible to search for mail # 4 that is actually similar to the target mail. In other words, the accuracy of similar mail search can be improved as a whole.

以上の処理は一例であり、例えば以下のいずれかの変形例が採用されても良い。   The above processing is an example, and for example, any one of the following modifications may be adopted.

例えば、上記の例では、類似メール空間Aが最初に参照されるが、どの類似メール空間を最初の参照先とするかは、予め定義されていても良いし、ランダム或いは他の方法で変更されても良い。   For example, in the above example, the similar mail space A is referred to first, but which similar mail space is set as the first reference destination may be defined in advance, or may be changed randomly or by another method. May be.

また、例えば、該当するハッシュ値に分類されているメール群の検索の際に(例えば上記の(5−2)や(5−4)の検索の際に)、第一の実施形態のようにキーワード検索が併用されても良い。具体的には、例えば、(5−1)の検索では、ハッシュ値=48に分類されているメールであってキーワード「HIJ」を含まない(又は含む)メールが検索される。キーワード「HIJ」は、対象メールから抽出されたキーワードであっても良いし、対象メールに含まれておらずユーザから入力されたキーワードであっても良い。また、例えば、(5−3)の検索では、ハッシュ値=948に分類されているメールであってキーワード「KLM」を含まない(又は含む)メールが検索される。キーワード「KLM」は、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメール(例えば、ハッシュ値=48に分類されているいずれかのメール、又は、選択されたメール#5)から抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。   Further, for example, when searching for a mail group classified into the corresponding hash value (for example, when searching for (5-2) or (5-4) above), as in the first embodiment Keyword search may be used in combination. Specifically, for example, in the search of (5-1), mails that are classified as hash value = 48 and do not include (or include) the keyword “HIJ” are searched. The keyword “HIJ” may be a keyword extracted from the target mail, or may be a keyword that is not included in the target mail and input from the user. Further, for example, in the search of (5-3), mails that are classified as hash value = 948 and do not include (or include) the keyword “KLM” are searched. The keyword “KLM” is either a target mail or a mail that has been searched (or selected) so far (for example, any mail classified as hash value = 48 or selected mail # 5). The keyword may be extracted from the above, or may be a keyword input by the user separately.

また、例えば、キーワード検索は、最後の絞り込みで採用されて良い。すなわち、対象メールを基に類似メール空間を辿った結果として取得された、対象メールに類似するメール群から、キーワード「NOP」を含まない(又は含む)メールが検索されても良い。キーワード「NOP」は、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメール(例えば、空間Aのハッシュ値=48に分類されているいずれかのメール、空間Bのハッシュ値=483に分類されているいずれかのメール、又は、選択されたメール#5又はメール#8)から抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。   In addition, for example, keyword search may be adopted in the final narrowing down. That is, a mail that does not include (or includes) the keyword “NOP” may be searched from a mail group similar to the target mail acquired as a result of tracing the similar mail space based on the target mail. The keyword “NOP” is either a target mail or a mail that has been searched (or selected) so far (for example, any mail classified into the hash value of space A = 48, the hash value of space B = It may be a keyword extracted from any mail classified as 483, selected mail # 5 or mail # 8), or may be a keyword input by a user separately.

また、例えば、類似メール空間を辿る際、キーワード検索が全く併用されなくても良い。言い換えれば、キーワードDB442は無くても良い。   Further, for example, when tracing a similar mail space, keyword search may not be used at all. In other words, the keyword DB 442 may not be provided.

また、複数の類似メール空間に、異なる種類の類似メール検索手法に従う類似メール空間が含まれていても良い。上記の例で言えば、LSHに従う類似メール空間の他に、他の類似メール検索手法に従う類似メール空間(例えば、カテゴリとして、ハッシュ値ではなく、「業務」、「私用」などのようなメール種類が採用された空間)が含まれていても良い。   The plurality of similar mail spaces may include similar mail spaces according to different types of similar mail search methods. In the above example, in addition to a similar mail space according to LSH, a similar mail space according to another similar mail search method (for example, mail such as “business”, “private”, etc., not a hash value as a category) The space in which the type is adopted may be included.

ところで、(5−3)及び(5−5)における「所定の方法」(すなわち、類似メール空間Aのハッシュ値=48から一つのメール#5を選択する方法、及び、類似メール空間Bのハッシュ値=948から一つのメール#8を選択する方法)とは、例えば、図6に示す(A)〜(D)のいずれかの方法である。   By the way, the “predetermined method” in (5-3) and (5-5) (that is, the method of selecting one mail # 5 from the hash value = 48 of the similar mail space A and the hash of the similar mail space B) The method of selecting one mail # 8 from value = 948) is, for example, one of the methods (A) to (D) shown in FIG.

図6(A)の方法は、キーワードで選択する法である。図6(A)の例によれば、空間Aのハッシュ値=48に分類されているメール群から、入力されたキーワードを含まない(又は含む)メール#5が選択される。なお、入力されたキーワードは、対象メール或いはこれまで検索(又は選択)されたメールのいずれかのメールから抽出されたキーワードであっても良いし、別途ユーザから入力されたキーワードであっても良い。   The method of FIG. 6A is a method of selecting by a keyword. According to the example of FIG. 6A, mail # 5 that does not include (or includes) the input keyword is selected from the mail group classified as hash value = 48 in space A. The input keyword may be a keyword extracted from either the target mail or the mail searched (or selected) so far, or may be a keyword input by a user separately. .

図6(B)の方法は、ユーザが手動で選択する方法である。図6(B)の例によれば、ユーザが、ハッシュ値=48に分類されている各メールを閲覧し(例えば各メールの本文を閲覧し)、所望のメール#5を選択する。   The method of FIG. 6B is a method in which the user manually selects. According to the example of FIG. 6B, the user browses each mail classified as hash value = 48 (for example, browses the body of each mail) and selects a desired mail # 5.

図6(C)の方法は、全文単語検索で選択する方法である。図6(C)の例によれば、ハッシュ値=48に分類されている全てのメールから様々な単語が抽出され、メール毎の単語統計とメール群全体の単語統計とが算出され、メール群全体の単語統計と、メール毎の単語統計とを基に、メール#5が選択される。具体的には、例えば、メール群全体の単語統計によれば、単語「立て替え」が最も多く存在し、単語「立て替え」が最も多く存在するメールは、ハッシュ値=48に分類されているメール群のうちメール#5のため、メール#5が選択される。なお、全文単語検索では、対象メールに含まれている単語も考慮されても良い。   The method of FIG. 6C is a method of selecting by full-text word search. According to the example of FIG. 6C, various words are extracted from all mail classified as hash value = 48, word statistics for each mail and word statistics for the entire mail group are calculated, and the mail group Mail # 5 is selected based on the entire word statistics and the word statistics for each mail. Specifically, for example, according to the word statistics of the entire mail group, the mail having the largest number of words “replacement” and the largest number of words “replacement” is the mail group classified as hash value = 48. Mail # 5 is selected for Mail # 5. In the full text word search, words included in the target mail may be taken into consideration.

図6(D)の方法は、入力のメールを中心とした半径Rの距離を、取得されるメール数がP個(Pは自然数)になるよう調整することで、半径Rの範囲内にあるメールを選択する方法である。「入力のメール」とは、(5−2)では対象メールであり、(5−4)ではメール#5である。この入力のメールを、図8にあげるとおり、ベクトルに変換し、類似メール空間へ投影する。ベクトルへの変換はどのように行われても構わないが、たとえば、ここでは、メール文中に含まれる単語を用いるものとする。メール文中に含まれる単語をについて、あらかじめ別途リストアップしておいた単語リストと比較し、単語リストに含まれるものについては“1”、含まれないものについては“0”とする。これによりベクトルが形成される。なお、リストアップする単語の種類を変えることで異なる類似メール空間が形成される。図6(D)の例によれば、類似ベクトル空間において対象メールWを中心とした半径Rの距離を、R1からR2に縮めることで、ハッシュ値=48に分類されているメール群を1つのメール#5に絞り込むことが行われる。   The method of FIG. 6D adjusts the distance of the radius R around the input mail so that the number of acquired mails is P (P is a natural number) and is within the range of the radius R. This is a method of selecting mail. The “input mail” is the target mail in (5-2), and is mail # 5 in (5-4). This input mail is converted into a vector as shown in FIG. 8 and projected to a similar mail space. The conversion into a vector may be performed in any way. For example, here, a word included in a mail sentence is used. The words included in the mail text are compared with a word list separately listed in advance, and “1” is included for those included in the word list, and “0” is included for those not included. This forms a vector. Note that different similar mail spaces are formed by changing the types of words to be listed. According to the example of FIG. 6D, by reducing the distance of the radius R around the target mail W in the similar vector space from R1 to R2, the mail group classified as hash value = 48 is reduced to one. Narrowing down to mail # 5 is performed.

なお、ベクトルの変換に用いる要素は、単語以外に、メールの送信時刻、添付ファイル、或いは送信形態(新規メールであるか、転送であるか、返信であるか、等)が用いられてもよい。また、単語を用いる場合でも、単語の有無ではなく、含まれる単語の数が用いられてもよい。   In addition to words, elements used for vector conversion may be email transmission time, attached file, or transmission format (new email, forwarding, reply, etc.). . Even when using words, the number of included words may be used instead of the presence or absence of words.

以上の図6(A)〜図6(D)の方法のうちの少なくとも一つが、該当するハッシュ値に分類されているメール群の検索結果の絞り込み(例えば、上記の(5−2)や(5−4)の検索の結果の絞り込み)に利用されても良い。例えば、対象メールの初めの類似メール空間Aでのハッシュ値=48に10000通のメールが分類されている場合、10000通のメールを絞り込むために、図6(A)〜図6(D)の方法のうちの少なくとも一つが利用されても良い。   At least one of the methods of FIGS. 6A to 6D described above can narrow down the search results of the mail group classified into the corresponding hash value (for example, the above (5-2) and ( (5-4) Search result refinement). For example, in a case where 10,000 mails are classified into hash value = 48 in the similar mail space A at the beginning of the target mail, in order to narrow down 10,000 mails, FIG. 6 (A) to FIG. 6 (D). At least one of the methods may be used.

図7は、検索部801が行う検索処理の流れを示す。以下の説明では、説明を分かり易くするために、適宜、図5に示したハッシュ値及びメールIDを使用する。   FIG. 7 shows the flow of search processing performed by the search unit 801. In the following description, for the sake of easy understanding, the hash value and the mail ID shown in FIG. 5 are used as appropriate.

検索部801は、対象メールが入力された場合(S701)、対象メールの初めの検索範囲となる類似メール空間(空間A)の類似度モデルに従って、対象メールのハッシュ値(例えば48)を算出する(S702)。   When the target mail is input (S701), the search unit 801 calculates a hash value (for example, 48) of the target mail according to the similarity model of the similar mail space (space A) that is the first search range of the target mail. (S702).

次に、検索部801は、算出されたハッシュ値と同一のハッシュ値に分類されているメール群を初めの類似メール空間(空間A)から検索する(S703)。   Next, the search unit 801 searches the first similar mail space (space A) for a mail group classified into the same hash value as the calculated hash value (S703).

次に、検索部801は、直前の検索範囲の類似メール空間(空間A)とは別の類似メール空間(空間B)から、直前の検索により見つかったメール群から選択されたメール(メール#5)が属するハッシュ値に分類されているメール群を検索する(S704)。具体的には、例えば、検索部801は、上記選択されたメールのメールIDをキーに、別の類似メール空間を参照することで、その別の類似メール空間から、選択されたメールが属するハッシュ値に分類されているメール群を検索する。なお、上記「選択されたメール」とは、直前の検索により見つかったメール群から図6(A)〜(D)の方法のいずれかの方法で選択されたメールである(これは、以下の説明でも同様である)。   Next, the search unit 801 selects a mail (mail # 5) selected from the mail group found by the previous search from a similar mail space (space B) different from the similar mail space (space A) in the previous search range. The mail group classified by the hash value to which () belongs is searched (S704). Specifically, for example, the search unit 801 refers to another similar mail space by using the mail ID of the selected mail as a key, so that the hash to which the selected mail belongs from the other similar mail space. Search mail group classified by value. The “selected mail” is a mail selected by any one of the methods shown in FIGS. 6A to 6D from the mail group found by the previous search (this is the following) The same applies to the explanation).

次に、検索部801は、S704の検索により見つかったメール群から選択されたメール(メール#8)が対象メールと所定の関係があるか否かを判断する(S705)。言い換えれば、検索部801は、類似メール検索を終了して良いかどうかを判断する。   Next, the search unit 801 determines whether or not the mail (mail # 8) selected from the mail group found by the search in S704 has a predetermined relationship with the target mail (S705). In other words, the search unit 801 determines whether or not the similar mail search can be terminated.

S705の判断の結果が否定的であれば(S705:NO)、検索部801は、S704を再実行する。具体的には、例えば、直前回のS704の検索範囲は類似メール空間Bであったため、検索部801は、直前回に選択されたメールのID=8をキーに、別の類似メール空間Aを参照する。これにより、別の類似メール空間Aから、メール#8が属するハッシュ値=18に分類されているメール群を見つけることができる。   If the result of the determination in S705 is negative (S705: NO), the search unit 801 re-executes S704. Specifically, for example, since the search range of the immediately previous S704 was the similar mail space B, the search unit 801 uses another similar mail space A as the key with ID = 8 of the mail selected immediately before. refer. As a result, a mail group classified as hash value = 18 to which mail # 8 belongs can be found from another similar mail space A.

以上のように、検索部801は、S705の判断の結果として肯定的な結果が得られるまで、S704を繰り返すことになる。従って、S704での直前の検索範囲とは、S703での検索範囲(初めの検索範囲である類似メール空間A)、又は、直前回のS704での検索範囲である。   As described above, the search unit 801 repeats S704 until a positive result is obtained as a result of the determination in S705. Therefore, the search range immediately before in S704 is the search range in S703 (similar mail space A that is the first search range) or the search range in the previous S704.

S704の判断の結果が肯定的であれば(S704:YES)、検索部801は、最後のS704の検索により見つかったメール(メール#4)を、対象メールに類似するメールと判断する(S706)。   If the determination result in S704 is affirmative (S704: YES), the search unit 801 determines that the mail (mail # 4) found by the last search in S704 is similar to the target mail (S706). .

ここで、S705の判断における「所定の関係」とは、S704の検索により見つかったメール(メール#4)と、対象メールの初めの検索範囲(類似メール空間A)でのハッシュ値(=48)に分類されているメール(メール#1)が、そのS704の直前の検索範囲(類似メール空間B)において同一のハッシュ値(=483)に分類されていることである。   Here, the “predetermined relationship” in the determination in S705 is the hash value (= 48) in the mail (mail # 4) found by the search in S704 and the initial search range (similar mail space A) of the target mail. That is, the mail (mail # 1) classified into the same hash value (= 483) in the search range (similar mail space B) immediately before S704.

このような検索処理により、図5を参照して説明した検索が行われることになる。すなわち、類似メール空間A及びBを交互に参照することになり、その結果として、対象メールに実は類似するメール#4が検索される。   With such a search process, the search described with reference to FIG. 5 is performed. That is, the similar mail spaces A and B are alternately referred to, and as a result, the mail # 4 that is actually similar to the target mail is searched.

以上、第二の実施形態によれば、複数の類似メール検索を組み合わせることで、個々の類似メール検索の精度の低さを補うことができ、全体としての類似メール検索の精度を向上させることができる。   As described above, according to the second embodiment, by combining a plurality of similar mail searches, it is possible to compensate for the low accuracy of individual similar mail searches and to improve the accuracy of similar similar mail searches as a whole. it can.

上述した本発明の幾つかの実施形態は、本発明の説明のための例示であり、本発明の範囲をそれらの実施形態にのみ限定する趣旨ではない。本発明は、その要旨を逸脱することなく、その他の様々な態様でも実施することができる。   The several embodiments of the present invention described above are examples for explaining the present invention, and are not intended to limit the scope of the present invention only to those embodiments. The present invention can be implemented in various other modes without departing from the gist thereof.

103,803…メール監査システム 103,803 ... Mail audit system

Claims (9)

キーワードを入力するキーワード入力手段と、
対象文書を入力する対象文書入力手段と、
前記キーワードに関する所定の条件に適合し且つ前記対象文書と類似する文書を複数の文書の中から検索する検索手段と
を備える文書検索システム。
A keyword input means for inputting keywords;
A target document input means for inputting the target document;
A document search system comprising: a search unit that searches a plurality of documents for a document that satisfies a predetermined condition relating to the keyword and that is similar to the target document.
前記キーワード入力手段が、キーワードをユーザから受け、
前記検索手段が、前記キーワードを含むN個(Nは自然数)の文書を複数の文書の中から検索する一次検索を行い、
前記一次検索の後、前記対象文書入力手段が、前記N個の文書の中からM個(Mは自然数且つN以下)の対象文書を選択してそれぞれ入力し、前記検索手段が、前記対象文書に類似し且つ前記キーワードを含まないL個の文書(Lは自然数)を前記複数の文書の中から検索する二次検索を行い、
前記検索手段が、前記N個の文書と前記L個の文書とを表す情報を含んだ検索結果を出力する、
請求項1記載の文書検索システム。
The keyword input means receives a keyword from a user,
The search means performs a primary search for searching N documents (N is a natural number) including the keyword from a plurality of documents;
After the primary search, the target document input means selects and inputs M target documents (M is a natural number and less than or equal to N) from the N documents, and the search means inputs the target document. A secondary search for searching L documents (L is a natural number) that are similar to and not including the keyword from the plurality of documents,
The search means outputs a search result including information representing the N documents and the L documents;
The document search system according to claim 1.
前記キーワード入力手段が、第一のキーワードを入力し、前記検索手段が、前記第一のキーワードを含むN個(Nは自然数)の文書を複数の文書の中から検索する一次検索を行い、
前記キーワード入力手段が、第二のキーワードを入力し、前記対象文書入力手段が、前記N個の文書の中から選択されたM個(Mは自然数且つN以下)の対象文書をそれぞれ入力し、前記検索手段が、前記第二のキーワードに関する所定の条件に適合し且つ前記対象文書に類似する文書を前記複数の文書の中から検索する二次検索を行う、
請求項1記載の文書検索システム。
The keyword input means inputs a first keyword, and the search means performs a primary search for searching N documents (N is a natural number) including the first keyword from a plurality of documents.
The keyword input means inputs a second keyword, and the target document input means inputs M target documents (M is a natural number and less than or equal to N) selected from the N documents, The search means performs a secondary search that searches the plurality of documents for a document that meets a predetermined condition related to the second keyword and is similar to the target document;
The document search system according to claim 1.
前記第二のキーワードに関する所定の条件とは、前記第二のキーワードを含まないという条件である、
請求項3記載の文書検索システム。
The predetermined condition regarding the second keyword is a condition that the second keyword is not included.
The document search system according to claim 3.
異なる観点に従う異なる文書空間があり、各文書空間に、その文書空間の観点に基づいて決定された複数の類似カテゴリがあり、
各文書は、いずれか二以上の文書空間のいずれかの類似カテゴリに分類されており、
前記検索手段が、以下の(A)乃至(D)の処理:
(A)前記対象文書の初めの検索範囲とされる文書空間の観点に基づき、前記対象文書のその文書空間での類似カテゴリを特定する、
(B)前記特定された類似カテゴリと同一の類似カテゴリに分類されている文書を前記初めの文書空間から検索する;
(C)この(C)の処理の直前の検索範囲とは別の文書空間から、この(C)の直前の処理により見つかった文書と同一の類似カテゴリに分類されている文書を検索する;
(D)前記(C)の処理により見つかった文書が前記対象文書と所定の関係があるか否かを判断する;
を実行し、
前記(D)の判断の結果が否定的であれば、前記検索手段は、前記(C)の処理を再実行し、
前記(D)の判断の結果が肯定的であれば、前記検索手段は、前記(C)の処理により見つかった文書を、前記対象文書に類似する文書と判断し、
前記(B)及び/又は(C)の処理により見つかった文書は、キーワードに関する所定の条件に適合する文書である、
請求項1乃至4のうちのいずれか1項に記載の文書検索システム。
There are different document spaces that follow different perspectives, and each document space has multiple similar categories that are determined based on that document space perspective,
Each document is classified into one of the similar categories in any two or more document spaces,
The search means performs the following processes (A) to (D):
(A) identifying a similar category of the target document in the document space based on the viewpoint of the document space that is the first search range of the target document;
(B) searching the first document space for documents classified in the same similar category as the identified similar category;
(C) Search a document classified in the same similar category as the document found by the process immediately before (C) from a document space different from the search range immediately before the process of (C);
(D) determining whether the document found by the process of (C) has a predetermined relationship with the target document;
Run
If the result of the determination in (D) is negative, the search means re-executes the process in (C),
If the result of the determination in (D) is affirmative, the search means determines that the document found by the process in (C) is a document similar to the target document;
The document found by the processing of (B) and / or (C) is a document that meets a predetermined condition regarding keywords.
The document search system according to any one of claims 1 to 4.
前記所定の関係とは、前記(C)の処理により見つかった文書と、前記対象文書の前記初めの文書空間での類似カテゴリに分類されている文書が、前記(C)の処理の直前の検索範囲の文書空間において同一の類似カテゴリに分類されていることである、
請求項5記載の文書検索システム。
The predetermined relationship is that a document found by the process (C) and a document classified into a similar category in the first document space of the target document are searched immediately before the process (C). Being in the same similar category in the document space of the scope,
The document search system according to claim 5.
前記(C)の処理の直前の検索範囲から見つかった文書とは、その検索範囲から見つかった二以上の文書がキーワードを用いて絞り込まれた文書である、
請求項5又は6記載の文書検索システム。
The document found from the search range immediately before the process (C) is a document in which two or more documents found from the search range are narrowed down using keywords.
The document search system according to claim 5 or 6.
少なくとも1つの文書空間は、LSH(Locality Sensitive Hashing)の類似度モデルに基づく空間であり、
各類似度カテゴリは、ハッシュ値であり、
前記(C)の処理の直前の検索範囲から見つかった文書とは、その(C)での検索のために入力された文書と同一のハッシュ値を有する複数の文書のうちの、その入力された文書を中心とした調整後の半径R以内の範囲に属する文書である、
請求項5又は6記載の文書検索システム。
At least one document space is a space based on a similarity model of LSH (Locality Sensitive Hashing),
Each similarity category is a hash value,
The document found from the search range immediately before the process of (C) is the input of a plurality of documents having the same hash value as the document input for the search in (C). A document belonging to a range within an adjusted radius R centered on the document;
The document search system according to claim 5 or 6.
キーワードを入力するステップと、
対象文書を入力するステップと、
前記キーワードに関する所定の条件に適合し且つ前記対象文書と類似する文書を複数の文書の中から検索するステップと
をコンピュータに実行させるコンピュータプログラム。
Entering keywords,
Entering the target document; and
A computer program for causing a computer to execute a step of searching a plurality of documents for a document that satisfies a predetermined condition related to the keyword and is similar to the target document.
JP2009063880A 2009-03-17 2009-03-17 Document search system Expired - Fee Related JP5308199B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009063880A JP5308199B2 (en) 2009-03-17 2009-03-17 Document search system

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009063880A JP5308199B2 (en) 2009-03-17 2009-03-17 Document search system

Publications (2)

Publication Number Publication Date
JP2010218190A true JP2010218190A (en) 2010-09-30
JP5308199B2 JP5308199B2 (en) 2013-10-09

Family

ID=42976979

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009063880A Expired - Fee Related JP5308199B2 (en) 2009-03-17 2009-03-17 Document search system

Country Status (1)

Country Link
JP (1) JP5308199B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008255A (en) * 2011-06-27 2013-01-10 Nec Corp Document similarity calculation device
JP2020129317A (en) * 2019-02-12 2020-08-27 日本電気株式会社 Mail system, data restoration device, data restoration method, and program

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116290A (en) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp Document classification managing method and document retrieving method
JP2000293535A (en) * 1999-04-08 2000-10-20 Fujitsu Ltd Information retrieval device, its method and recording medium recording program for realizing the method
JP2003141163A (en) * 2001-11-05 2003-05-16 Nippon Telegr & Teleph Corp <Ntt> Information accumulation and retrieval device and method, information accumulation and retrieval program, and recording medium for recording program

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10116290A (en) * 1996-10-11 1998-05-06 Mitsubishi Electric Corp Document classification managing method and document retrieving method
JP2000293535A (en) * 1999-04-08 2000-10-20 Fujitsu Ltd Information retrieval device, its method and recording medium recording program for realizing the method
JP2003141163A (en) * 2001-11-05 2003-05-16 Nippon Telegr & Teleph Corp <Ntt> Information accumulation and retrieval device and method, information accumulation and retrieval program, and recording medium for recording program

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013008255A (en) * 2011-06-27 2013-01-10 Nec Corp Document similarity calculation device
JP2020129317A (en) * 2019-02-12 2020-08-27 日本電気株式会社 Mail system, data restoration device, data restoration method, and program
JP7183845B2 (en) 2019-02-12 2022-12-06 日本電気株式会社 Mail system, data recovery device, data recovery method, and program

Also Published As

Publication number Publication date
JP5308199B2 (en) 2013-10-09

Similar Documents

Publication Publication Date Title
Fu et al. Toward efficient multi-keyword fuzzy search over encrypted outsourced data with accuracy improvement
JP6612303B2 (en) Data settings for user contact entries
US7827165B2 (en) Providing a social network aware input dictionary
WO2017143930A1 (en) Method of sorting search results, and device for same
US9727647B1 (en) Annotating articles
US11341761B2 (en) Revealing content reuse using fine analysis
JP2004062893A (en) System and method for automatic retrieval of example sentence based on weighted editing distance
EP3420473A1 (en) Expert detection in social networks
US10311072B2 (en) System and method for metadata transfer among search entities
Wilson et al. Linguistic steganography on twitter: hierarchical language modeling with manual interaction
WO2017121355A1 (en) Search processing method and device
JP2019020794A (en) Document management device, document management system, and program
JP6038232B2 (en) Mail service system and method for efficient mail search
JP5308199B2 (en) Document search system
US20200327283A1 (en) Information processing apparatus, computer program product, and computer readable medium
CN110674383B (en) Public opinion query method, device and equipment
JP5265420B2 (en) Document search system
JP6194180B2 (en) Text mask device and text mask program
JP5953851B2 (en) Document management apparatus and program
JP6321874B1 (en) Server device
JP2009271671A (en) Information processor, information processing method, program, and recording medium
US11151103B1 (en) Method for providing an indication of the exact search hit within a large universe of contextual information
CN106062745A (en) Method and apparatus for secured information storage
JP6160427B2 (en) Difference extraction system and program
JP5893474B2 (en) Retrieval formula validity judgment device, patent retrieval device, retrieval formula validity judgment method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111212

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130409

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130604

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130625

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130628

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees