JP2010231252A - System and method of detecting containment of email content - Google Patents
System and method of detecting containment of email content Download PDFInfo
- Publication number
- JP2010231252A JP2010231252A JP2009074811A JP2009074811A JP2010231252A JP 2010231252 A JP2010231252 A JP 2010231252A JP 2009074811 A JP2009074811 A JP 2009074811A JP 2009074811 A JP2009074811 A JP 2009074811A JP 2010231252 A JP2010231252 A JP 2010231252A
- Authority
- JP
- Japan
- Prior art keywords
- hash values
- document
- computer
- values corresponding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
Description
本発明は、電子メールシステムに関し、詳細には、電子メール文書内のコンテンツ包含の検出に関する。 The present invention relates to electronic mail systems, and in particular to content inclusion detection in electronic mail documents.
データベースに存在する類似した電子メールを効率的に見つけることが望まれる場合が多い。例えば、訴訟電子情報開示場面では、電子メールの広範囲なデータベースを検索して電子メールが訴訟事件に重要であるか否かを判定する必要がある。広範囲なデータベースを検索して、電子メールを比較して潜在的に類似したものを判定することは、問題含みの冗長なプロセスである場合がある。類似性に関して電子メールを比較する1つの手法は、異なる電子メールのコンテンツからハッシュ値を計算した後に、同一性に関してハッシュ値を比較することである。残念ながら、一般にこのような手法で特定されるのは、正確な複製である電子メールだけであり、電子メールに何らかの差異があれば、一般に結果として異なるハッシュ値が生成されることになる。可能性のある別の手法は、1つの電子メールの全てのワードを別の電子メールのワードと比較して類似性を判定することである。しかしながら、このような手法は、一般的に非常に計算的に厳しいものがある。 It is often desirable to efficiently find similar emails that exist in a database. For example, in the case of litigation electronic information disclosure, it is necessary to search an extensive database of e-mails to determine whether the e-mail is important for litigation cases. Searching an extensive database and comparing emails to determine potentially similar ones can be a problematic and tedious process. One approach to compare emails for similarity is to compute hash values from different email content and then compare hash values for identity. Unfortunately, in general, such an approach only identifies email that is an exact copy, and any difference in email generally results in different hash values. Another possible approach is to compare all words of one email with words of another email to determine similarity. However, such techniques are generally very computationally strict.
電子メールは多くのテキストが追加されることなく転送又は返信されるので、ほとんど複製である場合が多い。最初の電子メールが繰り返し返信及び/又は転送される際に、そのチェーンの最後の電子メールだけを見つけることが望ましい場合があるは、その理由は、最後の電子メールが先行の電子メールのコンテンツの全てを含む場合が多いからである。したがって、電子情報開示場面では、何の情報も見落とすことなく最小数の電子メールを調べることができるように、返答電子メールのチェーン内の最後の電子メールを見つけることがより望ましいであろう。 Emails are often duplicates because they are forwarded or replied without much text being added. When the first email is repeatedly replied and / or forwarded, it may be desirable to find only the last email in the chain, because the last email is the content of the previous email This is because it often includes all of them. Thus, in an electronic information disclosure scene, it would be more desirable to find the last email in the reply email chain so that the minimum number of emails can be examined without missing any information.
電子メールコンテンツ包含を検出するシステム及び方法を開示する。1つの実施形態において、方法は、第1の電子メール文書に対応する第1の組のハッシュ値を生成する段階を含み、第1の組のハッシュ値は、第1の電子メール文書の複数の文字列の各々に対応するそれぞれのハッシュ値を含む。本方法は、第2の電子メール文書に対応する第2の組のハッシュ値を生成する段階を更に含み、第2の組のハッシュ値は、第2の電子メール文書の複数の文字列の各々に対応するそれぞれのハッシュ値を含む。本方法は、最後に、第1の組のハッシュ値が第2の組のハッシュ値のサブセットであるか否かを判定する段階を更に含む。 Disclosed are systems and methods for detecting email content inclusion. In one embodiment, the method includes generating a first set of hash values corresponding to the first e-mail document, wherein the first set of hash values includes a plurality of first e-mail documents. Contains a respective hash value corresponding to each of the strings. The method further includes generating a second set of hash values corresponding to the second e-mail document, the second set of hash values being each of a plurality of character strings of the second e-mail document. Each hash value corresponding to is included. The method finally further includes determining whether the first set of hash values is a subset of the second set of hash values.
特定の実施形態においては、本方法は、第1の電子メール文書に対応する第1の組のハッシュ値を表す第1のブルームフィルタを生成する段階と、第2の電子メール文書に対応する前記第2の組のハッシュ値を表す第2のブルームフィルタを生成する段階と、第1のブルームフィルタを第2のブルームフィルタと比較する段階とを更に含むことができる。第1及び第2のブルームフィルタは、ビット単位のOR演算を行うことにより比較することができる。種々の実施形態において、本方法は、判定する段階の結果に基づいて、第1の電子メール文書のコンテンツが第2の電子メール文書内に含まれているか否かの表示を行う段階を更に含む。 In certain embodiments, the method generates a first Bloom filter representing a first set of hash values corresponding to a first email document, and the method corresponds to a second email document. The method may further include generating a second Bloom filter that represents the second set of hash values and comparing the first Bloom filter to the second Bloom filter. The first and second Bloom filters can be compared by performing a bitwise OR operation. In various embodiments, the method further includes displaying whether the content of the first email document is included in the second email document based on the result of the determining step. .
本発明は、種々の変更及び代替形態とすることが可能であり、特定の実施形態が例示的に図示されており本明細書で詳細に説明されている。しかしながら、図面及びその詳細な説明は、本発明を開示された特定の形態に限定することを意図しておらず、むしろ、特許請求の範囲により定義される本発明の精神及び範囲に該当する全ての変更物、均等物、及び代替物代案を包含することが意図されていることを理解されたい。本出願において、用語「may」は、必須の意味(すなわち、must)ではなく、許容的な意味(すなわち、〜可能性を有する、〜できる)で使用されることに留意されたい。 While the invention is susceptible to various modifications and alternative forms, specific embodiments have been shown by way of example and are described in detail herein. However, the drawings and detailed description thereof are not intended to limit the invention to the particular forms disclosed, but rather fall within the spirit and scope of the invention as defined by the claims. It should be understood that variations, equivalents, and alternatives of the above are intended to be included. It should be noted that in this application, the term “may” is used in an acceptable meaning (ie, has a possibility, can be) rather than an essential meaning (ie, must).
ここで図1を参照すると、コンピューターシステム100の1つの実施形態のブロック図が示されている。コンピューターシステム100は、プロセッササブシステム150に結合された記憶サブシステム110を含む。記憶サブシステム110は、電子メールデータベース120及び包含検出コード130を格納している。コンピューターシステム100は、パーソナルコンピュータシステム、デスクトップコンピュータ、ラップトップ又はノートコンピュータ、メインフレームコンピュータシステム、ハンドヘルドコンピュータ、ワークステーション、ネットワークコンピュータ、携帯電話、ポケットベル、又は個人用携帯情報端末(PDA)など消費者向け装置を含むが、これらに限定されない種々の形式の装置の何れかとすることができる。また、コンピューターシステム100は、記憶装置、スイッチ、モデム、ルータなどの任意の形式のネットワーク化された周辺機器とすることもできる。また、図1には単一のコンピューターシステム100が示されているが、システム100は、同時に作動する2つ又はそれ以上のコンピューターシステムとして実現することもできる。
Referring now to FIG. 1, a block diagram of one embodiment of a computer system 100 is shown. Computer system 100 includes a storage subsystem 110 coupled to a
プロセッササブシステム150は、包含検出コード130を実行することができる1つ又はそれ以上のプロセッサを示している。例えば、x86プロセッサ、パワーPCプロセッサ、IBMセルプロセッサ、又はARMプロセッサ等の種々の特定型式のプロセッサを使用することができる。
The
「コンピュータ読み取り可能な記憶媒体」と呼ぶ場合もある記憶サブシステム110は、さまざまな記憶媒体を示す。記憶サブシステム110は、任意の適切な媒体形式及び/又は記憶アーキテクチャを使用して実現することができる。例えば、記憶サブシステム110は、ハードディスク記憶装置、フロッピー(登録商標)ディスク記憶装置、取外し可能ディスク記憶、フラッシュメモリ、ランダムアクセスメモリ、又はリードオンリーメモリ等の半導体メモリなどの記憶媒体を使用して実現することができる。記憶サブシステム110は、単一の場所で実行すること、又は(例えば、SAN構成で)分散させることができることに留意されたい。 Storage subsystem 110, sometimes referred to as "computer readable storage medium", represents a variety of storage media. Storage subsystem 110 may be implemented using any suitable media format and / or storage architecture. For example, the storage subsystem 110 is implemented using a storage medium such as a hard disk storage device, a floppy disk storage device, a removable disk storage, a flash memory, a random access memory, or a semiconductor memory such as a read-only memory. can do. Note that the storage subsystem 110 can run in a single location or can be distributed (eg, in a SAN configuration).
電子メールデータベース120は、1人又はそれ以上の電子メールシステムユーザに関連した、本明細書では各々を電子メール文書と呼ぶ、複数の電子メールメッセージを含む。電子メールデータベース120内の種々の電子メール文書は、お互い複製であること、又はデータベース内の他の電子メール(例えば、最初の電子メール、及び最初の電子メールを含む対応する返答電子メール)に実質的に類似したコンテンツを含むことができることに留意されたい。
The
以下に詳細に説明するように、包含検出コード130は、データベース120内の1つの電子メール文書のコンテンツが別の電子メール文書内に含まれているか(又は潜在的に含まれているか)否かを特定するための、プロセッササブシステム150により実行可能な命令を含む。種々の実施形態において、潜在的に含まれるか又は他の電子メールのコンテンツを含むと包含検出コード130によって特定された電子メール文書は、ユーザ(例えば、少なくとも返答電子メールのチェーン内の最後の電子メール)に報告することができる。特定の実施形態において、特定された電子メールは更に評価することができる。例えば、同一確認により、電子メール文書を別のコードにより分析又は比較して、1つの電子メールのコンテンツが別のメール内に含まれている程度を判定及び/又は確認すること、及び/又は電子メールのチェーンを特定することができる。包含検出コード130を実行することで、他の電子メール文書内にコンテンツを含まない電子メール文書の効率的なフィルタリングが可能になる。
As will be described in detail below, the
図2は、包含検出コード130の1つの実施形態の実行に従って実施することができる種々の作業を例示するフローチャートである。図2に例示する種々の作業は、図3に示す例示的な状況に関連して検討することになるが、図3は、2つの可能性がある電子メール文書301A及び301Bのコンテンツを示す。図示のように、電子メール文書301Bは、電子メール文書301Aに対する返答である。本実施例において、電子メールは301A及び301Bは、異なる電子メールヘッダ(例えば、送信者、宛先、及び件名の部分)を含むことに留意されたい。また、電子メール文書301Bの末尾部には、電子メール文書011Aには含まれていない文字列「The fox was cunning」が含まれることに留意されたい。
FIG. 2 is a flowchart illustrating various operations that may be performed in accordance with execution of one embodiment of
ステップ210では、処理中の電子メール文書の無関係の電子メールコンテンツを取り除く又は無視する。この無関係なコンテンツとしては、「From[Name]、To[Name]、Subject[TITLE]、[DATE]、[TIME]、[NAME]wrote」、「転送メッセージ開始」、「−−−−−元のメッセージ−−−−−」等の一般的な電子メール文書に見いだすことができる共通の再発する語句を挙げることができる。図4にはこのステップから得られる実施例が示されており、ヘッダは、電子メール文書301A及び301Bから取り除かれている。種々の実施形態において、ステップ210の間に各々の電子メール文書から取り除かれた/無視された無関係な電子メールコンテンツは、所定の又は予め選択されたワード又は語句(例えば、一般に電子メール文書に共通の語句)とすることができる。他の実施形態において、取り除かれる/無視される無関係な電子メールコンテンツは、ユーザからの入力によって管理又は指定することができる。特定の実施形態において、ステップ210を省略できることに留意されたい。
In
次に、ステップ220において、処理中の第1の電子メール文書の段落ごとに第1の組のハッシュ値が生成され、ステップ230において、処理中の第2の電子メール文書の段落ごとに第2の組のハッシュ値が生成される。図5には、段落「The quick brown fox jumped over the lazy dog」、「The dog was sleeping」、及び「The fox was cunning」に関するハッシュ値501A〜Eが生成される実施例を示す。この特定の実施形態において、段落内の各々の文字のアルファベット位置を合計して各々のハッシュ値を生成する。例えば、文字「T」はアルファベットの第20の文字であり、文字「h」は第8の文字である。したがって、段落「The quick brown fox jumped over the lazy dog」の文字のアルファベット位置の合計に基づいて「464」のハッシュ値が生成される。同様に、それぞれの段落「The dog was sleeping」及び「The fox was cunning」に基づいてハッシュ値「189」及び「203」が計算される。
Next, in
任意の種々の他のハッシュ関数を使用して特定の段落に関するハッシュ値を計算できることに留意されたい。一般的に言えば、「ハッシュ関数」は、入力を数(すなわちハッシュ値)へマッピングさせる任意の関数である。したがって、種々の実施形態において、MD5ハッシュ、SHA−1ハッシュなどの特定のハッシュアルゴリズムを使用することができる。例示的な実施例において、ハッシュ関数への入力としては、段落を形成する文字、又は文字のASCII序数値又は各々の段落内の文字の英字位置等の文字を表す値を挙げることができる。実施形態に応じて、句読点記号及び/又は数字等の文字をハッシュ関数への入力として含めること又は含めないことができる。 Note that any variety of other hash functions can be used to calculate the hash value for a particular paragraph. Generally speaking, a “hash function” is any function that maps an input to a number (ie, a hash value). Thus, in various embodiments, specific hash algorithms such as MD5 hash, SHA-1 hash, etc. can be used. In an exemplary embodiment, the input to the hash function may include a value that represents a character, such as a character that forms a paragraph, or an ASCII ordinal value of a character or a letter position of a character within each paragraph. Depending on the embodiment, characters such as punctuation marks and / or numbers may or may not be included as input to the hash function.
また、特定の実施形態において、異なるハッシュ関数を使用して各々の段落に関して複数のハッシュ値を生成できることに留意されたい。更に、特定の別の実施形態において、例えば、文、段落の一部、又は文字をグループ化するための任意の他の変形例等の段落以外の文字列に関してハッシュ値を計算できることに留意されたい。 It should also be noted that in certain embodiments, different hash functions can be used to generate multiple hash values for each paragraph. Furthermore, it should be noted that in certain alternative embodiments, a hash value can be calculated for non-paragraph strings, such as a sentence, part of a paragraph, or any other variation for grouping characters. .
ステップ240において、ステップ220で生成した第1の組のハッシュ値と、ステップ230で生成した第2の組のハッシュ値とを比較して、第1の組のハッシュ値が第2の組のハッシュ値のサブセットを成すか否かを判定する。第1セットが第2セットのサブセットを成す場合、包含検出コード130は、ステップ250Aにおいて、第1の電子メールのコンテンツが第2の電子メールに含まれる(又は含まれる可能性がある)旨の表示を行うことができる。逆に、第1セットが第2セットのサブセットではない場合、包含検出コード130は、ステップ250Bにおいて、第1の電子メールのコンテンツが第2の電子メール内に含まれない(又は含まれない可能性がある)旨の表示を行うことができる。図5に示すように、電子メール文書301Aのそれぞれの段落「The quick brown fox jumped over the lazy dog」及び「The dog was sleeping」から、ハッシュ値464及び189が生成される。電子メール文書301Aのこれらの段落は電子メール文書301Bのコンテンツにも含まれるので、ハッシュ値「464」及び「189」は、電子メール文書301Bに関しても生成される。一方で「The fox was cunning」は、電子メール文書301Bだけに含まれているので、ハッシュ値「203」は、電子メール文書301Bに関してだけ生成される。電子メール文書301Aに対応するハッシュ値「464」及び「189」の組は、電子メール文書301Bに対応するハッシュ値「464」、「189」、及び「203」の組よりも小さなサブセットを成すことから、包含検出コード130は、電子メール文書301Aのコンテンツが電子メール文書301Bに含まれるという表示を行うことができる。本明細書で使用する場合、第2の組が第1の組に含まれる各々のハッシュ値、並びに第1の電子メール文書に含まれない段落から生成される追加的なハッシュ値を含む場合、第1の電子メール文書に関して生成された第1の組のハッシュ値は、第2の電子メール文書の小さなサブセットを成す。特定の実施形態において、第1の組が第2の組と同じである場合(すなわち、各々の組が同じハッシュ値を含む場合)、包含検出コード130は、ステップ250Aにおいてコンテンツ包含の表示を行うこともできる。
In step 240, the first set of hash values generated in
異なる電子メール文書のペアを繰り返し比較することにより、返答電子メールのチェーンは、他の電子メールに含まれるコンテンツを有する電子メールを判定することによって特定することができる。1つの電子メールがチェーン内の全ての他のコンテンツを含むと判定されると、この電子メールがチェーン内の最後のメールであると推察できる。例えば、図5において、電子メール文書301A及び301Bは、返答電子メールの同じチェーン内にあり、電子メール文書301Bは、最後の電子メールである。特定の実施形態においては、包含検出コード130は、特定の電子メールは、いくつかの他の電子メールのコンテンツを含むと判定し、かつ、特定の電子メールがチェーン内の最後であるという表示を行うように構成することができる。
By repeatedly comparing pairs of different e-mail documents, a chain of reply e-mails can be identified by determining e-mails with content included in other e-mails. If it is determined that one email contains all the other content in the chain, it can be inferred that this email is the last email in the chain. For example, in FIG. 5,
複数の無関係な電子メールは、1つの電子メール文書のコンテンツが別の電子メール(例えば、共通の再発する段落)に含まれる(又は、潜在的に含まれる)という誤った表示をもたらすコンテンツを含む場合が時折あることに留意されたい。したがって、種々の実施形態において、ステップ240の間に、包含検出コード130は、複数の無関係な電子メールに出現するコンテンツに対応する特定のハッシュ値を無視するようにプログラムすることができる。
Multiple unrelated emails include content that results in a false indication that the content of one email document is included (or potentially included) in another email (eg, a common recurring paragraph) Note that there are occasional cases. Thus, in various embodiments, during step 240, the
図6は、1組のハッシュ値が別の組の小さなサブセットを成すか否かを判定するステップ240の1つの特定の実施例を示すフローチャートである。したがって、以下の操作を前述の方法とともに実行することができる。 FIG. 6 is a flowchart illustrating one particular embodiment of step 240 for determining whether a set of hash values constitutes a small subset of another set. Therefore, the following operations can be performed with the method described above.
ステップ610において、ステップ220で生成した第1の組のハッシュ値は、第1の電子メール文書に対応するブルームフィルタに反映される。一般的に言えば、「ブルームフィルタ」は、1組の素子を表すビットベクトルの形のデータ構造であり、要素がその組の構成要素であるか否かを検査するために使用される。最初に、空のブルームフィルタは、ゼロのビットアレイとして特徴づけることができる。要素はブルームフィルタに追加されるので、対応する代表ビットをセットすることができる。
In step 610, the first set of hash values generated in
つまり、図7に示すように、選択されたビットをセットすることにより、「464」の計算ハッシュ値501A、及び電子メール文書301Aからの段落に対応する「189」の計算ハッシュ値501Bは、ブルームフィルタ701Aに反映される。特に、本実施例で示す特定のブルームフィルタアルゴリズムに関して、計算ハッシュ値「464」を形成する数字に基づいて、ブルームフィルタ601Aのビット位置4及び6をセットし、同様に、ハッシュ値「189」に対して位置1、8、及び9に対応するビットをセットする。ステップ620において、図示のように、選択されたビットを同様にセットすることにより、第2の電子メール文書301Bの段落に対応する、ステップ230で生成された計算ハッシュ値をブルームフィルタ701Bに反映させる。
That is, as shown in FIG. 7, by setting the selected bit, the
他の実施形態において、任意の種々の他のブルームフィルタアルゴリズムを用いることができることに留意されたい。例えば、ブルームフィルタデータ構造を形成するベクトルのサイズ(すなわちビット数)は、図7に示すものより非常に大きくすることができ、アルゴリズムで指示される通りに他の特定のビット位置をセットすることにより、所定のハッシュ値をブルームフィルタにおいて表すことができる。 Note that in various embodiments, any of a variety of other Bloom filter algorithms can be used. For example, the size (ie number of bits) of the vector forming the Bloom filter data structure can be much larger than that shown in FIG. 7, and other specific bit positions can be set as directed by the algorithm. Thus, the predetermined hash value can be expressed in the Bloom filter.
ステップ630において、ステップ610及び620で生成されたブルームフィルタを比較してオーバーラップの程度を判定する。図6に示すように、計算ハッシュ値「464」及び「189」は、ブルームフィルタ701A及び701Bの両方に示されているので、ブルームフィルタ701A及び701Bの位置1、4、6、8、及び9のビットがこれに対応してセットされる。一方、ハッシュ値「203」は、ブルームフィルタ701Bでのみに示されているので、ブルームフィルタ701Aにおいて、位置2、0、及び3のビットはこれに対応してセットされない。
In step 630, the Bloom filters generated in steps 610 and 620 are compared to determine the degree of overlap. As shown in FIG. 6, since the calculated hash values “464” and “189” are shown in both the
図8に示す1つの特定の実施形態において、ビット単位のORを行って2つの電子メール文書のブルームフィルタを比較することができる。本実施例において、ビットベクトル801は、ブルームフィルタ701A及び701Bの各ビットベクトルの間のビット単位ORから生成され、その後、ブルームフィルタ701A及び701Bの各々と比較される。結果として得られるビット単位ORのビットベクトル801が入力ブルームフィルタ701A又は701Bのいずれかに一致する場合、包含検出コード130は、ステップ250Aにおいて、一方の電子メールのコンテンツが他方の電子メールのコンテンツに含まれている(又は、潜在的に含まれている)旨の表示を行うことができる。逆に、結果として得られるビット単位ORのビットベクトル801がブルームフィルタ701A又は701Bのいずれにも一致しない場合、包含検出コード130は、ステップ250Bにおいて、いずれの電子メールのコンテンツも他方の電子メールのコンテンツに含まれない(又は、潜在的に含まれない)という表示を行うことができる。図8に示す特定の実施例において、ビットベクトル801は、ブルームフィルタ701Bに一致しているので、包含検出コード130は、電子メール文書301Aのコンテンツが電子メール文書301Bに含まれるという表示を行うことに留意されたい。
In one particular embodiment shown in FIG. 8, a bitwise OR can be performed to compare the Bloom filters of two email documents. In this embodiment, the
以上、特定の実施形態について説明したが、これらの実施形態は、特定の特徴部に関して単一の実施形態だけで説明されている場合であっても本開示内容の範囲を限定することを目的とするものではない。本開示内容においてもたらされる特徴部の実施例は、特に記述がない限り、制限的ではなく例示的であることが意図されている。前記の説明は、本開示内容から利益を得る当業者であれば理解できるような変形物、変更物、及び均等物を包含することを目的とする。本発明の範囲は、種々の説明された実施形態によって解決される問題点の一部又は全部を軽減するか否かを問わず、本明細書で(明示的に又は非明示的に)開示する任意の特徴部又は特徴部の組み合わせ、又は任意の一般化されたものを含む。したがって、新しい請求項は、このような特徴部の任意の組合せに対して、本出願(又は優先権を主張する出願)の審査中に作成することができる。特に、特許請求の範囲に関して、従属請求項の特徴部は独立請求項と組み合わせることができ、それぞれの独立請求項の特徴部は、任意の適当な方法で、特許請求の範囲に列挙する特定の組合せだけに留まらず組み合わせることができる。 Although specific embodiments have been described above, these embodiments are intended to limit the scope of the present disclosure even if the specific features are described in only a single embodiment. Not what you want. Examples of features provided in the present disclosure are intended to be illustrative rather than restrictive unless otherwise stated. The above description is intended to cover variations, modifications, and equivalents as may be appreciated by one of ordinary skill in the art having the benefit of this disclosure. The scope of the present invention is disclosed herein (explicitly or implicitly), whether or not alleviating some or all of the problems solved by the various described embodiments. Includes any feature or combination of features, or any generalization. Accordingly, new claims may be made during the examination of this application (or an application claiming priority) for any combination of such features. In particular, with respect to the claims, the features of the dependent claims can be combined with the independent claims, and each independent claim feature can be identified in any suitable manner as specified in the claims. It can be combined not only in the combination.
100 コンピューターシステム; 110 記憶サブシステム;
120 電子メールデータベース; 130 包含検出コード;
150 プロセッササブシステム。
100 computer system; 110 storage subsystem;
120 email database; 130 inclusion detection code;
150 processor subsystem.
Claims (20)
第2の電子メール文書に対応し、該第2の電子メール文書の複数の文字列の各々に対応するそれぞれのハッシュ値を含む、第2の組のハッシュ値を生成する段階と、
前記第1の組のハッシュ値が前記第2の組のハッシュ値よりも小さなサブセットを成すか否かを判定する段階と、
を含むことを特徴とする方法。 Generating a first set of hash values corresponding to the first e-mail document and including respective hash values corresponding to each of the plurality of character strings of the first e-mail document;
Generating a second set of hash values corresponding to the second email document and including respective hash values corresponding to each of the plurality of character strings of the second email document;
Determining whether the first set of hash values forms a smaller subset than the second set of hash values;
A method comprising the steps of:
前記第2の電子メール文書に対応する前記第2の組のハッシュ値を表す第2のブルームフィルタを生成する段階と、
を更に含み、前記判定する段階が、前記第1のブルームフィルタと前記第2のブルームフィルタとを比較する段階を含むことを特徴とする請求項1に記載の方法。 Generating a first Bloom filter representing the first set of hash values corresponding to the first email document;
Generating a second Bloom filter representing the second set of hash values corresponding to the second email document;
The method of claim 1, further comprising: comparing the first Bloom filter and the second Bloom filter.
第2の電子メール文書に対応し、該第2の電子メール文書の複数の文字列の各々に対応するそれぞれのハッシュ値を含む、第2の組のハッシュ値を生成し、
前記第1の組のハッシュ値が前記第2の組のハッシュ値よりも小さなサブセットを成すか否かを判定する、
手順をコンピュータで実行するためのプログラム命令を記録したコンピュータ読み取り可能なメモリ媒体。 Generating a first set of hash values corresponding to the first email document and including respective hash values corresponding to each of the plurality of character strings of the first email document;
Generating a second set of hash values corresponding to the second email document and including respective hash values corresponding to each of the plurality of character strings of the second email document;
Determining whether the first set of hash values forms a smaller subset than the second set of hash values;
A computer-readable memory medium having recorded thereon program instructions for executing the procedure on a computer.
前記第1の電子メール文書に対応する前記第1の組のハッシュ値を表す第1のブルームフィルタを生成し、
前記第2の電子メール文書に対応する前記第2の組のハッシュ値を表す第2のブルームフィルタを生成する、
手順をコンピュータで実行可能であり、前記第1の組のハッシュ値が前記第2の組のハッシュ値よりも小さなサブセットを成すか否かを判定する手順が、前記第1のブルームフィルタと前記第2のブルームフィルタとの比較を含むことを特徴とする請求項7に記載のコンピュータ読み取り可能なメモリ媒体。 The program instruction further comprises:
Generating a first Bloom filter representing the first set of hash values corresponding to the first email document;
Generating a second Bloom filter representing the second set of hash values corresponding to the second email document;
The procedure is computer-executable and determining whether the first set of hash values is a smaller subset than the second set of hash values comprises: 8. The computer readable memory medium of claim 7, comprising a comparison with two Bloom filters.
メモリであって、
第1の電子メール文書に対応し、該第1の電子メール文書の複数の文字列の各々に対応するそれぞれのハッシュ値を含む、第1の組のハッシュ値を生成し、
第2の電子メール文書に対応し、前記第2の電子メール文書の複数の文字列の各々に対応するそれぞれのハッシュ値を含む、第2の組のハッシュ値を生成し、
前記第1の組のハッシュ値が前記第2の組のハッシュ値よりも小さなサブセットを成すか否かを判定する、
手順をコンピュータで実行するためのプログラム命令を記録したメモリを備えている、
ことを特徴とするシステム。 One or more processors,
Memory,
Generating a first set of hash values corresponding to the first email document and including respective hash values corresponding to each of the plurality of character strings of the first email document;
Generating a second set of hash values corresponding to the second e-mail document and including respective hash values corresponding to each of the plurality of character strings of the second e-mail document;
Determining whether the first set of hash values forms a smaller subset than the second set of hash values;
A memory having recorded program instructions for executing the procedure on a computer;
A system characterized by that.
前記第1の電子メール文書に対応する前記第1の組のハッシュ値を表す第1のブルームフィルタを生成し、
前記第2の電子メール文書に対応する前記第2の組のハッシュ値を表す第2のブルームフィルタを生成する、
手順をコンピュータで実行可能であり、
前記第1の組のハッシュ値が前記第2の組のハッシュ値よりも小さなサブセットを成すか否かを判定する手順が、前記第1のブルームフィルタと前記第2のブルームフィルタとを比較することを含むことを特徴とする請求項14に記載のシステム。 The program instructions are
Generating a first Bloom filter representing the first set of hash values corresponding to the first email document;
Generating a second Bloom filter representing the second set of hash values corresponding to the second email document;
The procedure can be performed on a computer,
The step of determining whether the first set of hash values forms a smaller subset than the second set of hash values compares the first Bloom filter and the second Bloom filter. The system according to claim 14, comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009074811A JP5731740B2 (en) | 2009-03-25 | 2009-03-25 | System and method for detecting e-mail content inclusion |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009074811A JP5731740B2 (en) | 2009-03-25 | 2009-03-25 | System and method for detecting e-mail content inclusion |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010231252A true JP2010231252A (en) | 2010-10-14 |
JP5731740B2 JP5731740B2 (en) | 2015-06-10 |
Family
ID=43047044
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009074811A Active JP5731740B2 (en) | 2009-03-25 | 2009-03-25 | System and method for detecting e-mail content inclusion |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5731740B2 (en) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005173889A (en) * | 2003-12-10 | 2005-06-30 | Intellectual Capital Group Kk | Device for generating deletion candidate feature information, reception information processor, deletion candidate determining device, method and program, and recording medium |
JP2005202590A (en) * | 2004-01-14 | 2005-07-28 | Kddi Corp | Mass mail detection method and mail server |
JP2007237395A (en) * | 2006-03-02 | 2007-09-20 | Canon Inc | Printer, information processor, method for controlling them, printing management system, and program |
JP2008102795A (en) * | 2006-10-19 | 2008-05-01 | Fuji Xerox Co Ltd | File management device, system, and program |
JP2008257444A (en) * | 2007-04-04 | 2008-10-23 | Nec Corp | Similar file management device, method therefor and program therefor |
-
2009
- 2009-03-25 JP JP2009074811A patent/JP5731740B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005173889A (en) * | 2003-12-10 | 2005-06-30 | Intellectual Capital Group Kk | Device for generating deletion candidate feature information, reception information processor, deletion candidate determining device, method and program, and recording medium |
JP2005202590A (en) * | 2004-01-14 | 2005-07-28 | Kddi Corp | Mass mail detection method and mail server |
JP2007237395A (en) * | 2006-03-02 | 2007-09-20 | Canon Inc | Printer, information processor, method for controlling them, printing management system, and program |
JP2008102795A (en) * | 2006-10-19 | 2008-05-01 | Fuji Xerox Co Ltd | File management device, system, and program |
JP2008257444A (en) * | 2007-04-04 | 2008-10-23 | Nec Corp | Similar file management device, method therefor and program therefor |
Also Published As
Publication number | Publication date |
---|---|
JP5731740B2 (en) | 2015-06-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8037145B2 (en) | System and method for detecting email content containment | |
US10223548B2 (en) | Scrubber to remove personally identifiable information | |
US20090319506A1 (en) | System and method for efficiently finding email similarity in an email repository | |
US9245007B2 (en) | Dynamically detecting near-duplicate documents | |
US9208450B1 (en) | Method and apparatus for template-based processing of electronic documents | |
US20090198677A1 (en) | Document Comparison Method And Apparatus | |
CN104509041A (en) | Forgotten attachment detection | |
US20120159628A1 (en) | Malware detection apparatus, malware detection method and computer program product thereof | |
TW201812634A (en) | Threat intelligence cloud | |
US9244910B2 (en) | Information processing apparatus, information processing method, and non-transitory computer readable medium | |
US20160188569A1 (en) | Generating a Table of Contents for Unformatted Text | |
JP2008257444A (en) | Similar file management device, method therefor and program therefor | |
WO2019118151A1 (en) | Split mapping for dynamic rendering and maintaining consistency of data processed by applications | |
US8275842B2 (en) | System and method for detecting content similarity within email documents by sparse subset hashing | |
CN101853260B (en) | System and method for detecting e-mail content | |
JP2019016335A (en) | Systems and methods for preventing data loss in computer system | |
US20090089383A1 (en) | System and method for detecting content similarity within emails documents employing selective truncation | |
US11755550B2 (en) | System and method for fingerprinting-based conversation threading | |
JP5731740B2 (en) | System and method for detecting e-mail content inclusion | |
JP6194180B2 (en) | Text mask device and text mask program | |
US9858413B1 (en) | Reduction of false positives in malware detection using file property analysis | |
US10438011B2 (en) | Information processing apparatus and non-transitory computer readable medium | |
US11537577B2 (en) | Method and system for document lineage tracking | |
US10776376B1 (en) | Systems and methods for displaying search results | |
EP2234349B1 (en) | System and method for detecting email content containment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20101102 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A821 Effective date: 20101109 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101109 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20101208 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120202 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130415 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20131119 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140318 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20140325 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20140418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150410 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5731740 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313111 Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
R371 | Transfer withdrawn |
Free format text: JAPANESE INTERMEDIATE CODE: R371 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 Free format text: JAPANESE INTERMEDIATE CODE: R313111 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |