JP2006065837A - 外向き通信が特定の内容を含む時を検出する方法およびシステム - Google Patents

外向き通信が特定の内容を含む時を検出する方法およびシステム Download PDF

Info

Publication number
JP2006065837A
JP2006065837A JP2005184987A JP2005184987A JP2006065837A JP 2006065837 A JP2006065837 A JP 2006065837A JP 2005184987 A JP2005184987 A JP 2005184987A JP 2005184987 A JP2005184987 A JP 2005184987A JP 2006065837 A JP2006065837 A JP 2006065837A
Authority
JP
Japan
Prior art keywords
document
sentence
keyword
computer
communication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005184987A
Other languages
English (en)
Other versions
JP4824352B2 (ja
Inventor
Benyu Zhang
チャン ベンユー
Hua-Jun Zeng
ツェン ホア−ジュン
Wei-Ying Ma
マ ウェイ−イン
Zheng Chen
チェン チョン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2006065837A publication Critical patent/JP2006065837A/ja
Application granted granted Critical
Publication of JP4824352B2 publication Critical patent/JP4824352B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Storage Device Security (AREA)
  • Facsimiles In General (AREA)

Abstract

【課題】 外向きの通信が秘密情報または他のターゲット情報を含むかどうかを検出する。
【解決手段】 外向きの通信が秘密情報または他のターゲット情報を含むかどうかを検出するための方法およびシステムを提供する。検出システムに、「秘密文書」(confidential documents)と呼ぶ、秘密情報を含む文書の集まりを与える。検出システムは、外向きの通信を与えると、外向きの通信の内容を秘密文書の内容と比較する。外向きの通信が秘密情報を含む場合、検出システムは、その外向きの通信が組織外に送られるのを妨げることができる。検出システムは、秘密情報の検出を、外向きの通信の内容と秘密情報を含むことが知られている秘密文書の内容の間の類似度に基づいて行う。
【選択図】 図1

Description

ここに記載する技術は、一般には、文書が類似の内容を有する時を検出することに関し、詳細には、外向き(outgoing)通信が特定の内容を含む時を検出することに関する。
多くの組織で、そのような企業それぞれの運営の成功に取って重要な、秘密の(confidential)、営業秘密の(trade secret)、財産権の対象となる(prorietary)、および他の情報が作られている。多くの場合に、組織がこの情報を組織外に開示しないようにすることは、非常に重要である。そのような情報が組織外に開示された場合、その情報は無価値になる可能性があり、または組織にとってかなりの損害になることになる。たとえば、メーカ企業では、ある製品の次期バージョンに組み込む機能のリストを作っている可能性がある。競争相手がその機能のリストを次のバージョンがリリースされる前に確認した場合、競争相手は、その情報を自分たちの競争に有利なように使用できる恐れがある。別の例として、組織では、組織の何らかの規則に違反した従業員に対して、内部的な懲罰処置を取る必要があることがある。違反が公になった場合、それはその組織にとって対外的な問題(public relation problem)になる可能性がある。秘密の情報が不適切に開示されてしまうことがないように、多くの組織で、そのような開示が起きないようにするための広範囲な措置が実施されている。たとえば、一部の企業では、従業員とともにトレーニングセッションを実施して、従業員が営業秘密の秘密性を維持することの重要性を理解し、従業員が営業秘密を含む文書をすべて「秘密」(confidential)などの表示を付けることを知っているようにさせている。
電子的な通信により、組織の従業員は効率よく生産的に通信できるようになったが、また、電子的な通信により、秘密情報が組織外に容易に、急速に拡がる可能性も生じた。たとえば、設計チームのリーダーが、ある製品の次期バージョンの新機能を箇条書きにした電子メールメッセージをチームのメンバーに送った場合、チームのメンバーはだれもが、そのメッセージをその企業の他の従業員に、または競争相手の従業員にさえ、転送することができる。そのように秘密情報を競争相手の従業員に配布することは、不慮のこともあり故意のこともある。たとえば、ある従業員が、新機能を箇条書きにした電子メールメッセージを、その企業のマーケティングチームのメンバー7人に送ろうとしたとする。その従業員は、その電子メールメッセージを転送するときに、意図した受信者の部分的な名前を入力する可能性がある。しかし、意図した受信者が、競争相手の従業員に似た名前をもっていた場合、電子メールプログラムでは、その部分的な名前が競争相手の従業員の電子メールアドレスへと解決(resolve)されるかもしれない。開示が不慮の場合でさえ、企業はそれでも深刻な損害を受けるのである。従業員が、故意に、秘密情報を伴う電子メールメッセージを、そのような情報を受け取ることが認可されていない誰かに転送するときには、それはさらに問題となる。そのような場合、従業員は、情報の秘密としての性質を、たとえば、秘密性の告知(notification)(たとえば、「この文書にはThe Acme Companyの秘密、財産権の対象、および営業秘密となる情報が含まれています。」)をその電子メールメッセージから取り除くことによって、隠そうと試みるかもしれない。しかも、秘密情報の認可されていない開示は、電子メールメッセージに限らない。認可されていない開示は、電子的な通信の他の形を取ることができる。たとえば、従業員は、秘密情報の開示を、インターネットのNewsおよびディスカッショングループ、インスタントメッセージングシステム、電子メールメッセージへの添付(attachments)、プレスリリース、電子的プレゼンテーション、パブリッシュされる論文などによって行う可能性がある。
一部の電子メールシステムには、電子メールメッセージが不適切な内容を含まないようにするための、電子メールメッセージのフィルタリングを可能にする機能がある。たとえば、そのようなシステムでは、外向きのメッセージに対して、「proprietary」(財産権の対象となる)、「confidential」(秘密の)、または「trade secret」(営業秘密の)という単語などの秘密情報の表示があるかどうかのスキャンを行うことができる。あるメッセージ中にそのような単語が見つかった場合、システムは、そのメッセージの送信を禁止することができる。しかし、秘密情報を含む電子メールメッセージがすべてそのような単語を含むわけではない。たとえば、設計チームの従業員は、電子メールメッセージを互いに頻繁に送って、新しい着想についての非公式なフィードバックを得るかもしれない。そのような場合、電子メールメッセージは、通常、秘密性の告知を含んではいない。さらに、秘密情報を故意に競争相手へと送ろうとする従業員は、そのようなシステムによる検出を、そのような単語をメッセージから転送前に取り除くことによって、容易に回避することが可能である。
電子メールメッセージ中の、またより一般にどのような外向きの通信(たとえば、パブリッシュ(publication)、newsグループへの投稿(posting)、および電子メールへの添付)の中の秘密情報の存在を、確実に検出できるようなシステムがあることが望ましいと言える。電子メールメッセージの場合、そのようなシステムでは、ある従業員が、オリジナルの電子メールメッセージをどのような変更もなしに単に転送する、オリジナルの電子メールメッセージの部分を新しい電子メールメッセージの中へとカットアンドペーストする、オリジナルの電子メールメッセージの部分にコメントを追加して転送する、オリジナルの電子メールメッセージの内容を変更するなどすると検出が可能であるべきである。しかも、1つの組織で生成される可能性のある電子メールメッセージの量を考えると、そのようなシステムでは、電子メールメッセージ中のそのような秘密情報の検出を、送付を顕著に遅延させることなく、そのような検出のサポートのための追加のハードウェアおよびソフトウェアへの顕著な投資を必要とせずに、迅速に行えることが望ましいと言える。
いくつかの文献に上述のような従来の技術に関連した技術内容が開示されている(例えば、非特許文献1参照)。
DUMAIS、SUSAN他、"Inductive Learning Algorithms and Representations for Text Categorization."、Proceeding of the Seventh Int'l Conference on information and Knowledge Management、p.148-155、November 02-07、1998、Bethesda、Md(8pages)
従来のシステムには上述したような種々の問題があり、さらなる改善が望まれている。
本発明は、このような状況に鑑みてなされたもので、その目的とするところは、外向きの通信が秘密情報または他のターゲット情報を含むかどうかを検出する、外向き通信が特定の内容を含む時を検出する方法およびシステムを提供することにある。
ある通信が、ターゲット文書の内容に類似の内容を含むかどうかを識別するためのコンピュータベースの方法およびシステムを提供する。
システムでは、候補文書を、ある通信のキーワードに類似のキーワードを含むターゲット文書として識別する。次いで、システムは、候補文書をその通信と比較して、その通信が候補文書に類似の内容を含むかどうかを判定する。その通信が、候補文書に類似の内容を含む電子メールメッセージなどの外向きの通信であるとき、システムは、その外向きの通信の送付を抑制することができる。
以下、図面を参照して本発明を適用できる実施形態を詳細に説明する。
外向きの通信が秘密情報または他のターゲット情報を含むかどうかを検出するための方法およびシステムを提供する。一実施形態では、検出システムに、「秘密文書」(confidential documents)と呼ぶ、秘密情報を含む文書の集まりを与える。たとえば、外向きの通信が電子メールメッセージであるときには、秘密文書は、それまでに送られた、秘密情報を含む電子メールメッセージとすることができる。検出システムは、外向きの通信を与えると、外向きの通信の内容を秘密文書の内容と比較する。その比較から、外向きの通信が秘密情報を含むことが示された場合、検出システムは、その外向きの通信が組織外に送られるのを妨げることができる。たとえば、検出システムは、ある組織の内部の電子メールユーザと外部の電子メールユーザの間の電子メールゲートウェイとして実装することができる。このようにして、検出システムは、秘密情報の検出を、外向きの通信の内容と秘密情報を含むことが知られている秘密文書の内容の間の類似度に基づいて行い、容易に取り除くことの可能な秘密性の告知を利用する必要はない。
ある組織の従業員は、数十万通の電子メールメッセージを組織外に毎日送る可能性があり、組織は数千点の秘密文書を有する可能性がある以上、外向きの通信それぞれの文それぞれを秘密文書それぞれの文それぞれと単に比較するのは実際的でない可能性がある。実際、比較の計算の複雑さは、Nを秘密文書の数、Mを外向きの通信の数として、O(N×M)である。一実施形態では、検出システムは、秘密文書の整理を様々な補助的なデータ構造を用いて行って、外向きの通信の中の秘密情報を素早く識別できるようにしている。検出システムは、秘密文書のキーワードを、そのキーワードを含む秘密文書へとマッピングするインデックスを生成することができる。たとえば、いくつかの秘密文書が、「new product release」(新製品のリリース)というフレーズを含んでいる可能性がある。そのような場合には、「new」、「product」、および「release」というキーワードを、その秘密文書のそれぞれにマッピングすることができる。検出システムは、外向きの通信を受け取ると、外向きの通信のキーワードの識別を行う。次いで、検出システムは、キーワードインデックスを使用して、どの秘密文書が類似のキーワードを含んでいるかを識別することが可能である。たとえば、検出システムは、かなりの数のキーワードを外向きの通信と共通に有する秘密文書を選択することができる。次いで、検出システムは、外向きの通信の内容を、「候補文書」とも呼ぶ、識別した秘密文書と比較して、外向きの通信が実際に秘密情報を含んでいるかどうかを判定する。たとえば、外向きの通信が、「new」、「product」、および「release」というキーワードを含んでいるが、各キーワードは異なる文の中で使用されている場合、検出システムは、「new product release」というフレーズを含むいくつかの秘密文書を識別することができる。しかし、検出システムでは、外向きの通信の内容を候補文書の実際の内容と比較すると、類似性は検出されず、したがってその外向きの通信の送信は許されることになる。検出システムは、文書内部でキーワードを識別する様々な技法を使用することができる。たとえば、検出システムでは、TF*IDF(term frequency by inverse document frequency、検索語頻度と逆ドキュメント頻度の積)尺度をキーワードの識別のために使用することができる。他の尺度も使用できることが、当業者には理解されよう。たとえば、検出システムは、ある文書中のある単語が与えられたときその強調(たとえば、フォントの大きさ、フォントの太さ(font weight)、および下線)、ある文書のメタデータ(たとえば、キーワード属性、要約属性、およびタイトル属性)、などを考えに入れることができる。検出システムは、キーワードインデックスを使用することにより、秘密文書を、効率的に、さらに比較を行うための1組の候補文書に絞ることが可能である。
一実施形態では、検出システムは、どの候補文書が外向きの通信に類似しているかを識別する手助けとして、ハッシュテーブルなどの補助的なデータ構造を使用することができる。検出システムは、文ごとに導出したハッシュコードを、それらの文を含む秘密文書へとマッピングする文ハッシュテーブルを生成することができる。検出システムでは、文ハッシュテーブルの生成は、文ごとにハッシュコードを生成するためのハッシュ関数を秘密文書の文それぞれに適用することによって行う。次いで、検出システムは、ハッシュコードの、秘密文書の範囲内の対応する文へのマッピングを保存する。検出システムは、外向きの通信に関する候補文書の識別後に、外向きの通信の文に対するハッシュコードを生成する。検出システムは、生成されたハッシュコードを使用して、どの候補文書が、ハッシュコードが同じ文を含むかを識別する。次いで、検出システムは、識別した文を、外向きの通信の対応する文と比較して、それらがマッチする(すなわち、厳密にマッチするか、または類似している)かどうかを判定する。マッチングの程度(たとえば、外向きの通信の文が秘密文書の文とマッチした回数)に応じて、検出システムは、その外向きの通信が秘密情報を含むものとしてフラグを立てることができる。外向きの通信のプロセスを速めるために、検出システムは、秘密文書および外向きの通信の「キー文」だけを分析することができる。キー文は、たとえば、パラグラフの見出しの文(topic sentence)に対応するものとすることができる。
一実施形態では、検出システムは、どの候補文書が外向きの通信に類似しているかを識別する手助けとして、キーワード−文インデックスなどの別の補助的なデータ構造を使用することができる。検出システムは、秘密文書のキーワードを、それらのキーワードを含む秘密文書の内部の文にマッピングするキーワード−文インデックスを生成することができる。検出システムは、候補文書の識別後に、キーワード−文インデックスを使用して、外向きの通信の文それぞれと候補文書の文それぞれの間の類似度を計算することができる。検出システムは、コサイン類似度(cosine similarity)や編集距離(edit distance)などの様々な類似度尺度のどのようなものも使用することができる。類似度の程度(たとえば、外向きの通信の文に類似の秘密文書の文の数)に応じて、検出システムは、その外向きの通信が秘密情報を含むものとしてフラグを立てることができる。
一実施形態では、検出システムの分析が、あらゆる文に対して行われるのではなく、秘密文書および外向きの通信の「キー文」に基づいている。「キー文」とは、ある秘密文書、または、ある秘密文書の内部のあるパラグラフのキーとなる観念を表す文である。検出システムは、ある文書のキー文を様々な仕方で識別することができる。検出システムは、あるパラグラフの各文の、そのパラグラフに対する類似度を計算することができる。パラグラフに対して最も類似度の高い文を、パラグラフの秘密情報を代表し、したがってパラグラフの最も重要な文である、そのパラグラフのキー文と考えることができる。類似度の計算のために、検出システムは、パラグラフおよび各文を、そのキーワードで表すことができる。次いで、検出システムは、各文のキーワードの、パラグラフのキーワードに対する類似度を計算する。検出システムは、最も類似度の高い文を、キー文として選択する。あるいは、検出システムは、キー文の識別を、文のパラグラフに対する重要度を計算するための、TF*ISF(term frequency by inverse sentence frequency)尺度を用いて行うことができる。ISF(inverse sentence frequency)は、IDF(inverse document frequency、逆ドキュメント頻度)と同様に、文書内の文の数を、その語を含む文の数で割ったものを反映している。検出システムは、ある単語のある文に対する重要度の計算を、その文の内部のその単語の生起の数に、その文の、文の頻度の逆数を掛けることによって行う。次いで、検出システムは、各文の重要度を、その文の内部の単語の重要度の平均値に設定する。検出システムは、最も重要度が高い文を、キー文として選択する。キー文を、パラグラフ1つずつでではなく、重要度全体またはある文の文書に対する類似度から導出することが可能であることが、当業者には理解されよう。
一実施形態では、検出システムは、文書の秘密文書の集まり(collection)への追加を、様々な手法で行うことができる。検出システムは、管理者が秘密文書を集まりへと提出できるユーザインタフェースを提供することができる。さらに、検出システムは、文書のコーパスを分析し、どの文書に秘密性の告知(notice)があるかを検出することの可能なサブシステムを有することができる。たとえば、目安(indication)を、文書のフッタ(footer)またはヘッダ内の「confidential」(秘密の)という単語とすることができる。
この検出システムを使用すると、電子メールシステムを介して送られる秘密情報を検出するほかに、様々な環境で類似の内容を検出できることが、当業者には理解されよう。この検出システムを使用すると、類似の内容の検出を、newsおよびディスカッショングループへの投稿、インスタントメッセージ、電子メールへの添付、プレスリリース、電子的プレゼンテーション、パブリッシュされる論文、音声通信システムの配信するメッセージ、Webページなど、どのようなタイプの内向きおよび外向きの通信においても行うことができる。Webベースのディスカッショングループへの投稿の場合には、検出システムをWebブラウザと統合することができる。また、この検出システムは、通信の内容を適切に復号および暗号化するように実装することができる。また、この検出システムは、どのようなタイプのターゲット情報の識別にも使用することが可能であり、電子メールメッセージの秘密情報に限定されるものではない。ターゲット情報を使用すると、どのようなタイプの電子メールメッセージを従業員が送っているかが監視できるはずである。たとえば、このターゲット情報を、スケジュールを行うためのメッセージ、個人的なメッセージ、問題を報告するメッセージ、ヘルプ用メッセージなど、従業員の送る典型的なメッセージに相当するテンプレートの電子メールメッセージの集まりとすることができる。この検出システムを使用すると、アクセスされたWebページが望ましくない内容を含むかどうかを検出することが可能である。
図1は、一実施形態における検出システムのコンポーネントを示す構成図である。検出システム100は、文書ストアデータ構造101〜103、「データ構造を初期化する」コンポーネント111〜113、および検出コンポーネント121〜124を含む。文書ストアデータ構造は、秘密文書ストア101、キーワードインデックス102、および文ハッシュテーブル103を含む。検出システムは、秘密文書を、秘密文書ストアに入れる前に処理することができる。たとえば、電子メールメッセージの場合、検出システムは、From:、To:、およびSubject:情報を取り除き、内容から挨拶および結びの部分を取り除くことができる。また、検出システムは、残りの内容の正規化(normalize)を、大文字を使用しない、単語の内部の非英数字キャラクタを調整する(たとえば、「n*w d*sign」)など、様々な手法で行い、秘密情報を不明瞭にしようとする送信者の試みに対抗する他の調整を行うことができる。キーワードインデックスは、秘密文書のキーワードを、それらのキーワードを含む秘密文書へとマッピングする。一実施形態では、キーワードインデックスは、また、キーワードを含む秘密文書それぞれの内部で文を識別することができる。あるいは、文書ストアデータ構造は、キーワードを、それらのキーワードを含む秘密文書のキー文へとマッピングする、キーワード/キー文インデックスを含む。文ハッシュテーブルは、文(たとえば、キー文)のハッシュコードを、それらの文を含む秘密文書へとマッピングする。「データ構造を初期化する」コンポーネントは、「キーワードインデックスを作成する」コンポーネント111、「文ハッシュテーブルを作成する」コンポーネント112、および「キー文を識別する」コンポーネント113を含む。「キーワードインデックスを作成する」コンポーネントは、秘密文書ストアの文書に対してキーワードインデックスを作成する。「キーワードインデックスを作成する」コンポーネントは、キーワードの識別を、TF*IDF尺度に基づいて行うことができる。「文ハッシュテーブルを作成する」コンポーネントは、文ハッシュテーブルを初期化して、キー文に関するハッシュコードを秘密文書の内部の文にマッピングする。「文ハッシュテーブルを作成する」コンポーネントは、「キー文を識別する」コンポーネントを呼び出して、キー文を識別する。検出コンポーネントは、「マッチングを検出する」コンポーネント121を含み、これが、「候補文書を選択する」コンポーネント122、「厳密なマッチングをカウントする」コンポーネント123、および「ファジーなマッチングをカウントする」コンポーネント124を呼び出す。「マッチングを検出する」コンポーネントは、まず、「候補文書を選択する」コンポーネントを呼び出して、外向きの通信に類似している可能性のある候補文書を識別する。次いで、「マッチングを検出する」コンポーネントは、「厳密なマッチングをカウントする」を呼び出して、候補文書の文が外向きの通信の文とマッチするかどうかを判定する。そうである場合、マッチングの程度に応じて、「マッチングを見つける」コンポーネントは、外向きの通信が秘密情報を含んでいることを示す。厳密なマッチングの程度が秘密情報を示すには不十分である場合、「マッチングを検出する」コンポーネントは、「ファジーなマッチングをカウントする」コンポーネントを呼び出して、外向きの通信の文が候補文書の文に類似している(たとえば、厳密なマッチングではなく、ファジーなマッチング)かどうかを識別する。そうである場合、類似度の程度に応じて、「マッチングを検出する」コンポーネントは、外向きの通信が秘密情報を含んでいることを示す。検出システムの実装では、「マッチングを検出する」コンポーネントの様々な組み合わせを使用することが可能であることが、当業者には理解されよう。たとえば、検出システムは、「候補文書を選択する」コンポーネントおよび「ファジーなマッチングをカウントする」コンポーネントを使用し、「厳密なマッチングをカウントする」コンポーネントを使用しないようにすることができる。また、検出システムは、適切な動作を取る(たとえば、セキュリティ要員に通知し、外向きの通信の送信を抑制する)ことが可能なように、マッチングの程度の評価(たとえば、極めてありそうである(extreme likely)、かなりありそうである(highly likely)、ありそうである(likely)、およびありそうにない(unlikely))を提供することができる。外向きの通信を、定義する1組の受信者の外部に送られるどのような通信にも対応させられることが、当業者には理解されよう。また、検出システムは、ターゲット情報を、異なる懸念のレベル(たとえば、極めて秘密性のある(extremely confidential)、かなり秘密性のある(highly confidential)、および秘密性のある(confidential))へと分離することができる。検出システムは、懸念のレベルの異なる通信を受け取ることが認可されている受信者の異なる組を定義することができる。
検出システムを実装するコンピューティング装置は、中央処理装置、メモリ、入力装置(たとえば、キーボードおよびポインティングデバイス)、出力装置(たとえば、ディスプレイ装置)、およびストレージ装置(たとえば、ディスク装置)を含むことができる。メモリおよびストレージ装置は、検出システムを実装する命令を含むことのできるコンピュータ可読媒体である。さらに、データ構造およびメッセージ構造は、保存し、通信リンク上の信号などのデータ伝送媒体を介して送信することができる。インターネット、LAN(local area network、構内通信網)、WAN(wide area network、広域通信網)、ポイントツーポイントのダイアルアップ接続など、様々な通信リンクを使用することができる。
検出システムの実装は、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルド装置またはラップトップ装置、マルチプロセッサシステム、マイクロプロセッサベースのシステム、プログラム可能な家電製品(consumer electronics)、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ、上のシステムまたは装置のどのようなものも含む分散コンピューティング環境などを含む、様々な動作環境で行うことができる。
検出システムは、1つまたは複数のコンピュータまたは他の装置の実行する、プログラムモジュールなどのコンピュータ実行可能命令の一般的な状況で説明することができる。一般に、プログラムモジュールは、特定のタスクを実現しまたは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造を含む。通常、プログラムモジュールの機能は、様々な実施形態で、希望通りに組み合わせまたは分散させることができる。
図2は、一実施形態における図1の検出システムのデータ構造を示す構成図である。キーワードインデックス201および文ハッシュテーブル211は、キーワードおよび文を、秘密文書ストア(すなわち、ターゲット情報ストア)の秘密文書250へとマッピングする。1つのキーワードインデックスは、秘密文書のキーワードごとの1つのエントリ202を含んでいる。各エントリは、そのキーワードを含む文書ごとにサブエントリ203を含む。一実施形態では、キーワードインデックスは、また、キーワードをそのキーワードを含む秘密文書のキー文にマッピングする補助的なデータ構造を含むことができる。文ハッシュテーブルは、文ハッシュコードごとにエントリ212を含む。各エントリは、その文ハッシュコードに対応する文書の内部の特定の文にマッピングされるサブエントリ213を含むことができる。たとえば、2つの秘密文書が同じキー文を含む場合、これら2つの文に対する文ハッシュコードは同じになるはずである。さらに、ハッシュ関数は、2つの異なる文を同じハッシュコードへとマッピングすることができる。したがって、サブエントリは、一連の衝突しているハッシュコードを表している。キーワードインデックスおよび文ハッシュコードの実装は、配列、2分木、リンクリスト、ハッシュテーブルなどの様々なデータ構造の技法を用いて行うことができ、ここに示したデータ構造は、検出システムのデータの1つの可能な論理的な編成を表すものであることが、当業者には理解されよう。
図3は、一実施形態における「キーワードインデックスを作成する」コンポーネントの処理を示す流れ図である。このコンポーネントは、IDF尺度を、秘密文書の単語ごとに生成し、次いで、各単語の、その文書に対する重要度の計算を、TF*IDF尺度を用いて行う。次いで、このコンポーネントは、各文書の最も重要な単語をその文書のキーワードとして選択し、キーワードごとの対応するエントリをキーワードインデックスに追加する。ブロック301で、このコンポーネントは、各文書内の各単語の数を示す文書×単語の行列(document−by−word matrix)を作成する。このコンポーネントでは、IDFおよびTF(term frequency、検索語頻度)を、この行列から導出する。ブロック302〜304で、このコンポーネントは秘密文書の内部の単語ごとのIDFを計算しながら、ループする。このコンポーネントでは、文書中のストップ語(stop word)(たとえば、「and」、「the」、および「a」)を無視することができる。ブロック302で、このコンポーネントは、秘密文書の次の単語を選択する。判定ブロック303で、秘密文書の単語をすべて、すでに選択していた場合は、このコンポーネントは、ブロック305へと続き、そうでない場合は、このコンポーネントはブロック304へと続く。ブロック304で、このコンポーネントは、選択した単語に対するIDFを秘密文書の数を、選択した単語を含む秘密文書の数で割ったものの対数として計算する。次いで、このコンポーネントは、ブロック302へとループして、秘密文書の次の単語を選択する。ブロック305〜311で、このコンポーネントは、文書それぞれを選択し、その文書の内部の各単語の、文書に対する重要度を計算しながらループする。ブロック305で、このコンポーネントは、次の秘密文書を選択する。判定ブロック306で、秘密文書をすべて、すでに選択していた場合は、このコンポーネントは完了し、そうでない場合は、このコンポーネントはブロック307へと続く。ブロック307で、このコンポーネントは、選択した秘密文書の次の単語を選択する。判定ブロック308で、選択した秘密文書の単語をすべて、すでに選択していた場合は、このコンポーネントは、ブロック305へとループして、次の秘密文書を選択し、そうでない場合は、このコンポーネントはブロック309へと続く。ブロック309で、このコンポーネントは、選択した単語の、選択した秘密文書に対する重要度を、選択した単語に関する、TF(すなわち、選択した秘密文書の内部の選択した単語の生起の数)*IDFの積として計算する。ある単語のある文書に対する重要度の計算は、異なる多くの手法で行うことが可能であることが、当業者には理解されよう。たとえば、TF*IDF尺度を、1つの文書の内部の単語の総数を説明する(account for)ように正規化することができる。判定ブロック310で、重要度がしきい値の重要度より大きい場合は、このコンポーネントはブロック311へと続き、そうでない場合は、このコンポーネントはブロック307へと続いて、選択した文書の次の単語を選択する。ブロック311で、このコンポーネントは、選択した単語を選択した文書へとマッピングするキーワードインデックスにエントリを1つ追加する。また、このエントリは、ある秘密文書のある文がある外向きの通信のある文に類似しているかどうかを判定するときに使用する計算した重要度を含むこともできる。次いで、このコンポーネントは、ブロック307へとループして、選択した秘密文書の次のキーワードを選択する。
図4は、一実施形態における「文ハッシュテーブルを作成する」コンポーネントの処理を示す流れ図である。このコンポーネントは、秘密文書のキー文ごとに、文ハッシュテーブルにエントリ1つを追加する。ブロック401で、このコンポーネントは、次の秘密文書を選択する。判定ブロック402で、秘密文書をすべて、すでに選択していた場合は、このコンポーネントは戻り、そうでない場合は、ブロック403へと続く。ブロック403で、このコンポーネントは、選択した文書の次のパラグラフを選択する。判定ブロック404で、選択した文書のパラグラフをすべて、すでに選択していた場合は、このコンポーネントはブロック401へとループして、次の秘密文書を選択し、そうでない場合は、このコンポーネントはブロック405へと続く。ブロック405で、このコンポーネントは、「キー文を識別する」コンポーネントを、選択したパラグラフを渡して呼び出す。呼び出したコンポーネントは、渡したパラグラフのキー文の標示を返す。ブロック406で、このコンポーネントは、ハッシュ関数を呼び出してそのキー文に対するハッシュコードを生成し、次いで、識別したキー文に対する文ハッシュテーブルにエントリ1つを追加する。ハッシュを行う様々な関数を使用することが可能であることが、当業者には理解されよう。たとえば、あるハッシュ関数では、ハッシュコードを、ある文の各キーワードの最初の文字(letter)から生成することもできる。次いで、このコンポーネントは、ブロック403へとループして、選択した文書の次のパラグラフを選択する。キー文の導出を、パラグラフ1つずつでではなく、キー文の、資格のある(entitled)文書に対する類似度に基づいて行えることが、当業者には理解されよう。
図5は、一実施形態における、文のキーワードの、パラグラフのキーワードに対する類似度に基づく「キーとなる文を識別する」コンポーネントの処理を示す流れ図である。このコンポーネントは、各文のキーワードとパラグラフのキーワードの間の類似度を計算する。次いで、このコンポーネントは、キーワードが最もパラグラフのキーワードに類似している文を、そのパラグラフのキー文として選択する。ブロック501で、このコンポーネントは、パラグラフの内部の各キーワードの生起の数をリストするキーワード配列を作成する。ブロック502で、このコンポーネントは、パラグラフの各文の内部の各キーワードの生起の数を示す文×キーワードの行列(sentence−by−keyword matrix)を作成する。ブロック503〜505で、このコンポーネントは、各文のパラグラフに対する類似度を計算しながら、ループする。ブロック503で、このコンポーネントは、パラグラフの次の文を選択する。判定ブロック504で、文をすべて、すでに選択していた場合は、このコンポーネントはブロック506へと続き、そうでない場合は、このコンポーネントはブロック505へと続く。ブロック505で、このコンポーネントは、選択した文のパラグラフに対する類似度を計算する。一実施形態では、このコンポーネントは、類似度を、行列と配列の示している、選択した文とパラグラフの間で共通のキーワードの重要度の積の和として計算することができる。次いで、このコンポーネントは、ブロック503へとループして、パラグラフの次の文を選択する。ブロック506で、このコンポーネントは、パラグラフに対する類似度が最大の文を選択する。次いで、このコンポーネントは戻る。一実施形態では、このコンポーネントは、1つのパラグラフの複数のキー文を識別することができる。このコンポーネントは、第1のキー文を識別した後、パラグラフのキーワードからそのキー文のキーワードを取り除き、残りの文に関する類似度の計算を繰り返し、次いで、それらの類似度のうちで最大のものを有する文を、また別のキー文として選択することができる。このコンポーネントは、この処理を、所望の数のキー文を識別するまで繰り返すことができる。
図6は、一実施形態における、ISF(inverse sentence frequency)に基づく「キー文を識別する」コンポーネントの処理を示す流れ図である。図5および図6は、したがって、キー文を識別する代替手法に相当している。キー文の識別には、どちらかの手法、または手法の組み合わせを使用できるはずであることが、当業者には理解されよう。このコンポーネントは、各キーワードのISFを計算する。次いで、このコンポーネントは、TF*ISF(term frequency by inverse sentence frequency)尺度などの重要度を、文それぞれの単語それぞれに対して計算する。次いで、このコンポーネントは、文の重要度を、文のキーワードの重要度の和をとることによって計算する。最も重要度の高い文を、パラグラフのキー文と考える。ブロック601で、このコンポーネントは、文×キーワードの行列を作成する。ブロック602〜604で、このコンポーネントは、パラグラフのキーワードを選択し、そのISFを計算しながら、ループする。ブロック602で、このコンポーネントは、パラグラフの次のキーワードを選択する。判定ブロック603で、パラグラフのキーワードをすべて、すでに選択していた場合は、このコンポーネントはブロック605へと続き、そうでない場合は、このコンポーネントはブロック604へと続く。ブロック604で、このコンポーネントは、選択したキーワードに関するISFを、パラグラフの内部の文の数を、選択したキーワードを含むパラグラフの内部の文の数で割ったものの対数として計算する。ブロック605〜610で、このコンポーネントは、文それぞれのパラグラフに対する重要度を計算しながら、ループする。ブロック605で、このコンポーネントは、パラグラフの次の文を選択する。判定ブロック606で、文をすべて、すでに選択していた場合は、このコンポーネントはブロック611へと続き、そうでない場合は、このコンポーネントはブロック607へと続く。ブロック607で、このコンポーネントは、選択した文の次のキーワードを選択する。判定ブロック608で、選択した文のキーワードをすべて、すでに選択していた場合は、このコンポーネントはブロック610へと続き、そうでない場合は、このコンポーネントはブロック609へと続く。ブロック609で、このコンポーネントは、選択したキーワードの、選択した文に対する重要度を、その文の内部のキーワードの生起の数×その文の、ISFとして計算する。次いで、このコンポーネントは、ブロック607へとループして、選択した文の次のキーワードを選択する。ブロック610で、このコンポーネントは、選択した文のパラグラフに対する重要度を、選択した文のキーワードの重要度を選択した文内のキーワードの数で割ったものの和を取ることによって計算する(すなわち、平均のキーワード重要度)。次いで、このコンポーネントは、ブロック605へとループして、次の文を選択する。ブロック611で、このコンポーネントは、最も重要度が高い文をキー文として選択して、次いで、戻る。
図7は、一実施形態における「マッチングを検出する」コンポーネントの処理を示す流れ図である。ブロック701で、このコンポーネントは、「候補文書を選択する」コンポーネントを呼び出して、あるマッチングに対する候補文書を識別する。ブロック702で、このコンポーネントは、「厳密なマッチングをカウントする」コンポーネントを呼び出して、外向きの通信の文と秘密文書の文の間の厳密なマッチングの程度を識別する。判定ブロック703で、厳密なマッチングの程度が、あるしきい値を超えた場合は、このコンポーネントは厳密なマッチングを検出したという標示を返し、そうでない場合は、このコンポーネントはブロック704へと続く。ブロック704で、このコンポーネントは、「ファジーなマッチングをカウントする」コンポーネントを呼び出して、秘密文書の文と外向きの通信の文の間のファジーなマッチングの程度を識別する。判定ブロック705で、ファジーなマッチングの程度が、あるしきい値を超えた場合は、このコンポーネントはファジーなマッチングが見つかったという標示を返し、そうでない場合は、このコンポーネントはマッチングが見つからなかったという標示を返す。
図8は、一実施形態における「候補文書を選択する」コンポーネントの処理を示す流れ図である。このコンポーネントは、外向きの通信のキーワードを識別し、次いで、類似のキーワードを有する文書を、候補文書として識別する。ブロック801で、このコンポーネントは、外向きの通信の単語の単語配列を作成する。ブロック802〜804で、このコンポーネントは、外向きの通信の単語の重要度を計算しながら、ループする。ブロック802で、このコンポーネントは、外向きの通信の次の単語を選択する。判定ブロック803で、外向きの通信の単語をすべて、すでに選択していた場合は、このコンポーネントはブロック805へと続き、そうでない場合は、このコンポーネントはブロック804へと続く。ブロック804で、このコンポーネントは、選択した単語の重要度を、TF*IDF尺度を用いて計算し、ブロック802へとループして、次の単語を選択する。このIDFは、秘密文書の内部のIDFを表すことができる。ブロック805〜809で、このコンポーネントは、秘密文書をそれぞれ選択し、その秘密文書の外向きの通信に対する類似度を計算しながら、ループする。ブロック805で、このコンポーネントは、次の秘密文書を選択する。判定ブロック806で、秘密文書をすべて、すでに選択していた場合は、このコンポーネントは完了し、そうでない場合は、ブロック807へと続く。ブロック807で、このコンポーネントは、選択した秘密文書の、外向きの通信に対する類似度を、秘密文書と外向きの通信の間で共通なキーワードの重要度の積の和を取ることによって計算する。判定ブロック808で、類似度がしきい値の類似度を超えた場合、このコンポーネントはブロック809へと続き、そうでない場合、このコンポーネントはブロック805へとループして、次の秘密文書を選択する。ブロック809で、このコンポーネントは、選択した文書を候補文書として選択し、次いで、ブロック805へとループして、次の秘密文書を選択する。
図9は、一実施形態における「厳密なマッチングをカウントする」コンポーネントの処理を示す流れ図である。このコンポーネントは、外向きの通信の文が候補文書の内部の文にマッチする回数をカウントする。ブロック901で、このコンポーネントは、外向きの通信の次のパラグラフを選択する。ブロック902で、パラグラフをすべて、すでに選択していた場合は、このコンポーネントは戻り、そうでない場合は、このコンポーネントはブロック903へと続く。ブロック903で、このコンポーネントは、「キー文を識別する」コンポーネントを呼び出して、選択したパラグラフのキー文を識別する。ブロック904で、このコンポーネントは、ハッシュ関数を呼び出し、キー文に対するハッシュコードを生成する。次いで、このコンポーネントは、文ハッシュテーブルのハッシュ関数の値を経て参照されるエントリ(hashed−to entry)の各サブエントリを検査して、キー文が候補文書の文とマッチするかどうかを判定する。このコンポーネントは、ハッシュ関数の値を経て参照される文(hashed−to sentence)それぞれに対して、単語1つずつの検査を行うことができる。判定ブロック905で、マッチングが見つかっていた場合は、このコンポーネントはブロック906へと続き、そうでない場合は、このコンポーネントはブロック901へとループして、外向きの通信の次のパラグラフを選択する。ブロック906で、このコンポーネントは、外向きの通信に関するマッチングカウントを、見つかったマッチングの数だけインクリメントする。次いで、このコンポーネントは、ブロック901へとループして、外向きの通信の次のパラグラフを選択する。
図10は、一実施形態における「ファジーなマッチングをカウントする」コンポーネントの処理を示す流れ図である。ブロック1001で、このコンポーネントは、外向きの通信の次のパラグラフを選択する。判定ブロック1002で、パラグラフをすべて、すでに選択していた場合は、このコンポーネントは戻り、そうでない場合は、ブロック1003へと続く。ブロック1003で、このコンポーネントは、次の候補文書を選択する。判定ブロック1004で、候補文書をすべて、すでに選択していた場合は、このコンポーネントはブロック1001へとループして、外向きの通信の次のパラグラフを選択し、そうでない場合は、ブロック1005へと続く。ブロック1005で、選択した候補文書の次のキー文を選択する。ブロック1006で、このコンポーネントは、選択した文の間のコサイン類似度(cosine similarity)または編集距離(edit distance)を計算する。判定ブロック1007で、この類似度または距離があるしきい値を超えた場合は、このコンポーネントはブロック1008へと続き、そうでない場合は、ブロック1003へとループして、次の候補文書を選択する。ブロック1008で、このコンポーネントは、外向きの通信に関する類似度カウントをインクリメントし、次いで、ブロック1003へとループして、次の候補文書を選択する。
本明細書では、例示の目的で、検出システムの特定の実施形態を説明してきたが、様々な変更を、本発明の趣旨および範囲から逸脱することなく行えることが、当業者には理解されよう。したがって、添付の特許請求の範囲による場合を除き、本発明は制限を受けない。
一実施形態における検出システムのコンポーネントを示す構成図である。 一実施形態における図1の検出システムのデータ構造を示す構成図である。 一実施形態における「キーワードインデックスを作成する」コンポーネントの処理を示す流れ図である。 一実施形態における「文ハッシュテーブルを作成する」コンポーネントの処理を示す流れ図である。 一実施形態における、文のキーワードの、パラグラフのキーワードに対する類似度に基づく「キーとなる文を識別する」コンポーネントの処理を示す流れ図である。 一実施形態における、ISF(inverse sentence frequency)に基づく「キー文を識別する」コンポーネントの処理を示す流れ図である。 一実施形態における「マッチングを検出する」コンポーネントの処理を示す流れ図である。 一実施形態における「候補文書を選択する」コンポーネントの処理を示す流れ図である。 一実施形態における「厳密なマッチングをカウントする」コンポーネントの処理を示す流れ図である。 一実施形態における「ファジーなマッチングをカウントする」コンポーネントの処理を示す流れ図である。
符号の説明
100 検出システム
101、102、103 文書ストアデータ構造
111、112、113 「データ構造を初期化する」コンポーネント
121、122、123、124 検出コンポーネント

Claims (50)

  1. 外向きの通信が秘密情報を含むかどうかを識別するためのコンピュータシステムにおける方法であって、
    秘密情報を含む文書を与えるステップと、
    外向きの通信を受け取るステップと、
    受け取った前記外向きの通信が秘密情報を含むかどうかを判定するために、受け取った前記外向きの通信を与えた前記文書と比較するステップと
    を備えることを特徴とする方法。
  2. 与えた前記文書および前記外向きの通信は、電子メールメッセージであることを特徴とする請求項1に記載の方法。
  3. 前記コンピュータシステムは、電子メールサーバであることを特徴とする請求項2に記載の方法。
  4. 受け取った前記外向きの通信が秘密情報を含むと判定したとき、受け取った前記外向きの通信の意図されている受信者への送付を抑制するステップを含むことを特徴とする請求項1に記載の方法。
  5. キーワードを該キーワードを含む文書へとマッピングするキーワードインデックスを生成するステップを含み、前記比較するステップは、前記キーワードインデックスを使用して、受け取った前記外向きの通信のキーワードに基づいて候補文書を探すことを含むことを特徴とする請求項1に記載の方法。
  6. 単語をキーワードであるとして識別することを、TF*IDF尺度に基づいて行うことを特徴とする請求項5に記載の方法。
  7. 文から導出したハッシュコードを前記文を含む文書へとマッピングする文ハッシュテーブルを生成するステップを含み、前記比較するステップは、前記文ハッシュテーブルを使用して、前記受け取った外向きの通信の文にマッチする文を含む文書を探すことを含むことを特徴とする請求項1に記載の方法。
  8. 前記文ハッシュテーブルは、文書のキー文へとマッピングされることを特徴とする請求項7に記載の方法。
  9. キーワードを、該キーワードを含む文書の文へとマッピングするキーワードインデックスを生成するステップを含み、前記比較するステップは、前記キーワードインデックスを使用して、受け取った前記外向きの通信のキーワードを含む文を探すことを含むことを特徴とする請求項1に記載の方法。
  10. 探した文が、受け取った前記外向きの通信の文に類似しているとき、受け取った前記外向きの通信は、秘密情報を含むとすることを特徴とする請求項9に記載の方法。
  11. 前記外向きの通信は、電子メールメッセージであることを特徴とする請求項1に記載の方法。
  12. 前記外向きの通信は、電子メールメッセージへの添付であることを特徴とする請求項1に記載の方法。
  13. 前記外向きの通信は、インスタントメッセージであることを特徴とする請求項1に記載の方法。
  14. 前記外向きの通信は、音声通信であることを特徴とする請求項1に記載の方法。
  15. 前記外向きの通信は、インターネットへの投稿であることを特徴とする請求項1に記載の方法。
  16. ある文書がターゲット文書の内容と類似の内容を含むかどうかを識別するように、コンピュータシステムの制御を、
    前記ターゲット文書からの候補文書を、前記ターゲット文書のキーワードと前記文書との間の類似度に基づいて選択するステップと、
    前記文書が前記候補文書に類似の内容を含むかどうかを判定するために、前記候補文書を前記文書と比較ステップと
    を備える方法によって行うための命令を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
  17. 前記選択するステップは、
    前記ターゲット文書のキーワードを、それらキーワードを含む前記ターゲット文書へとマッピングするキーワードインデックスを作成するステップと、
    前記文書のキーワードを識別するステップと、
    候補文書を、前記文書の前記キーワードに類似のキーワードを含むターゲット文書として、前記作成したキーワードインデックスを用いて識別するステップと
    を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  18. キーワードの識別を、TF*IDF尺度に基づいて行うことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  19. 文から導出したハッシュコードを、前記文を含む文書へとマッピングする文ハッシュテーブルを生成するステップを含み、前記比較するステップは、前記文ハッシュテーブルを使用して、前記文書の文にマッチする文を含む候補文書を探すことを含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  20. 前記文ハッシュテーブルは、ターゲット文書のキー文へとマッピングされることを特徴とする請求項19に記載のコンピュータ読み取り可能な記録媒体。
  21. キーワードを、前記キーワードを含むターゲット文書の文へとマッピングするキーワードインデックスを生成するステップを含み、前記比較するステップは、前記キーワードインデックスを使用して、前記文書のキーワードを含む候補文書の文を探すことを含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  22. 前記ターゲット文書は、秘密情報を含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  23. 前記文書が秘密情報を含む外向きの通信であるとき、前記外向きの通信の送信を抑制することを含むことを特徴とする請求項22に記載のコンピュータ読み取り可能な記録媒体。
  24. 前記文書は、電子メールメッセージであり、前記比較するステップにより、関連する電子メールメッセージを見つけることを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  25. 文から導出したハッシュコードを前記文を含む前記ターゲット文書へとマッピングする文ハッシュテーブルを生成するステップと、キーワードを前記キーワードを含むターゲット文書の文へとマッピングするキーワードインデックスを生成するステップとを含み、前記比較するステップは、前記文ハッシュテーブルを使用して、前記文書の文にマッチする文を含む候補文書を探すこと、および、文がマッチしないとき、生成した前記キーワードインデックスを使用して、前記文書の文が前記候補文書の文に類似しているかどうかを判定することを含むことを特徴とする請求項16に記載のコンピュータ読み取り可能な記録媒体。
  26. ある文書がターゲット文書の内容と類似の内容を含むかどうかを識別するように、コンピュータシステムの制御を、
    文から導出したハッシュコードを、前記文を含むターゲット文書へとマッピングする文ハッシュテーブルを生成するステップと、
    候補文書を、前記文書のキーワードに類似のキーワードを含むターゲット文書として識別するステップと、
    前記文書が候補文書に類似の内容を含むかどうかを、前記文ハッシュテーブルを用いて判定して、前記文書の文にマッチする文を含む候補文書を探すために、前記候補文書を前記文書と比較するステップと、
    を備える方法によって行うための命令を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
  27. 前記ターゲット文書および前記文書は、電子メールメッセージであることを特徴とする請求項26に記載のコンピュータ読み取り可能な記録媒体。
  28. 前記キーワードの識別を、TF*IDF尺度に基づいて行うことを特徴とする請求項26に記載のコンピュータ読み取り可能な記録媒体。
  29. 前記文ハッシュテーブルは、ターゲット文書のキーワードへとマッピングされることを特徴とする請求項26に記載のコンピュータ読み取り可能な記録媒体。
  30. キーワードを、前記キーワードを含むターゲット文書の文へとマッピングするキーワードインデックスを生成するステップを含み、前記比較するステップは、前記キーワードインデックスを使用して、前記ターゲット文書のキーワードを含む候補文書の文を探すことを含むことを特徴とする請求項26に記載のコンピュータ読み取り可能な記録媒体。
  31. 前記ターゲット文書は、秘密情報を含むことを特徴とする請求項26に記載のコンピュータ読み取り可能な記録媒体。
  32. 前記文書が秘密情報を含む外向きの通信であるとき、前記外向きの通信の送信を抑制するステップを含むことを特徴とする請求項31に記載のコンピュータ読み取り可能な記録媒体。
  33. 前記文書は、電子メールメッセージであり、前記比較するステップにより、関連する電子メールメッセージを見つけることを特徴とする請求項26に記載のコンピュータ読み取り可能な記録媒体。
  34. 電子メールメッセージが秘密情報を含むかどうかを判定するためのコンピュータシステムであって、
    秘密情報を含むターゲット電子メールメッセージを含む文書ストアと、
    前記電子メールメッセージを前記ターゲット電子メールメッセージと比較して、前記電子メールメッセージが秘密情報を含むかどうかを判定するコンポーネントと
    を備えたことを特徴とするコンピュータシステム。
  35. 前記コンピュータシステムは、電子メールサーバであることを特徴とする請求項34に記載のコンピュータシステム。
  36. 前記電子メールメッセージが秘密情報を含むと判定したとき、前記電子メールメッセージの意図されている受信者への送付を抑制することを含むことを特徴とする請求項34に記載のコンピュータシステム。
  37. ある通信がターゲット情報を含むかどうかを識別するように、コンピュータシステムの制御を、
    前記ターゲット情報を含む文書を与えるステップと、
    通信を受け取るステップと、
    受け取った前記通信が前記ターゲット情報を含むかどうかを判定するために、受け取った前記通信を与えた前記文書と比較するステップと
    を備える方法によって行うための命令を含むことを特徴とするコンピュータ読み取り可能な記録媒体。
  38. 与えた前記文書および受け取った前記通信は、電子メールメッセージであり、前記ターゲット情報は、秘密性をもつことを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  39. 受け取った前記通信がターゲット情報を含むと判定したとき、受け取った前記通信の意図されている受信者への送付を抑制するステップを含むことを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  40. キーワードを、前記キーワードを含む文書へとマッピングするキーワードインデックスを生成するステップを含み、前記比較するステップは、前記キーワードインデックスを使用して、受け取った前記通信のキーワードに基づいて候補文書を探すことを含むことを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  41. 文から導出したハッシュコードを、前記文を含む文書へとマッピングする文ハッシュテーブルを生成するステップを含み、前記比較するステップは、前記文ハッシュテーブルを使用して、受け取った前記通信の文にマッチする文を含む文書を探すことを含むことを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  42. 前記文ハッシュテーブルは、文書のキー文へとマッピングされることを特徴とする請求項41に記載のコンピュータ読み取り可能な記録媒体。
  43. キーワードを、前記キーワードを含む文書の文へとマッピングするキーワードインデックスを生成するステップを含み、前記比較するステップは、前記キーワードインデックスを使用して、受け取った前記通信のキーワードを含む文を探すことを含むことを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  44. 受け取った前記通信は、電子メールメッセージであることを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  45. 受け取った前記通信は、Webページであることを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  46. 与えた前記文書は、Webページであることを特徴とする請求項45に記載のコンピュータ読み取り可能な記録媒体。
  47. 前記通信は、電子メールメッセージへの添付であることを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  48. 前記通信は、インスタントメッセージであることを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  49. 前記通信は、音声通信であることを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。
  50. 前記通信は、インターネットへの投稿であることを特徴とする請求項37に記載のコンピュータ読み取り可能な記録媒体。

JP2005184987A 2004-06-30 2005-06-24 外向き通信が特定の内容を含む時を検出する方法およびシステム Expired - Fee Related JP4824352B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/881,867 2004-06-30
US10/881,867 US7594277B2 (en) 2004-06-30 2004-06-30 Method and system for detecting when an outgoing communication contains certain content

Publications (2)

Publication Number Publication Date
JP2006065837A true JP2006065837A (ja) 2006-03-09
JP4824352B2 JP4824352B2 (ja) 2011-11-30

Family

ID=35115997

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005184987A Expired - Fee Related JP4824352B2 (ja) 2004-06-30 2005-06-24 外向き通信が特定の内容を含む時を検出する方法およびシステム

Country Status (5)

Country Link
US (2) US7594277B2 (ja)
EP (1) EP1613020B1 (ja)
JP (1) JP4824352B2 (ja)
KR (1) KR101150070B1 (ja)
CN (1) CN1716294B (ja)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268751A (ja) * 2005-03-25 2006-10-05 Ibm Japan Ltd 情報提示装置、情報提示方法、プログラム
JP2010231766A (ja) * 2009-03-02 2010-10-14 Fujitsu Ltd 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
JP2013084245A (ja) * 2011-09-29 2013-05-09 Canon Marketing Japan Inc 電子文書監査装置、電子文書監査システム、制御方法、及びプログラム
JP2015225378A (ja) * 2014-05-26 2015-12-14 京セラドキュメントソリューションズ株式会社 文書管理装置及び文書管理プログラム
JP2016167206A (ja) * 2015-03-10 2016-09-15 富士ゼロックス株式会社 アクセス権推定装置及びアクセス権推定プログラム
EP3073390A1 (en) 2015-03-26 2016-09-28 Fujitsu Limited Document checking device, method, and program

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7886359B2 (en) * 2002-09-18 2011-02-08 Symantec Corporation Method and apparatus to report policy violations in messages
US8225371B2 (en) 2002-09-18 2012-07-17 Symantec Corporation Method and apparatus for creating an information security policy based on a pre-configured template
US7673344B1 (en) * 2002-09-18 2010-03-02 Symantec Corporation Mechanism to search information content for preselected data
US8661498B2 (en) 2002-09-18 2014-02-25 Symantec Corporation Secure and scalable detection of preselected data embedded in electronically transmitted messages
US8041719B2 (en) * 2003-05-06 2011-10-18 Symantec Corporation Personal computing device-based mechanism to detect preselected data
US7472114B1 (en) * 2002-09-18 2008-12-30 Symantec Corporation Method and apparatus to define the scope of a search for information from a tabular data source
US7899828B2 (en) * 2003-12-10 2011-03-01 Mcafee, Inc. Tag data structure for maintaining relational data over captured objects
US7984175B2 (en) * 2003-12-10 2011-07-19 Mcafee, Inc. Method and apparatus for data capture and analysis system
US20050131876A1 (en) * 2003-12-10 2005-06-16 Ahuja Ratinder Paul S. Graphical user interface for capture system
US8548170B2 (en) * 2003-12-10 2013-10-01 Mcafee, Inc. Document de-registration
US8656039B2 (en) 2003-12-10 2014-02-18 Mcafee, Inc. Rule parser
US7774604B2 (en) * 2003-12-10 2010-08-10 Mcafee, Inc. Verifying captured objects before presentation
US7814327B2 (en) 2003-12-10 2010-10-12 Mcafee, Inc. Document registration
US7930540B2 (en) * 2004-01-22 2011-04-19 Mcafee, Inc. Cryptographic policy enforcement
US7962591B2 (en) * 2004-06-23 2011-06-14 Mcafee, Inc. Object classification in a capture system
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US8560534B2 (en) * 2004-08-23 2013-10-15 Mcafee, Inc. Database for a capture system
US7949849B2 (en) * 2004-08-24 2011-05-24 Mcafee, Inc. File system for a capture system
US7818809B1 (en) * 2004-10-05 2010-10-19 Symantec Corporation Confidential data protection through usage scoping
US20060085504A1 (en) * 2004-10-20 2006-04-20 Juxing Yang A global electronic mail classification system
IL165416A0 (en) * 2004-11-28 2006-01-15 Objective data regarding network resources
JP4695388B2 (ja) * 2004-12-27 2011-06-08 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
US7664323B2 (en) * 2005-01-28 2010-02-16 Microsoft Corporation Scalable hash-based character recognition
US8011003B2 (en) 2005-02-14 2011-08-30 Symantec Corporation Method and apparatus for handling messages containing pre-selected data
US20060184549A1 (en) * 2005-02-14 2006-08-17 Rowney Kevin T Method and apparatus for modifying messages based on the presence of pre-selected data
US7703006B2 (en) * 2005-06-02 2010-04-20 Lsi Corporation System and method of accelerating document processing
US7907608B2 (en) * 2005-08-12 2011-03-15 Mcafee, Inc. High speed packet capture
CN1921377B (zh) * 2005-08-26 2010-09-15 鸿富锦精密工业(深圳)有限公司 数据同步系统及方法
US7818326B2 (en) * 2005-08-31 2010-10-19 Mcafee, Inc. System and method for word indexing in a capture system and querying thereof
JP4208086B2 (ja) * 2005-09-27 2009-01-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報の機密性を管理する装置、および、その方法
US7730011B1 (en) 2005-10-19 2010-06-01 Mcafee, Inc. Attributes of captured objects in a capture system
US7657104B2 (en) 2005-11-21 2010-02-02 Mcafee, Inc. Identifying image type in a capture system
US7735068B2 (en) * 2005-12-01 2010-06-08 Infosys Technologies Ltd. Automated relationship traceability between software design artifacts
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents
US9407662B2 (en) 2005-12-29 2016-08-02 Nextlabs, Inc. Analyzing activity data of an information management system
US20070226504A1 (en) * 2006-03-24 2007-09-27 Reconnex Corporation Signature match processing in a document registration system
US8504537B2 (en) 2006-03-24 2013-08-06 Mcafee, Inc. Signature distribution in a document registration system
US7689614B2 (en) * 2006-05-22 2010-03-30 Mcafee, Inc. Query generation for a capture system
US7958227B2 (en) 2006-05-22 2011-06-07 Mcafee, Inc. Attributes of captured objects in a capture system
US8010689B2 (en) * 2006-05-22 2011-08-30 Mcafee, Inc. Locational tagging in a capture system
CN101083607B (zh) * 2006-05-30 2010-12-08 倪海生 一种用于内外网络隔离的因特网访问服务器及其处理方法
JP2008109380A (ja) * 2006-10-25 2008-05-08 Media Exchange Inc 電子メール送受信システム
US7823761B2 (en) * 2007-05-16 2010-11-02 The Invention Science Fund I, Llc Maneuverable surgical stapler
US8627403B1 (en) * 2007-07-31 2014-01-07 Hewlett-Packard Development Company, L.P. Policy applicability determination
US8199965B1 (en) * 2007-08-17 2012-06-12 Mcafee, Inc. System, method, and computer program product for preventing image-related data loss
BRPI0806097B1 (pt) * 2007-10-02 2020-10-06 Panasonic intellectual property Management co., Ltd Aparelho de reprodução, sistema de proteção de direitos autorais, método de controle e circuito integrado para utilização com um aparelho de reprodução
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
US8316442B2 (en) * 2008-01-15 2012-11-20 Microsoft Corporation Preventing secure data from leaving the network perimeter
US8272051B1 (en) * 2008-03-27 2012-09-18 Trend Micro Incorporated Method and apparatus of information leakage prevention for database tables
US8065739B1 (en) 2008-03-28 2011-11-22 Symantec Corporation Detecting policy violations in information content containing data in a character-based language
US7996373B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for detecting policy violations in a data repository having an arbitrary data schema
US7996374B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for automatically correlating related incidents of policy violations
US7885944B1 (en) * 2008-03-28 2011-02-08 Symantec Corporation High-accuracy confidential data detection
US10664889B2 (en) * 2008-04-01 2020-05-26 Certona Corporation System and method for combining and optimizing business strategies
US8205242B2 (en) 2008-07-10 2012-06-19 Mcafee, Inc. System and method for data mining and security policy management
US8346532B2 (en) * 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
US8286171B2 (en) * 2008-07-21 2012-10-09 Workshare Technology, Inc. Methods and systems to fingerprint textual information using word runs
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
US8555080B2 (en) * 2008-09-11 2013-10-08 Workshare Technology, Inc. Methods and systems for protect agents using distributed lightweight fingerprints
WO2010030871A2 (en) * 2008-09-11 2010-03-18 Workshare Technology, Inc. Methods and systems to implement fingerprint lookups across remote agents
US8826443B1 (en) 2008-09-18 2014-09-02 Symantec Corporation Selective removal of protected content from web requests sent to an interactive website
WO2010059747A2 (en) * 2008-11-18 2010-05-27 Workshare Technology, Inc. Methods and systems for exact data match filtering
CN102224505B (zh) 2008-11-19 2014-06-04 安全工程有限公司 用于运行时攻击预防的系统和方法
US8406456B2 (en) * 2008-11-20 2013-03-26 Workshare Technology, Inc. Methods and systems for image fingerprinting
US8613040B2 (en) * 2008-12-22 2013-12-17 Symantec Corporation Adaptive data loss prevention policies
US8850591B2 (en) 2009-01-13 2014-09-30 Mcafee, Inc. System and method for concept building
US8706709B2 (en) 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
JP4763812B2 (ja) * 2009-02-24 2011-08-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書の機密度判定を支援する方法、装置及びコンピュータプログラム
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
US20100223341A1 (en) * 2009-02-27 2010-09-02 Microsoft Corporation Electronic messaging tailored to user interest
US9141692B2 (en) * 2009-03-05 2015-09-22 International Business Machines Corporation Inferring sensitive information from tags
US8935752B1 (en) 2009-03-23 2015-01-13 Symantec Corporation System and method for identity consolidation
US8667121B2 (en) 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
US8447722B1 (en) 2009-03-25 2013-05-21 Mcafee, Inc. System and method for data mining and security policy management
KR20100107801A (ko) * 2009-03-26 2010-10-06 삼성전자주식회사 무선 통신 시스템에서 안테나 선택을 위한 장치 및 방법
US8732137B2 (en) * 2009-05-28 2014-05-20 Red Hat, Inc. Separating content from noisy context in template-based documents for search indexing
US9235563B2 (en) * 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US8473847B2 (en) * 2009-07-27 2013-06-25 Workshare Technology, Inc. Methods and systems for comparing presentation slide decks
US8356357B1 (en) * 2009-07-30 2013-01-15 Symantec Corporation Detecting tainted documents by tracking transformed confidential data
US8566350B2 (en) * 2009-11-02 2013-10-22 Palo Alto Research Center Incorporated Method and apparatus for facilitating document sanitization
US8287400B2 (en) * 2009-11-19 2012-10-16 Nike, Inc. Fairway wood-type golf clubs with high moment of inertia
US20110143325A1 (en) * 2009-12-15 2011-06-16 Awad Al-Khalaf Automatic Integrity Checking of Quran Script
US8296130B2 (en) 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
US8510098B2 (en) 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
US8661037B2 (en) * 2010-04-09 2014-02-25 International Business Machines Corporation System and method for multithreaded text indexing for next generation multi-core architectures
US9406048B2 (en) * 2010-07-07 2016-08-02 Mark Meister Email system for preventing inadvertant transmission of propriety message or documents to unintended recipient
US8806615B2 (en) 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
US9092640B2 (en) * 2010-11-09 2015-07-28 International Business Machines Corporation Access control for server applications
US11030163B2 (en) 2011-11-29 2021-06-08 Workshare, Ltd. System for tracking and displaying changes in a set of related electronic documents
US10025759B2 (en) 2010-11-29 2018-07-17 Workshare Technology, Inc. Methods and systems for monitoring documents exchanged over email applications
US10783326B2 (en) 2013-03-14 2020-09-22 Workshare, Ltd. System for tracking changes in a collaborative document editing environment
US8478740B2 (en) 2010-12-16 2013-07-02 Microsoft Corporation Deriving document similarity indices
US20120180134A1 (en) * 2011-01-07 2012-07-12 Research In Motion Limited Personal Information Guard
US8769200B2 (en) 2011-03-01 2014-07-01 Xbridge Systems, Inc. Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same
US8745053B2 (en) 2011-03-01 2014-06-03 Xbridge Systems, Inc. Method for managing mainframe overhead during detection of sensitive information, computer readable storage media and system utilizing same
US20120226677A1 (en) * 2011-03-01 2012-09-06 Xbridge Systems, Inc. Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same
US20120246719A1 (en) * 2011-03-21 2012-09-27 International Business Machines Corporation Systems and methods for automatic detection of non-compliant content in user actions
US20120304072A1 (en) * 2011-05-23 2012-11-29 Microsoft Corporation Sentiment-based content aggregation and presentation
US9948676B2 (en) 2013-07-25 2018-04-17 Workshare, Ltd. System and method for securing documents prior to transmission
US9613340B2 (en) 2011-06-14 2017-04-04 Workshare Ltd. Method and system for shared document approval
US10574729B2 (en) 2011-06-08 2020-02-25 Workshare Ltd. System and method for cross platform document sharing
US10963584B2 (en) 2011-06-08 2021-03-30 Workshare Ltd. Method and system for collaborative editing of a remotely stored document
US9170990B2 (en) 2013-03-14 2015-10-27 Workshare Limited Method and system for document retrieval with selective document comparison
US10880359B2 (en) 2011-12-21 2020-12-29 Workshare, Ltd. System and method for cross platform document sharing
US9563879B2 (en) * 2011-06-23 2017-02-07 International Business Machines Corporation Providing accurate recipient lists by correlating tagged keywords to recipient lists
GB2497194A (en) * 2011-12-01 2013-06-05 Ibm Method for managing email
TWI484357B (zh) * 2011-12-02 2015-05-11 Inst Information Industry 量化式資料分析方法以及量化式資料分析裝置
US20130246336A1 (en) 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US20130174030A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC, d/b/a Microsystems Method and apparatus for analyzing abbreviations in a document
US20130174029A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC d/b/a Microsystems Method and apparatus for analyzing a document
US9563669B2 (en) * 2012-06-12 2017-02-07 International Business Machines Corporation Closed itemset mining using difference update
US9171069B2 (en) 2012-07-31 2015-10-27 Freedom Solutions Group, Llc Method and apparatus for analyzing a document
US9489376B2 (en) * 2013-01-02 2016-11-08 International Business Machines Corporation Identifying confidential data in a data item by comparing the data item to similar data items from alternative sources
US11567907B2 (en) 2013-03-14 2023-01-31 Workshare, Ltd. Method and system for comparing document versions encoded in a hierarchical representation
US20140289259A1 (en) * 2013-03-20 2014-09-25 Microsoft Corporation Social Cue Based Electronic Communication Ranking
GB2520226A (en) * 2013-05-28 2015-05-20 Ibm Differentiation of messages for receivers thereof
US10911492B2 (en) 2013-07-25 2021-02-02 Workshare Ltd. System and method for securing documents prior to transmission
US9553867B2 (en) 2013-08-01 2017-01-24 Bitglass, Inc. Secure application access system
US9552492B2 (en) * 2013-08-01 2017-01-24 Bitglass, Inc. Secure application access system
US9047480B2 (en) * 2013-08-01 2015-06-02 Bitglass, Inc. Secure application access system
US10122714B2 (en) 2013-08-01 2018-11-06 Bitglass, Inc. Secure user credential access system
CN105519037A (zh) * 2013-08-27 2016-04-20 三菱电机株式会社 数据处理装置以及数据处理方法以及程序
US9251376B2 (en) 2013-11-15 2016-02-02 International Business Machines Corporation Method and system to warn the user in the event of potential confidential document security violations
JP6395540B2 (ja) * 2014-09-25 2018-09-26 株式会社東芝 連携システム、プログラム
US10459925B2 (en) * 2014-12-08 2019-10-29 Iprova Sarl Computer-enabled method of assisting to generate an innovation
US11182551B2 (en) 2014-12-29 2021-11-23 Workshare Ltd. System and method for determining document version geneology
US10133723B2 (en) 2014-12-29 2018-11-20 Workshare Ltd. System and method for determining document version geneology
US10462091B1 (en) * 2015-06-12 2019-10-29 Symantec Corporation Systems and methods for reporting the attempted transmission of sensitive information
US10518872B2 (en) 2015-06-25 2019-12-31 Simmonds Precision Products, Inc. Continuous fuel tank level control
US11763013B2 (en) 2015-08-07 2023-09-19 Workshare, Ltd. Transaction document management system and method
EP3384402A4 (en) 2015-12-02 2022-02-23 Open Text Corporation CREATING COMPONENT MODELS
US10380075B2 (en) 2017-02-14 2019-08-13 Microsoft Technology Licensing, Llc Limiting sharing of a stored file
US11741145B1 (en) * 2018-09-30 2023-08-29 Veritas Technologies Llc Method and system for classification of unstructured data items
CN109857852B (zh) * 2019-01-24 2021-02-23 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及系统
US11310209B2 (en) 2019-09-10 2022-04-19 Motorola Solutions, Inc. Method and device for protecting confidentiality of audio messages
US11222183B2 (en) * 2020-02-14 2022-01-11 Open Text Holdings, Inc. Creation of component templates based on semantically similar content
CN112765655B (zh) * 2021-01-07 2023-03-21 支付宝(杭州)信息技术有限公司 一种基于隐私数据外发的管控方法及装置
US11775357B1 (en) * 2021-01-20 2023-10-03 American Express Travel Related Services Company, Inc. Relevant notifications of third party content
US12050858B2 (en) * 2021-09-21 2024-07-30 Bank Of America Corporation Personal data discovery
US20230367887A1 (en) * 2022-05-16 2023-11-16 Bank Of America Corporation System and method for updating a distributed ledger of a blockchain based on detecting anomalies in blockchain transactions
US12013970B2 (en) * 2022-05-16 2024-06-18 Bank Of America Corporation System and method for detecting and obfuscating confidential information in task logs
US11843619B1 (en) * 2022-10-07 2023-12-12 Uab 360 It Stateless system to enable data breach notification

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4807182A (en) * 1986-03-12 1989-02-21 Advanced Software, Inc. Apparatus and method for comparing data groups
US20020199095A1 (en) * 1997-07-24 2002-12-26 Jean-Christophe Bandini Method and system for filtering communication
WO2003065248A2 (en) * 2002-02-01 2003-08-07 International Business Machines Corporation Retrieving matching documents by queries in any national language
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE35861E (en) * 1986-03-12 1998-07-28 Advanced Software, Inc. Apparatus and method for comparing data groups
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
WO1998037655A1 (en) * 1996-12-20 1998-08-27 Financial Services Technology Consortium Method and system for processing electronic documents
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US7162738B2 (en) * 1998-11-03 2007-01-09 Tumbleweed Communications Corp. E-mail firewall with stored key encryption/decryption
US6393428B1 (en) * 1998-07-13 2002-05-21 Microsoft Corporation Natural language information retrieval system
US20020069198A1 (en) * 2000-08-31 2002-06-06 Infoseer, Inc. System and method for positive identification of electronic files
US20020078155A1 (en) 2000-12-18 2002-06-20 Cheng-Shing Lai Method for receiving electronic messages by electronic device
KR100483602B1 (ko) 2001-10-12 2005-04-15 (주)이캐빈 이메일 모니터링 방법 및 시스템
JP2003121547A (ja) 2001-10-18 2003-04-23 Fuji Heavy Ind Ltd 車外監視装置
US7519984B2 (en) * 2002-06-27 2009-04-14 International Business Machines Corporation Method and apparatus for handling files containing confidential or sensitive information
US6826493B1 (en) * 2003-09-02 2004-11-30 Tao Of Systems Integration, Inc. System and method for real time determination of unsteady aerodynamic loads
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US20060095966A1 (en) * 2004-11-03 2006-05-04 Shawn Park Method of detecting, comparing, blocking, and eliminating spam emails
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement
US7444328B2 (en) * 2005-06-06 2008-10-28 Microsoft Corporation Keyword-driven assistance

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4807182A (en) * 1986-03-12 1989-02-21 Advanced Software, Inc. Apparatus and method for comparing data groups
US20020199095A1 (en) * 1997-07-24 2002-12-26 Jean-Christophe Bandini Method and system for filtering communication
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
WO2003065248A2 (en) * 2002-02-01 2003-08-07 International Business Machines Corporation Retrieving matching documents by queries in any national language

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006268751A (ja) * 2005-03-25 2006-10-05 Ibm Japan Ltd 情報提示装置、情報提示方法、プログラム
US7739743B2 (en) 2005-03-25 2010-06-15 International Business Machines Corporation Information presentation apparatus, and information presentation method and program for use therein
JP2010231766A (ja) * 2009-03-02 2010-10-14 Fujitsu Ltd 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
EP2256655A1 (en) 2009-03-02 2010-12-01 Fujitsu Limited Document checking apparatus, computer-readable recording medium, and document checking method
US8453249B2 (en) 2009-03-02 2013-05-28 Fujitsu Limited Document checking apparatus, computer-readable recording medium, and document checking method
US9785635B2 (en) 2009-03-02 2017-10-10 Fujitsu Limited Document checking apparatus, computer-readable recording medium, and document checking method
JP2013084245A (ja) * 2011-09-29 2013-05-09 Canon Marketing Japan Inc 電子文書監査装置、電子文書監査システム、制御方法、及びプログラム
JP2018185834A (ja) * 2011-09-29 2018-11-22 キヤノンマーケティングジャパン株式会社 電子文書監査装置、電子文書監査システム、制御方法、及びプログラム
JP2015225378A (ja) * 2014-05-26 2015-12-14 京セラドキュメントソリューションズ株式会社 文書管理装置及び文書管理プログラム
US9679150B2 (en) 2014-05-26 2017-06-13 Kyocera Document Solutions Inc. Document managing apparatus and document managing method
JP2016167206A (ja) * 2015-03-10 2016-09-15 富士ゼロックス株式会社 アクセス権推定装置及びアクセス権推定プログラム
EP3073390A1 (en) 2015-03-26 2016-09-28 Fujitsu Limited Document checking device, method, and program

Also Published As

Publication number Publication date
EP1613020A2 (en) 2006-01-04
EP1613020B1 (en) 2019-12-04
EP1613020A3 (en) 2012-03-07
KR20060048686A (ko) 2006-05-18
US20060005247A1 (en) 2006-01-05
CN1716294B (zh) 2013-09-11
US7594277B2 (en) 2009-09-22
US20090313706A1 (en) 2009-12-17
US8782805B2 (en) 2014-07-15
KR101150070B1 (ko) 2012-07-02
CN1716294A (zh) 2006-01-04
JP4824352B2 (ja) 2011-11-30

Similar Documents

Publication Publication Date Title
JP4824352B2 (ja) 外向き通信が特定の内容を含む時を検出する方法およびシステム
US11188657B2 (en) Method and system for managing electronic documents based on sensitivity of information
US8312553B2 (en) Mechanism to search information content for preselected data
US8041719B2 (en) Personal computing device-based mechanism to detect preselected data
US7886359B2 (en) Method and apparatus to report policy violations in messages
US7472114B1 (en) Method and apparatus to define the scope of a search for information from a tabular data source
US8225371B2 (en) Method and apparatus for creating an information security policy based on a pre-configured template
US8011003B2 (en) Method and apparatus for handling messages containing pre-selected data
US20060184549A1 (en) Method and apparatus for modifying messages based on the presence of pre-selected data
US20150088933A1 (en) Controlling disclosure of structured data
Aslan et al. Automatic detection of cyber security related accounts on online social networks: Twitter as an example
CA2597083A1 (en) Method and apparatus for handling messages containing pre-selected data
Ezpeleta et al. Does sentiment analysis help in bayesian spam filtering?
Sethi et al. Spam email detection using machine learning and neural networks
CA2499508A1 (en) Detection of preselected data
JP2009116680A (ja) データ種類検出装置及びデータ種類検出方法
EP4012590A1 (en) Message analysis for information security
Eshmawi et al. Feature reduction for optimum sms spam filtering using domain knowledge
Iqbal et al. Criminal Information Mining

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100917

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20101217

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20101222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110117

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110513

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110811

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110902

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110908

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4824352

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees