CN1716294A - 用于检测外发通信何时包含特定内容的方法和系统 - Google Patents
用于检测外发通信何时包含特定内容的方法和系统 Download PDFInfo
- Publication number
- CN1716294A CN1716294A CNA2005100824040A CN200510082404A CN1716294A CN 1716294 A CN1716294 A CN 1716294A CN A2005100824040 A CNA2005100824040 A CN A2005100824040A CN 200510082404 A CN200510082404 A CN 200510082404A CN 1716294 A CN1716294 A CN 1716294A
- Authority
- CN
- China
- Prior art keywords
- sentence
- document
- keyword
- communication
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F15/00—Digital computers in general; Data processing equipment in general
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/316—Indexing structures
- G06F16/325—Hash tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3341—Query execution using boolean model
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L51/00—User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
- H04L51/21—Monitoring or handling of messages
- H04L51/212—Monitoring or handling of messages using filtering or selective blocking
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Bioethics (AREA)
- Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Medical Informatics (AREA)
- Computer Security & Cryptography (AREA)
- Computational Linguistics (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Information Transfer Between Computers (AREA)
- Facsimiles In General (AREA)
- Storage Device Security (AREA)
Abstract
提供了一种用于检测外发通信是否包含机密信息或其它目标信息的方法和系统。检测系统带有包含机密信息的文档集合,称为“机密文档”。当向检测系统提供外发通信时,该系统把外发通信的内容与机密文档的内容相比较。如果外发通信包含机密信息,则检测系统就防止在机构外部发送该外发通信。检测系统基于外发通信内容和已知包含该机密信息的机密文档的内容之间的相似性来检测机密信息。
Description
技术领域
所述技术一般涉及检测文档何时有相似的内容,尤其涉及检测外发通信何时包含特定的内容。
背景技术
许多机构都开发了机密的、商业秘密的、所有的信息以及对于每一个这样的机构的成功运作重要的其它信息。在许多情况下,机构确保该信息不在机构外部被公开是至关重要的。如果这种信息在机构外部被公开,信息就可能变得毫无用处,或者会对机构造成实质性的损害。例如,制造公司可以开发一系列特征以结合在产品的下一版本中。如果竞争者能够在发布下一版本前确认这一系列特征,则竞争者就能使用该信息以便有益于他们的竞争。举另一个例子,机构可能需要对违反了机构某一规则的雇员采取内部惩罚措施。如果违规变得公开,它就可以表示机构的公众关系问题。为了确保他们的机密信息未被不适当地公开,许多机构实现了昂贵的手段来确保不出现这种公开。例如,一些公司对他们的雇员实施训话以确保他们理解保持商业秘密的机密性的重要性、确保雇员知道要把包含商业秘密的所有文档都标记为机密、等等。
尽管电子通信允许机构的雇员有效地且高效地通信,然而电子通信也使机密信息容易且快速地散步在机构外。例如,如果设计队伍的领导者向队伍的成员们发送了一电子邮件、详细说明了产品下一版本的新特征,那么队伍的任一成员都可能把邮件转发给公司的其它雇员、或甚至转发给竞争者公司的雇员。这种机密信息到竞争者公司雇员的散步会是疏忽的或故意的。例如,雇员可能希望把详细说明新特征的电子邮件转发给公司市场队伍的几个成员。在转发电子邮件时,雇员可能输入目标受信者的部分名字。然而,如果目标受信者具有与竞争者公司雇员相似的名字,那么电子邮件程序可能把该部分名字解析到竞争者公司雇员的电子邮件地址。即使公开是疏忽所至,公司仍然会被严重损害。当雇员故意把有机密信息的电子邮件转发到未被授权接收该信息的某人时,将产生更大的问题。在这一情况下,雇员可能通过例如从电子邮件中删除机密性的告示(例如“该文档包含Acme公司的机密、所有权的以及商业秘密信息。”),从而尝试掩盖该信息的机密性。此外,机密信息未经授权的公开不限于电子邮件;未经授权的公开可以采取其它形式的电子通信。例如,雇员可以经由互联网新闻和讨论组、即时消息传递系统、电子邮件的附件、通讯稿、电子介绍、出版物等等来公开机密信息。
一些电子邮件系统具有过滤电子邮件以确保它们不包含不适当内容的特征。例如,这一系统可以扫描外发消息中是否有机密信息的指示,比如单词“所有权”、“机密的”或“商业秘密”。如果在邮件中找到这样的单词,则系统会禁止发送该邮件。然而,不是所有包含机密信息的电子邮件都包含这样的单词。例如,设计队伍中的雇员会向其它人频繁地发送电子邮件以便得到关于新理念的非正式反馈。在这种情况下,电子邮件一般不会包含机密性的告示。此外,故意要把机密信息发送给竞争者的雇员可以通过在转发前从邮件中删除这些单词,从而容易地避免这种系统的检测。
期望有一种系统,该系统能容易地检测到电子邮件中、更为一般的是在任何外发通信(例如出版、新闻组记录和电子邮件附件)中机密信息的存在。在电子邮件的情况下,这一系统会能检测到:雇员不加任何修改而仅仅转发原始的电子邮件、雇员把原始电子邮件的部分剪切和粘贴到新的电子邮件中、雇员加上附加评论来转发原始电子邮件的各部份、雇员修改原始电子邮件的内容、等等。此外,由于机构可能生成的电子邮件的容量,因此希望这一系统能快速地检测电子邮件中的这种机密信息,而不会显著地延迟传递、并且无需对附加的硬件和软件作出重大投资以便支持这种检测。
发明内容
提供了一种用于标识通信是否包含与目标文档内容相似的内容的基于计算机的方法和系统。该系统把候选文档标识为包含与通信关键词相似的关键词的那些目标文档。然后,系统把候选文档与通信相比较以确定通信是否包含与候选文档相似的内容。当通信是一外发通信时,比如包含与候选文档相似内容的电子邮件,系统可以禁止外发通信的传递。
附图说明
图1是说明一实施例中一检测系统的组件的框图。
图2是说明一实施例中图1的检测系统的数据结构的框图。
图3是说明一实施例中创建关键词索引的处理的流程图。
图4是说明一实施例中创建句子哈希表的处理的流程图。
图5是说明一实施例中、基于句子关键词和段落关键词的相似性进行的标识关键句成分的处理的流程图。
图6是说明一实施例中、基于反转句子频率进行的标识关键句成分的处理的流程图。
图7是说明一实施例中、检测匹配成分的处理的流程图。
图8是说明一实施例中、选择候选文档成分的处理的流程图。
图9是说明一实施例中、对完全匹配分量计数的处理的流程图。
图10是说明一实施例中、对模糊匹配分量计数的处理的流程图。
具体实施方式
提供了一种用于检测外发通信是否包含机密信息或其它目标信息的方法和系统。在一实施例中,检测系统带有包含机密信息的文档集合,称为“机密文档”。例如,当外发通信是一电子邮件时,机密文档可能是前面发送的包含机密信息的电子邮件。当向检测系统提供外发通信时,该系统把外发通信的内容与机密文档的内容相比较。如果比较表明外发通信包含机密信息,则检测系统就防止在机构外部发送该外发通信。例如,检测系统可以作为机构的内部电子邮件用户和外部电子邮件用户之间的电子邮件网关的一部分来实现。这样,检测系统基于外发通信内容和已知包含该机密信息的机密文档的内容之间的相似性来检测机密信息,并且不需要依赖于可被容易删除的机密性告示。
由于机构的雇员每天可能在机构外发送成千上百个电子邮件,且机构可能有几千个机密文档,因此仅仅把每个外发通信的每个句子与每个机密文档的每个句子相比较是不切实际的。实际上,比较的计算复杂度可能为O(N×M),其中N是机密文档的数目,M是外发通信的数目。在一实施例中,检测系统用各种辅助的数据结构来组织机密文档,以确保能够快速标识外发通信中的机密信息。检测系统可以生成一索引,该索引把机密文档的关键词映射到包含关键词的那些机密文档。例如,几个机密文档可能包含短语“新产品发布”。在这一情况下,关键词“新”、“产品”和“发布”可能被映射到那些机密文档的每一个。当检测系统接收到外发通信时,它标识外发通信的关键词。然后,检测系统可以使用关键词索引来标识哪些机密文档包含相似的关键词。例如,检测系统可以选择和外发通信有大量共同关键词的那些机密文档。然后,检测系统可以把外发通信的内容与所标识机密文档(也称为候选文档)的内容相比较,以确定外发通信是否真的包含机密信息。例如,如果外发通信包含关键词“新”、“产品”和“发布”,但每个关键词都在不同的句子中使用,则检测系统可能标识出包含短语“新产品发布”的几个机密文档。然而,当检测系统把外发通信的内容与候选文档的实际内容相比较时,它不会检测到相似性,因此会允许发送外发通信。检测系统可以使用各种技术来标识文档内的关键词。例如,检测系统可以使用检索词频率乘以反转文档频率度量(即“TF*IDF”)来标识关键词。本领域的技术人员会理解,可以使用其它度量。例如,给定文档中的单词、文档的元数据(例如关键词属性、摘要属性和标题属性)等等,检测系统可能以侧重点(例如字体大小、字体磅值和下划线)为因素。通过使用关键词索引,检测系统能有效地把机密文档限定为一组候选文档,以便进一步比较。
在一实施例中,检测系统使用辅助的数据结构,比如哈希表,来帮助标识哪些候选文档类似于外发通信。检测系统可以生成一哈希表,该哈希表把为每个句子导出的哈希码映射到包含那些句子的机密文档。检测系统通过向机密文档的每个句子应用哈希函数以便为每个句子生成一哈希码,从而生成句子哈希表。然后,检测系统保存哈希码到机密文档内相应句子的映射。在检测系统为外发通信标识了候选文档后,检测系统为外发通信的句子生成哈希码。检测系统使用所生成的哈希码来标识哪些候选文档包含具有相同哈希码的句子。检测系统接着可以把所标识的句子与外发通信的相应句子相比较,以确定它们是否匹配(即完全匹配或者类似)。根据匹配程度(例如外发通信的句子与机密文档的句子匹配的次数),检测系统可以把外发通信标记为包含机密信息。为了加速外发通信的过程,检测系统可以仅分析机密文档和外发通信的“关键句”。例如,关键句可以对应于一个段落的主题句。
在一实施例中,检测系统可以使用另一种辅助数据结构,比如关键句索引,来帮助标识哪些候选文档类似于外发通信。检测系统可以生成一关键句索引,该索引把机密文档的关键词映射到包含那些关键词的那些机密文档内的句子。在检测系统标识了候选文档后,检测系统可以使用关键句索引来计算外发通信的每个句子和候选文档的每个句子之间的相似性。检测系统可以使用各种相似性度量的任一个,比如余弦相似性和编辑距离。基于相似性程度(例如机密文档中与外发通信的句子相似的句子数),检测系统把外发通信标记为包含机密信息。
在一实施例中,检测系统将其分析基于机密文档和外发通信的“关键句”,而不是对每个句子执行其分析。“关键句”是表示机密文档或机密文档内一个段落的关键思想的句子。检测系统可以以各种方式来标识文档的关键句。检测系统可以计算一个段落的每个句子与该段落的相似性。具有与该段落的最高相似性的句子可以被视为该段落的关键句,它代表了该段落的机密信息并因此是该段落最重要的句子。为了计算相似性,检测系统可以用其关键词来表示该段落和每个句子。然后,检测系统计算每个句子的关键词与段落关键词之间的相似性。检测系统把具有最高相似性的句子选择作为关键句。或者,检测系统可以用检索词频率乘以反转句子频率度量(即TF*ISF)来标识关键句,以计算句子对于段落的重要性。反转句子频率像反转文档频率一样,反映了文档中的句子数除以包含该单词的句子数。检测系统通过把一单词在一句子中的出现次数和该句子的反转句子频率相乘,从而计算该单词对于该句子的重要性。然后,检测系统可以把每个句子的重要性设为单词在句子内的平均重要性。检测系统把具有最高重要性的句子选择作为关键句。本领域的技术人员会理解,关键句可以从句子对文档的总体重要性或相似性而导出,而不是逐段地导出。
在一实施例中,检测系统可以以各种方式把文档加入机密文档的集合。检测系统可以提供一用户接口,管理员通过该用户接口能向所述集合提交机密文档。此外,检测系统可能有一子系统,该子系统可以分析一文档全集,并且检测哪些文档具有机密性告示。例如,指示可以是文档的页脚或页眉上的单词“机密”。
本领域的技术人员会理解,除了检测经由电子邮件系统发送的机密信息以外,检测系统可用来检测多种环境下的类似内容。检测系统可用来检测任一类到来或外发通信中的相似内容,比如新闻和讨论组记录、即时消息、电子邮件附件、通讯稿、电子介绍、出版物、由语音通信系统分发的消息、网页等等。在对基于web的讨论组记录的情况下,检测系统可以集成有web浏览器。检测系统也可以被实现为对通信内容进行适当的解密和加密。检测系统也可以用来标识任一类目标通信,并且不限于电子邮件的机密信息。目标信息可用来监视雇员正在发送哪一类电子邮件。例如,目标信息可以是表示雇员所发送的典型邮件的模板电子邮件的集合,比如日程安排邮件、个人邮件、问题汇报邮件、帮助邮件等等。检测系统可用来检测所访问的网页是否包含不期望的内容。
图1是说明一实施例中的检测系统的组件的框图。检测系统100包括文档存储数据结构101-103、初始化数据结构组件111-113以及检测组件121-124。文档存储数据结构包括一机密文档存储器101、关键词索引102和句子哈希表103。检测系统可以在把机密文档置于机密文档存储器内以前处理它们。例如,在电子邮件的情况下,检测系统可以删除“来自:”、“发送至:”和“主题:”信息,并且删除内容的问候语和结束语部分。检测系统也可以以各种方式使其余内容标准化,比如删除大写、调节单词内非字母数字的字符(例如“n*w d*sign”),并且作出其它调节以便抵消发送者想要模糊机密信息的尝试。关键词索引把机密文档的关键词映射到包含那些关键词的机密文档。在一实施例中,关键词索引也可以标识包含该关键词的每个机密文档内的句子。或者,文档存储数据结构也可以包括一关键词/关键句索引,该索引把关键词映射到包含那些关键词的机密文档的关键句。句子哈希表把句子(例如关键句)的哈希码映射到包含那些句子的机密文档。初始化数据结构组件包括创建关键词索引组件111、创建句子哈希表组件112和标识关键句组件113。创建关键词索引组件为机密文档存储器的文档创建了关键词索引。创建关键词索引组件可以基于检索词频率乘以反转文档频率度量来标识关键词。创建句子哈希表组件初始化句子哈希表,以便把关键句的哈希码映射到机密文档内的句子。创建句子哈希表组件调用了标识关键句组件来标识关键句。检测组件包括一检测匹配组件121,检测匹配组件121调用了选择候选文档组件122、对完全匹配计数组件123和对模糊匹配计数组件124。检测匹配组件首先调用选择候选文档组件来标识类似于外发通信的候选文档。检测匹配组件接着调用对完全匹配计数组件来确定候选文档的句子是否语外发通信的句子匹配。如果是,则根据匹配程度,查找匹配组件表明外发通信包含机密信息。如果完全匹配的程度不足以表示机密信息,则检测匹配组件可以调用对模糊匹配计数组件来标识外发通信的句子是否与候选文档的句子相似(例如模糊匹配,而不是完全匹配)。如果是,则根据相似性程度,检测匹配组件表明外发通信包含机密信息。本领域的技术人员会理解,检测匹配组件的各种组合可用来实现检测系统。例如,检测系统可以使用选择候选文档组件和对模糊匹配计数组件,而不使用对完全匹配计数组件。检测系统也可以提供匹配程度的等级(例如极可能、高度可能、可能以及不可能),使得可以采取适当的行动(例如通知安全人员并禁止外发通信的发送)。本领域的技术人员会理解,外发通信可能对应于在一组预定的受信者外部发送的任何通信。检测系统也可以把目标通信分隔成几个关注级别(例如极度机密、高度机密以及机密)。检测系统可以定义不同组的受信者,所述受信者被授权接收具有不同关注级别的通信。
其上实现检测系统的计算设备可以包括:中央处理单元、内存、输入设备(例如键盘和指示设备)、输出设备(例如显示设备)以及存储设备(例如磁盘驱动器)。内存和存储设备是包含能实现检测系统的指令的计算机可读介质。此外,数据结构和消息结构可以被保存或经由数据传输介质被发送,比如通信链路上的信号。可以使用各种通信链路,比如互联网、局域网、广域网或点对点拨号连接。
检测系统可以在各种操作环境中实现,包括个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费者电子设备、网络PC、小型计算机、大型计算机、包括上述系统和设备的任一个在内的分布式计算环境等等。
检测系统可以在计算机可执行指令的一般环境中描述,比如由一台或多台计算机或其它设备执行的程序模块。一般而言,程序模块包括执行特定任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。一般而言,程序模块的功能在各个实施例中可以根据需要而组合或分布。
图2是说明一实施例中、图1的检测系统的数据结构的框图。关键词索引201和句子哈希表211把关键词和句子映射到机密文档存储器(即目标信息存储器)的机密文档250。关键词索引为机密文档的每个关键词包含一条目202。每个条目为包含该关键词的每个文档包含一子条目203。在一实施例中,关键词索引也可以包括一辅助数据结构,该辅助数据结构把关键词映射到包含那些关键词的机密文档的关键句。句子哈希表为每个句子哈希码包含一条目212。每个条目可以包含子条目213,该子条目213映射到与该句子哈希码相对应的文档内的特定句子。例如,如果两个机密文档包含同一关键句,则这两个句子的句子哈希码会相同。此外,哈希函数可以把两个不同的句子映射到同一哈希码。因此,子条目表示了一系列抵触哈希码。本领域的技术人员会理解,关键词索引和句子哈希码可以用各种数据结构技术来实现,比如数组、二进制树、链表以及哈希表、以及已知表示了检测系统的数据的一个可能逻辑组织的数据结构。
图3是一实施例中、创建关键词索引的处理的流程图。组件为机密文档的每个词生成一反转文档频率度量,然后使用检索词频率乘以反转文档频率度量来计算每个词对其文档的重要性。然后,组件选择每个文档中最重要的词作为该文档的关键词,并向关键词索引添加每个关键词的相应条目。在方框301中,组件创建了一文档乘单词矩阵,该矩阵表示了每个文档中每个词的数目。组件从该矩阵中导出反转文档频率和检索词频率。在方框302-304中,组件循环,为机密文档内每个词计算反转文档频率。组件可以忽视文档中的无用词(例如“和”、“定冠词the”以及“不定冠词a”)。在方框302中,组件选择机密文档的下一个词。在判决框303,如果机密文档的全部词都已被选择,则组件继续到方框305,否则组件继续到方框304。在方框304,组件为所选词计算反转文档频率,它是对机密文档数目除以包含所选词的机密文档数目然后取常用对数。然后,组件循环到方框302以便选择机密文档的下一个词。在方框305-311中,组件循环,选择每个文档并且计算该文档内每个词对该文档的重要性。在方框305中,组件选择下一个机密文档。在判决框306,如果全部机密文档都已被选择,则组件完成,否则组件继续到方框307。在方框307,组件选择所选机密文档的下一个词。在判决框308,如果所选机密文档的全部词都已被选择,则组件循环到方框305以选择下一个机密文档,否则组件继续到方框309。在方框309,组件计算所选词对所选机密文档的重要性,它是检索词频率(即所选词在所选机密文档内的出现次数)乘以所选词的反转文档频率的乘积。本领域的技术人员会理解,单词对文档的重要性可以以许多不同方式来计算。例如,可以对检索词频率乘以反转文档频率度量进行标准化以便弥补文档内的单词总数。在判决框310,如果重要性大于一重要性阈值,则组件继续到方框311,否则组件继续到方框307以便选择所选文档的下一个词。在方框311中,组件向关键词索引添加一条目,该条目把所选词映射到所选文档。该条目还包含所计算的重要性,该重要性用于确定机密文档的句子是否与外发通信的句子相似。组件接着循环到方框307以便选择所选机密文档的下一个关键词。
图4是说明一实施例中、创建句子哈希表组件的处理的流程图。组件为机密文档的每个关键句向句子哈希表添加一条目。在方框401中,组件选择下一个机密文档。在判决框402中,如果全部机密文档都已被选择,则组件返回,否则组件继续到方框403。在方框403,组件选择所选文档的下一个段落。在判决框404,如果所选文档的全部段落都已被选择,则组件循环到方框401以选择下一个机密文档,否则组件继续到方框405。在方框405,组件调用通过所选段落的标识关键句组件。所调用的组件返回所通过段落的关键句的指示。在方框406,组件调用一哈希函数来为关键句生成一哈希码,然后向句子哈希表为所标识的关键句添加一条目。本领域的技术人员会理解,可以使用各种哈希函数。例如,哈希函数可以从句子的每个关键词的首字母生成一哈希码。组件接着循环到方框403以便选择所选文档的下一段落。本领域的技术人员会理解,关键句可以基于它们和所属文档的相似性来导出,而不是逐段地导出。
图5是说明一实施例中、基于句子关键词和段落关键词之间的相似性进行的标识关键句组件的处理的流程图。组件计算每个句子的关键词和段落关键词之间的相似性。然后,组件选择关键词与段落关键词最为相似的句子作为该段落的关键句。在方框501中,组件创建一关键词数组,列出每个关键词在段落内的出现次数。在方框502中,组件创建一句子乘关键词矩阵,该矩阵表明每个关键词在段落的每个句子内的出现次数。在方框503-505,组件循环,计算每个句子和段落的相似性。在方框503,组件选择段落的下一个句子。在判决框504,如果全部句子都已被选择,则组件继续到方框506,否则组件继续到方框505。在方框505,组件计算所选句子和段落的相似性。在一实施例中,组件可以把相似性计算为:由矩阵和数组所表示的所选句子和段落间共有的关键词重要性的乘积之和。然后组件循环到方框503以选择段落的下一个句子。在方框506中,组件选择与段落有最高相似性的句子。然后组件返回。在一实施例中,组件可以标识一段落的多个关键句。在标识了第一关键句后,组件可以从段落的关键词中删除该关键句的关键词、对其余句子重复相似性计算、然后选择在那些相似性中有最高相似性的句子作为另一关键句。组件可以重复该过程,直到标识了期望数量的关键句为止。
图6是说明一实施例中、基于反转句子频率进行的标识关键句组件的处理的流程图。图5和6因此表示了标识关键句的可选方式。本领域的技术人员会理解,可以使用任一种方式或所述方式的组合来标识关键句。组件为每个关键词计算反转句子频率。然后,组件为每个句子的每个词计算一重要性,比如检索词频率乘以反转句子频率度量。然后,组件通过把句子关键词的重要性相加来计算句子的重要性。具有最高重要性的句子被视为段落的关键句。在方框601中,组件创建一句子乘关键词矩阵。在方框602-602中,组件循环,选择段落的关键词并且计算它们的反转句子频率。在方框602中,组件选择段落的下一关键词。在判决框603,如果段落的全部关键词都已被选择,则组件继续到方框605,否则组件继续到方框604。在方框604,组件把所选关键词的反转句子频率计算为:段落内句子数除以包含所选关键词的段落内句子数然后取常用对数。在方框605-610中,组件循环,计算每个句子对段落的重要性。在方框605,组件选择段落的下一个句子。在判决框606,如果全部句子都已被选择,则组件继续到方框611,否则组件继续到方框607。在方框607中,组件选择所选句子的下一个关键词。在判决框608中,如果所选句子的全部关键词都已被选择,则组件继续到方框610,否则组件继续到方框609。在方框609中,组件把所选关键词对所选句子的重要性计算为:关键词在句子内的出现次数乘以句子的反转句子频率。然后,组件循环到方框607以选择所选句子的下一个关键词。在方框610中,组件通过把所选句子的关键词重要性除以所选句子中关键词数目(即平均关键词重要性)相加,从而计算所选句子对段落的重要性。然后组件循环到方框605以便选择下一个句子。在方框611中,组件把具有最高重要性的句子选择作为关键句,然后返回。
图7是说明一实施例中、检测匹配组件的处理的流程图。在方框701中,组件调用选择候选文档组件来标识匹配的候选文档。在方框702中,组件调用对完全匹配计数组件来标识外发通信的句子和机密文档的句子之间完全匹配的程度。在判决框703中,如果完全匹配程度超过一阈值,则组件返回已经检测到完全匹配的指示,否则组件继续到方框704。在方框704中,组件调用对模糊匹配计数组件来标识机密文档的句子和外发通信的句子之间的模糊匹配程度。在判决框705,如果模糊匹配程度超过一阈值,则组件返回已经发现模糊匹配的指示,否则组件返回没有发现匹配的指示。
图8是说明一实施例中、选择候选文档组件的处理的流程图。组件标识外发通信的关键词,然后标识与候选文档有相似关键词的文档。在方框801中,组件创建由外发通信的单词组成的单词数组。在方框802-804,组件循环,计算外发通信单词的重要性。在方框802,组件选择外发通信的下一个词。在判决框803,如果外发通信的全部词都已被选择,则组件继续到方框805,否则组件继续到方框804。在方框804,组件使用一检索词频率乘以反转文档频率度量来计算所选词的重要性,并且循环到方框802以选择下一个词。反转文档频率可以表示机密文档内的反转文档频率。在方框805-809,组件循环,选择每一个机密文档,并且计算它和外发通信的相似性。在方框805,组件选择下一个机密文档。在判决框806,如果全部机密文档都已被选择,则组件完成,否则组件继续到方框807。在方框807,组件通过把在机密文档和外发通信间共同的关键词的重要性乘积相加,从而计算所选机密文档和外发通信的相似性。在判决框808,如果相似性超过一相似性阈值,则组件继续到方框809,否则组件循环到方框805以选择下一个机密文档。在方框809,组件把所选的文档选择作为候选文档,然后循环到方框805以选择下一个机密文档。
图9是说明一实施例中、对完全匹配计数组件的处理的流程图。组件对外发通信的句子和候选文档内句子相匹配的次数进行计数。在方框901,组件选择外发通信的下一个段落。在判决框902,如果全部段落都已被选择,则组件返回,否则组件继续到方框903。在方框903,组件调用一标识关键句组件来标识所选段落的关键句。在方框904中,组件调用一哈希函数来为关键句生成一哈希码。然后,组件检验句子哈希表的每个被哈希的条目的每个子条目,以确定关键句是否与候选文档的句子相匹配。在判决框905,如果发现匹配,则组件继续到方框906,否则组件循环到方框901以选择外发通信的下一个段落。在方框906中,组件把外发通信的匹配计数递增所发现匹配的数目。然后,组件循环回方框901以选择外发通信的下一个段落。
图10是说明一实施例中、对模糊匹配计数组件的处理的流程图。在方框1001中,组件选择外发通信的下一个段落。在判决框1002,如果全部段落都已被选择,则组件返回,否则组件继续到方框1003。在方框1003,组件选择下一个候选文档。在判决框1004,如果全部候选文档都已被选择,则组件循环到方框1001以选择外发通信的下一个段落,否则组件继续到方框1005。在方框1005,组件选择所选候选文档的下一个关键句。在方框1006中,组件计算所选句子间的余弦相似性或编辑距离。在判决框1007,如果相似性或距离超过一阈值,则组件继续到方框1008,否则组件循环到方框1003以选择下一个候选文档。在方框1008,组件把对外发通信的相似性计数递增,然后循环到方框1003以选择下一个候选文档。
本领域的技术人员会理解,尽管这里为了说明而描述了检测系统的特定实施例,然而可以作出各种修改而不背离本发明的精神和范围。因而,本发明仅受所附权利要求的限制。
Claims (50)
1.计算机系统中一种用于标识外发通信是否包含机密信息的方法,所述方法包括:
提供包含机密信息的文档;
接收外发通信;以及
把接收到的外发通信与所提供的文档相比较以确定接收到的外发通信是否包含机密信息。
2.如权利要求1所述的方法,其特征在于,所提供的文档和外发通信是电子邮件。
3.如权利要求2所述的方法,其特征在于,所述计算机系统是一电子邮件服务器。
4.如权利要求1所述的方法,包括在确定接收到的外发通信包含机密信息时,禁止把接收到的外发通信传送到其目标受信者。
5.如权利要求1所述的方法,包括生成一个把关键词映射到包含所述关键词的文档的关键词索引,其中所述比较包括基于接收到的外发通信的关键词、使用关键词索引来定位候选文档。
6.如权利要求5所述的方法,其特征在于,所述单词基于检索词频率乘以反转文档频率度量被标识为关键词。
7.如权利要求1所述的方法,包括生成一个把从句子导出的哈希码映射到包含所述句子的文档的句子哈希表,其中所述比较包括使用句子哈希表来定位包含与接收到的外发通信的句子相匹配的句子的文档。
8.如权利要求7所述的方法,其特征在于,所述句子哈希表映射到一文档的关键句。
9.如权利要求1所述的方法,包括生成一个把关键词映射到包含所述关键词的文档的句子的关键词索引,其中所述比较包括使用关键词索引来定位包含接收到的外发通信的关键词的句子。
10.如权利要求9所述的方法,其特征在于,当所定位的句子与接收到的外发通信的句子相似时,接收到的外发通信包含机密信息。
11.如权利要求1所述的方法,其特征在于,所述外发通信是一电子邮件。
12.如权利要求1所述的方法,其特征在于,所述外发通信是电子邮件的附件。
13.如权利要求1所述的方法,其特征在于,所述外发通信是一即时消息。
14.如权利要求1所述的方法,其特征在于,所述外发通信是一语音通信。
15.如权利要求1所述的方法,其特征在于,所述外发通信是一互联网记录。
16.一种计算机可读介质,其包含用于控制计算机系统来标识文档是否包含与目标文档内容相似的内容的指令,其通过以下方法实现,所述方法包括:
基于目标文档和所述文档的关键词之间的相似性从目标文档中选择候选文档;以及
把候选文档与所述文档相比较以确定所述文档是否包含与候选文档相似的内容。
17.如权利要求16所述的计算机可读介质,其特征在于,所述选择包括:
创建一关键词索引,所述关键词索引把目标文档的关键词映射到包含那些关键词的目标文档;
标识文档的关键词;以及
使用所创建的关键词索引把候选文档标识为包含与文档关键词相似的关键词的目标文档。
18.如权利要求16所述的计算机可读介质,其特征在于,所述关键词基于检索词频率乘以反转文档频率度量来标识。
19.如权利要求16所述的计算机可读介质,包括生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的目标文档,其中所述比较包括使用句子哈希表来定位包含与文档句子相匹配的句子的候选文档。
20.如权利要求19所述的计算机可读介质,其特征在于,所述句子哈希表映射到目标文档的关键句。
21.如权利要求16所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的目标文档的句子,其中所述比较包括使用关键词索引来定位包含文档关键词的候选文档的句子。
22.如权利要求16所述的计算机可读介质,其特征在于,所述目标文档包含机密信息。
23.如权利要求22所述的计算机可读介质,其特征在于,当所述文档是包含机密信息的外发通信时,禁止发送所述外发通信。
24.如权利要求16所述的计算机可读介质,其特征在于,所述文档是电子邮件,所述比较找到相关的电子邮件。
25.如权利要求16所述的计算机可读介质,包括生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的目标文档,还包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的目标文档的句子,其中所述比较包括使用句子哈希表来定位包含与文档句子匹配的句子的候选文档,当句子不匹配时,使用所生成的关键词索引来确定所述文档的句子是否与候选文档的句子相似。
26.一种计算机可读介质,其包含用于控制计算机系统来标识文档是否包含与目标文档内容相似的内容的指令,其通过以下方法实现,所述方法包括:
生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的目标文档;
把候选文档标识为包含与所述文档关键词相似的关键词的目标文档;以及
把候选文档和所述文档相比较以确定所述文档是否包含与候选文档相似的内容;
使用所述句子哈希表来定位包含与所述文档句子匹配的句子的候选文档。
27.如权利要求26所述的计算机可读介质,其特征在于,目标文档和所述文档是电子邮件。
28.如权利要求26所述的计算机可读介质,其特征在于,所述关键词基于检索词频率乘以反转文档频率度量来标识。
29.如权利要求26所述的计算机可读介质,其特征在于,所述句子哈希表映射到目标文档的关键句。
30.如权利要求26所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的目标文档的句子,其中所述比较包括使用关键词索引来定位包含目标文档关键词的候选文档的句子。
31.如权利要求26所述的计算机可读介质,其特征在于,所述目标文档包含机密信息。
32.如权利要求31所述的计算机可读介质,其特征在于,当所述文档是包含机密信息的外发通信时,禁止发送所述外发通信。
33.如权利要求26所述的计算机可读介质,其特征在于,所述文档是电子邮件,所述比较找到了相关的电子邮件。
34.一种用于确定电子邮件是否包含机密信息的计算机系统,包括:
包含目标电子邮件的文档存储器,所述目标电子邮件包含机密信息;以及
把电子邮件与目标电子邮件相比较以确定电子邮件是否包含机密信息的组件。
35.如权利要求34所述的计算机系统,其特征在于,所述计算机系统是一电子邮件服务器。
36.如权利要求34所述的计算机系统,包括当确定电子邮件包含机密信息时,禁止把电子邮件传送到目标受信者。
37.一种计算机可读介质,其包含用于控制计算机系统来标识通信是否包含目标信息的指令,其通过以下方法实现,所述方法包括:
提供包含目标信息的文档;
接收一通信;以及
把接收到的通信与所提供的文档相比较以确定接收到的通信是否包含目标信息。
38.如权利要求37所述的计算机可读介质,其特征在于,所提供的文档和接收到的通信是电子邮件,所述目标信息是机密的。
39.如权利要求37所述的计算机可读介质,其特征在于,当确定接收到的通信包含目标信息时,禁止把接收到的通信传送到其目标受信者。
40.如权利要求37所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的文档,其中所述比较包括基于接收到的通信的关键词、使用关键词索引来定位候选文档。
41.如权利要求37所述的计算机可读介质,包括生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的文档,其中所述比较包括使用句子哈希表来定位包含与接收到的通信的句子相匹配的句子的文档。
42.如权利要求41所述的计算机可读介质,其特征在于,所述句子哈希表映射到一文档的关键句。
43.如权利要求37所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的文档的句子,其中所述比较包括使用关键词索引来定位包含接收到的通信的关键词的句子。
44.如权利要求37所述的计算机可读介质,其特征在于,接收到的通信是一电子邮件。
45.如权利要求37所述的计算机可读介质,其特征在于,接收到的通信是一网页。
46.如权利要求45所述的计算机可读介质,其特征在于,所提供的文档是网页。
47.如权利要求37所述的计算机可读介质,其特征在于,所述通信是电子邮件的附件。
48.如权利要求37所述的计算机可读介质,其特征在于,所述通信是一即时消息。
49.如权利要求37所述的计算机可读介质,其特征在于,所述通信是一语音通信。
50.如权利要求37所述的计算机可读介质,其特征在于,所述通信是一互联网记录。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/881,867 US7594277B2 (en) | 2004-06-30 | 2004-06-30 | Method and system for detecting when an outgoing communication contains certain content |
US10/881,867 | 2004-06-30 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1716294A true CN1716294A (zh) | 2006-01-04 |
CN1716294B CN1716294B (zh) | 2013-09-11 |
Family
ID=35115997
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2005100824040A Active CN1716294B (zh) | 2004-06-30 | 2005-06-30 | 用于检测外发通信何时包含特定内容的方法和系统 |
Country Status (5)
Country | Link |
---|---|
US (2) | US7594277B2 (zh) |
EP (1) | EP1613020B1 (zh) |
JP (1) | JP4824352B2 (zh) |
KR (1) | KR101150070B1 (zh) |
CN (1) | CN1716294B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911591A (zh) * | 2008-01-15 | 2010-12-08 | 微软公司 | 阻止安全数据离开网络周界 |
CN102436505A (zh) * | 2010-12-16 | 2012-05-02 | 微软公司 | 导出文档相似性索引 |
CN105190602A (zh) * | 2013-03-20 | 2015-12-23 | 微软技术许可有限责任公司 | 基于社交线索的电子通信排名 |
CN105519037A (zh) * | 2013-08-27 | 2016-04-20 | 三菱电机株式会社 | 数据处理装置以及数据处理方法以及程序 |
CN112765655A (zh) * | 2021-01-07 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私数据外发的管控方法及装置 |
Families Citing this family (142)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7472114B1 (en) * | 2002-09-18 | 2008-12-30 | Symantec Corporation | Method and apparatus to define the scope of a search for information from a tabular data source |
US7673344B1 (en) * | 2002-09-18 | 2010-03-02 | Symantec Corporation | Mechanism to search information content for preselected data |
US8041719B2 (en) * | 2003-05-06 | 2011-10-18 | Symantec Corporation | Personal computing device-based mechanism to detect preselected data |
US7886359B2 (en) * | 2002-09-18 | 2011-02-08 | Symantec Corporation | Method and apparatus to report policy violations in messages |
US8225371B2 (en) | 2002-09-18 | 2012-07-17 | Symantec Corporation | Method and apparatus for creating an information security policy based on a pre-configured template |
US8661498B2 (en) | 2002-09-18 | 2014-02-25 | Symantec Corporation | Secure and scalable detection of preselected data embedded in electronically transmitted messages |
US7899828B2 (en) * | 2003-12-10 | 2011-03-01 | Mcafee, Inc. | Tag data structure for maintaining relational data over captured objects |
US7984175B2 (en) * | 2003-12-10 | 2011-07-19 | Mcafee, Inc. | Method and apparatus for data capture and analysis system |
US7774604B2 (en) * | 2003-12-10 | 2010-08-10 | Mcafee, Inc. | Verifying captured objects before presentation |
US8548170B2 (en) * | 2003-12-10 | 2013-10-01 | Mcafee, Inc. | Document de-registration |
US8656039B2 (en) * | 2003-12-10 | 2014-02-18 | Mcafee, Inc. | Rule parser |
US20050131876A1 (en) * | 2003-12-10 | 2005-06-16 | Ahuja Ratinder Paul S. | Graphical user interface for capture system |
US7814327B2 (en) | 2003-12-10 | 2010-10-12 | Mcafee, Inc. | Document registration |
US7930540B2 (en) * | 2004-01-22 | 2011-04-19 | Mcafee, Inc. | Cryptographic policy enforcement |
US7962591B2 (en) * | 2004-06-23 | 2011-06-14 | Mcafee, Inc. | Object classification in a capture system |
US7594277B2 (en) * | 2004-06-30 | 2009-09-22 | Microsoft Corporation | Method and system for detecting when an outgoing communication contains certain content |
US8560534B2 (en) * | 2004-08-23 | 2013-10-15 | Mcafee, Inc. | Database for a capture system |
US7949849B2 (en) * | 2004-08-24 | 2011-05-24 | Mcafee, Inc. | File system for a capture system |
US7818809B1 (en) * | 2004-10-05 | 2010-10-19 | Symantec Corporation | Confidential data protection through usage scoping |
US20060085504A1 (en) * | 2004-10-20 | 2006-04-20 | Juxing Yang | A global electronic mail classification system |
IL165416A0 (en) * | 2004-11-28 | 2006-01-15 | Objective data regarding network resources | |
JP4695388B2 (ja) * | 2004-12-27 | 2011-06-08 | 株式会社リコー | セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体 |
US7664323B2 (en) * | 2005-01-28 | 2010-02-16 | Microsoft Corporation | Scalable hash-based character recognition |
US8011003B2 (en) | 2005-02-14 | 2011-08-30 | Symantec Corporation | Method and apparatus for handling messages containing pre-selected data |
US20060184549A1 (en) * | 2005-02-14 | 2006-08-17 | Rowney Kevin T | Method and apparatus for modifying messages based on the presence of pre-selected data |
JP4158927B2 (ja) * | 2005-03-25 | 2008-10-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報提示装置、情報提示方法、プログラム |
US7703006B2 (en) * | 2005-06-02 | 2010-04-20 | Lsi Corporation | System and method of accelerating document processing |
US7907608B2 (en) * | 2005-08-12 | 2011-03-15 | Mcafee, Inc. | High speed packet capture |
CN1921377B (zh) * | 2005-08-26 | 2010-09-15 | 鸿富锦精密工业(深圳)有限公司 | 数据同步系统及方法 |
US7818326B2 (en) * | 2005-08-31 | 2010-10-19 | Mcafee, Inc. | System and method for word indexing in a capture system and querying thereof |
JP4208086B2 (ja) * | 2005-09-27 | 2009-01-14 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 情報の機密性を管理する装置、および、その方法 |
US7730011B1 (en) | 2005-10-19 | 2010-06-01 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US7657104B2 (en) | 2005-11-21 | 2010-02-02 | Mcafee, Inc. | Identifying image type in a capture system |
US7735068B2 (en) * | 2005-12-01 | 2010-06-08 | Infosys Technologies Ltd. | Automated relationship traceability between software design artifacts |
US7971137B2 (en) * | 2005-12-14 | 2011-06-28 | Google Inc. | Detecting and rejecting annoying documents |
US9407662B2 (en) | 2005-12-29 | 2016-08-02 | Nextlabs, Inc. | Analyzing activity data of an information management system |
US8504537B2 (en) | 2006-03-24 | 2013-08-06 | Mcafee, Inc. | Signature distribution in a document registration system |
US20070226504A1 (en) * | 2006-03-24 | 2007-09-27 | Reconnex Corporation | Signature match processing in a document registration system |
US7958227B2 (en) | 2006-05-22 | 2011-06-07 | Mcafee, Inc. | Attributes of captured objects in a capture system |
US8010689B2 (en) * | 2006-05-22 | 2011-08-30 | Mcafee, Inc. | Locational tagging in a capture system |
US7689614B2 (en) | 2006-05-22 | 2010-03-30 | Mcafee, Inc. | Query generation for a capture system |
CN101083607B (zh) * | 2006-05-30 | 2010-12-08 | 倪海生 | 一种用于内外网络隔离的因特网访问服务器及其处理方法 |
JP2008109380A (ja) * | 2006-10-25 | 2008-05-08 | Media Exchange Inc | 電子メール送受信システム |
US7823761B2 (en) * | 2007-05-16 | 2010-11-02 | The Invention Science Fund I, Llc | Maneuverable surgical stapler |
US8627403B1 (en) * | 2007-07-31 | 2014-01-07 | Hewlett-Packard Development Company, L.P. | Policy applicability determination |
US8199965B1 (en) * | 2007-08-17 | 2012-06-12 | Mcafee, Inc. | System, method, and computer program product for preventing image-related data loss |
EP2196939A4 (en) * | 2007-10-02 | 2015-04-29 | Panasonic Ip Man Co Ltd | COPYRIGHT PROTECTION SYSTEM, PLAYBACK DEVICE AND PLAYBACK PROCESS |
US8312023B2 (en) * | 2007-12-21 | 2012-11-13 | Georgetown University | Automated forensic document signatures |
US8272051B1 (en) * | 2008-03-27 | 2012-09-18 | Trend Micro Incorporated | Method and apparatus of information leakage prevention for database tables |
US8065739B1 (en) | 2008-03-28 | 2011-11-22 | Symantec Corporation | Detecting policy violations in information content containing data in a character-based language |
US7885944B1 (en) | 2008-03-28 | 2011-02-08 | Symantec Corporation | High-accuracy confidential data detection |
US7996374B1 (en) | 2008-03-28 | 2011-08-09 | Symantec Corporation | Method and apparatus for automatically correlating related incidents of policy violations |
US7996373B1 (en) | 2008-03-28 | 2011-08-09 | Symantec Corporation | Method and apparatus for detecting policy violations in a data repository having an arbitrary data schema |
US9916611B2 (en) * | 2008-04-01 | 2018-03-13 | Certona Corporation | System and method for collecting and targeting visitor behavior |
US8205242B2 (en) | 2008-07-10 | 2012-06-19 | Mcafee, Inc. | System and method for data mining and security policy management |
US8346532B2 (en) * | 2008-07-11 | 2013-01-01 | International Business Machines Corporation | Managing the creation, detection, and maintenance of sensitive information |
US8286171B2 (en) * | 2008-07-21 | 2012-10-09 | Workshare Technology, Inc. | Methods and systems to fingerprint textual information using word runs |
US9253154B2 (en) | 2008-08-12 | 2016-02-02 | Mcafee, Inc. | Configuration management for a capture/registration system |
US8555080B2 (en) * | 2008-09-11 | 2013-10-08 | Workshare Technology, Inc. | Methods and systems for protect agents using distributed lightweight fingerprints |
WO2010030871A2 (en) * | 2008-09-11 | 2010-03-18 | Workshare Technology, Inc. | Methods and systems to implement fingerprint lookups across remote agents |
US8826443B1 (en) | 2008-09-18 | 2014-09-02 | Symantec Corporation | Selective removal of protected content from web requests sent to an interactive website |
WO2010059747A2 (en) * | 2008-11-18 | 2010-05-27 | Workshare Technology, Inc. | Methods and systems for exact data match filtering |
US8522350B2 (en) | 2008-11-19 | 2013-08-27 | Dell Products, Lp | System and method for run-time attack prevention |
US8406456B2 (en) | 2008-11-20 | 2013-03-26 | Workshare Technology, Inc. | Methods and systems for image fingerprinting |
US8613040B2 (en) * | 2008-12-22 | 2013-12-17 | Symantec Corporation | Adaptive data loss prevention policies |
US8850591B2 (en) | 2009-01-13 | 2014-09-30 | Mcafee, Inc. | System and method for concept building |
US8706709B2 (en) | 2009-01-15 | 2014-04-22 | Mcafee, Inc. | System and method for intelligent term grouping |
JP4763812B2 (ja) * | 2009-02-24 | 2011-08-31 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 文書の機密度判定を支援する方法、装置及びコンピュータプログラム |
US8473442B1 (en) | 2009-02-25 | 2013-06-25 | Mcafee, Inc. | System and method for intelligent state management |
US20100223341A1 (en) * | 2009-02-27 | 2010-09-02 | Microsoft Corporation | Electronic messaging tailored to user interest |
JP5458880B2 (ja) * | 2009-03-02 | 2014-04-02 | 富士通株式会社 | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
US9141692B2 (en) * | 2009-03-05 | 2015-09-22 | International Business Machines Corporation | Inferring sensitive information from tags |
US8935752B1 (en) | 2009-03-23 | 2015-01-13 | Symantec Corporation | System and method for identity consolidation |
US8667121B2 (en) | 2009-03-25 | 2014-03-04 | Mcafee, Inc. | System and method for managing data and policies |
US8447722B1 (en) | 2009-03-25 | 2013-05-21 | Mcafee, Inc. | System and method for data mining and security policy management |
KR20100107801A (ko) * | 2009-03-26 | 2010-10-06 | 삼성전자주식회사 | 무선 통신 시스템에서 안테나 선택을 위한 장치 및 방법 |
US8732137B2 (en) * | 2009-05-28 | 2014-05-20 | Red Hat, Inc. | Separating content from noisy context in template-based documents for search indexing |
US9235563B2 (en) * | 2009-07-02 | 2016-01-12 | Battelle Memorial Institute | Systems and processes for identifying features and determining feature associations in groups of documents |
WO2011017084A2 (en) * | 2009-07-27 | 2011-02-10 | Workshare Technology, Inc. | Methods and systems for comparing presentation slide decks |
US8356357B1 (en) * | 2009-07-30 | 2013-01-15 | Symantec Corporation | Detecting tainted documents by tracking transformed confidential data |
US8566350B2 (en) * | 2009-11-02 | 2013-10-22 | Palo Alto Research Center Incorporated | Method and apparatus for facilitating document sanitization |
US8287400B2 (en) * | 2009-11-19 | 2012-10-16 | Nike, Inc. | Fairway wood-type golf clubs with high moment of inertia |
US20110143325A1 (en) * | 2009-12-15 | 2011-06-16 | Awad Al-Khalaf | Automatic Integrity Checking of Quran Script |
US8296130B2 (en) | 2010-01-29 | 2012-10-23 | Ipar, Llc | Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization |
US8510098B2 (en) | 2010-01-29 | 2013-08-13 | Ipar, Llc | Systems and methods for word offensiveness processing using aggregated offensive word filters |
US8661037B2 (en) * | 2010-04-09 | 2014-02-25 | International Business Machines Corporation | System and method for multithreaded text indexing for next generation multi-core architectures |
US9406048B2 (en) * | 2010-07-07 | 2016-08-02 | Mark Meister | Email system for preventing inadvertant transmission of propriety message or documents to unintended recipient |
US8806615B2 (en) | 2010-11-04 | 2014-08-12 | Mcafee, Inc. | System and method for protecting specified data combinations |
US9092640B2 (en) * | 2010-11-09 | 2015-07-28 | International Business Machines Corporation | Access control for server applications |
US20120133989A1 (en) | 2010-11-29 | 2012-05-31 | Workshare Technology, Inc. | System and method for providing a common framework for reviewing comparisons of electronic documents |
US11030163B2 (en) | 2011-11-29 | 2021-06-08 | Workshare, Ltd. | System for tracking and displaying changes in a set of related electronic documents |
US10783326B2 (en) | 2013-03-14 | 2020-09-22 | Workshare, Ltd. | System for tracking changes in a collaborative document editing environment |
US20120180134A1 (en) * | 2011-01-07 | 2012-07-12 | Research In Motion Limited | Personal Information Guard |
US8769200B2 (en) | 2011-03-01 | 2014-07-01 | Xbridge Systems, Inc. | Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same |
US8745053B2 (en) | 2011-03-01 | 2014-06-03 | Xbridge Systems, Inc. | Method for managing mainframe overhead during detection of sensitive information, computer readable storage media and system utilizing same |
US20120226677A1 (en) * | 2011-03-01 | 2012-09-06 | Xbridge Systems, Inc. | Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same |
US20120246719A1 (en) * | 2011-03-21 | 2012-09-27 | International Business Machines Corporation | Systems and methods for automatic detection of non-compliant content in user actions |
US20120304072A1 (en) * | 2011-05-23 | 2012-11-29 | Microsoft Corporation | Sentiment-based content aggregation and presentation |
US10574729B2 (en) | 2011-06-08 | 2020-02-25 | Workshare Ltd. | System and method for cross platform document sharing |
US9948676B2 (en) | 2013-07-25 | 2018-04-17 | Workshare, Ltd. | System and method for securing documents prior to transmission |
US9613340B2 (en) | 2011-06-14 | 2017-04-04 | Workshare Ltd. | Method and system for shared document approval |
US10963584B2 (en) | 2011-06-08 | 2021-03-30 | Workshare Ltd. | Method and system for collaborative editing of a remotely stored document |
US10880359B2 (en) | 2011-12-21 | 2020-12-29 | Workshare, Ltd. | System and method for cross platform document sharing |
US9170990B2 (en) | 2013-03-14 | 2015-10-27 | Workshare Limited | Method and system for document retrieval with selective document comparison |
US9563879B2 (en) * | 2011-06-23 | 2017-02-07 | International Business Machines Corporation | Providing accurate recipient lists by correlating tagged keywords to recipient lists |
JP6167485B2 (ja) * | 2011-09-29 | 2017-07-26 | キヤノンマーケティングジャパン株式会社 | 情報処理装置、制御方法、及びプログラム |
GB2497194A (en) * | 2011-12-01 | 2013-06-05 | Ibm | Method for managing email |
TWI484357B (zh) * | 2011-12-02 | 2015-05-11 | Inst Information Industry | 量化式資料分析方法以及量化式資料分析裝置 |
US20130246336A1 (en) | 2011-12-27 | 2013-09-19 | Mcafee, Inc. | System and method for providing data protection workflows in a network environment |
US20130174029A1 (en) * | 2012-01-04 | 2013-07-04 | Freedom Solutions Group, LLC d/b/a Microsystems | Method and apparatus for analyzing a document |
US20130174030A1 (en) * | 2012-01-04 | 2013-07-04 | Freedom Solutions Group, LLC, d/b/a Microsystems | Method and apparatus for analyzing abbreviations in a document |
US9563669B2 (en) * | 2012-06-12 | 2017-02-07 | International Business Machines Corporation | Closed itemset mining using difference update |
US9171069B2 (en) | 2012-07-31 | 2015-10-27 | Freedom Solutions Group, Llc | Method and apparatus for analyzing a document |
US9489376B2 (en) * | 2013-01-02 | 2016-11-08 | International Business Machines Corporation | Identifying confidential data in a data item by comparing the data item to similar data items from alternative sources |
US11567907B2 (en) | 2013-03-14 | 2023-01-31 | Workshare, Ltd. | Method and system for comparing document versions encoded in a hierarchical representation |
GB2520226A (en) * | 2013-05-28 | 2015-05-20 | Ibm | Differentiation of messages for receivers thereof |
US10911492B2 (en) | 2013-07-25 | 2021-02-02 | Workshare Ltd. | System and method for securing documents prior to transmission |
US9047480B2 (en) * | 2013-08-01 | 2015-06-02 | Bitglass, Inc. | Secure application access system |
US9553867B2 (en) | 2013-08-01 | 2017-01-24 | Bitglass, Inc. | Secure application access system |
US10122714B2 (en) | 2013-08-01 | 2018-11-06 | Bitglass, Inc. | Secure user credential access system |
US9552492B2 (en) * | 2013-08-01 | 2017-01-24 | Bitglass, Inc. | Secure application access system |
US9251376B2 (en) | 2013-11-15 | 2016-02-02 | International Business Machines Corporation | Method and system to warn the user in the event of potential confidential document security violations |
JP6045533B2 (ja) | 2014-05-26 | 2016-12-14 | 京セラドキュメントソリューションズ株式会社 | 文書管理装置及び文書管理プログラム |
JP6395540B2 (ja) * | 2014-09-25 | 2018-09-26 | 株式会社東芝 | 連携システム、プログラム |
US10459925B2 (en) * | 2014-12-08 | 2019-10-29 | Iprova Sarl | Computer-enabled method of assisting to generate an innovation |
US10133723B2 (en) | 2014-12-29 | 2018-11-20 | Workshare Ltd. | System and method for determining document version geneology |
US11182551B2 (en) | 2014-12-29 | 2021-11-23 | Workshare Ltd. | System and method for determining document version geneology |
JP6596848B2 (ja) * | 2015-03-10 | 2019-10-30 | 富士ゼロックス株式会社 | アクセス権推定装置及びアクセス権推定プログラム |
JP6561529B2 (ja) | 2015-03-26 | 2019-08-21 | 富士通株式会社 | 文書検査装置、方法、及びプログラム |
US10462091B1 (en) * | 2015-06-12 | 2019-10-29 | Symantec Corporation | Systems and methods for reporting the attempted transmission of sensitive information |
US10518872B2 (en) | 2015-06-25 | 2019-12-31 | Simmonds Precision Products, Inc. | Continuous fuel tank level control |
US11763013B2 (en) | 2015-08-07 | 2023-09-19 | Workshare, Ltd. | Transaction document management system and method |
WO2017095403A1 (en) | 2015-12-02 | 2017-06-08 | Open Text Corporation | Creation of component templates |
US10380075B2 (en) | 2017-02-14 | 2019-08-13 | Microsoft Technology Licensing, Llc | Limiting sharing of a stored file |
US11741145B1 (en) * | 2018-09-30 | 2023-08-29 | Veritas Technologies Llc | Method and system for classification of unstructured data items |
CN109857852B (zh) * | 2019-01-24 | 2021-02-23 | 安徽商贸职业技术学院 | 一种电商在线评论训练集特征的筛选判断方法及系统 |
US11310209B2 (en) | 2019-09-10 | 2022-04-19 | Motorola Solutions, Inc. | Method and device for protecting confidentiality of audio messages |
US11222183B2 (en) * | 2020-02-14 | 2022-01-11 | Open Text Holdings, Inc. | Creation of component templates based on semantically similar content |
US11775357B1 (en) * | 2021-01-20 | 2023-10-03 | American Express Travel Related Services Company, Inc. | Relevant notifications of third party content |
US20230091581A1 (en) * | 2021-09-21 | 2023-03-23 | Bank Of America Corporation | Personal Data Discovery |
US20230367903A1 (en) * | 2022-05-16 | 2023-11-16 | Bank Of America Corporation | System and method for detecting and obfuscating confidential information in task logs |
US11843619B1 (en) * | 2022-10-07 | 2023-12-12 | Uab 360 It | Stateless system to enable data breach notification |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
USRE35861E (en) * | 1986-03-12 | 1998-07-28 | Advanced Software, Inc. | Apparatus and method for comparing data groups |
US4807182A (en) * | 1986-03-12 | 1989-02-21 | Advanced Software, Inc. | Apparatus and method for comparing data groups |
DE69432575T2 (de) * | 1993-01-28 | 2004-03-18 | Kabushiki Kaisha Toshiba, Kawasaki | Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung |
US6021202A (en) * | 1996-12-20 | 2000-02-01 | Financial Services Technology Consortium | Method and system for processing electronic documents |
JP3607462B2 (ja) * | 1997-07-02 | 2005-01-05 | 松下電器産業株式会社 | 関連キーワード自動抽出装置及びこれを用いた文書検索システム |
US7117358B2 (en) * | 1997-07-24 | 2006-10-03 | Tumbleweed Communications Corp. | Method and system for filtering communication |
US7162738B2 (en) * | 1998-11-03 | 2007-01-09 | Tumbleweed Communications Corp. | E-mail firewall with stored key encryption/decryption |
US6393428B1 (en) * | 1998-07-13 | 2002-05-21 | Microsoft Corporation | Natural language information retrieval system |
US6658626B1 (en) * | 1998-07-31 | 2003-12-02 | The Regents Of The University Of California | User interface for displaying document comparison information |
US20020069198A1 (en) * | 2000-08-31 | 2002-06-06 | Infoseer, Inc. | System and method for positive identification of electronic files |
US20020078155A1 (en) | 2000-12-18 | 2002-06-20 | Cheng-Shing Lai | Method for receiving electronic messages by electronic device |
KR100483602B1 (ko) * | 2001-10-12 | 2005-04-15 | (주)이캐빈 | 이메일 모니터링 방법 및 시스템 |
JP2003121547A (ja) | 2001-10-18 | 2003-04-23 | Fuji Heavy Ind Ltd | 車外監視装置 |
US7260570B2 (en) * | 2002-02-01 | 2007-08-21 | International Business Machines Corporation | Retrieving matching documents by queries in any national language |
US7519984B2 (en) * | 2002-06-27 | 2009-04-14 | International Business Machines Corporation | Method and apparatus for handling files containing confidential or sensitive information |
US6826493B1 (en) * | 2003-09-02 | 2004-11-30 | Tao Of Systems Integration, Inc. | System and method for real time determination of unsteady aerodynamic loads |
US7594277B2 (en) * | 2004-06-30 | 2009-09-22 | Microsoft Corporation | Method and system for detecting when an outgoing communication contains certain content |
US7536408B2 (en) * | 2004-07-26 | 2009-05-19 | Google Inc. | Phrase-based indexing in an information retrieval system |
US20060095966A1 (en) * | 2004-11-03 | 2006-05-04 | Shawn Park | Method of detecting, comparing, blocking, and eliminating spam emails |
US7444328B2 (en) * | 2005-06-06 | 2008-10-28 | Microsoft Corporation | Keyword-driven assistance |
US7765208B2 (en) * | 2005-06-06 | 2010-07-27 | Microsoft Corporation | Keyword analysis and arrangement |
-
2004
- 2004-06-30 US US10/881,867 patent/US7594277B2/en not_active Expired - Fee Related
-
2005
- 2005-06-17 EP EP05105394.0A patent/EP1613020B1/en active Active
- 2005-06-24 JP JP2005184987A patent/JP4824352B2/ja not_active Expired - Fee Related
- 2005-06-29 KR KR1020050056896A patent/KR101150070B1/ko active IP Right Grant
- 2005-06-30 CN CN2005100824040A patent/CN1716294B/zh active Active
-
2009
- 2009-07-27 US US12/510,186 patent/US8782805B2/en active Active
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101911591A (zh) * | 2008-01-15 | 2010-12-08 | 微软公司 | 阻止安全数据离开网络周界 |
US8316442B2 (en) | 2008-01-15 | 2012-11-20 | Microsoft Corporation | Preventing secure data from leaving the network perimeter |
CN101911591B (zh) * | 2008-01-15 | 2014-05-07 | 微软公司 | 用于阻止安全数据离开网络周界的方法 |
CN102436505A (zh) * | 2010-12-16 | 2012-05-02 | 微软公司 | 导出文档相似性索引 |
US8793242B2 (en) | 2010-12-16 | 2014-07-29 | Microsoft Corporation | Deriving document similarity indices |
CN102436505B (zh) * | 2010-12-16 | 2014-08-20 | 微软公司 | 导出文档相似性索引 |
CN105190602A (zh) * | 2013-03-20 | 2015-12-23 | 微软技术许可有限责任公司 | 基于社交线索的电子通信排名 |
CN105190602B (zh) * | 2013-03-20 | 2018-05-29 | 微软技术许可有限责任公司 | 基于社交线索的电子通信排名 |
CN105519037A (zh) * | 2013-08-27 | 2016-04-20 | 三菱电机株式会社 | 数据处理装置以及数据处理方法以及程序 |
CN112765655A (zh) * | 2021-01-07 | 2021-05-07 | 支付宝(杭州)信息技术有限公司 | 一种基于隐私数据外发的管控方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP4824352B2 (ja) | 2011-11-30 |
KR101150070B1 (ko) | 2012-07-02 |
CN1716294B (zh) | 2013-09-11 |
KR20060048686A (ko) | 2006-05-18 |
JP2006065837A (ja) | 2006-03-09 |
EP1613020B1 (en) | 2019-12-04 |
US8782805B2 (en) | 2014-07-15 |
US20060005247A1 (en) | 2006-01-05 |
EP1613020A2 (en) | 2006-01-04 |
US20090313706A1 (en) | 2009-12-17 |
US7594277B2 (en) | 2009-09-22 |
EP1613020A3 (en) | 2012-03-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1716294B (zh) | 用于检测外发通信何时包含特定内容的方法和系统 | |
JP4919515B2 (ja) | 重複する文書の検出および表示機能 | |
US8005863B2 (en) | Query generation for a capture system | |
US8225371B2 (en) | Method and apparatus for creating an information security policy based on a pre-configured template | |
US9760548B2 (en) | System, process and method for the detection of common content in multiple documents in an electronic system | |
US7673344B1 (en) | Mechanism to search information content for preselected data | |
US9292493B2 (en) | Systems and methods for automatically detecting deception in human communications expressed in digital form | |
US7886359B2 (en) | Method and apparatus to report policy violations in messages | |
US7996385B2 (en) | Method and apparatus to define the scope of a search for information from a tabular data source | |
CA2504680C (en) | A method and system for managing confidential information | |
US9515998B2 (en) | Secure and scalable detection of preselected data embedded in electronically transmitted messages | |
US8015194B2 (en) | Refining based on log content | |
US7849053B2 (en) | Coordination and tracking of workflows | |
US20150254566A1 (en) | Automated detection of deception in short and multilingual electronic messages | |
JP2013109642A (ja) | 文書管理装置 | |
US20060174123A1 (en) | System and method for detecting, analyzing and controlling hidden data embedded in computer files | |
US6836772B1 (en) | Key word deriving device, key word deriving method, and storage medium containing key word deriving program | |
Cooke et al. | Clowns, Crowds, and Clouds: A Cross-Enterprise Approach to Detecting Information Leakage Without Leaking Information | |
JP2009048350A (ja) | 情報評価装置、情報評価方法、及び情報評価プログラム | |
Felden et al. | EVALUATION OF TEXT CLASSIFICATION ALGORITHMS-for a Web-based Market Data Warehouse |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
ASS | Succession or assignment of patent right |
Owner name: MICROSOFT TECHNOLOGY LICENSING LLC Free format text: FORMER OWNER: MICROSOFT CORP. Effective date: 20150423 |
|
C41 | Transfer of patent application or patent right or utility model | ||
TR01 | Transfer of patent right |
Effective date of registration: 20150423 Address after: Washington State Patentee after: Micro soft technique license Co., Ltd Address before: Washington State Patentee before: Microsoft Corp. |