CN1716294A - 用于检测外发通信何时包含特定内容的方法和系统 - Google Patents

用于检测外发通信何时包含特定内容的方法和系统 Download PDF

Info

Publication number
CN1716294A
CN1716294A CNA2005100824040A CN200510082404A CN1716294A CN 1716294 A CN1716294 A CN 1716294A CN A2005100824040 A CNA2005100824040 A CN A2005100824040A CN 200510082404 A CN200510082404 A CN 200510082404A CN 1716294 A CN1716294 A CN 1716294A
Authority
CN
China
Prior art keywords
sentence
document
keyword
communication
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CNA2005100824040A
Other languages
English (en)
Other versions
CN1716294B (zh
Inventor
B·章
H-J·曾
马维英
陈正
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of CN1716294A publication Critical patent/CN1716294A/zh
Application granted granted Critical
Publication of CN1716294B publication Critical patent/CN1716294B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F15/00Digital computers in general; Data processing equipment in general
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/325Hash tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computational Linguistics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Facsimiles In General (AREA)
  • Storage Device Security (AREA)

Abstract

提供了一种用于检测外发通信是否包含机密信息或其它目标信息的方法和系统。检测系统带有包含机密信息的文档集合,称为“机密文档”。当向检测系统提供外发通信时,该系统把外发通信的内容与机密文档的内容相比较。如果外发通信包含机密信息,则检测系统就防止在机构外部发送该外发通信。检测系统基于外发通信内容和已知包含该机密信息的机密文档的内容之间的相似性来检测机密信息。

Description

用于检测外发通信何时包含特定内容的方法和系统
技术领域
所述技术一般涉及检测文档何时有相似的内容,尤其涉及检测外发通信何时包含特定的内容。
背景技术
许多机构都开发了机密的、商业秘密的、所有的信息以及对于每一个这样的机构的成功运作重要的其它信息。在许多情况下,机构确保该信息不在机构外部被公开是至关重要的。如果这种信息在机构外部被公开,信息就可能变得毫无用处,或者会对机构造成实质性的损害。例如,制造公司可以开发一系列特征以结合在产品的下一版本中。如果竞争者能够在发布下一版本前确认这一系列特征,则竞争者就能使用该信息以便有益于他们的竞争。举另一个例子,机构可能需要对违反了机构某一规则的雇员采取内部惩罚措施。如果违规变得公开,它就可以表示机构的公众关系问题。为了确保他们的机密信息未被不适当地公开,许多机构实现了昂贵的手段来确保不出现这种公开。例如,一些公司对他们的雇员实施训话以确保他们理解保持商业秘密的机密性的重要性、确保雇员知道要把包含商业秘密的所有文档都标记为机密、等等。
尽管电子通信允许机构的雇员有效地且高效地通信,然而电子通信也使机密信息容易且快速地散步在机构外。例如,如果设计队伍的领导者向队伍的成员们发送了一电子邮件、详细说明了产品下一版本的新特征,那么队伍的任一成员都可能把邮件转发给公司的其它雇员、或甚至转发给竞争者公司的雇员。这种机密信息到竞争者公司雇员的散步会是疏忽的或故意的。例如,雇员可能希望把详细说明新特征的电子邮件转发给公司市场队伍的几个成员。在转发电子邮件时,雇员可能输入目标受信者的部分名字。然而,如果目标受信者具有与竞争者公司雇员相似的名字,那么电子邮件程序可能把该部分名字解析到竞争者公司雇员的电子邮件地址。即使公开是疏忽所至,公司仍然会被严重损害。当雇员故意把有机密信息的电子邮件转发到未被授权接收该信息的某人时,将产生更大的问题。在这一情况下,雇员可能通过例如从电子邮件中删除机密性的告示(例如“该文档包含Acme公司的机密、所有权的以及商业秘密信息。”),从而尝试掩盖该信息的机密性。此外,机密信息未经授权的公开不限于电子邮件;未经授权的公开可以采取其它形式的电子通信。例如,雇员可以经由互联网新闻和讨论组、即时消息传递系统、电子邮件的附件、通讯稿、电子介绍、出版物等等来公开机密信息。
一些电子邮件系统具有过滤电子邮件以确保它们不包含不适当内容的特征。例如,这一系统可以扫描外发消息中是否有机密信息的指示,比如单词“所有权”、“机密的”或“商业秘密”。如果在邮件中找到这样的单词,则系统会禁止发送该邮件。然而,不是所有包含机密信息的电子邮件都包含这样的单词。例如,设计队伍中的雇员会向其它人频繁地发送电子邮件以便得到关于新理念的非正式反馈。在这种情况下,电子邮件一般不会包含机密性的告示。此外,故意要把机密信息发送给竞争者的雇员可以通过在转发前从邮件中删除这些单词,从而容易地避免这种系统的检测。
期望有一种系统,该系统能容易地检测到电子邮件中、更为一般的是在任何外发通信(例如出版、新闻组记录和电子邮件附件)中机密信息的存在。在电子邮件的情况下,这一系统会能检测到:雇员不加任何修改而仅仅转发原始的电子邮件、雇员把原始电子邮件的部分剪切和粘贴到新的电子邮件中、雇员加上附加评论来转发原始电子邮件的各部份、雇员修改原始电子邮件的内容、等等。此外,由于机构可能生成的电子邮件的容量,因此希望这一系统能快速地检测电子邮件中的这种机密信息,而不会显著地延迟传递、并且无需对附加的硬件和软件作出重大投资以便支持这种检测。
发明内容
提供了一种用于标识通信是否包含与目标文档内容相似的内容的基于计算机的方法和系统。该系统把候选文档标识为包含与通信关键词相似的关键词的那些目标文档。然后,系统把候选文档与通信相比较以确定通信是否包含与候选文档相似的内容。当通信是一外发通信时,比如包含与候选文档相似内容的电子邮件,系统可以禁止外发通信的传递。
附图说明
图1是说明一实施例中一检测系统的组件的框图。
图2是说明一实施例中图1的检测系统的数据结构的框图。
图3是说明一实施例中创建关键词索引的处理的流程图。
图4是说明一实施例中创建句子哈希表的处理的流程图。
图5是说明一实施例中、基于句子关键词和段落关键词的相似性进行的标识关键句成分的处理的流程图。
图6是说明一实施例中、基于反转句子频率进行的标识关键句成分的处理的流程图。
图7是说明一实施例中、检测匹配成分的处理的流程图。
图8是说明一实施例中、选择候选文档成分的处理的流程图。
图9是说明一实施例中、对完全匹配分量计数的处理的流程图。
图10是说明一实施例中、对模糊匹配分量计数的处理的流程图。
具体实施方式
提供了一种用于检测外发通信是否包含机密信息或其它目标信息的方法和系统。在一实施例中,检测系统带有包含机密信息的文档集合,称为“机密文档”。例如,当外发通信是一电子邮件时,机密文档可能是前面发送的包含机密信息的电子邮件。当向检测系统提供外发通信时,该系统把外发通信的内容与机密文档的内容相比较。如果比较表明外发通信包含机密信息,则检测系统就防止在机构外部发送该外发通信。例如,检测系统可以作为机构的内部电子邮件用户和外部电子邮件用户之间的电子邮件网关的一部分来实现。这样,检测系统基于外发通信内容和已知包含该机密信息的机密文档的内容之间的相似性来检测机密信息,并且不需要依赖于可被容易删除的机密性告示。
由于机构的雇员每天可能在机构外发送成千上百个电子邮件,且机构可能有几千个机密文档,因此仅仅把每个外发通信的每个句子与每个机密文档的每个句子相比较是不切实际的。实际上,比较的计算复杂度可能为O(N×M),其中N是机密文档的数目,M是外发通信的数目。在一实施例中,检测系统用各种辅助的数据结构来组织机密文档,以确保能够快速标识外发通信中的机密信息。检测系统可以生成一索引,该索引把机密文档的关键词映射到包含关键词的那些机密文档。例如,几个机密文档可能包含短语“新产品发布”。在这一情况下,关键词“新”、“产品”和“发布”可能被映射到那些机密文档的每一个。当检测系统接收到外发通信时,它标识外发通信的关键词。然后,检测系统可以使用关键词索引来标识哪些机密文档包含相似的关键词。例如,检测系统可以选择和外发通信有大量共同关键词的那些机密文档。然后,检测系统可以把外发通信的内容与所标识机密文档(也称为候选文档)的内容相比较,以确定外发通信是否真的包含机密信息。例如,如果外发通信包含关键词“新”、“产品”和“发布”,但每个关键词都在不同的句子中使用,则检测系统可能标识出包含短语“新产品发布”的几个机密文档。然而,当检测系统把外发通信的内容与候选文档的实际内容相比较时,它不会检测到相似性,因此会允许发送外发通信。检测系统可以使用各种技术来标识文档内的关键词。例如,检测系统可以使用检索词频率乘以反转文档频率度量(即“TF*IDF”)来标识关键词。本领域的技术人员会理解,可以使用其它度量。例如,给定文档中的单词、文档的元数据(例如关键词属性、摘要属性和标题属性)等等,检测系统可能以侧重点(例如字体大小、字体磅值和下划线)为因素。通过使用关键词索引,检测系统能有效地把机密文档限定为一组候选文档,以便进一步比较。
在一实施例中,检测系统使用辅助的数据结构,比如哈希表,来帮助标识哪些候选文档类似于外发通信。检测系统可以生成一哈希表,该哈希表把为每个句子导出的哈希码映射到包含那些句子的机密文档。检测系统通过向机密文档的每个句子应用哈希函数以便为每个句子生成一哈希码,从而生成句子哈希表。然后,检测系统保存哈希码到机密文档内相应句子的映射。在检测系统为外发通信标识了候选文档后,检测系统为外发通信的句子生成哈希码。检测系统使用所生成的哈希码来标识哪些候选文档包含具有相同哈希码的句子。检测系统接着可以把所标识的句子与外发通信的相应句子相比较,以确定它们是否匹配(即完全匹配或者类似)。根据匹配程度(例如外发通信的句子与机密文档的句子匹配的次数),检测系统可以把外发通信标记为包含机密信息。为了加速外发通信的过程,检测系统可以仅分析机密文档和外发通信的“关键句”。例如,关键句可以对应于一个段落的主题句。
在一实施例中,检测系统可以使用另一种辅助数据结构,比如关键句索引,来帮助标识哪些候选文档类似于外发通信。检测系统可以生成一关键句索引,该索引把机密文档的关键词映射到包含那些关键词的那些机密文档内的句子。在检测系统标识了候选文档后,检测系统可以使用关键句索引来计算外发通信的每个句子和候选文档的每个句子之间的相似性。检测系统可以使用各种相似性度量的任一个,比如余弦相似性和编辑距离。基于相似性程度(例如机密文档中与外发通信的句子相似的句子数),检测系统把外发通信标记为包含机密信息。
在一实施例中,检测系统将其分析基于机密文档和外发通信的“关键句”,而不是对每个句子执行其分析。“关键句”是表示机密文档或机密文档内一个段落的关键思想的句子。检测系统可以以各种方式来标识文档的关键句。检测系统可以计算一个段落的每个句子与该段落的相似性。具有与该段落的最高相似性的句子可以被视为该段落的关键句,它代表了该段落的机密信息并因此是该段落最重要的句子。为了计算相似性,检测系统可以用其关键词来表示该段落和每个句子。然后,检测系统计算每个句子的关键词与段落关键词之间的相似性。检测系统把具有最高相似性的句子选择作为关键句。或者,检测系统可以用检索词频率乘以反转句子频率度量(即TF*ISF)来标识关键句,以计算句子对于段落的重要性。反转句子频率像反转文档频率一样,反映了文档中的句子数除以包含该单词的句子数。检测系统通过把一单词在一句子中的出现次数和该句子的反转句子频率相乘,从而计算该单词对于该句子的重要性。然后,检测系统可以把每个句子的重要性设为单词在句子内的平均重要性。检测系统把具有最高重要性的句子选择作为关键句。本领域的技术人员会理解,关键句可以从句子对文档的总体重要性或相似性而导出,而不是逐段地导出。
在一实施例中,检测系统可以以各种方式把文档加入机密文档的集合。检测系统可以提供一用户接口,管理员通过该用户接口能向所述集合提交机密文档。此外,检测系统可能有一子系统,该子系统可以分析一文档全集,并且检测哪些文档具有机密性告示。例如,指示可以是文档的页脚或页眉上的单词“机密”。
本领域的技术人员会理解,除了检测经由电子邮件系统发送的机密信息以外,检测系统可用来检测多种环境下的类似内容。检测系统可用来检测任一类到来或外发通信中的相似内容,比如新闻和讨论组记录、即时消息、电子邮件附件、通讯稿、电子介绍、出版物、由语音通信系统分发的消息、网页等等。在对基于web的讨论组记录的情况下,检测系统可以集成有web浏览器。检测系统也可以被实现为对通信内容进行适当的解密和加密。检测系统也可以用来标识任一类目标通信,并且不限于电子邮件的机密信息。目标信息可用来监视雇员正在发送哪一类电子邮件。例如,目标信息可以是表示雇员所发送的典型邮件的模板电子邮件的集合,比如日程安排邮件、个人邮件、问题汇报邮件、帮助邮件等等。检测系统可用来检测所访问的网页是否包含不期望的内容。
图1是说明一实施例中的检测系统的组件的框图。检测系统100包括文档存储数据结构101-103、初始化数据结构组件111-113以及检测组件121-124。文档存储数据结构包括一机密文档存储器101、关键词索引102和句子哈希表103。检测系统可以在把机密文档置于机密文档存储器内以前处理它们。例如,在电子邮件的情况下,检测系统可以删除“来自:”、“发送至:”和“主题:”信息,并且删除内容的问候语和结束语部分。检测系统也可以以各种方式使其余内容标准化,比如删除大写、调节单词内非字母数字的字符(例如“n*w d*sign”),并且作出其它调节以便抵消发送者想要模糊机密信息的尝试。关键词索引把机密文档的关键词映射到包含那些关键词的机密文档。在一实施例中,关键词索引也可以标识包含该关键词的每个机密文档内的句子。或者,文档存储数据结构也可以包括一关键词/关键句索引,该索引把关键词映射到包含那些关键词的机密文档的关键句。句子哈希表把句子(例如关键句)的哈希码映射到包含那些句子的机密文档。初始化数据结构组件包括创建关键词索引组件111、创建句子哈希表组件112和标识关键句组件113。创建关键词索引组件为机密文档存储器的文档创建了关键词索引。创建关键词索引组件可以基于检索词频率乘以反转文档频率度量来标识关键词。创建句子哈希表组件初始化句子哈希表,以便把关键句的哈希码映射到机密文档内的句子。创建句子哈希表组件调用了标识关键句组件来标识关键句。检测组件包括一检测匹配组件121,检测匹配组件121调用了选择候选文档组件122、对完全匹配计数组件123和对模糊匹配计数组件124。检测匹配组件首先调用选择候选文档组件来标识类似于外发通信的候选文档。检测匹配组件接着调用对完全匹配计数组件来确定候选文档的句子是否语外发通信的句子匹配。如果是,则根据匹配程度,查找匹配组件表明外发通信包含机密信息。如果完全匹配的程度不足以表示机密信息,则检测匹配组件可以调用对模糊匹配计数组件来标识外发通信的句子是否与候选文档的句子相似(例如模糊匹配,而不是完全匹配)。如果是,则根据相似性程度,检测匹配组件表明外发通信包含机密信息。本领域的技术人员会理解,检测匹配组件的各种组合可用来实现检测系统。例如,检测系统可以使用选择候选文档组件和对模糊匹配计数组件,而不使用对完全匹配计数组件。检测系统也可以提供匹配程度的等级(例如极可能、高度可能、可能以及不可能),使得可以采取适当的行动(例如通知安全人员并禁止外发通信的发送)。本领域的技术人员会理解,外发通信可能对应于在一组预定的受信者外部发送的任何通信。检测系统也可以把目标通信分隔成几个关注级别(例如极度机密、高度机密以及机密)。检测系统可以定义不同组的受信者,所述受信者被授权接收具有不同关注级别的通信。
其上实现检测系统的计算设备可以包括:中央处理单元、内存、输入设备(例如键盘和指示设备)、输出设备(例如显示设备)以及存储设备(例如磁盘驱动器)。内存和存储设备是包含能实现检测系统的指令的计算机可读介质。此外,数据结构和消息结构可以被保存或经由数据传输介质被发送,比如通信链路上的信号。可以使用各种通信链路,比如互联网、局域网、广域网或点对点拨号连接。
检测系统可以在各种操作环境中实现,包括个人计算机、服务器计算机、手持或膝上型设备、多处理器系统、基于微处理器的系统、可编程消费者电子设备、网络PC、小型计算机、大型计算机、包括上述系统和设备的任一个在内的分布式计算环境等等。
检测系统可以在计算机可执行指令的一般环境中描述,比如由一台或多台计算机或其它设备执行的程序模块。一般而言,程序模块包括执行特定任务或实现特定的抽象数据类型的例程、程序、对象、组件、数据结构等等。一般而言,程序模块的功能在各个实施例中可以根据需要而组合或分布。
图2是说明一实施例中、图1的检测系统的数据结构的框图。关键词索引201和句子哈希表211把关键词和句子映射到机密文档存储器(即目标信息存储器)的机密文档250。关键词索引为机密文档的每个关键词包含一条目202。每个条目为包含该关键词的每个文档包含一子条目203。在一实施例中,关键词索引也可以包括一辅助数据结构,该辅助数据结构把关键词映射到包含那些关键词的机密文档的关键句。句子哈希表为每个句子哈希码包含一条目212。每个条目可以包含子条目213,该子条目213映射到与该句子哈希码相对应的文档内的特定句子。例如,如果两个机密文档包含同一关键句,则这两个句子的句子哈希码会相同。此外,哈希函数可以把两个不同的句子映射到同一哈希码。因此,子条目表示了一系列抵触哈希码。本领域的技术人员会理解,关键词索引和句子哈希码可以用各种数据结构技术来实现,比如数组、二进制树、链表以及哈希表、以及已知表示了检测系统的数据的一个可能逻辑组织的数据结构。
图3是一实施例中、创建关键词索引的处理的流程图。组件为机密文档的每个词生成一反转文档频率度量,然后使用检索词频率乘以反转文档频率度量来计算每个词对其文档的重要性。然后,组件选择每个文档中最重要的词作为该文档的关键词,并向关键词索引添加每个关键词的相应条目。在方框301中,组件创建了一文档乘单词矩阵,该矩阵表示了每个文档中每个词的数目。组件从该矩阵中导出反转文档频率和检索词频率。在方框302-304中,组件循环,为机密文档内每个词计算反转文档频率。组件可以忽视文档中的无用词(例如“和”、“定冠词the”以及“不定冠词a”)。在方框302中,组件选择机密文档的下一个词。在判决框303,如果机密文档的全部词都已被选择,则组件继续到方框305,否则组件继续到方框304。在方框304,组件为所选词计算反转文档频率,它是对机密文档数目除以包含所选词的机密文档数目然后取常用对数。然后,组件循环到方框302以便选择机密文档的下一个词。在方框305-311中,组件循环,选择每个文档并且计算该文档内每个词对该文档的重要性。在方框305中,组件选择下一个机密文档。在判决框306,如果全部机密文档都已被选择,则组件完成,否则组件继续到方框307。在方框307,组件选择所选机密文档的下一个词。在判决框308,如果所选机密文档的全部词都已被选择,则组件循环到方框305以选择下一个机密文档,否则组件继续到方框309。在方框309,组件计算所选词对所选机密文档的重要性,它是检索词频率(即所选词在所选机密文档内的出现次数)乘以所选词的反转文档频率的乘积。本领域的技术人员会理解,单词对文档的重要性可以以许多不同方式来计算。例如,可以对检索词频率乘以反转文档频率度量进行标准化以便弥补文档内的单词总数。在判决框310,如果重要性大于一重要性阈值,则组件继续到方框311,否则组件继续到方框307以便选择所选文档的下一个词。在方框311中,组件向关键词索引添加一条目,该条目把所选词映射到所选文档。该条目还包含所计算的重要性,该重要性用于确定机密文档的句子是否与外发通信的句子相似。组件接着循环到方框307以便选择所选机密文档的下一个关键词。
图4是说明一实施例中、创建句子哈希表组件的处理的流程图。组件为机密文档的每个关键句向句子哈希表添加一条目。在方框401中,组件选择下一个机密文档。在判决框402中,如果全部机密文档都已被选择,则组件返回,否则组件继续到方框403。在方框403,组件选择所选文档的下一个段落。在判决框404,如果所选文档的全部段落都已被选择,则组件循环到方框401以选择下一个机密文档,否则组件继续到方框405。在方框405,组件调用通过所选段落的标识关键句组件。所调用的组件返回所通过段落的关键句的指示。在方框406,组件调用一哈希函数来为关键句生成一哈希码,然后向句子哈希表为所标识的关键句添加一条目。本领域的技术人员会理解,可以使用各种哈希函数。例如,哈希函数可以从句子的每个关键词的首字母生成一哈希码。组件接着循环到方框403以便选择所选文档的下一段落。本领域的技术人员会理解,关键句可以基于它们和所属文档的相似性来导出,而不是逐段地导出。
图5是说明一实施例中、基于句子关键词和段落关键词之间的相似性进行的标识关键句组件的处理的流程图。组件计算每个句子的关键词和段落关键词之间的相似性。然后,组件选择关键词与段落关键词最为相似的句子作为该段落的关键句。在方框501中,组件创建一关键词数组,列出每个关键词在段落内的出现次数。在方框502中,组件创建一句子乘关键词矩阵,该矩阵表明每个关键词在段落的每个句子内的出现次数。在方框503-505,组件循环,计算每个句子和段落的相似性。在方框503,组件选择段落的下一个句子。在判决框504,如果全部句子都已被选择,则组件继续到方框506,否则组件继续到方框505。在方框505,组件计算所选句子和段落的相似性。在一实施例中,组件可以把相似性计算为:由矩阵和数组所表示的所选句子和段落间共有的关键词重要性的乘积之和。然后组件循环到方框503以选择段落的下一个句子。在方框506中,组件选择与段落有最高相似性的句子。然后组件返回。在一实施例中,组件可以标识一段落的多个关键句。在标识了第一关键句后,组件可以从段落的关键词中删除该关键句的关键词、对其余句子重复相似性计算、然后选择在那些相似性中有最高相似性的句子作为另一关键句。组件可以重复该过程,直到标识了期望数量的关键句为止。
图6是说明一实施例中、基于反转句子频率进行的标识关键句组件的处理的流程图。图5和6因此表示了标识关键句的可选方式。本领域的技术人员会理解,可以使用任一种方式或所述方式的组合来标识关键句。组件为每个关键词计算反转句子频率。然后,组件为每个句子的每个词计算一重要性,比如检索词频率乘以反转句子频率度量。然后,组件通过把句子关键词的重要性相加来计算句子的重要性。具有最高重要性的句子被视为段落的关键句。在方框601中,组件创建一句子乘关键词矩阵。在方框602-602中,组件循环,选择段落的关键词并且计算它们的反转句子频率。在方框602中,组件选择段落的下一关键词。在判决框603,如果段落的全部关键词都已被选择,则组件继续到方框605,否则组件继续到方框604。在方框604,组件把所选关键词的反转句子频率计算为:段落内句子数除以包含所选关键词的段落内句子数然后取常用对数。在方框605-610中,组件循环,计算每个句子对段落的重要性。在方框605,组件选择段落的下一个句子。在判决框606,如果全部句子都已被选择,则组件继续到方框611,否则组件继续到方框607。在方框607中,组件选择所选句子的下一个关键词。在判决框608中,如果所选句子的全部关键词都已被选择,则组件继续到方框610,否则组件继续到方框609。在方框609中,组件把所选关键词对所选句子的重要性计算为:关键词在句子内的出现次数乘以句子的反转句子频率。然后,组件循环到方框607以选择所选句子的下一个关键词。在方框610中,组件通过把所选句子的关键词重要性除以所选句子中关键词数目(即平均关键词重要性)相加,从而计算所选句子对段落的重要性。然后组件循环到方框605以便选择下一个句子。在方框611中,组件把具有最高重要性的句子选择作为关键句,然后返回。
图7是说明一实施例中、检测匹配组件的处理的流程图。在方框701中,组件调用选择候选文档组件来标识匹配的候选文档。在方框702中,组件调用对完全匹配计数组件来标识外发通信的句子和机密文档的句子之间完全匹配的程度。在判决框703中,如果完全匹配程度超过一阈值,则组件返回已经检测到完全匹配的指示,否则组件继续到方框704。在方框704中,组件调用对模糊匹配计数组件来标识机密文档的句子和外发通信的句子之间的模糊匹配程度。在判决框705,如果模糊匹配程度超过一阈值,则组件返回已经发现模糊匹配的指示,否则组件返回没有发现匹配的指示。
图8是说明一实施例中、选择候选文档组件的处理的流程图。组件标识外发通信的关键词,然后标识与候选文档有相似关键词的文档。在方框801中,组件创建由外发通信的单词组成的单词数组。在方框802-804,组件循环,计算外发通信单词的重要性。在方框802,组件选择外发通信的下一个词。在判决框803,如果外发通信的全部词都已被选择,则组件继续到方框805,否则组件继续到方框804。在方框804,组件使用一检索词频率乘以反转文档频率度量来计算所选词的重要性,并且循环到方框802以选择下一个词。反转文档频率可以表示机密文档内的反转文档频率。在方框805-809,组件循环,选择每一个机密文档,并且计算它和外发通信的相似性。在方框805,组件选择下一个机密文档。在判决框806,如果全部机密文档都已被选择,则组件完成,否则组件继续到方框807。在方框807,组件通过把在机密文档和外发通信间共同的关键词的重要性乘积相加,从而计算所选机密文档和外发通信的相似性。在判决框808,如果相似性超过一相似性阈值,则组件继续到方框809,否则组件循环到方框805以选择下一个机密文档。在方框809,组件把所选的文档选择作为候选文档,然后循环到方框805以选择下一个机密文档。
图9是说明一实施例中、对完全匹配计数组件的处理的流程图。组件对外发通信的句子和候选文档内句子相匹配的次数进行计数。在方框901,组件选择外发通信的下一个段落。在判决框902,如果全部段落都已被选择,则组件返回,否则组件继续到方框903。在方框903,组件调用一标识关键句组件来标识所选段落的关键句。在方框904中,组件调用一哈希函数来为关键句生成一哈希码。然后,组件检验句子哈希表的每个被哈希的条目的每个子条目,以确定关键句是否与候选文档的句子相匹配。在判决框905,如果发现匹配,则组件继续到方框906,否则组件循环到方框901以选择外发通信的下一个段落。在方框906中,组件把外发通信的匹配计数递增所发现匹配的数目。然后,组件循环回方框901以选择外发通信的下一个段落。
图10是说明一实施例中、对模糊匹配计数组件的处理的流程图。在方框1001中,组件选择外发通信的下一个段落。在判决框1002,如果全部段落都已被选择,则组件返回,否则组件继续到方框1003。在方框1003,组件选择下一个候选文档。在判决框1004,如果全部候选文档都已被选择,则组件循环到方框1001以选择外发通信的下一个段落,否则组件继续到方框1005。在方框1005,组件选择所选候选文档的下一个关键句。在方框1006中,组件计算所选句子间的余弦相似性或编辑距离。在判决框1007,如果相似性或距离超过一阈值,则组件继续到方框1008,否则组件循环到方框1003以选择下一个候选文档。在方框1008,组件把对外发通信的相似性计数递增,然后循环到方框1003以选择下一个候选文档。
本领域的技术人员会理解,尽管这里为了说明而描述了检测系统的特定实施例,然而可以作出各种修改而不背离本发明的精神和范围。因而,本发明仅受所附权利要求的限制。

Claims (50)

1.计算机系统中一种用于标识外发通信是否包含机密信息的方法,所述方法包括:
提供包含机密信息的文档;
接收外发通信;以及
把接收到的外发通信与所提供的文档相比较以确定接收到的外发通信是否包含机密信息。
2.如权利要求1所述的方法,其特征在于,所提供的文档和外发通信是电子邮件。
3.如权利要求2所述的方法,其特征在于,所述计算机系统是一电子邮件服务器。
4.如权利要求1所述的方法,包括在确定接收到的外发通信包含机密信息时,禁止把接收到的外发通信传送到其目标受信者。
5.如权利要求1所述的方法,包括生成一个把关键词映射到包含所述关键词的文档的关键词索引,其中所述比较包括基于接收到的外发通信的关键词、使用关键词索引来定位候选文档。
6.如权利要求5所述的方法,其特征在于,所述单词基于检索词频率乘以反转文档频率度量被标识为关键词。
7.如权利要求1所述的方法,包括生成一个把从句子导出的哈希码映射到包含所述句子的文档的句子哈希表,其中所述比较包括使用句子哈希表来定位包含与接收到的外发通信的句子相匹配的句子的文档。
8.如权利要求7所述的方法,其特征在于,所述句子哈希表映射到一文档的关键句。
9.如权利要求1所述的方法,包括生成一个把关键词映射到包含所述关键词的文档的句子的关键词索引,其中所述比较包括使用关键词索引来定位包含接收到的外发通信的关键词的句子。
10.如权利要求9所述的方法,其特征在于,当所定位的句子与接收到的外发通信的句子相似时,接收到的外发通信包含机密信息。
11.如权利要求1所述的方法,其特征在于,所述外发通信是一电子邮件。
12.如权利要求1所述的方法,其特征在于,所述外发通信是电子邮件的附件。
13.如权利要求1所述的方法,其特征在于,所述外发通信是一即时消息。
14.如权利要求1所述的方法,其特征在于,所述外发通信是一语音通信。
15.如权利要求1所述的方法,其特征在于,所述外发通信是一互联网记录。
16.一种计算机可读介质,其包含用于控制计算机系统来标识文档是否包含与目标文档内容相似的内容的指令,其通过以下方法实现,所述方法包括:
基于目标文档和所述文档的关键词之间的相似性从目标文档中选择候选文档;以及
把候选文档与所述文档相比较以确定所述文档是否包含与候选文档相似的内容。
17.如权利要求16所述的计算机可读介质,其特征在于,所述选择包括:
创建一关键词索引,所述关键词索引把目标文档的关键词映射到包含那些关键词的目标文档;
标识文档的关键词;以及
使用所创建的关键词索引把候选文档标识为包含与文档关键词相似的关键词的目标文档。
18.如权利要求16所述的计算机可读介质,其特征在于,所述关键词基于检索词频率乘以反转文档频率度量来标识。
19.如权利要求16所述的计算机可读介质,包括生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的目标文档,其中所述比较包括使用句子哈希表来定位包含与文档句子相匹配的句子的候选文档。
20.如权利要求19所述的计算机可读介质,其特征在于,所述句子哈希表映射到目标文档的关键句。
21.如权利要求16所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的目标文档的句子,其中所述比较包括使用关键词索引来定位包含文档关键词的候选文档的句子。
22.如权利要求16所述的计算机可读介质,其特征在于,所述目标文档包含机密信息。
23.如权利要求22所述的计算机可读介质,其特征在于,当所述文档是包含机密信息的外发通信时,禁止发送所述外发通信。
24.如权利要求16所述的计算机可读介质,其特征在于,所述文档是电子邮件,所述比较找到相关的电子邮件。
25.如权利要求16所述的计算机可读介质,包括生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的目标文档,还包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的目标文档的句子,其中所述比较包括使用句子哈希表来定位包含与文档句子匹配的句子的候选文档,当句子不匹配时,使用所生成的关键词索引来确定所述文档的句子是否与候选文档的句子相似。
26.一种计算机可读介质,其包含用于控制计算机系统来标识文档是否包含与目标文档内容相似的内容的指令,其通过以下方法实现,所述方法包括:
生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的目标文档;
把候选文档标识为包含与所述文档关键词相似的关键词的目标文档;以及
把候选文档和所述文档相比较以确定所述文档是否包含与候选文档相似的内容;
使用所述句子哈希表来定位包含与所述文档句子匹配的句子的候选文档。
27.如权利要求26所述的计算机可读介质,其特征在于,目标文档和所述文档是电子邮件。
28.如权利要求26所述的计算机可读介质,其特征在于,所述关键词基于检索词频率乘以反转文档频率度量来标识。
29.如权利要求26所述的计算机可读介质,其特征在于,所述句子哈希表映射到目标文档的关键句。
30.如权利要求26所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的目标文档的句子,其中所述比较包括使用关键词索引来定位包含目标文档关键词的候选文档的句子。
31.如权利要求26所述的计算机可读介质,其特征在于,所述目标文档包含机密信息。
32.如权利要求31所述的计算机可读介质,其特征在于,当所述文档是包含机密信息的外发通信时,禁止发送所述外发通信。
33.如权利要求26所述的计算机可读介质,其特征在于,所述文档是电子邮件,所述比较找到了相关的电子邮件。
34.一种用于确定电子邮件是否包含机密信息的计算机系统,包括:
包含目标电子邮件的文档存储器,所述目标电子邮件包含机密信息;以及
把电子邮件与目标电子邮件相比较以确定电子邮件是否包含机密信息的组件。
35.如权利要求34所述的计算机系统,其特征在于,所述计算机系统是一电子邮件服务器。
36.如权利要求34所述的计算机系统,包括当确定电子邮件包含机密信息时,禁止把电子邮件传送到目标受信者。
37.一种计算机可读介质,其包含用于控制计算机系统来标识通信是否包含目标信息的指令,其通过以下方法实现,所述方法包括:
提供包含目标信息的文档;
接收一通信;以及
把接收到的通信与所提供的文档相比较以确定接收到的通信是否包含目标信息。
38.如权利要求37所述的计算机可读介质,其特征在于,所提供的文档和接收到的通信是电子邮件,所述目标信息是机密的。
39.如权利要求37所述的计算机可读介质,其特征在于,当确定接收到的通信包含目标信息时,禁止把接收到的通信传送到其目标受信者。
40.如权利要求37所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的文档,其中所述比较包括基于接收到的通信的关键词、使用关键词索引来定位候选文档。
41.如权利要求37所述的计算机可读介质,包括生成一句子哈希表,所述句子哈希表把从句子导出的哈希码映射到包含所述句子的文档,其中所述比较包括使用句子哈希表来定位包含与接收到的通信的句子相匹配的句子的文档。
42.如权利要求41所述的计算机可读介质,其特征在于,所述句子哈希表映射到一文档的关键句。
43.如权利要求37所述的计算机可读介质,包括生成一关键词索引,所述关键词索引把关键词映射到包含所述关键词的文档的句子,其中所述比较包括使用关键词索引来定位包含接收到的通信的关键词的句子。
44.如权利要求37所述的计算机可读介质,其特征在于,接收到的通信是一电子邮件。
45.如权利要求37所述的计算机可读介质,其特征在于,接收到的通信是一网页。
46.如权利要求45所述的计算机可读介质,其特征在于,所提供的文档是网页。
47.如权利要求37所述的计算机可读介质,其特征在于,所述通信是电子邮件的附件。
48.如权利要求37所述的计算机可读介质,其特征在于,所述通信是一即时消息。
49.如权利要求37所述的计算机可读介质,其特征在于,所述通信是一语音通信。
50.如权利要求37所述的计算机可读介质,其特征在于,所述通信是一互联网记录。
CN2005100824040A 2004-06-30 2005-06-30 用于检测外发通信何时包含特定内容的方法和系统 Active CN1716294B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/881,867 US7594277B2 (en) 2004-06-30 2004-06-30 Method and system for detecting when an outgoing communication contains certain content
US10/881,867 2004-06-30

Publications (2)

Publication Number Publication Date
CN1716294A true CN1716294A (zh) 2006-01-04
CN1716294B CN1716294B (zh) 2013-09-11

Family

ID=35115997

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2005100824040A Active CN1716294B (zh) 2004-06-30 2005-06-30 用于检测外发通信何时包含特定内容的方法和系统

Country Status (5)

Country Link
US (2) US7594277B2 (zh)
EP (1) EP1613020B1 (zh)
JP (1) JP4824352B2 (zh)
KR (1) KR101150070B1 (zh)
CN (1) CN1716294B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101911591A (zh) * 2008-01-15 2010-12-08 微软公司 阻止安全数据离开网络周界
CN102436505A (zh) * 2010-12-16 2012-05-02 微软公司 导出文档相似性索引
CN105190602A (zh) * 2013-03-20 2015-12-23 微软技术许可有限责任公司 基于社交线索的电子通信排名
CN105519037A (zh) * 2013-08-27 2016-04-20 三菱电机株式会社 数据处理装置以及数据处理方法以及程序
CN112765655A (zh) * 2021-01-07 2021-05-07 支付宝(杭州)信息技术有限公司 一种基于隐私数据外发的管控方法及装置

Families Citing this family (142)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7472114B1 (en) * 2002-09-18 2008-12-30 Symantec Corporation Method and apparatus to define the scope of a search for information from a tabular data source
US7673344B1 (en) * 2002-09-18 2010-03-02 Symantec Corporation Mechanism to search information content for preselected data
US8041719B2 (en) * 2003-05-06 2011-10-18 Symantec Corporation Personal computing device-based mechanism to detect preselected data
US7886359B2 (en) * 2002-09-18 2011-02-08 Symantec Corporation Method and apparatus to report policy violations in messages
US8225371B2 (en) 2002-09-18 2012-07-17 Symantec Corporation Method and apparatus for creating an information security policy based on a pre-configured template
US8661498B2 (en) 2002-09-18 2014-02-25 Symantec Corporation Secure and scalable detection of preselected data embedded in electronically transmitted messages
US7899828B2 (en) * 2003-12-10 2011-03-01 Mcafee, Inc. Tag data structure for maintaining relational data over captured objects
US7984175B2 (en) * 2003-12-10 2011-07-19 Mcafee, Inc. Method and apparatus for data capture and analysis system
US7774604B2 (en) * 2003-12-10 2010-08-10 Mcafee, Inc. Verifying captured objects before presentation
US8548170B2 (en) * 2003-12-10 2013-10-01 Mcafee, Inc. Document de-registration
US8656039B2 (en) * 2003-12-10 2014-02-18 Mcafee, Inc. Rule parser
US20050131876A1 (en) * 2003-12-10 2005-06-16 Ahuja Ratinder Paul S. Graphical user interface for capture system
US7814327B2 (en) 2003-12-10 2010-10-12 Mcafee, Inc. Document registration
US7930540B2 (en) * 2004-01-22 2011-04-19 Mcafee, Inc. Cryptographic policy enforcement
US7962591B2 (en) * 2004-06-23 2011-06-14 Mcafee, Inc. Object classification in a capture system
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US8560534B2 (en) * 2004-08-23 2013-10-15 Mcafee, Inc. Database for a capture system
US7949849B2 (en) * 2004-08-24 2011-05-24 Mcafee, Inc. File system for a capture system
US7818809B1 (en) * 2004-10-05 2010-10-19 Symantec Corporation Confidential data protection through usage scoping
US20060085504A1 (en) * 2004-10-20 2006-04-20 Juxing Yang A global electronic mail classification system
IL165416A0 (en) * 2004-11-28 2006-01-15 Objective data regarding network resources
JP4695388B2 (ja) * 2004-12-27 2011-06-08 株式会社リコー セキュリティ情報推定装置、セキュリティ情報推定方法、セキュリティ情報推定プログラム及び記録媒体
US7664323B2 (en) * 2005-01-28 2010-02-16 Microsoft Corporation Scalable hash-based character recognition
US8011003B2 (en) 2005-02-14 2011-08-30 Symantec Corporation Method and apparatus for handling messages containing pre-selected data
US20060184549A1 (en) * 2005-02-14 2006-08-17 Rowney Kevin T Method and apparatus for modifying messages based on the presence of pre-selected data
JP4158927B2 (ja) * 2005-03-25 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報提示装置、情報提示方法、プログラム
US7703006B2 (en) * 2005-06-02 2010-04-20 Lsi Corporation System and method of accelerating document processing
US7907608B2 (en) * 2005-08-12 2011-03-15 Mcafee, Inc. High speed packet capture
CN1921377B (zh) * 2005-08-26 2010-09-15 鸿富锦精密工业(深圳)有限公司 数据同步系统及方法
US7818326B2 (en) * 2005-08-31 2010-10-19 Mcafee, Inc. System and method for word indexing in a capture system and querying thereof
JP4208086B2 (ja) * 2005-09-27 2009-01-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報の機密性を管理する装置、および、その方法
US7730011B1 (en) 2005-10-19 2010-06-01 Mcafee, Inc. Attributes of captured objects in a capture system
US7657104B2 (en) 2005-11-21 2010-02-02 Mcafee, Inc. Identifying image type in a capture system
US7735068B2 (en) * 2005-12-01 2010-06-08 Infosys Technologies Ltd. Automated relationship traceability between software design artifacts
US7971137B2 (en) * 2005-12-14 2011-06-28 Google Inc. Detecting and rejecting annoying documents
US9407662B2 (en) 2005-12-29 2016-08-02 Nextlabs, Inc. Analyzing activity data of an information management system
US8504537B2 (en) 2006-03-24 2013-08-06 Mcafee, Inc. Signature distribution in a document registration system
US20070226504A1 (en) * 2006-03-24 2007-09-27 Reconnex Corporation Signature match processing in a document registration system
US7958227B2 (en) 2006-05-22 2011-06-07 Mcafee, Inc. Attributes of captured objects in a capture system
US8010689B2 (en) * 2006-05-22 2011-08-30 Mcafee, Inc. Locational tagging in a capture system
US7689614B2 (en) 2006-05-22 2010-03-30 Mcafee, Inc. Query generation for a capture system
CN101083607B (zh) * 2006-05-30 2010-12-08 倪海生 一种用于内外网络隔离的因特网访问服务器及其处理方法
JP2008109380A (ja) * 2006-10-25 2008-05-08 Media Exchange Inc 電子メール送受信システム
US7823761B2 (en) * 2007-05-16 2010-11-02 The Invention Science Fund I, Llc Maneuverable surgical stapler
US8627403B1 (en) * 2007-07-31 2014-01-07 Hewlett-Packard Development Company, L.P. Policy applicability determination
US8199965B1 (en) * 2007-08-17 2012-06-12 Mcafee, Inc. System, method, and computer program product for preventing image-related data loss
EP2196939A4 (en) * 2007-10-02 2015-04-29 Panasonic Ip Man Co Ltd COPYRIGHT PROTECTION SYSTEM, PLAYBACK DEVICE AND PLAYBACK PROCESS
US8312023B2 (en) * 2007-12-21 2012-11-13 Georgetown University Automated forensic document signatures
US8272051B1 (en) * 2008-03-27 2012-09-18 Trend Micro Incorporated Method and apparatus of information leakage prevention for database tables
US8065739B1 (en) 2008-03-28 2011-11-22 Symantec Corporation Detecting policy violations in information content containing data in a character-based language
US7885944B1 (en) 2008-03-28 2011-02-08 Symantec Corporation High-accuracy confidential data detection
US7996374B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for automatically correlating related incidents of policy violations
US7996373B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for detecting policy violations in a data repository having an arbitrary data schema
US9916611B2 (en) * 2008-04-01 2018-03-13 Certona Corporation System and method for collecting and targeting visitor behavior
US8205242B2 (en) 2008-07-10 2012-06-19 Mcafee, Inc. System and method for data mining and security policy management
US8346532B2 (en) * 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
US8286171B2 (en) * 2008-07-21 2012-10-09 Workshare Technology, Inc. Methods and systems to fingerprint textual information using word runs
US9253154B2 (en) 2008-08-12 2016-02-02 Mcafee, Inc. Configuration management for a capture/registration system
US8555080B2 (en) * 2008-09-11 2013-10-08 Workshare Technology, Inc. Methods and systems for protect agents using distributed lightweight fingerprints
WO2010030871A2 (en) * 2008-09-11 2010-03-18 Workshare Technology, Inc. Methods and systems to implement fingerprint lookups across remote agents
US8826443B1 (en) 2008-09-18 2014-09-02 Symantec Corporation Selective removal of protected content from web requests sent to an interactive website
WO2010059747A2 (en) * 2008-11-18 2010-05-27 Workshare Technology, Inc. Methods and systems for exact data match filtering
US8522350B2 (en) 2008-11-19 2013-08-27 Dell Products, Lp System and method for run-time attack prevention
US8406456B2 (en) 2008-11-20 2013-03-26 Workshare Technology, Inc. Methods and systems for image fingerprinting
US8613040B2 (en) * 2008-12-22 2013-12-17 Symantec Corporation Adaptive data loss prevention policies
US8850591B2 (en) 2009-01-13 2014-09-30 Mcafee, Inc. System and method for concept building
US8706709B2 (en) 2009-01-15 2014-04-22 Mcafee, Inc. System and method for intelligent term grouping
JP4763812B2 (ja) * 2009-02-24 2011-08-31 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書の機密度判定を支援する方法、装置及びコンピュータプログラム
US8473442B1 (en) 2009-02-25 2013-06-25 Mcafee, Inc. System and method for intelligent state management
US20100223341A1 (en) * 2009-02-27 2010-09-02 Microsoft Corporation Electronic messaging tailored to user interest
JP5458880B2 (ja) * 2009-03-02 2014-04-02 富士通株式会社 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
US9141692B2 (en) * 2009-03-05 2015-09-22 International Business Machines Corporation Inferring sensitive information from tags
US8935752B1 (en) 2009-03-23 2015-01-13 Symantec Corporation System and method for identity consolidation
US8667121B2 (en) 2009-03-25 2014-03-04 Mcafee, Inc. System and method for managing data and policies
US8447722B1 (en) 2009-03-25 2013-05-21 Mcafee, Inc. System and method for data mining and security policy management
KR20100107801A (ko) * 2009-03-26 2010-10-06 삼성전자주식회사 무선 통신 시스템에서 안테나 선택을 위한 장치 및 방법
US8732137B2 (en) * 2009-05-28 2014-05-20 Red Hat, Inc. Separating content from noisy context in template-based documents for search indexing
US9235563B2 (en) * 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
WO2011017084A2 (en) * 2009-07-27 2011-02-10 Workshare Technology, Inc. Methods and systems for comparing presentation slide decks
US8356357B1 (en) * 2009-07-30 2013-01-15 Symantec Corporation Detecting tainted documents by tracking transformed confidential data
US8566350B2 (en) * 2009-11-02 2013-10-22 Palo Alto Research Center Incorporated Method and apparatus for facilitating document sanitization
US8287400B2 (en) * 2009-11-19 2012-10-16 Nike, Inc. Fairway wood-type golf clubs with high moment of inertia
US20110143325A1 (en) * 2009-12-15 2011-06-16 Awad Al-Khalaf Automatic Integrity Checking of Quran Script
US8296130B2 (en) 2010-01-29 2012-10-23 Ipar, Llc Systems and methods for word offensiveness detection and processing using weighted dictionaries and normalization
US8510098B2 (en) 2010-01-29 2013-08-13 Ipar, Llc Systems and methods for word offensiveness processing using aggregated offensive word filters
US8661037B2 (en) * 2010-04-09 2014-02-25 International Business Machines Corporation System and method for multithreaded text indexing for next generation multi-core architectures
US9406048B2 (en) * 2010-07-07 2016-08-02 Mark Meister Email system for preventing inadvertant transmission of propriety message or documents to unintended recipient
US8806615B2 (en) 2010-11-04 2014-08-12 Mcafee, Inc. System and method for protecting specified data combinations
US9092640B2 (en) * 2010-11-09 2015-07-28 International Business Machines Corporation Access control for server applications
US20120133989A1 (en) 2010-11-29 2012-05-31 Workshare Technology, Inc. System and method for providing a common framework for reviewing comparisons of electronic documents
US11030163B2 (en) 2011-11-29 2021-06-08 Workshare, Ltd. System for tracking and displaying changes in a set of related electronic documents
US10783326B2 (en) 2013-03-14 2020-09-22 Workshare, Ltd. System for tracking changes in a collaborative document editing environment
US20120180134A1 (en) * 2011-01-07 2012-07-12 Research In Motion Limited Personal Information Guard
US8769200B2 (en) 2011-03-01 2014-07-01 Xbridge Systems, Inc. Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same
US8745053B2 (en) 2011-03-01 2014-06-03 Xbridge Systems, Inc. Method for managing mainframe overhead during detection of sensitive information, computer readable storage media and system utilizing same
US20120226677A1 (en) * 2011-03-01 2012-09-06 Xbridge Systems, Inc. Methods for detecting sensitive information in mainframe systems, computer readable storage media and system utilizing same
US20120246719A1 (en) * 2011-03-21 2012-09-27 International Business Machines Corporation Systems and methods for automatic detection of non-compliant content in user actions
US20120304072A1 (en) * 2011-05-23 2012-11-29 Microsoft Corporation Sentiment-based content aggregation and presentation
US10574729B2 (en) 2011-06-08 2020-02-25 Workshare Ltd. System and method for cross platform document sharing
US9948676B2 (en) 2013-07-25 2018-04-17 Workshare, Ltd. System and method for securing documents prior to transmission
US9613340B2 (en) 2011-06-14 2017-04-04 Workshare Ltd. Method and system for shared document approval
US10963584B2 (en) 2011-06-08 2021-03-30 Workshare Ltd. Method and system for collaborative editing of a remotely stored document
US10880359B2 (en) 2011-12-21 2020-12-29 Workshare, Ltd. System and method for cross platform document sharing
US9170990B2 (en) 2013-03-14 2015-10-27 Workshare Limited Method and system for document retrieval with selective document comparison
US9563879B2 (en) * 2011-06-23 2017-02-07 International Business Machines Corporation Providing accurate recipient lists by correlating tagged keywords to recipient lists
JP6167485B2 (ja) * 2011-09-29 2017-07-26 キヤノンマーケティングジャパン株式会社 情報処理装置、制御方法、及びプログラム
GB2497194A (en) * 2011-12-01 2013-06-05 Ibm Method for managing email
TWI484357B (zh) * 2011-12-02 2015-05-11 Inst Information Industry 量化式資料分析方法以及量化式資料分析裝置
US20130246336A1 (en) 2011-12-27 2013-09-19 Mcafee, Inc. System and method for providing data protection workflows in a network environment
US20130174029A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC d/b/a Microsystems Method and apparatus for analyzing a document
US20130174030A1 (en) * 2012-01-04 2013-07-04 Freedom Solutions Group, LLC, d/b/a Microsystems Method and apparatus for analyzing abbreviations in a document
US9563669B2 (en) * 2012-06-12 2017-02-07 International Business Machines Corporation Closed itemset mining using difference update
US9171069B2 (en) 2012-07-31 2015-10-27 Freedom Solutions Group, Llc Method and apparatus for analyzing a document
US9489376B2 (en) * 2013-01-02 2016-11-08 International Business Machines Corporation Identifying confidential data in a data item by comparing the data item to similar data items from alternative sources
US11567907B2 (en) 2013-03-14 2023-01-31 Workshare, Ltd. Method and system for comparing document versions encoded in a hierarchical representation
GB2520226A (en) * 2013-05-28 2015-05-20 Ibm Differentiation of messages for receivers thereof
US10911492B2 (en) 2013-07-25 2021-02-02 Workshare Ltd. System and method for securing documents prior to transmission
US9047480B2 (en) * 2013-08-01 2015-06-02 Bitglass, Inc. Secure application access system
US9553867B2 (en) 2013-08-01 2017-01-24 Bitglass, Inc. Secure application access system
US10122714B2 (en) 2013-08-01 2018-11-06 Bitglass, Inc. Secure user credential access system
US9552492B2 (en) * 2013-08-01 2017-01-24 Bitglass, Inc. Secure application access system
US9251376B2 (en) 2013-11-15 2016-02-02 International Business Machines Corporation Method and system to warn the user in the event of potential confidential document security violations
JP6045533B2 (ja) 2014-05-26 2016-12-14 京セラドキュメントソリューションズ株式会社 文書管理装置及び文書管理プログラム
JP6395540B2 (ja) * 2014-09-25 2018-09-26 株式会社東芝 連携システム、プログラム
US10459925B2 (en) * 2014-12-08 2019-10-29 Iprova Sarl Computer-enabled method of assisting to generate an innovation
US10133723B2 (en) 2014-12-29 2018-11-20 Workshare Ltd. System and method for determining document version geneology
US11182551B2 (en) 2014-12-29 2021-11-23 Workshare Ltd. System and method for determining document version geneology
JP6596848B2 (ja) * 2015-03-10 2019-10-30 富士ゼロックス株式会社 アクセス権推定装置及びアクセス権推定プログラム
JP6561529B2 (ja) 2015-03-26 2019-08-21 富士通株式会社 文書検査装置、方法、及びプログラム
US10462091B1 (en) * 2015-06-12 2019-10-29 Symantec Corporation Systems and methods for reporting the attempted transmission of sensitive information
US10518872B2 (en) 2015-06-25 2019-12-31 Simmonds Precision Products, Inc. Continuous fuel tank level control
US11763013B2 (en) 2015-08-07 2023-09-19 Workshare, Ltd. Transaction document management system and method
WO2017095403A1 (en) 2015-12-02 2017-06-08 Open Text Corporation Creation of component templates
US10380075B2 (en) 2017-02-14 2019-08-13 Microsoft Technology Licensing, Llc Limiting sharing of a stored file
US11741145B1 (en) * 2018-09-30 2023-08-29 Veritas Technologies Llc Method and system for classification of unstructured data items
CN109857852B (zh) * 2019-01-24 2021-02-23 安徽商贸职业技术学院 一种电商在线评论训练集特征的筛选判断方法及系统
US11310209B2 (en) 2019-09-10 2022-04-19 Motorola Solutions, Inc. Method and device for protecting confidentiality of audio messages
US11222183B2 (en) * 2020-02-14 2022-01-11 Open Text Holdings, Inc. Creation of component templates based on semantically similar content
US11775357B1 (en) * 2021-01-20 2023-10-03 American Express Travel Related Services Company, Inc. Relevant notifications of third party content
US20230091581A1 (en) * 2021-09-21 2023-03-23 Bank Of America Corporation Personal Data Discovery
US20230367903A1 (en) * 2022-05-16 2023-11-16 Bank Of America Corporation System and method for detecting and obfuscating confidential information in task logs
US11843619B1 (en) * 2022-10-07 2023-12-12 Uab 360 It Stateless system to enable data breach notification

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
USRE35861E (en) * 1986-03-12 1998-07-28 Advanced Software, Inc. Apparatus and method for comparing data groups
US4807182A (en) * 1986-03-12 1989-02-21 Advanced Software, Inc. Apparatus and method for comparing data groups
DE69432575T2 (de) * 1993-01-28 2004-03-18 Kabushiki Kaisha Toshiba, Kawasaki Dokumentenerkennungssystem mit verbesserter Wirksamkeit der Dokumentenerkennung
US6021202A (en) * 1996-12-20 2000-02-01 Financial Services Technology Consortium Method and system for processing electronic documents
JP3607462B2 (ja) * 1997-07-02 2005-01-05 松下電器産業株式会社 関連キーワード自動抽出装置及びこれを用いた文書検索システム
US7117358B2 (en) * 1997-07-24 2006-10-03 Tumbleweed Communications Corp. Method and system for filtering communication
US7162738B2 (en) * 1998-11-03 2007-01-09 Tumbleweed Communications Corp. E-mail firewall with stored key encryption/decryption
US6393428B1 (en) * 1998-07-13 2002-05-21 Microsoft Corporation Natural language information retrieval system
US6658626B1 (en) * 1998-07-31 2003-12-02 The Regents Of The University Of California User interface for displaying document comparison information
US20020069198A1 (en) * 2000-08-31 2002-06-06 Infoseer, Inc. System and method for positive identification of electronic files
US20020078155A1 (en) 2000-12-18 2002-06-20 Cheng-Shing Lai Method for receiving electronic messages by electronic device
KR100483602B1 (ko) * 2001-10-12 2005-04-15 (주)이캐빈 이메일 모니터링 방법 및 시스템
JP2003121547A (ja) 2001-10-18 2003-04-23 Fuji Heavy Ind Ltd 車外監視装置
US7260570B2 (en) * 2002-02-01 2007-08-21 International Business Machines Corporation Retrieving matching documents by queries in any national language
US7519984B2 (en) * 2002-06-27 2009-04-14 International Business Machines Corporation Method and apparatus for handling files containing confidential or sensitive information
US6826493B1 (en) * 2003-09-02 2004-11-30 Tao Of Systems Integration, Inc. System and method for real time determination of unsteady aerodynamic loads
US7594277B2 (en) * 2004-06-30 2009-09-22 Microsoft Corporation Method and system for detecting when an outgoing communication contains certain content
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US20060095966A1 (en) * 2004-11-03 2006-05-04 Shawn Park Method of detecting, comparing, blocking, and eliminating spam emails
US7444328B2 (en) * 2005-06-06 2008-10-28 Microsoft Corporation Keyword-driven assistance
US7765208B2 (en) * 2005-06-06 2010-07-27 Microsoft Corporation Keyword analysis and arrangement

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101911591A (zh) * 2008-01-15 2010-12-08 微软公司 阻止安全数据离开网络周界
US8316442B2 (en) 2008-01-15 2012-11-20 Microsoft Corporation Preventing secure data from leaving the network perimeter
CN101911591B (zh) * 2008-01-15 2014-05-07 微软公司 用于阻止安全数据离开网络周界的方法
CN102436505A (zh) * 2010-12-16 2012-05-02 微软公司 导出文档相似性索引
US8793242B2 (en) 2010-12-16 2014-07-29 Microsoft Corporation Deriving document similarity indices
CN102436505B (zh) * 2010-12-16 2014-08-20 微软公司 导出文档相似性索引
CN105190602A (zh) * 2013-03-20 2015-12-23 微软技术许可有限责任公司 基于社交线索的电子通信排名
CN105190602B (zh) * 2013-03-20 2018-05-29 微软技术许可有限责任公司 基于社交线索的电子通信排名
CN105519037A (zh) * 2013-08-27 2016-04-20 三菱电机株式会社 数据处理装置以及数据处理方法以及程序
CN112765655A (zh) * 2021-01-07 2021-05-07 支付宝(杭州)信息技术有限公司 一种基于隐私数据外发的管控方法及装置

Also Published As

Publication number Publication date
JP4824352B2 (ja) 2011-11-30
KR101150070B1 (ko) 2012-07-02
CN1716294B (zh) 2013-09-11
KR20060048686A (ko) 2006-05-18
JP2006065837A (ja) 2006-03-09
EP1613020B1 (en) 2019-12-04
US8782805B2 (en) 2014-07-15
US20060005247A1 (en) 2006-01-05
EP1613020A2 (en) 2006-01-04
US20090313706A1 (en) 2009-12-17
US7594277B2 (en) 2009-09-22
EP1613020A3 (en) 2012-03-07

Similar Documents

Publication Publication Date Title
CN1716294B (zh) 用于检测外发通信何时包含特定内容的方法和系统
JP4919515B2 (ja) 重複する文書の検出および表示機能
US8005863B2 (en) Query generation for a capture system
US8225371B2 (en) Method and apparatus for creating an information security policy based on a pre-configured template
US9760548B2 (en) System, process and method for the detection of common content in multiple documents in an electronic system
US7673344B1 (en) Mechanism to search information content for preselected data
US9292493B2 (en) Systems and methods for automatically detecting deception in human communications expressed in digital form
US7886359B2 (en) Method and apparatus to report policy violations in messages
US7996385B2 (en) Method and apparatus to define the scope of a search for information from a tabular data source
CA2504680C (en) A method and system for managing confidential information
US9515998B2 (en) Secure and scalable detection of preselected data embedded in electronically transmitted messages
US8015194B2 (en) Refining based on log content
US7849053B2 (en) Coordination and tracking of workflows
US20150254566A1 (en) Automated detection of deception in short and multilingual electronic messages
JP2013109642A (ja) 文書管理装置
US20060174123A1 (en) System and method for detecting, analyzing and controlling hidden data embedded in computer files
US6836772B1 (en) Key word deriving device, key word deriving method, and storage medium containing key word deriving program
Cooke et al. Clowns, Crowds, and Clouds: A Cross-Enterprise Approach to Detecting Information Leakage Without Leaking Information
JP2009048350A (ja) 情報評価装置、情報評価方法、及び情報評価プログラム
Felden et al. EVALUATION OF TEXT CLASSIFICATION ALGORITHMS-for a Web-based Market Data Warehouse

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: MICROSOFT TECHNOLOGY LICENSING LLC

Free format text: FORMER OWNER: MICROSOFT CORP.

Effective date: 20150423

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20150423

Address after: Washington State

Patentee after: Micro soft technique license Co., Ltd

Address before: Washington State

Patentee before: Microsoft Corp.