CN104781821B - 文件共享网络中的片段匹配 - Google Patents

文件共享网络中的片段匹配 Download PDF

Info

Publication number
CN104781821B
CN104781821B CN201380058293.2A CN201380058293A CN104781821B CN 104781821 B CN104781821 B CN 104781821B CN 201380058293 A CN201380058293 A CN 201380058293A CN 104781821 B CN104781821 B CN 104781821B
Authority
CN
China
Prior art keywords
file
segment
matching
word
personal digital
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201380058293.2A
Other languages
English (en)
Other versions
CN104781821A (zh
Inventor
R.J.博贝克
A.乔普拉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kroll Information Assurance Co., Ltd.
Original Assignee
Kroll Information Assurance Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kroll Information Assurance Co Ltd filed Critical Kroll Information Assurance Co Ltd
Publication of CN104781821A publication Critical patent/CN104781821A/zh
Application granted granted Critical
Publication of CN104781821B publication Critical patent/CN104781821B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/10Protecting distributed programs or content, e.g. vending or licensing of copyrighted material ; Digital rights management [DRM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0272Virtual private networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6272Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database by registering files or documents with a third party

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Technology Law (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

用于将表示私人文件的信息与从公共网络获得的文件进行匹配的技术。

Description

文件共享网络中的片段匹配
相关申请的交叉引用
本申请要求于2012年9月7日提交的序列号为No.61/697,916的美国临时专利申请的优先权和权益。
技术领域
本申请涉及确定某些信息是否在计算机网络中共享。
背景技术
文件共享是分配或提供对诸如计算机程序、多媒体(音频、图像和视频)、文档或电子书的数字存储的信息的访问的实践。共享机制可以包括:集中式服务器、以万维网为基础的超链接文档,或文件共享网络的使用。可以使用各种方式来实现共享网络,诸如使用对等技术、比特洪流技术、文件托管服务等等。
文件共享继续位列最流行的因特网应用之一。从数千或数百万用户汇集资源的能力使得文件共享对于许多应用来说非常有吸引力。然而,这样的便利性和对信息的快速可访问性并非没有其风险。具体而言,不小心或无意地共享私人文件的用户可能发现个人和其它敏感信息被世界各地的其它用户迅速下载。
大多数企业收集并存储关于他们的员工和客户的敏感信息,诸如社会安全号码、信用卡和账户信息、医疗和其它个人数据。他们中的许多有保护该信息以免意外公开的法律义务。如果这样的信息落入不法分子手中,它可能导致欺诈和身份盗用。使用P2P文件共享软件的人可能最终会无意地共享文件。他们可能会不小心选择共享包含敏感信息的驱动器和文件夹,或者他们可能错误地把私人文件保存到共享驱动器或文件夹,从而使私人文件对于他人为可用。此外,病毒和其它恶意软件可以改变对设计用于共享的驱动器和文件夹的访问,从而也把私人文件置于危险之中。结果,取代如意图的那样简单地共享他们的音乐文件的是,诸如纳税记录、私人医疗记录、工作文档等等的其它敏感信息最终被经由文件共享网络上的一般流通而可获得。
对于企业以及终端用户来说该风险非常高。例如,美国联邦贸易委员会(FTC)最近宣布了针对通过允许在对等(P2P)网络上共享他们的客户的敏感个人信息而非法暴露了其的多家公司的和解。这些执法行动指出了数据隐私和安全政策的不足或缺乏造成的严重影响。
存在用于雇佣的可以在组织中定位敏感数据并确定可以经由文件共享网络来获得什么种类的对其访问的审计服务。在政府和军事终端用途中,可以使用用于对数据的敏感性(诸如“秘密”、“绝密”等)进行分类的深度标准。这些分类详细规定了谁可以访问该信息,以及应该实施什么级别的安全保证以防止无意的公开。
当企图在文件共享网络上对包括敏感信息的私人文件进行定位时,会出现若干问题。信息的所有者或保管人想要知道他们的文件是否正在被共享,并且甚至还想知道文件片段是否正在被共享。例如,即使少量的信用卡号被暴露,一长串信用卡号也可能会受到损害。此外,可以对敏感信息进行重新排列或与其它信息组合以使其模糊。另外,敏感内容可以在多个文件之间进行分割。除了私人文件可以包含机密或其它高度敏感的信息之外,信息的保管人还希望能够利用商业服务本身来定位信息,但不要将其完全公开。
发明内容
本公开内容提供了将私人文件与经由公共网络(诸如web服务器、P2P网络、比特洪流等)可获得的文件进行匹配以确定私人文件的信息内容是否已经被泄漏。工具集合对从私人文件获得的信息或关于私人文件的信息的段进行操作,其提供了包括下列各项的多个优点:更大的处理吞吐量、处理不同类型内容的能力、以及在不公开信息本身的情况下搜索机密信息的能力。
在特定实施例中,提供了用于将私人文件的段与文件共享网络上可获得的公共文件进行匹配的技术。例如,过程至少利用例如切段器工具、匹配器工具和后匹配工具。
切段器工具将文件的内容提取成字的流,并将该流切分成被称为片段的具有可配置大小的卷动组块。例如,给定50个字的流中大小为25的片段,切段器工具将50个字的流切分成26个片段,每个片段的长度为25个字。然后针对每个片段计算散列。
匹配器工具加载针对所有私人文件的所生成的所有片段计算出的所有散列。针对位于文件共享网络上的每个公共文件,然后使用与上述相同的片段处理来生成片段和散列的集合。为了执行匹配,将公共文件的所产生的散列与私人散列的图进行比较。然后,将匹配过程的结果(诸如匹配文件的列表)持久保存到例如数据库。
后匹配工具检查所产生的所有匹配文件,并将连续匹配片段聚合成匹配字的邻接块。然后,将结果持久保存到例如数据库。然后可以经由匹配评估用户接口(例如可以呈现给人类分析师)来检查邻接匹配块,以获得关于文件之间的特定匹配的更多细节。
在特定实施例中,用户接口可以允许人类分析师针对位于一个或多个文件共享网络上的公共文件的目录启动匹配/片段过程。匹配器针对公共文件执行相同的片段过程,并且然后将来自该结果的概要信息持久保存到数据库。
片段匹配评估用户接口还可以允许分析师检查两个文件之间的匹配。例如,用户接口可以使用在左边示出的私人信息和在右边示出的公共信息来呈现匹配的并排视图。可以在滚动列表中显示匹配文件的列表。当用户选择私人文件和公共文件时,匹配视图可以呈现例如所找到的匹配百分比的概要。可以使用诸如红、绿和黄的颜色或者没有这些颜色来指示匹配度。
匹配过程还可以检查所有的匹配片段,并确定匹配文件之间的连续匹配区段的块。诸如可以在屏幕的一部分上的滚动列表中呈现每个块的预览。可以对块进行排序,诸如,例如,找到的具有最高数量文件的匹配块被排序在第一。
可以向实现提供进一步的修饰。例如,如果私人文件包含高度敏感信息,那么该私人文件的所有者可能不希望向外部服务提供商提供该私人文件的完整复制。所有者可以代之以只提供他们寻求定位的该私人文件的段,或者甚至可以只向工具提供散列信息。
片段大小可由分析师确定或者经由启发法确定。例如,分析师可应用其它启发法来专注于哪些信息是最重要的,通过自动或手动过程。
附图说明
下面的发明描述参照附图。
图1是确定私人信息是否被泄漏给了公共网络的系统的高级架构。
图2更加详细地示出了扫描器组件。
图3是示例公共/私人扫描表。
图4示出了假脱机器(spooler)组件。
图5是示例假脱机器批表。
图6示出了切段器组件。
图7是示例切段器批表。
图8示出了用于对文件进行“切段”的提取过程。
图9示出了匹配器组件。
图10是所存储的关于匹配文件的示例概要信息。
图11是总文件匹配报告。
图12是文件匹配报告。
图13是分类工具。
图14是并排匹配评估工具。
图15是匹配块评估工具。
具体实施方式
概述
本系统提供了用于将包含敏感信息的私人文件与从公共网络下载的文件进行匹配的数据处理工具的集合。这些工具确定私人文件的内容中的全部或部分是否已经被泄漏给公共网络。该工具的集合通常至少包括切段器、匹配器和后匹配(PostMatch)元件。
切段器
切段器工具将文件的内容提取成字的流,并将该流切分成具有可配置大小的卷动块(即,“片段”)。例如,给定50个字的流以及大小为25的片段,切段器将把50个字切分成长度为25个字的26个片段[长度:]
片段1 字1-25
片段2 字2-26
……
片段26 字26-50
针对每个片段计算散列,以便促进片段随后的匹配。
匹配器
匹配器工具将针对所有私人文件的所生成的所有片段计算出的所有散列加载到基于存储器的图中。针对每个公共文件,然后也使用与上述相同的片段处理来生成片段和散列的集合。
为了执行匹配,将公共文件的散列与私人散列的图进行比较。然后,将匹配过程的结果(例如,匹配文件的完整列表)置于诸如数据库的持久性存储设备中。
后匹配
后匹配工具检查所有的持久性匹配文件,并将连续匹配片段聚合成匹配字的邻接块。将该过程的结果持久保存在.match文件中(到数据库或文件系统)。邻接匹配块然后由匹配评估使用。用户接口可以向分析师呈现匹配信息以获得关于文件之间的具体匹配的更多细节。
架构
图1示出了高级系统架构。
扫描器组件负责从文件系统收集文件(私人和公共文件)用来由其余组件进行处理。私人文件可以从系统的用户获得,或者由客户提交给代表其它人操作该系统的服务提供商。私人文件将通常包括表示具有敏感个人信息的人类可读文档的数字编码的信息,并且可由诸如字处理器、电子表格程序、幻灯片演示程序、数据库、web浏览器、执行过程输出捕捉或创建输出数字文件的类似应用的应用程序来生成。
通过搜索公共文件网络来定位公共文件。这些公共文件网络可以包括:文件服务器、web服务器、对等(P2P)网络、比特洪流网络以及允许信息共享的任何其它技术。其它协议引擎机(本文中未示出)可以连续扫描P2P、比特洪流和其它网络来定位和存储大量公共文件以便由系统在以后使用。
假脱机器处理文件由扫描器组件提供。假脱机器将每个文件复制到暂存区域,并计算文件的SHA-1(或其它散列)。一旦计算出SHA-1,则在假脱机散列目录中将文件重命名为基于SHA-l的名称。针对每个经假脱机的文件向数据库添加条目。
切段器然后将由假脱机器提供的每个文件的内容提取成字的流,将这些字切分成卷动片段的集合,并针对每个片段计算散列。将相关联的散列和字写入文件系统,并将概要信息写入数据库。
匹配器通过将每个私人文件的散列与每个公共文件的散列进行比较来计算匹配。将这些集合匹配的结果写到数据库。
后匹配组件收集关于每个匹配文件的细节,将匹配片段聚合成匹配邻接块,并执行启发法来对邻接块进行自动分类。
图1的架构寻求实现以下。
高吞吐量。高吞吐量是通过并行地运行处理器来提供的。在扫描新文件的同时,可以对之前扫描的文件进行假脱机。在对新文件进行假脱机的同时,可以对之前假脱机的文件进行切段。在对新文件进行切段的同时,可以对之前切段的文件进行匹配。在对新文件进行匹配的同时,可由后匹配器对之前匹配的文件进行处理。存储器的广泛使用(尤其是在匹配器组件中)也对最高可能吞吐量有所贡献。
可扩展性。每个处理器处理成批的工作。用于每个进程的线程的数量是通过配置设置的,通过增加用于进程的线程的数量和/或使用多个机器运行额外处理器来提供扩展。
扫描器(图2)
扫描器组件负责收集文件以便由其余组件进行分析。为了从目录收集文件,分析师使用配置图形用户接口(GUI)将该目录添加到扫描器目录的列表。
扫描器针对每个所配置的目录[SourceF2f]创建一个线程。每个扫描器线程对其所分配的目录进行扫描以寻找新的或经修改的文件。如果文件不存在于私人/公共扫描文件表或公共/私人源文件表中,则认为文件是新的。扫描过程填充公共/私人扫描文件表(图3)。当假脱机器对所扫描的文件进行假脱机时,假脱机器将填充公共/私人源文件表。
最后访问时间属性保存到上述表并用于确定文件是否已经被修改。经修改的文件将在扫描器的下一次运行中被扫描,并将添加另一个条目到扫描文件表中。
假脱机器(图4)
假脱机器组件负责收集扫描文件以便由其余组件进行分析。将被收集的文件是由扫描器组件持久保存的文件的列表。对来自私人扫描表和公共扫描表的所有文件进行处理。
假脱机器对来自公共/私人扫描文件表的成批文件[假脱机器批表](图5)或来自P2P或其它协议引擎的成批文件[P2p假脱机器批]进行处理。假脱机器将每个文件复制到暂存区域,并计算文件的SHA-1。一旦计算出SHA-1,则在假脱机器目录中将文件重命名为基于SHA-l的名称。针对每个文件向公共/私人源文件表中添加条目,并且如果该文件唯一,那么将向私人/公共源散列表添加条目。
切段器(图6)
切段器组件负责对所收集的文件进行处理以便由假脱机器组件进行分析。一旦文件被正确地假脱机到系统中,切段器将提取每个文件的内容,并将相关联的散列和字按照由该配置所配置的片段散列和片段字目录的指示写入文件系统。
切段器对来自私人/公共源散列表的成批文件[切段器批表](图7)进行处理。切段器针对该批中的每个私人/公共源散列文件生成散列文件和字文件。还针对该批中的每个私人/公共源散列文件向私人/公共片段文件表文件添加条目。
如果批包含没有正确分段的文件,那么将针对每个失败的文件在失败的私人/公共片段文件表中添加条目。
提取(图8)
对文件进行“分段”的第一步是以字的流的形式从每个文件中提取内容。将所有的格式化和标点符号删除。
分段过程中的第一步是提取。提取器读取假脱机文件的内容并生成字的流。然后将字的流分离成连续字的较小的列表,其被称为“片段”。“片段大小”确定了“片段”将包含多少字。为了确保最完整的匹配,将字的流分离成“卷动片段”。卷动片段是偏移了一个字的连续字的小列表—见下文:
文件[片段大小 = 5]
The quick brown fox jumps over the lazy dog.
五个卷动片段:
The quick brown fox jumps
quick brown fox jumps over
brown fox jumps over the
fox jumps over the lazy
jumps over the lazy dog
针对每个卷动片段,计算散列以优化匹配过程。将散列保存到.hash文件,并将字的完整文件保存到.words文件。将关于每个文件的概要信息写入数据库。
匹配器(图9)
匹配器组件负责对由切段器组件创建的散列进行匹配。
匹配器加载来自私人片段文件的散列。基于散列限制配置,匹配器将把私人片段文件散列切分成批,以对由匹配器使用的存储器的量进行管理。
一旦加载了私人文件散列,就将公共文件收集成批。一次对一批公共文件进行处理,匹配器加载批中的每个公共文件的散列,并将这些散列与之前加载的私人文件散列进行比较。将关于匹配文件的每个集合的概要信息保存到数据库(图10)。
后匹配器
后匹配组件负责针对由匹配器组件检测到的匹配的文件执行额外的处理。后匹配过程将私人与公共文件之间的连续的匹配片段聚合成邻接块。针对每个匹配私人和公共文件,将确定一个或多个邻接块[见下文的示例]。
私人文件[片段大小 = 5]
内容=…………………………The quick brown fox jumps over the lazydog………
公共文件[片段大小 = 5]
内容=………………The quick brown fox jumps over the lazydog……………………………The quick brown fox jumps over the lazydog……………………………The quick brown fox jumps over the lazy dog
……………………………
私人文件匹配片段[片段大小 = 5]
The quick brown fox jumps
  quick brown fox jumps over
     brown fox jumps over the
        fox jumps over the lazy
          jumps over the lazy dog
私人文件邻接块
The quick brown fox jumps over the lazy dog, 起始偏移=x, 结尾偏移=y,其它偏移 =z
公共文件匹配片段[片段大小 = 5]
The quick brown fox jumps [3个实例]
  quick brown fox jumps over [3个实例]
     brown fox jumps over the [3个实例]
        fox jumps over the lazy[3个实例]
          jumps over the lazy dog [3个实例]
公共文件邻接块
The quick brown fox jumps over the lazy dog, 起始偏移=a, 结尾偏移=b,其它偏移 =z
The quick brown fox jumps over the lazy dog, 起始偏移=d, 结尾偏移=e,其它偏移 =z
The quick brown fox jumps over the lazy dog, 起始偏移=f, 结尾偏移=g,其它偏移 =z。
分类
分类用于驱动用于匹配的处理的工作流。例如,可以识别并立即处理高优先级匹配,或者可以从进一步的处理过滤出低优先级匹配。匹配的分类通过向邻接块中的每个块分配标签开始。达尔文(Darwin)产品为匹配结果的处理提供报告和GUI。大多数报告和工具使用相关联的分类提供用于移除或显示匹配的过滤机制。启发法(见下文)可用于向邻接块自动分配分类。
升级
一旦已经针对匹配向所有的邻接块分配了标签,对每个块的分类可以基于特定分类的升级属性(全部(ALL)、任何(ANY)、无(NONE))升级到匹配水平。
例如,“忽略”分类的升级属性是“全部”。如果用于匹配的全部邻接块(从私人文件和公共文件二者的角度来看)添加标签有 “忽略”标签,那么“全部”升级属性指引后匹配器仅向整个匹配添加“忽略”标签。
“高优先级”分类的升级属性是“任何”。如果用于匹配的任何邻接块(从私人文件和公共文件二者的角度来看)添加标签有“高优先级”标签,那么“任何”升级属性指引后匹配器向整个匹配添加“高优先级”标签。
升级属性“无”指引后匹配处理绕过对该分类的升级。
启发法
存在可由后匹配处理器用来对匹配进行自动分类的多种启发法。例如,重复序列启发法向具有重复序列资格的任何匹配添加“重复序列”和“忽略”标签。电子邮件签名启发法向具有电子邮件签名资格的匹配添加“电子邮件签名”标签。
匹配评估
系统提供了多个报告和工具以协助分析师评估匹配结果。这些工具列出如下:
总文件匹配报告(图11)
该报告示出是彼此的完全复制(即,在二进制级别上匹配)的文件。
文件匹配报告(图12)
该报告示出具有匹配片段(即,至少一个匹配片段)的所有文件。
分类工具(图13)
分析师使用该分类工具可以向块预分配标签。 例如,分析师可以向法律声明、共同页眉和页脚、问候语等分配“忽略”标签。在UI和报告中,分析师可以容易地过滤或抑制具有“忽略”标签的匹配以便关注更加重要的匹配结果。
并排匹配评估工具(图14)
使用并排匹配评估工具,分析师还可以向邻接块分配分类。
匹配块评估工具(图15)
使用匹配块评估工具,分析师可以向匹配邻接块分配分类以及定义新的分类。
连续改进
初始的匹配处理可以导致仅在少量片段上匹配的大量匹配。这些匹配中的大多数可以被认为是“误报”或“噪声”,因为这种匹配涉及常用短语、页眉、页脚等。当分析师使用“忽略”分类来为这些匹配(即,邻接块)添加标签时,每次该块出现在两个文件之间的匹配中,该块携带该分类。基于分类的升级属性,也可以对于匹配为分类添加标签。随着时间的推移,将用“忽略”标签来对“噪声”中的绝大多数预先分类。随着越来越多的“噪声”被过滤出,处理匹配结果的分析师将处理越来越多百分比的真匹配。
匹配处理的效率不断提升。通过使用分类工具来识别最普遍的常用短语、页眉、页脚等,分析师可以获得该效率增益的起跳点。使用相同的工具,可以识别高优先级块以便快速跟踪包含高优先级块(“黄金片段”)的匹配的处理。
总文件匹配报告(图11)
该报告示出了每个匹配文件的完整文件路径和sha 1。
文件匹配报告(图12)
该报告示出了每个匹配文件的完整文件路径、文件大小、字和匹配百分比。
分类工具(图13)
分类工具取得由分析师选择的文件,并将文件的内容提取成字的流。然后分析师可以从内容中选择一系列字或片段。一旦选择了内容的块,分析师可以向块分配一个或多个分类。分析师还可以根据需要添加新的分类。
并排匹配评估工具(图14)
并排匹配评估工具允许分析师检查两个文件之间的匹配。在HTML查看器中对匹配加高亮。UI使用在左边示出的私人信息和在右边示出的公共信息来呈现匹配的并排视图。
在屏幕左上方的滚动列表中示出匹配私人文件的列表。在屏幕右上方的滚动列表中呈现与所选择的私人文件相匹配的公共文件的列表。从左边的列表中选择私人文件将驱动匹配公共文件在右边的填充以及第一匹配公共文件的自动选择。
一旦用户选择了私人文件和公共文件,仅在文件列表下方呈现的匹配概览HTML视图和在屏幕底部呈现的匹配细节将更新。概览HTML视图呈现匹配文件的概览。每个字符表示文件中的片段。如果片段不与相应文件中的任何其它片段匹配,那么示出“.”字符。如果整个片段与相应文件中的一片段匹配,那么示出“*”字符。如果片段的部分匹配片段中的百分比数量的字,那么该匹配如下概括示出:
0 少于10%的匹配
1 10-19%的匹配
2 20=29%的匹配
3 30-39%的匹配
4 40-49%的匹配
5 50-59%的匹配
6 60-69%的匹配
7 70-79%的匹配
8 80-89%的匹配
9 90-99%的匹配。
匹配细节示出了从私人文件和公共文件提取的字的列表。每个邻接块匹配用绿色加高亮。块是一个或多个匹配片段。将连续匹配片段组织成块以便协助分析师审查匹配。当前块用黄色加高亮。非匹配字不加高亮。该使用可以使用屏幕底部的按钮(即,第一、前一个、下一个、最后)在匹配之间导航。打开按钮允许用户使用其原生编辑器(例如,用于.doc和.docx文件的MS/Word)来查看相应文件。
分析师还可以使用标签按钮向加高亮的块分配分类标签。
匹配块评估工具(图15)
匹配块评估用户接口允许分析师对在匹配过程期间找到的邻接匹配块进行检查。在屏幕左上方的滚动列表中呈现每个块的预览。以匹配计数的降序来对块进行排序(即,在最高编号的文件中找到的匹配块排序为第一)。匹配复选框指示在匹配文件中找到当前块的次数。
分析师可以使用屏幕右上部分的复选框通过分类标签来过滤这些块的列表,以便将列表限制为包含某些分类的块。可以使用屏幕右下部分的分类区域来向块分配分类。为了向块分配分类,分析师勾选分类旁边的复选框。可以向块分配任意数量的分类。添加按钮允许分析师创建额外的分类。
忽略分类是可用于指示匹配应该被忽略的特殊分类。当块具有忽略分类时,在块细节区段中屏幕左下部分将用黄色加高亮块。
分析师可以通过在屏幕的启发法区段中选择一个或多个启发法并点击应用按钮来针对所有匹配块应用启发法。例如,重复序列启发法针对字的重复序列检查每个块,并且如果块仅包含重复的字,则向该块添加忽略分类。
高优先级分类
如果文件包含非常重要的字的集合,那么分析师可以用高优先级标签来为该“黄金片段”添加标签,从而使得适当的人员知晓任何匹配。用户还可以针对不重要的片段用忽略分类来为片段添加标签。
忽略分类
之前用“忽略”分类添加标签的新的邻接块匹配将用“忽略”分类被添加标签。分析师还可以用“忽略”分类来为任何邻接块添加标签,从而可以在UI和报告中过滤出该块。
分析师指定的分类
分析师还可以经由匹配块评估工具添加新的分类。这些分类可用于为由匹配过程找到的任何匹配块添加标签。这些分类还可用于过滤匹配。
通过分类的过滤
分析师可以通过激活用于一个或多个分类的过滤器来对所显示的块的列表进行过滤。
实现变化
应该理解的是:上述示例实施例可以以许多不同的方式来实现。在某些实例中,本文中描述的各种“数据处理器”可以分别由具有中央处理器、存储器、盘或其它大容量存储设备、通信接口、输入/输出(I / O)设备和其它外围设备的物理或虚拟通用计算机实现。通用计算机变换成处理器并执行上述处理,例如,通过将软件指令加载到处理器中并且然后使得指令的执行以实行所描述的功能。
如本领域已知的,这样的计算机可以包含系统总线,其中总线是用于计算机或处理系统的组件之间的数据传输的硬件线路集合。一个或多个总线本质上是共享的管道,其连接计算机系统的不同元件(例如,处理器、盘存储设备、存储器、输入/输出端口,网络端口等),这使能在这些元件之间的信息传输。一个或多个中央处理单元附接到系统总线,并提供对计算机指令的执行。还附接到系统总线的通常是用于将各种输入和输出设备(例如,键盘、鼠标、显示器、打印机、扬声器等)连接到计算机的I/O设备接口。网络接口允许计算机连接到附接到网络的各种其它设备。存储器为用于实现实施例的计算机软件指令和数据提供易失性存储。盘或其它大容量存储设备为用于实现例如本文中描述的各个过程的计算机软件指令和数据提供非易失性存储。
因此通常可以用硬件、固件、软件或它们的任意组合来实现实施例。
执行上述处理的计算机可以在云计算布置中部署,云计算布置经由对可配置计算资源(例如,网络、服务器、存储设备、应用和服务)的共享池的便利的、按需网络访问模型来使一个或多个物理和/或虚拟数据处理机可用,所述网络访问模型可以以最少的管理工作或服务提供商交互被快速提供和释放。这样的云计算部署是相关的,并通常是优选的,因为它们允许多个用户访问作为共享市场的一部分的计算资源。通过对来自中央位置的多个用户的需求进行聚合,云计算环境可以建立在使用最佳和最新技术的数据中心中,位于可持续和/或集中的位置,并且被设计为达到可能的最大每单位效率。
在某些实施例中,本文中描述的过程、设备和处理是计算机程序产品,其包括:提供用于系统的软件指令的至少一部分的计算机可读介质(例如,诸如一个或多个DVD-ROM、CD-ROM、磁盘、磁带等的可移动存储介质)。如本领域中公知的:这样的计算机程序产品可以通过任何合适的软件安装过程进行安装。在另一个实施例中,软件指令的至少一部分还可以通过线缆、通信和/或无线连接下载。
实施例还可以实现为存储在非瞬时计算机可读介质上的指令,其可通过一个或多个过程读取和执行。非瞬时机器可读介质可以包括用于以机器(例如,计算设备)可读的形式存储或传送信息的任何机制。例如,非瞬时机器可读介质可以包括:只读存储器(ROM);随机存取存储器(RAM);磁盘存储介质;光学存储介质;闪存设备;和其它。
另外,在本文中可以将固件、软件、例程、或指令描述为执行某些动作和/或功能。然而,应该明白的是:本文中包含的这些描述仅为了方便,并且这些动作实际上源自于计算设备、处理器、控制器、或执行固件、软件、例程、指令等的其它设备。
还应该理解的是:框图和网络图可以包括更多或更少的元件、以不同的方式布置、或者以不同的方式表示。但是,还应该理解的是:某些实现可以指示框图和网络图,并且示出实施例的执行的多个框图和网络图可以以特定的方式来实现。
因此,还可以在各种计算机架构、物理、虚拟、云计算机、和/或它们的某种组合中实现进一步的实施例,并且因此,本文中描述的计算机系统旨在用于仅说明的目的而不是作为对实施例的限制。

Claims (9)

1.一种用于确定敏感私人信息是否已被泄漏给公共网络的系统,所述系统包括:
计算机,其包括至少一个处理器、存储器和网络接口;
私人数字文件,其包含由应用程序产生的敏感内容;以及
私人信息匹配处理部,其在所述处理器的存储器中执行并被配置为:
接收所述私人数字文件;
对所述私人数字文件进行处理以生成其片段部分,其中,片段部分中的每一个还包括数字文件的多个卷动组块,其中,第一片段部分包含包括所述文件中的字的第一集合的第一组块,第二片段部分包含包括所述文件中的字的第二集合的第二组块,其中,字的所述第二集合包括字的所述第一集合中的字中的至少一些但不是全部外加来自所述文件的一些其它字;
经由所述网络接口从公共网络接收多个公共数字文件;
对所述公共数字文件进行处理以生成其片段部分;以及
将所生成的所述私人数字文件的片段与所生成的所述公共数字文件的片段进行匹配,以确定所述私人数字文件的至少一些内容是否是连接到所述公共网络的其它计算机能访问的。
2.根据权利要求1所述的系统,其中,所述私人信息匹配处理部还配置用于:计算所述私人数字文件和所述公共数字文件的散列。
3.根据权利要求1所述的系统,其中,所述私人信息匹配处理部还配置用于:计算所述私人数字文件和所述公共数字文件的组块中每个组块的散列。
4.根据权利要求3所述的系统,其中,所述私人信息匹配处理部还配置用于:将与至少一个公共数字文件的相应连续片段匹配的所述私人数字文件的连续片段聚合成匹配字的至少邻接块。
5.根据权利要求1所述的系统,其中,所述私人信息匹配处理部还配置用于:经由用户接口使用百分比匹配的图形指示来显示私人数字文件和相匹配的公共数字文件的指示。
6.根据权利要求1所述的系统,其中,所接收的所述私人数字文件仅包含省略至少一些信息的原始数字文件的内容的一部分,并且不包含所述原始数字文件的完整内容。
7.根据权利要求4所述的系统,其中,所述私人信息匹配处理部还配置用于:将所述私人数字文件的片段与所述公共数字文件的片段进行匹配以忽略产生自所述匹配的指定条件。
8.根据权利要求4所述的系统,其中,所述私人信息匹配处理部还配置用于:通过考虑片段类将所述私人数字文件的片段与所述公共数字文件的片段进行匹配。
9.根据权利要求7所述的系统,其中,所述私人信息匹配处理部还配置用于:忽略所述公共数字文件中的重复片段。
CN201380058293.2A 2012-09-07 2013-09-05 文件共享网络中的片段匹配 Active CN104781821B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201261697916P 2012-09-07 2012-09-07
US61/697916 2012-09-07
PCT/US2013/058163 WO2014039620A1 (en) 2012-09-07 2013-09-05 Snippet matching in file sharing networks

Publications (2)

Publication Number Publication Date
CN104781821A CN104781821A (zh) 2015-07-15
CN104781821B true CN104781821B (zh) 2018-06-22

Family

ID=49237603

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201380058293.2A Active CN104781821B (zh) 2012-09-07 2013-09-05 文件共享网络中的片段匹配

Country Status (9)

Country Link
US (1) US9088545B2 (zh)
EP (1) EP2893480B1 (zh)
JP (2) JP2015530665A (zh)
CN (1) CN104781821B (zh)
AU (1) AU2013312742B2 (zh)
CA (1) CA2883935C (zh)
HK (1) HK1212060A1 (zh)
IN (1) IN2015DN01833A (zh)
WO (1) WO2014039620A1 (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9262423B2 (en) * 2012-09-27 2016-02-16 Microsoft Technology Licensing, Llc Large scale file storage in cloud computing
US9721094B2 (en) * 2015-05-20 2017-08-01 International Business Machines Corporation Determining privacy leaks
US11070608B2 (en) 2015-06-17 2021-07-20 Fastly, Inc. Expedited sub-resource loading
JP6984147B2 (ja) * 2017-03-22 2021-12-17 日本電気株式会社 情報管理装置、情報管理方法、及びプログラム
US10410014B2 (en) 2017-03-23 2019-09-10 Microsoft Technology Licensing, Llc Configurable annotations for privacy-sensitive user content
US10380355B2 (en) * 2017-03-23 2019-08-13 Microsoft Technology Licensing, Llc Obfuscation of user content in structured user data files
US10671753B2 (en) 2017-03-23 2020-06-02 Microsoft Technology Licensing, Llc Sensitive data loss protection for structured user content viewed in user applications
CA3118234A1 (en) * 2020-05-13 2021-11-13 Magnet Forensics Inc. System and method for identifying files based on hash values
US20220156388A1 (en) * 2020-11-16 2022-05-19 Microsoft Technology Licensing, Llc Data leak detection using similarity mapping

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101341490A (zh) * 2005-10-18 2009-01-07 意大利电信股份公司 控制文件系统存取的方法、相关的系统、sim卡以及在其中使用的计算机程序产品
US8032757B1 (en) * 2008-05-16 2011-10-04 Trend Micro Incorporated Methods and apparatus for content fingerprinting for information leakage prevention

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2503333B2 (ja) * 1991-09-02 1996-06-05 株式会社富士通ソーシアルサイエンスラボラトリ 全文インデックス検索方法
JPH09198409A (ja) * 1996-01-19 1997-07-31 Hitachi Ltd 酷似文書抽出方法
US7171567B1 (en) * 1999-08-02 2007-01-30 Harris Interactive, Inc. System for protecting information over the internet
US7934097B1 (en) 1999-09-28 2011-04-26 Baytsp.Com, Inc. Method, apparatus, and system for managing, reviewing, comparing and detecting data on a wide area network
US7114185B2 (en) 2001-12-26 2006-09-26 Mcafee, Inc. Identifying malware containing computer files using embedded text
US7139756B2 (en) * 2002-01-22 2006-11-21 International Business Machines Corporation System and method for detecting duplicate and similar documents
JP4297345B2 (ja) * 2004-01-14 2009-07-15 Kddi株式会社 マスメイル検出方式およびメイルサーバ
JP2006106896A (ja) * 2004-09-30 2006-04-20 Toshiba Corp データベース登録システム、データベース検索システム、語彙索引登録方法及び異表記同一視検索方法
JP4732178B2 (ja) * 2006-02-10 2011-07-27 財団法人エヌエイチケイエンジニアリングサービス 個人情報の開示経路閲覧システムおよびその開示経路検証方法
JP4824750B2 (ja) * 2006-03-10 2011-11-30 富士通株式会社 機密情報管理プログラム、方法及び装置
JP4588657B2 (ja) * 2006-03-24 2010-12-01 富士通株式会社 翻訳装置
US20100057559A1 (en) * 2006-06-30 2010-03-04 Saar Wilf method of choosing advertisements to be shown to a search engine user
JP2008140102A (ja) * 2006-12-01 2008-06-19 Mitsubishi Electric Corp 情報処理装置及び漏洩情報判定方法及びプログラム
US8452782B2 (en) * 2008-03-12 2013-05-28 Nec Corporation Text mining device, text mining method, text mining program, and recording medium
JP5094487B2 (ja) * 2008-03-17 2012-12-12 三菱電機株式会社 情報漏洩検査装置及びコンピュータプログラム及び情報漏洩検査方法
US8386792B1 (en) * 2008-06-10 2013-02-26 Trend Micro Incorporated Asymmetric content fingerprinting with adaptive window sizing
JP5291523B2 (ja) * 2009-04-21 2013-09-18 株式会社データ変換研究所 類似データ検索装置及びそのプログラム
JP5478146B2 (ja) * 2009-08-19 2014-04-23 日本放送協会 番組検索装置および番組検索プログラム
JP5698494B2 (ja) * 2010-10-14 2015-04-08 Kddi株式会社 携帯端末およびプログラム
KR101736444B1 (ko) * 2010-12-06 2017-05-17 삼성전자주식회사 컴퓨팅 시스템

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101341490A (zh) * 2005-10-18 2009-01-07 意大利电信股份公司 控制文件系统存取的方法、相关的系统、sim卡以及在其中使用的计算机程序产品
US8032757B1 (en) * 2008-05-16 2011-10-04 Trend Micro Incorporated Methods and apparatus for content fingerprinting for information leakage prevention

Also Published As

Publication number Publication date
AU2013312742B2 (en) 2018-08-02
JP2015530665A (ja) 2015-10-15
EP2893480A1 (en) 2015-07-15
IN2015DN01833A (zh) 2015-05-29
CN104781821A (zh) 2015-07-15
CA2883935C (en) 2019-10-22
EP2893480B1 (en) 2017-11-08
AU2013312742A1 (en) 2015-03-26
HK1212060A1 (zh) 2016-06-03
JP2018170036A (ja) 2018-11-01
US20140075542A1 (en) 2014-03-13
JP6749367B2 (ja) 2020-09-02
US9088545B2 (en) 2015-07-21
WO2014039620A1 (en) 2014-03-13
CA2883935A1 (en) 2014-03-13

Similar Documents

Publication Publication Date Title
CN104781821B (zh) 文件共享网络中的片段匹配
US11757927B2 (en) Systems and methods for parallelized custom data-processing and search
US11200249B2 (en) Systems and methods for data indexing with user-side scripting
CN104636469B (zh) 文件自动分类管理方法和系统
US8799317B2 (en) Forensic system, forensic method, and forensic program
US9996625B2 (en) Policy based population of genealogical archive data
US10977614B2 (en) Point of scan/copy redaction
US8793277B2 (en) Forensic system, forensic method, and forensic program
WO2018051233A1 (en) Electronic document management using classification taxonomy
US20020083079A1 (en) System and method of managing documents
US20100010968A1 (en) System and method to identify, classify and monetize information as an intangible asset and a production model based thereon
Hall et al. Explainable artificial intelligence for digital forensics
US9471665B2 (en) Unified system for real-time coordination of content-object action items across devices
US20120046937A1 (en) Semantic classification of variable data campaign information
Squire Forge++: The changing landscape of FLOSS development
CN109949090A (zh) 客户推荐方法、装置、电子设备及介质
CN112287403B (zh) 基于区块链的电子卷宗管理方法、装置、电子设备及介质
CN107491530A (zh) 一种基于文件自动标记信息的社会关系挖掘分析方法
US11546382B2 (en) Systems and methods for cloud-based federated records retention compliance orchestration, validation and enforcement
Moreaux et al. Blockchain assisted near-duplicated content detection
CN111026705B (zh) 建筑工程文件管理方法、系统及终端设备
Kahvedžić Digital forensics and the DSAR effect
KR101862178B1 (ko) 맞춤형 포스팅 방법 및 이를 운용하는 서버
CA2914591C (en) Systems and methods for intelligent paperless document management
Cooke The Changing Occupational Terrain of the Legal Aid Lawyer in Times of Precariousness

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180306

Address after: American New York

Applicant after: Kroll Information Assurance Co., Ltd.

Address before: American Pennsylvania

Applicant before: Di Fusa IP company

GR01 Patent grant
GR01 Patent grant