CN109479061B

CN109479061B - 遵从性违反检测

Info

Publication number: CN109479061B
Application number: CN201780044956.3A
Authority: CN
Inventors: M·阿克辛肯; B·阿斯波乌; S·古哈; L·J·舍塔; R·巴拉迪; A·索尔
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2016-07-20
Filing date: 2017-07-13
Publication date: 2021-12-10
Anticipated expiration: 2037-07-13
Also published as: ES2896124T3; CN109479061A; US20210271633A1; US20180025011A1; EP3488586B1; US11755529B2; WO2018017377A1; EP3488586A1; US11042506B2

Abstract

本公开的非限制性示例描述用于针对策略遵从性而扫描数据的系统和方法。在一个示例中，网络数据被评价以生成一个或多个分组。分组可以基于网络数据的文件类型。数据标识规则被应用以标识来自分组的文件数据的一种或多种数据架构。应用到数据架构的内容的一个或多个策略规则可以被确定。文件数据的至少一个文件可以被扫描以确定与一个或多个策略规则的遵从性。与一个或多个策略规则的遵从性的报告可以基于文件扫描的结果而生成。其他示例也被描述。

Description

遵从性违反检测

背景技术

大型组织内的数据可以被存储于跨多个地理位置的多个服务中并且受制于多种规定。用于数据存储的大多数技术确保完整性，保护不受未授权的访问，但是不会强制执行法律规定或商业规则。存在阻止跨某些边界的数据流的商业规则，如禁止越过某些边界对“个人数据”进行复制的欧盟规定。还存在针对静态数据的法律和商业规则，例如，在一定时间段(例如，18个月)之后删除标识登录到在线服务的用户的个人数据的要求。然而，不常见的是找到将(基于灵活的商业规则)自动地标识潜在策略违反并强制执行到期数据的数据存储。另外，审核可以存储可能受制于不同策略的各种类型的信息的大型数据存储以便核实与这样的策略的遵从性是困难的。

因此，本申请的示例涉及与对遵从性违反的检测和管理相关的总体技术环境，该遵从性违反与被存储或正被实时处理的数据相关，以及其他示例。

发明内容

本公开的非限制性示例描述用于出于策略遵从性目的而扫描数据的系统和方法。在一个示例中，网络数据被递归地发现。网络数据可以包括以下任何项：存储于分布式网络的一个或多个数据存储中的数据、在防火墙处接收的数据、存储于客户端计算设备上的数据、以及来自在客户端计算设备上执行的应用的数据。网络数据被评价以生成一个或多个分组。分组可以基于网络数据的文件类型。数据标识规则被应用以标识来自分组的文件数据的一种或多种数据架构。在一些示例中，对数据标识规则的应用可以包括：确定数据架构在分组的文件数据中的位置，并且基于使用一个或多个信号评价文件数据中的位置的内容的模式匹配来生成用于标识数据架构的置信度分数。应用到数据架构的内容的一个或多个策略规则可以被确定。文件数据的至少一个文件可以被扫描以确定与一个或多个策略规则的遵从性。在一些示例中，扫描可以仅仅需要扫描文件的以下部分，该部分与策略规则应用于的数据架构的位置相对应。在一个示例中，来自分组的文件数据的最近文件可以被扫描以确定与策略规则的遵从性。在另外的示例中，分组的至少一个其他文件可以被扫描，例如，具有超过策略规则的保留策略的时间段的日期的文件。与一个或多个策略规则的遵从性的报告可以基于文件扫描的结果而生成。在另外的示例中，动作可以被执行以补救在报告中标识的遵从性违反。执行的动作可以包括以下项中的一项或多项：请求文件的数据拥有者修复遵从性违反、擦除文件以修复遵从性违反、以及删除包括遵从性违反的文件，以及其他示例。

在其他非限制性示例中，文件数据的部分可以被扫描以确定与策略规则的遵从性。在一个示例中，网络数据被评价以生成一个或多个分组。分组可以基于网络数据的文件类型。数据标识规则被应用以标识来自分组的文件数据的数据架构。对数据标识规则的应用可以包括：确定数据架构在分组的文件数据中的位置，并且基于使用一个或多个信号评价文件数据中的位置的内容的模式匹配来生成用于标识数据架构的置信度分数。应用到数据架构的内容的一个或多个策略规则可以被确定。文件数据可以被扫描以确定是否存在策略违反。在一个示例中，文件数据的以下部分可以被扫描，该部分与(一种或多种)数据架构的位置相对应。在其他示例中，多个文件可以被扫描以用于检测遵从性违反。例如，分组的最近文件的部分可以被扫描。另外，分组的至少一个其他文件可以被扫描，例如，具有超过策略规则的保留策略的时间段的日期的文件。

本发明内容被提供以通过简化的形式来介绍下面在具体实施方式中进一步描述的一系列概念。本发明内容不旨在标识要求保护的主题的关键特征或必要特征，也不旨在用于限制要求保护的主题的范围。示例的额外方面、特征和/或优点将在随后的描述中被部分阐述，并且部分将从描述显而易见，或者可以通过对本公开的实践来习得。

附图说明

参考以下附图描述非限制性且非穷举性示例。

图1是图示可以利用其来实践本公开的各方面的计算设备的示例的框图。

图2A和图2B是可以利用其来实践本公开的各方面的移动计算设备的简化框图。

图3是可以在其中实践本公开的各方面的分布式计算系统的简化框图。

图4是可以在其中实践本公开的各方面的与对数据存储中的遵从性违反的检测相关的示例性过程流。

图5是可以利用其来实践本公开的各方面的与对遵从性违反的检测相关的示例性方法。

图6图示了示例性系统，其可以实施在可以在其上实践本公开的各方面的一个或多个计算设备上。

具体实施方式

本文的示例描述了对数据扫描以核实与策略规则的遵从性。策略规则可以是可以应用于数据文件内的内容和/或数据的任何类型的规则。策略规则可以包括但不限于：商业规则、隐私规则、政府规定条例、以及法律法规，以及其他示例。如以上所标识的，不常见的是找到将(基于灵活的商业规则)自动地标识潜在策略违反并强制执行到期数据的数据存储。另外，审核可以存储可能受制于不同策略的各种类型的信息的大型数据存储以便核实与这样的策略的遵从性是困难的。本文的示例有效地扫描网络数据以标识网络数据内的遵从性违反。示例性网络数据可以被递归地发现。网络数据可以包括以下任何项：存储于分布式网络的一个或多个数据存储中的数据、在防火墙处接收的数据、存储于客户端计算设备上的数据、以及来自在客户端计算设备上执行的应用的数据。网络数据被评价以生成一个或多个分组。分组可以基于网络数据的文件类型。为了改进网络数据的扫描的效率(例如，使在扫描期间读取的数据量最小化)，网络数据可以被分组以标识包括相似内容的数据。在一个示例中，可以基于文件类型对数据进行分组。例如，文件的命名约定或文件格式可以用于对文件进行分组。然而，理解本公开的本领域技术人员应当认识到，对文件数据的分组不限于仅仅通过文件类型来对网络数据的分组。当对数据进行分组时，其他因素可以是可应用的，包括但不限于：文件名、文件大小、文件的布局、文件内的内容、日期、文件位置、以及与文件相关联的用户账户，以及其他示例。

除了相似数据的分组，可以通过在针对遵从性进行扫描之前标识特定网络数据的数据架构来进一步改进扫描数据的效率。如本文所定义的数据架构可以与网络数据的文件内的结构的定义相关。文件可以包括多种数据架构。对(网络数据的)文件内的数据架构进行标识帮助更好地标识文件内数据的类型，以便更有效地且准确地确定可应用的策略规则。考虑电子表格文件被存储的示例，其中电子表格文件包括多个列和行的信息。示例性数据架构可以是存储第一类型的数据(例如，名称)的文件的部分(例如，电子列表的第1列/第1行)。该相同的电子表格可以包括存储第二类型的数据(例如，互联网协议(IP)地址)的另一数据架构(例如，第2列/第2行)。继续该示例，电子列表可以包括存储诸如JavaScript对象表示法(JSON)对象等标记语言对象的又一数据架构(例如，第3列/第3行)。在这样的情况下，JSON对象可以被嵌套并且包括多个字段或属性。这样的信息可以由示例性数据架构标识。本文所描述的示例应用标识文件数据的不同数据架构的处理操作(例如，列的采样)，使得可以做出关于应用到特定数据架构的策略规则的确定。处理操作然后可以被应用以核实(从数据架构)导出的数据类型。在示例中，与数据架构(以及数据架构内的内容)相关的模式可以被分析以确认文件内的数据架构。备选方案可以依赖于文件的元数据以用于数据标识。然而，仅仅依赖元数据用于文件数据标识可以在涉及数据标识时产生大量误报，因为元数据持续地改变。这可能最终导致在扫描期间的更低效率以及遵从性标识的更低准确性，以及其他示例。因此，在执行扫描操作之前验证文件内的数据架构是有益的。一旦网络数据被分组并且特定网络数据的数据架构被验证，进一步处理操作就可以被应用以确定可应用于文件内的特定数据架构的策略规则。

除了用于对网络数据进行分组和文件内的特定数据架构的标识的示例性实践，当尝试确定与示例性策略规则的遵从性时可以优化文件数据的扫描。本文所描述的示例通过使在扫描期间读取的数据量最小化来优化扫描。不是网络数据的所有文件(或者甚至分组中的所有文件)都需要被扫描以标识遵从性违反的模式。通过对文件进行分组，来自分组的文件数据的样本可以被扫描。在一个示例中，来自分组的文件数据的最近文件可以被扫描以确定与策略规则的遵从性。在另外的示例中，分组的至少一个其他文件可以被扫描，例如，具有超过策略规则的保留策略的时间段的日期的文件。在一些示例中，扫描可以仅仅需要扫描文件的、与策略规则应用于的数据架构的位置相对应的部分。因此，少量文件(或文件的部分)可以被扫描以标识遵从性违反。如果在经扫描的文件的采样中标识到遵从性问题，则可以扫描随后的文件。然而，理解本公开的本领域技术人员应当认识到，文件的采样、用于扫描的模式(包括实现网络数据的完全扫描)可以根据扫描服务的开发者和/或用户而变化。

因此，本公开提供多个技术优点，包括但不限于：用于策略遵从性标识的网络数据的改进的组织和分组，用于验证特定网络数据内的数据架构的模式匹配，用于针对与策略规则的遵从性扫描网络数据的改进的系统和方法，处理设备在针对与策略规则的遵从性扫描网络数据期间更有效的操作(例如，节约计算周期/计算资源)，在执行扫描操作时对网络数据进行采样的能力，以及跨分布式系统的部件以及在设备层或应用层集成扫描服务的可扩展性，以及其他示例。

图1-3和相关联的描述提供了可以在其中实践本发明的示例的各种操作环境的讨论。然而，相对于图1-3图示和讨论的设备和系统是出于举例和图示的目的，并不限制可以用于实践本文所描述的本发明的示例的大量计算设备配置。

图1是图示可以利用其来实践本公开的示例的计算设备102(例如，移动处理设备)的物理部件的框图。例如，计算设备102可以是被配置用于实施如本文的示例中描述的用于遵从性扫描的操作的示例性计算设备。在基本配置中，计算设备102可以包括至少一个处理单元104和系统存储器106。取决于计算设备的配置和类型，系统存储器106可以包括，但不限于易失性存储设备(例如，随机存取存储器)、非易失性存储设备(例如，只读存储器)、闪速存储器、或这样的存储器的任何组合。系统存储器106可以包括操作系统107和适合于运行软件程序/模块120(诸如，IO管理器124、其他实用工具126以及应用128)的一个或多个程序模块108。作为示例，系统存储器106可以存储用于执行的指令。系统存储器106的其他示例可以存储与应用相关联的数据。操作系统107例如可以适合于控制计算设备102的操作。另外，本发明的示例可以结合图形库、其他操作系统或者任何其他应用程序被实践并且不限于任何具体应用或系统。该基本配置在图1中由虚线122内的那些部件图示。计算设备102可以具有额外的特征或功能。例如，计算设备102还可以包括额外数据存储设备(可移除的和/或不可移除的)，诸如，例如，磁盘、光盘、或磁带。这样的额外存储设备在图1中由可移除存储设备109和不可移除存储设备110图示。

如以上所陈述的，许多程序模块和数据文件可以被存储于系统存储器106中。当在处理单元104上执行时，程序模块108(例如，输入/输出(I/O)管理器124、其他实用工具126和应用128)可以执行包括、但不限于贯穿本公开描述的操作的一个或多个阶段的过程。根据本发明的示例可以使用的其他程序模块可以包括电子邮件和联系应用、文字处理应用、电子表格应用、数据库应用、幻灯片应用、绘图或计算机辅助应用程序、照片编辑应用、创作应用等等。

另外，本发明的示例可以被实践于包括离散电子元件的电子电路中、包含逻辑门的封装或集成电子芯片中、利用微处理器的电路中、或者包含电子元件或微处理器的单个芯片上。例如，本发明的示例可以经由片上系统(SOC)实践，其中图1中图示的每个或许多部件可以被集成到单个集成电路上。这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元以及各种应用功能，它们全部被集成(或“烧写”)到芯片衬底上作为单个集成电路。当经由SOC操作时，本文描述的功能可以经由与单个集成电路(芯片)上的计算设备102的其他部件集成的专用逻辑来操作。本公开的示例还可以使用能够执行逻辑操作的其他技术来实践，这些逻辑操作诸如例如是AND、OR和NOT，包括但不限于机械的、光学的、流体的和量子的技术。另外，本发明的示例可以被实践于通用计算机内或任何其他电路或系统中。

计算设备102还可以具有一个或多个输入设备112，诸如键盘、鼠标、笔、声音输入设备、用于语音输入/识别的设备、触摸输入设备等等。还可以包括诸如显示器、扬声器、打印机等等的(一个或多个)输出设备114。前述设备是示例，并且可以使用其他设备。计算设备102可以包括允许与其他计算设备118进行通信的一个或多个通信连接116。合适的通信连接116的示例包括、但不限于RF发射器、接收器、和/或收发器电路；通用串行总线(USB)、并行端口和/或串行端口。

如本文所使用的术语计算机可读介质可以包括计算机存储介质。计算机存储介质可以包括以用于存储信息(诸如，计算机可读指令、数据结构、或程序模块)的任何方法或技术实施的易失性介质和非易失性介质、可移除介质和不可移除介质。系统存储器106、可移除存储设备109、以及不可移除存储设备110全部是计算机存储介质示例(即，存储器存储设备)。计算机存储介质可以包括RAM、ROM、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字多用盘(DVD)或其他光学存储装置、磁带盒、磁带、磁盘存储装置或其他磁性存储设备、或者能够用于存储信息并且能够由计算设备102访问的任何其他制品。任何这样的计算机存储介质可以是计算设备102的部分。计算机存储介质不包括载波或其他被传播或经调制的数据信号。

通信介质可以由计算机可读介质、数据结构、程序模块或诸如载波或其他传输机制的经调制的数据信号中的其他数据来实现并且包括任何信息递送介质。术语“经调制的数据信号”可以描述具有以在信号中编码信息的方式设置或改变的一个或多个特性的信号。通过举例而非限制的方式，通信介质可以包括诸如有线网络或直接有线连接的有线介质和诸如声学、射频(RF)、红外和其他无线介质的无线介质。

图2A和2B图示了可以利用其来实践本发明的示例的移动计算设备200，例如，移动电话、智能电话、个人数据助理、平板个人计算机、平板电话、板式电脑、膝上型计算机等等。移动计算设备200可以是被配置用于实施如本文的示例中描述的用于遵从性扫描的操作的示例性计算设备。参考图2A，其图示了用于实施这些示例的移动计算设备200的一个示例。在基本配置中，移动计算设备200是具有输入元件和输出元件两者的手持计算机。移动计算设备200通常包括显示器205以及允许用户将信息输入到移动计算设备200中的一个或多个输入按钮210。移动计算设备200的显示器205还可以用作输入设备(例如，触摸屏显示器)。如果包括可选的侧输入元件215，则该侧输入元件215允许另外的用户输入。侧输入元件215可以是旋转开关、按钮或任何其他类型的手动输入元件。在备选示例中，移动计算设备200可以包含更多或更少的输入元件。例如，在一些示例中，显示器205可以不是触摸屏。在又一备选示例中，移动计算设备200是便携式电话系统，诸如蜂窝电话。移动计算设备200还可以包括可选的小键盘235。可选的小键盘235可以是物理小键盘或在触摸屏显示器上生成的“软”小键盘或任何其他软输入面板(SIP)。在各种示例中，输出元件包括用于示出GUI的显示器205、视觉指示器220(例如，发光二极管)、和/或音频换能器225(例如，扬声器)。在一些示例中，移动计算设备200包含用于向用户提供触觉反馈的振动换能器。在又一示例中，移动计算设备200包含输入和/或输出端口，诸如音频输入(例如，麦克风插孔)、音频输出(例如，耳机插孔)、以及视频输出(例如，HDMI端口)以将信号发送到外部设备或者从外部设备接收信号。

图2B是图示了移动计算设备的一个示例的体系结构的框图。即，移动计算设备200可以包含系统(即，体系结构)202以实施一些示例。在一个示例中，系统202被实施为能够运行一个或多个应用(例如，浏览器、电子邮件、日历、联系人管理器、消息传送客户端、游戏以及媒体客户端/播放器)的“智能电话”。在一些示例中，系统202被集成为计算设备，诸如集成的个人数字助理(PDA)、平板电脑以及无线电话。

一个或多个应用程序266可以被加载到存储器262中并且在操作系统264上运行或者结合该操作系统264运行。应用程序的示例包括电话拨号程序、电子邮件程序、个人信息管理(PIM)程序、文字处理程序、电子表格程序、互联网浏览器程序、消息传送程序等等。系统202还包括存储器262内的非易失性存储区域268。非易失性存储区域268可以用于存储永久信息，该永久信息在系统202断电的情况下不应当丢失。应用程序266可以使用和存储非易失性存储区域268中的信息，诸如由电子邮件应用使用的电子邮件或其他消息等等。同步应用(未示出)也驻存于系统202上并且被编程为与驻存在主机计算机上的相应同步应用交互以保持存储于非易失性存储区域268中的信息与存储于主机计算机处的对应信息同步。如应当认识到的，其他应用可以被加载到存储器262中并且在本文描述的移动计算设备200上运行。

系统202具有电源270，其可以被实施为一个或多个电池。电源270还可以包括外部电源，诸如对电池进行补充或再充电的AC适配器或供电扩充基座。

系统202可以包括执行促进系统202与一个或多个外围设备之间的连接性的功能的外围设备端口230。在操作系统(OS)264的控制下进行去往和来自外围设备端口230的传输。换言之，由外围设备端口230接收的通信可以经由操作系统264被传播到应用程序266，并且反之亦然。

系统202还可以包括执行发送和接收射频通信的功能的无线电接口层272。无线电接口层272经由通信载体或服务提供者促进系统202与“外界”之间的无线连接性。在操作系统264的控制下进行去往和来自无线电接口层272的传输。换言之，由无线电接口层272接收的通信可以经由操作系统264被传播到应用程序266，并且反之亦然。

视觉指示器220可以用于提供视觉通知，并且/或者音频接口274可以用于经由(例如，在图2A中标识的)音频换能器225产生可听通知。在图示的示例中，视觉指示器220是发光二极管(LED)，并且音频换能器225是扬声器。这些设备可以被直接耦合到电源270，从而当被激活时，它们在由通知机制指令的持续时间内保持接通，即使处理器260和其他部件可能关机以节省电池电力。LED可以被编程为无限期地保持接通直到用户采取动作以指示设备的接通状态。音频接口274用于向用户提供可听信号以及从用户接收可听信号。例如，除了被耦合到音频换能器225，音频接口274还可以被耦合到麦克风以接收可听输入，诸如以促进电话交谈。根据本发明的示例，麦克风还可以充当音频传感器以促进对通知的控制，如下面将描述的。系统202还可以包括视频接口276，该视频接口276实现板上相机230的操作以记录静态图像、视频流等等。

实施系统202的移动计算设备200可以具有额外的特征或功能。例如，移动计算设备200还可以包括额外数据存储设备(可移除的和/或不可移除的)，诸如，磁盘、光盘、或磁带。这样的额外存储设备在图2B中通过非易失性存储区域268来图示。

由移动计算设备200生成或捕获并且经由系统202存储的数据/信息可以被本地存储在移动计算设备200上，如以上所描述的，或者数据可以被存储在可以由设备经由无线电272或者经由移动计算设备200和与移动计算设备200相关联的单独的计算设备(例如，诸如互联网的分布式计算网络中的服务器计算机)之间的有线连接访问的任何数量的存储介质上。如应当认识到的，这样的数据/信息可以经由移动计算设备200经由无线电272或者经由分布式计算网络访问。类似地，根据公知的数据/信息传输和存储方式，包括电子邮件和协作数据/信息共享系统，这样的数据/信息可以在计算设备之间容易地传输以用于存储和使用。

图3图示了用于提供可靠地访问存储系统上的目标数据并且处理到一个或多个客户端设备的通信故障的应用的系统的体系结构的一个示例，如以上所描述的。图3的系统可以是被配置用于实施如本文的示例中描述的遵从性扫描的操作的示例性系统。结合编程模块108、应用120、以及存储设备/存储器访问、与之交互或者编辑的目标数据可以被存储在不同的通信信道中或者以其他存储类型存储。例如，各种文档可以使用目录服务322、门户网站324、邮箱服务326、即时通讯存储328、或者社交网站330存储，应用128、IO管理器124、其他实用工具126来存储，并且存储系统可以使用这些类型的系统等等中的任何系统以实现数据利用，如本文中所描述的。服务器320可以通过网络315提供用于由在通用计算设备102和(一个或多个)移动设备200上操作的客户端使用的存储系统。通过举例的方式，网络315可以包括互联网或任何其他类型的局域网或广域网，并且客户端节点可以被实施为体现于个人计算机、平板计算设备中的计算设备102、和/或由移动计算设备200(例如，移动处理设备)实施。客户端计算设备102或200的这些示例中的任何示例可以从存储316获取内容。

图4是可以在其中实践本公开的各方面的与对数据存储中的遵从性违反的检测相关的示例性过程流400。作为示例，过程流400可以由诸如图1-3示出的那些的示例性处理设备和/或系统执行。在示例中，过程流400可以在包括被配置为存储和执行操作、程序或指令的至少一个处理器的设备上执行。过程流400的描述与可以由执行计算机程序、应用编程接口(API)、神经网络或机器学习处理以及其他示例的系统和/或服务执行的处理操作相关。作为示例，与过程流400相关的处理操作可以由一个或多个硬件部件执行。在另一示例中，与过程流400相关的处理操作可以由一个或多个软件部件执行。在一些示例中，过程流400可以与具有对多个应用/服务、设备、知识资源等等的访问的一个或多个应用和/或网络服务相关联。过程流400是用于实施与如本文的示例中描述的针对策略遵从性进行扫描相关的操作的过程流的示例。图4可以包括如下部件，包括但不限于：数据存储402、数据扫描服务404、用于数据标识规则的储存库406、用于数据存储策略的储存库408和遵从性的报告410。

过程流400的部件相互作用以实现对数据存储402的扫描。存储于数据存储402中的数据是(以上描述的)网络数据的示例。(数据存储402的)数据存储可以是数据容器(例如，文件系统文件夹，AZURE BLOB，SQL数据库等等)。在一些示例中，数据存储402可以是通过分布式网络连接的一个或多个存储设备(例如，包括(一个或多个)服务器、数据管理系统等等的计算设备)。在其他示例中，数据存储402可以是维持在分布式网络的一个或多个计算设备上的虚拟存储设备。在另外的示例中，数据存储402可以是与客户端计算设备相关联的一个或多个存储设备。数据存储402可以存储可以被维持在任何层次布置(例如，文件夹、子文件夹、目录等等)中的网络数据的文件。数据存储402可以与任何类型的技术相关联，包括但不限于过程流400中示出的示例(例如，COSMOS、AZURE、ONEDRIVE等等)。

数据扫描服务404是可以与数据存储402进行接口以评价存储于数据存储402中的网络数据的示例性隐私遵从性扫描服务。尽管与过程流400相关的示例描述了对被维持在数据存储402中的数据的数据标识和扫描，但是数据扫描服务404可以被配置为评价任何类型的网络数据，如以上所描述的。数据扫描服务404可以执行与以下项相关的处理操作：对网络数据进行标识、对网络数据的相关数据项进行分组、对特定网络数据内的数据架构进行数据标识、策略规则标识、针对策略遵从性对网络数据进行扫描、对与策略的遵从性进行报告、以及对遵从性违反进行管理、以及其他示例。在(图5的)方法500的描述中描述了可以由示例性数据扫描服务404执行的处理操作的示例。

在示例中，数据扫描服务404还可以与用于数据标识规则的储存库406和用于数据存储策略的储存库408进行接口。用于数据标识规则的储存库406可以维持用于数据标识规则的信息，其可以用于对存储于数据存储402中的数据项进行分组和解析。数据扫描服务404还可以利用数据标识规则以便标识存储于数据存储402中的特定文件数据内的特定数据架构。数据标识规则是可以被设置以应用处理操作来标识网络数据的特定实例的结构(例如，文件的结构)的规则。数据标识规则被应用以标识来自分组的文件数据的一种或多种数据架构。如本文所定义的数据架构可以与网络数据的文件内的结构的定义相关。文件可以包括多个数据架构。如以上所描述的，文件可以是复杂的(例如，按不同级别被嵌套)。对(网络数据的)文件内的数据架构进行标识帮助更好地标识文件内的数据的类型，以便更有效地且准确地确定可应用的策略规则。数据扫描服务404执行诸如以下的操作：发现网络数据、对(网络数据的)数据项进行分组、以及标识经分组的数据项的数据架构，如在(图5的)方法500的描述中所描述的。

用于数据存储策略的储存库408可以维持用于策略规则的信息，对于存储于数据存储402中的数据项，该策略规则可以是可强制执行的。策略规则可以是任何类型的规则，该任何类型的规则可以应用于数据文件内的内容和/或数据。策略规则可以包括但不限于：商业规则、隐私规则、政府管理条例、以及法律法规、以及其他示例。数据扫描服务404可以利用来自用于数据存储策略的储存库408的策略规则来扫描来自数据存储402的文件数据，以便于确定与策略规则的遵从性违反。在这么做时，数据扫描服务404执行诸如以下的操作：确定针对网络数据的文件的数据架构的可应用的策略规则，利用策略规则来确定文件(或文件的部分)是否与策略规则遵从，以及报告与策略的遵从性，如在(图5)的方法500的描述中所描述的。

由数据扫描服务404执行的处理操作可以基于对来自数据存储402的文件数据的扫描来生成与策略规则的遵从性的报告410。遵从性的报告410可以采用任何文件格式，并且可以包括任何数量和类型的数据字段，该数据字段跟踪来自对来自数据存储402的文件数据的扫描的结果。作为示例，遵从性的报告410可以包括如下数据字段，包括但不限于：标识文件(或经扫描的文件的部分)、标识与策略规则的遵从性违反、标识遵从性违反在文件中的位置、标识文件的数据拥有者、标识特定数据存储、提供用于修复遵从性违反的(一个或多个)补救动作、由于遵从性违反而擦除文件、包括到应用/服务和/或其他资源的链接。在一个示例中，数据扫描服务404可以存储或维持遵从性的报告410。在其他示例中，数据扫描服务404可以与用于存储遵从性的报告410和/或管理所标识的遵从性违反的另一部件(例如，图6的遵从性管理部件610)进行接口。

过程流400是可重复的，用于连续检测与存储的数据相关的遵从性问题。在示例中，过程流400可以由应用/服务执行。在一个实例中，用于扫描遵从性违反的操作可以在处理设备执行期间作为后台处理发生。数据扫描服务404的特征和/或设置可以是可配置的，以改变扫描的频率、扫描的水平、遵从性违反的通知等等。

在备选示例中，示例性数据扫描服务404可以被配置为扫描执行应用内的信息以维持与策略规则的遵从性。例如，可以执行电子表格应用，其中社会安全号码的数据列可以被输入(并且被认为是本文中定义的网络数据)。在这样的示例中，数据扫描服务404可以被配置为实时修改这样的敏感信息的呈现(例如，仅仅示出社会安全号码的最后四位)或者提供这样的信息不能被保存的通知，以及其他示例。

图5是可以利用其来实践本公开的各方面的与对遵从性违反的检测相关的示例性方法500。作为示例，方法500可以由诸如图1-3示出的那些的示例性处理设备和/或系统执行。在示例中，方法500可以在包括被配置为存储和执行操作、程序或指令的至少一个处理器的设备上执行。方法500中执行的操作可以对应于由执行计算机程序、应用编程接口(API)、神经网络或机器学习处理以及其他示例的系统和/或服务执行的操作。作为示例，方法500中执行的处理操作可以由一个或多个硬件部件执行。作为另一示例，方法500中执行的处理操作可以由一个或多个软件部件执行。在一些示例中，方法500中描述的处理操作可以由与具有对多个应用/服务、设备、知识资源等等的访问的网络服务相关联的一个或多个应用/服务执行。

方法500开始于操作502，其中数据项被递归地发现。在一个示例中，数据项对应于网络数据。网络数据可以包括以下任何项：存储于分布式网络的一个或多个数据存储中的数据、在防火墙处接收的数据、存储于客户端计算设备上的数据、以及来自在客户端计算设备上运行的应用的数据。作为示例，应用/服务可以扫描数据存储设备和/或一个或多个计算设备以发现(操作502)网络数据。在一个实例中，操作502可以包括执行对数据存储402中的文件的扫描/解析，如图4的描述中所描述的。例如，可以执行发现什么文件/表处于特定的数据存储中的应用/服务。在一些示例中，仅仅一个文件(或者几个文件)可以由操作502发现，例如，当扫描应用/服务正在实时扫描新文件数据时(例如，在防火墙处、数据正被输入到应用中、或者在将内容下载到计算设备之前等等)。

流可以前进到操作504，其中所发现的网络数据的相关数据项被分组。在操作504中应用处理操作以评价网络数据，以便于生成针对发现的网络数据的一个或多个分组。分组可以是网络数据的一个或多个文件。为了改进网络数据的扫描的效率(例如，使在扫描期间读取的数据量最小化)，网络数据可以被分组以标识包括相似内容的数据。在示例中，分组可以基于网络数据的文件类型，以及其他示例。例如，文件的命名约定或文件格式可以用于对文件进行分组。在一个实例中，第一分组可以是具有(XXX.doc)的命名约定的文件，并且第二分组可以是具有(XXX.xml)的命名约定的文件。然而，理解本公开的本领域技术人员应当认识到，对文件数据进行分组不限于仅仅通过文件类型来对网络数据进行分组。当对数据进行分组时，其他因素可以是可应用的，包括但不限于：文件名、文件大小、文件的布局、文件内的内容、日期、文件位置以及与文件相关联的用户账户、以及其他示例。

在一个示例中，相关项的分组可以包括提取网络数据的每个数据项(例如，文件)的命名约定的模式的处理操作。处理操作还可以被应用以比较所提取的模式并将相关项分组到分组中。可以针对不同组的相关数据项创建多个分组。对于具有相同模式的每组数据项，处理操作可以被应用于按日期(例如，创建日期、修改日期、存储日期等等)来对经分组的项进行分类。然而，理解本公开的本领域技术人员应当认识到，对经分组的数据的分类/布置可以以任何数量的方式发生。

在操作506处，数据标识规则被应用以确定与经分组的数据项相关联的(一种或多种)数据架构。数据标识规则是可以被设置以应用处理操作来标识网络数据的特定实例的结构(例如，文件的结构)的规则。数据标识规则被应用以标识来自分组的文件数据的一种或多种数据架构。如本文所定义的数据架构可以与网络数据的文件内的结构的定义相关。文件可以包括多个数据架构。如以上所描述的，文件可以是复杂的(例如，按不同级别被嵌套)。对(网络数据的)文件内的数据架构进行标识帮助更好地标识文件内的数据的类型，以便更有效地且准确地确定可应用的策略规则。

作为示例，操作506可以包括解析来自(在操作504中标识的)分组的文件数据。在一个实例中，来自分组的最近数据项(例如，文件)的样本可以被确定并且用于评价分组中的其他相关数据项。采样可以有助于快速地评价分组中的其他相关数据项的数据架构。样本的大小可以变化，其中与执行方法500的系统或应用相关联的设置可以用于调节样本的大小。例如，逗号分隔值(CSV)文件的头200行或者头10兆字节(MB)可以用于采样。从该样本，表格状架构(列的列表和与列中的位置相关联的内容)可以被产生。在一个示例中，针对在解析时发现的嵌套列(例如，包含比如JavaScript对象表示法(JSON)或可扩展标记语言(XML)的列)，命名方案可以类似于：<父列>.<子列>.<子N列>。在另一示例中，针对数组的命名方案可以类似于：<父列>[].<子列>。

在备选示例中，数据分组的每个文件可以被独立地评价而不进行采样。设置可以被应用以修改在方法500中描述的任何处理操作，这取决于在扫描期间的时间和网络资源的可用性、以及其他示例。一旦(例如，从样本)确定了架构，操作506可以包括一个或多个处理操作以读取来自分组的数据项的更大的样本。对数据标识规则的应用(操作506)可以包括确定数据架构在分组的文件数据中的位置。分组的一个或多个文件可以被解析以确定文件的数据架构。在一个示例中，例如，针对文件中的每个位置(例如列)，数据架构值被收集并且与数据标识规则匹配。操作506可以包括应用数据标识规则以生成提供文件内的数据架构的位置信息的列表。例如，文件中的列/行和与列/行相关联的数据架构可以被标识。作为示例，不同数据类型可以存在于文件数据中，其中不同数据类型可以出现于文件的相同行的不同列中。例如，行1、列1可以包含基本文本字段；行1、列2包含JSON对象等等。然而，理解本公开的本领域技术人员应当认识到，文件数据的架构不限于仅仅按列列出数据。例如，文件数据可以以包括但不限于以下任何方式来布置：数据类型、列、行、页、方程、正则表达式等等。

操作506可以前进以评价文件内的标识的数据架构的内容。对于每个文件，生成关于在文件的什么位置中标识什么数据类型、出现了多少匹配、什么种类的匹配(完全/部分/一些词语)、针对每个匹配数据类型的总置信度等等。在示例中，操作506可以包括基于使用一个或多个信号评价文件数据中的位置的内容的模式匹配来生成用于标识数据架构的置信度分数。信号数据可以是能够被分析以帮助标识用于模式匹配的数据架构的任何数据。一般，可以被确认的信号数据越多，置信度分数越高。可以用于模式匹配的信号数据包括但不限于：对文件中的特定数据架构的评价、对数据架构与文件的其他数据架构的关系的评价、针对数据架构的命名约定、针对数据架构和/或数据架构内的内容的词典匹配、数据架构内的内容，内容的格式、文件的类型、文件的数据拥有者、用于方程匹配的模式、针对表达式的模式、以及统计分类器分析、以及其他示例。在示例中，数据扫描应用/服务可以与分布式网络的一个或多个其他服务进行接口以提供对各种资源的访问来用于分析数据架构的不同方面。

考虑数据架构将字段标识为电话号码的示例，例如通过简单地分析与列的名称(例如，“电话号码”)相关的信号数据。可能的是，命名约定是不正确的或者列内的数据与电话号码不相关。如果仅仅一个信号被分析，则数据架构与电话号码相关的置信度分数可能较低。然而，在一些实例中，某些信号数据被给予更大权重(例如，加权参数更高)。这样的因素可以被构建到建模中以生成用于数据架构的数据标识的置信度分数。考虑另一示例，其中列被命名为“IP地址”并且第一行条目(列1的第二行)是“255.255.255.0”。本文描述的示例可以应用使用不同信号的模式匹配处理以确定什么数据处于列1、行2中。在这么做时，可以分析各种不同的信号，诸如：列名、输入到行中的内容的格式(例如，是由句号分隔的4个数；是0与255之间的数)，以便于生成用于标识文件的行2、列1中的内容的置信度分数。

建模可以被应用(纳入尽可能多的信号数据)以生成置信度分数。在一个示例中，针对具有高于特定阈值的置信度的数据类型的匹配被认为是“正的”结果。在一些实例中，具有低置信度分数的文件(或文件的部分)可以被标记以用于进一步审查(例如，在稍后时间点手动审查)。

流可以前进到操作508，其中应用到(一个或多个)特定数据架构的策略可以被确定。例如，处理操作可以基于文件内标识的数据架构的类型来标识可应用的策略规则。在一个示例中，(在图4的过程流400中描述的)用于数据存储策略的储存库408可以被访问以检索用于扫描(网络数据的)文件的可应用的策略规则。在一些实例中，多个版本的策略规则可以可应用于分组中的文档。例如，策略规则可以已经针对某些日期范围内的文档改变。在处理方法500期间的任何点处，分组(所描述的操作504)可以被重新执行以例如基于可应用的策略规则来重新分组。

在操作510处，数据项被扫描以核实与策略规则的遵从性。本文描述的示例通过使在扫描期间读取的数据量最小化来优化扫描。因此，少量文件(或文件的部分)可以被扫描以标识遵从性违反。在示例中，无需对网络数据的所有文件(或者甚至分组中的所有文件)都进行扫描以标识遵从性违反的模式。另外，可以无需扫描文件的所有部分。在一些示例中，扫描可以仅仅需要扫描文件中与策略规则应用于的数据架构的位置相对应的部分。

通过对文件进行分组，来自分组的文件数据的样本可以被扫描。在一个示例中，来自分组的文件数据的最近文件可以被扫描以确定与策略规则的遵从性。分析最近的文件/版本是有益的，因为最近的文件与被强制执行的最新策略规则最相关。在一个实例中，对最近文件的扫描可以基于最近文件的扫描的结果来触发对额外文件的扫描。在另外的示例中，分组的至少一个其他文件可以被扫描，例如，具有超过策略规则的保留策略的时间段的日期的文件。例如，考虑策略规则是针对超过180天之久的搜索日志不应当保留IP地址的示例。扫描可以导致对最近的搜索日志和181天之久的搜索日志的扫描。如果在经扫描的文件的采样中标识到遵从性问题，则可以扫描随后的文件。然而，理解本公开的本领域技术人员应当认识到文件的采样、用于扫描的模式(包括实现网络数据的完全扫描)可以根据扫描服务的开发者和/或用户而变化，其中分组中的1个文件至全部文件都可以被扫描。

在操作512处，针对经扫描的数据生成报告。作为示例，报告可以包括针对在网络数据的一个或多个分组中扫描的文件所标识的任何遵从性违反的列表。作为示例，报告可以由诸如数据扫描服务404的应用/服务生成，如在图4的描述中所描述的。在示例中，针对与策略规则的遵从性可以生成一个或多个报告。

在判定操作514处，确定是否在(操作512中生成的)报告中标识到任何策略违反。如果没有标识到遵从性违反，则流程可以进行到分支“否”，并且返回操作502，其中分布式网络的单独的处理设备或部件被递归地解析以发现数据项用于随后的扫描。

如果任何策略违反被标识，则流进行到分支“是”并且前进到操作516，其中一个或多个动作可以被执行以补救所标识的遵从性违反。执行的动作可以包括以下项中的一项或多项：请求文件的数据拥有者修复遵从性违反、擦除文件以修复遵从性违反、以及删除包括遵从性违反的文件，以及其他示例。

图6图示了示例性系统600，该示例性系统600可实施在可以在其上实践本公开的各方面的一个或多个计算设备上。系统600可以是如本文所描述的用于与管理和使用针对任务状态跟踪的任务定义的处理的示例性系统。呈现的示例性系统600是相互依赖的部件的组合，这些部件相互作用以形成用于实施如本文的示例中所描述的用于遵从性扫描的操作的集成整体。系统600的部件可以是硬件部件或被实施在硬件部件上和/或由硬件部件执行的软件。在示例中，系统600可以包括硬件部件(例如，ASIC、用于执行/运行OS的其他设备)和在硬件上运行的软件部件(例如，应用、应用程序接口、模块、虚拟机、运行时库)中的任何部件。在一个示例中，示例性系统600可以提供供软件部件运行、遵守针对操作设置的约束并且利用系统/处理设备的资源或设施的环境，其中部件可以是在一个或多个处理设备上运行的软件(例如，应用、程序、模块)。例如，软件(例如，应用、操作指令、模块)可以在处理设备上执行，处理设备诸如是计算机、移动设备(例如，智能电话/电话、平板电脑)和/或任何其他类型的电子设备。作为处理设备操作环境的示例，参考图1-3的操作环境。在其他示例中，本文所公开的系统的部件可以分散于多个设备。例如，输入可以在客户端计算设备上被扫描，其中处理操作可以通过分布式网络中的一个或多个设备(诸如一个或多个服务器设备)发生。

在示例中，一个或多个数据存储/存储设备或其他存储器可以与系统600相关联。例如，系统600的部件可以具有(下面描述的)与之相关联的一个或多个数据存储设备614。与系统600的部件相关联的数据以及由系统600的部件执行的处理操作/指令可以被存储于其上。另外，提出了系统600的应用部件可以与其他应用服务进行接口。应用服务可以是可以扩展系统600的一个或多个部件的功能的任何资源。应用服务可以包括但不限于：网站搜索服务、电子邮件应用、日历、设备管理服务、地址簿服务、信息服务等等)、业务线(LOB)管理服务、客户关系管理(CRM)服务、调试服务、会计服务、薪酬服务、以及由第三方托管或控制的服务和/或网站、以及其他示例。应用服务还可以包括由第三方托管的其他网站和/或应用，诸如社交媒体网站；照片共享网站；视频和音乐流传输网站；搜索引擎网站；体育、新闻或娱乐网站等等。应用服务还可以结合系统600的部件提供分析、数据编译和/或存储服务等等。示例性系统600包括应用部件606，应用部件606包含数据扫描部件608和遵从性管理部件610，其中标识的部件中的每个部件可以包括一个或多个额外的部件。

系统600还可以包括一个或多个存储设备614，该一个或多个存储设备614可以存储与系统600的一个或多个部件的操作相关联的数据。在示例中，(一个或多个)存储设备614可以与系统600的其他部件进行接口。与系统600的任何部件相关联的数据可以被存储于(一个或多个)存储设备614中，其中部件可以通过包括云计算平台和基础设施服务的分布式网络被连接到(一个或多个)存储设备614。(一个或多个)示例性存储设备614可以是第一方来源、第二方来源、以及第三方来源中的任何项。(一个或多个)存储设备614是任何物理或虚拟存储器空间。(图4的)数据存储402是(一个或多个)数据存储设备614的示例。

(一个或多个)存储设备614可以存储：用于由系统600的部件执行的处理操作的任何数据，从处理操作保留的数据，存储的程序、代码或应用编程接口(API)，训练数据，到系统600的内部和外部的资源的链接和知识数据以及其他示例。另外，在示例中，系统600的部件可以在由系统600的部件进行处理时利用知识数据。知识可以由系统600的一个或多个部件用于改进应用部件606中的任何部件的处理，其中知识数据可以从系统600内部或外部的资源获得。在示例中，知识数据可以被维持在(一个或多个)存储设备614中或者通过知识提取操作从系统600外部的一个或多个资源取回。在(如下面所描述的)示例中，(一个或多个)存储设备614可以存储针对以下项的示例性数据程序/服务以及其他类型的数据：标识网络数据、对网络数据进行分组、数据标识(以及数据标识规则/策略)、示例性策略规则、从扫描生成的报告、针对遵从性违反的补救状态、租户账户信息、以及配置信息，以及其他示例。

在图6中，处理设备602可以是包括至少一个处理器和至少一个存储器/存储设备的任何设备。处理设备602的示例可以包括但不限于：诸如台式计算机、服务器、电话、平板电脑、平板电话、板式电脑、膝上型计算机、手表的处理设备以及诸如具有一个或多个处理器或电路的设备的电子部件的任何其他集合。在一个示例中，处理设备602可以是正在执行应用/服务的用户的设备。在示例中，处理设备602可以经由网络604与应用部件606通信。在一个方面中，网络604是分布式计算网络，诸如互联网。应用服务可以经由网络604与应用部件606通信。处理设备602可以是如在图1-3的描述中描述的设备。在一些示例中，处理设备602可以包括多个连接的设备。处理设备602是用户计算设备的示例。本文所描述的处理操作可以被执行以扫描存储于处理设备602上的网络数据和/或通过正由处理设备602访问的应用/服务接收的数据。处理设备602还可以经由分布式网络与(一个或多个)存储设备614连接。一个或多个租户资源612(例如，租户资源A、租户资源B、租户资源C等等)可以与处理设备602相关联。租户资源可以是与处理设备和/或分布式网络服务相关联的用户账户。与租户资源612相关联的数据可以被存储于(一个或多个)存储设备614上，其中租户账户可以用于由处理设备602和/或其他处理设备访问存储的数据。

应用部件606是被配置用于实施数据扫描和与策略规则的遵从性管理的部件的集合。应用部件606可以包括数据扫描部件608和遵从性管理部件610。数据扫描部件608是实施在过程流400(图4)和方法500(图5)的描述中描述的处理操作的部件。作为示例，数据扫描部件608执行与发现网络数据、对相关数据项进行分组、应用数据标识规则、扫描数据项、以及生成遵从性违反的报告相关的处理操作。在一些示例中，数据扫描部件608还可以被配置为补救所标识的遵从性违反。然而，在其他示例中，数据扫描部件608与遵从性管理部件610进行接口，其处理与管理所标识的遵从性违反相关的动作的执行。

在整个本说明书中已经引用了“一个示例”或“示例”，意味着具体描述的特征、结构或特性被包括在至少一个示例中。因此，对这样的短语的使用可以指代多于仅仅一个示例。另外，在一个或多个示例中可以以任何适当的方式来组合所描述的特征、结构和特性。

然而，相关领域的技术人员可以认识到可以在没有具体细节中的一个或多个细节的情况下或利用其他方法、资源、材料等等来实践这些示例。在其他情况中，公知的结构、资源或操作没有被详细示出或描述，这仅仅为了观察这些示例的模糊方面。

尽管已经说明并描述了样本示例和应用，但是要理解这些示例不限于以上描述的精确配置和资源。在不脱离要求保护的示例的范围的情况下,可以在本文所公开的方法和系统的布置、操作和细节中进行对于本领域技术人员而言显而易见的各种修改、改变和变型。

Claims

1.一种用于遵从性违反检测的方法，包括：

由计算设备通过一个或多个网络访问多个数据存储，以标识针对策略遵从性待被评价的网络数据的文件；

由所述计算设备基于文件类型和位置对所标识的所述网络数据的文件分组；

由所述计算设备在相应分组中的一个或多个文件中标识数据架构，所述数据架构与数据类型和在所述一个或多个文件中的位置有关；由所述计算设备确定应用到与所述数据架构相关联的所述一个或多个文件的一个或多个策略规则；

由所述计算设备扫描与所述数据架构相关联的文件的至少一部分，以确定与所述一个或多个策略规则的遵从性；

评估在由所述数据架构定义的所述位置处的另一文件的内容，所述评估使用模式匹配；

基于所述评估来确定置信度分数；以及

由所述计算设备针对经扫描的所述文件，使用所述置信分数来生成与所述一个或多个策略规则的遵从性的报告。

2.根据权利要求1所述的方法，还包括：递归地发现所述网络数据，其中所述多个数据存储包括多个分布式网络、在防火墙处接收的数据、存储于客户端计算设备上的数据、或者来自在所述客户端计算设备上执行的应用的数据。

3.根据权利要求1所述的方法，其中经扫描的所述文件包括所述文件的最近版本。

4.根据权利要求1所述的方法，其中经扫描的所述文件包括具有超过策略规则的保留策略的日期的文件。

5.根据权利要求1所述的方法，其中标识所述数据架构包括：确定所述数据架构在与所述数据架构相关联的所述网络数据的一个或多个文件中的所述位置。

6.根据权利要求5所述的方法，其中标识所述数据架构还包括：基于模式匹配来生成用于标识所述数据架构的置信度分数，所述模式匹配评价所述网络数据的所述一个或多个文件中的所述位置的内容。

7.根据权利要求5所述的方法，其中所述扫描还包括：针对所述分组中的所述文件的所述至少一部分，扫描所述文件的以下部分，所述部分与所述一个或多个策略规则中的策略规则应用于的所述数据架构的所述位置相对应。

8.根据权利要求1所述的方法，还包括：执行至少一个动作来补救在所述报告中标识的遵从性违反，其中所执行的每个动作包括：

请求文件的数据拥有者以修复所述遵从性违反；

擦除文件以修复所述一个或多个遵从性违反；或者

删除包括所述遵从性违反的文件。

9.一种用于遵从性违反检测的系统，包括：

至少一个处理器；以及

存储器，所述存储器与所述至少一个处理器可操作地连接，所述存储器存储计算机可执行指令，所述计算机可执行指令当由所述至少一个处理器执行时使所述至少一个处理器执行方法，所述方法包括：

基于所述网络数据的相似性，对所标识的网络数据的文件分组，以生成网络数据的分组，其中所述分组包括网络数据的一个或多个文件，

在所述分组中的所述网络数据的所述一个或多个文件中标识数据架构，所述数据架构与数据类型和在所述一个或多个文件中的位置有关；

确定应用到与所述数据架构相关联的所述网络数据的所述一个或多个文件的一个或多个策略规则；

扫描与所述数据架构相关联的至少一个文件，以确定与所述一个或多个策略规则的遵从性；

基于所述评估来确定置信度分数；以及

针对经扫描的所述至少一个文件，生成与所述一个或多个策略规则的遵从性的报告。

10.根据权利要求9所述的系统，其中所述存储器还存储计算机可执行指令，以用于递归地发现所述网络数据，其中所述多个数据存储包括多个分布式网络、在防火墙处接收的数据、存储于客户端计算设备上的数据、或者来自在所述客户端计算设备上执行的应用的数据。

11.根据权利要求9所述的系统，其中经扫描的所述至少一个文件包括所述分组中的最近文件。

12.根据权利要求9所述的系统，其中经扫描的所述至少一个文件包括具有超过针对所述一个或多个策略规则中的策略规则的保留策略的时间段的日期的至少一个文件。

13.根据权利要求9所述的系统，其中在所述分组中的所述一个或多个文件中标识所述数据架构包括：确定所述数据架构在所述分组中的所述一个或多个文件中的所述位置。

14.根据权利要求13所述的系统，其中所述扫描包括：针对所述分组中的所述至少一个文件，扫描所述至少一个文件的以下部分，所述部分与所述一个或多个策略规则中的策略规则应用于的所述数据架构的所述位置相对应。

15.根据权利要求9所述的系统，其中所述存储器还存储计算机可执行指令，以用于执行至少一个动作来补救在所述报告中标识的遵从性违反，所执行的每个动作包括：

请求文件的数据拥有者以修复所述遵从性违反；

擦除文件以修复所述一个或多个遵从性违反；或者

删除包括所述遵从性违反的文件。

16.一种用于遵从性违反检测的方法，包括：

由所述计算设备基于与所述网络数据相关联的一个或多个文件特性对所标识的所述网络数据的所述文件分组；

由所述计算设备标识与所标识的所述文件相关联的数据架构，其中所述标识还包括：

确定所述数据架构在所标识的所述网络数据的所述文件中的位置，以及

基于模式匹配来生成用于标识所述数据架构的置信度分数，所述模式匹配评价在所标识的所述网络数据的所述文件中的所述位置的内容；

确定应用到与所述数据架构相关联的所标识的所述网络数据的所述文件的策略规则；以及

扫描所标识的所述网络数据的所述文件中的至少一个文件的如下部分，以确定所述策略规则的违反，所述部分与所述数据架构的所述位置相对应。

17.根据权利要求16所述的方法，还包括递归地发现所述网络数据，其中所述多个数据存储包括多个分布式网络、在防火墙处接收的数据、存储于客户端计算设备上的数据、或者来自在所述客户端计算设备上执行的应用的数据。

18.根据权利要求16所述的方法，还包括：

生成针对经扫描的文件数据的所述部分的与所述策略规则的遵从性的报告；以及

执行至少一个动作来补救基于所述扫描而标识的违反，其中每个动作包括：

请求文件的数据拥有者修复所述违反；

擦除文件以修复所述违反；或者

删除包括所述违反的文件的部分。

19.根据权利要求16所述的方法，其中扫描所述至少一个文件的所述部分包括：

扫描最近文件的所述部分；或者

扫描所述至少一个文件的所述部分，所述至少一个文件具有超过针对所述策略规则的保留策略的时间段的日期。