CN110506271A

CN110506271A - 针对隐私敏感用户内容的可配置注释

Info

Publication number: CN110506271A
Application number: CN201880020423.6A
Authority: CN
Inventors: P·D·艾伦
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2017-03-23
Filing date: 2018-03-14
Publication date: 2019-11-26
Anticipated expiration: 2038-03-14
Also published as: US20190354715A1; EP3602382A1; RU2764393C2; MX2019011180A; US20180276401A1; RU2019133476A; EP3602382B1; AU2018237533B2; JP7012742B2; IL268794B2; BR112019016655A2; KR102464222B1; RU2019133476A3; CN110506271B; PH12019550175A1; CO2019010012A2; KR20190131032A; AU2018237533A1; NZ756030A; US10410014B2

Abstract

在本文中提供了用于用户应用的数据隐私注释框架的系统、方法、和软件。示例性方法包括至少识别第一阈值数量，用于将所述第一阈值数量修改为第二阈值数量的弹性因子，以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示。所述方法包括监视对用户内容的内容编辑过程，以识别包含与一个或多个预先确定的数据方案相对应的敏感数据的用户内容的数量，并且在所述内容编辑过程期间，至少基于以下项来启用和禁用对所述内容元素的注释指示符的呈现：所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的指示。

Description

针对隐私敏感用户内容的可配置注释

背景技术

各种用户生产力应用允许数据输入以及对用户内容的分析。这些应用可以使用电子表格、演示、文本文档、混合媒体文档、消息传送格式、或其他用户内容格式来提供内容创建、编辑、和分析。在该用户内容中，各种文本、字母数字、或其他基于字符的信息可以包括用户或组织可能不希望被包含在已发布或分发的作品中的敏感数据。例如，电子表格可以包括社会保险号码(SSN)、信用卡信息、医疗健康标识符、或其他信息。尽管录入该数据或用户内容的用户可能有权限查看该敏感数据，但其他实体或分发端点可能不具有这样的权限。

信息保护和管理技术可以被称为数据丢失保护(DLP)，其尝试避免对该敏感数据的误分派和误分配。在某些内容格式或内容类型(例如，包括在电子表格、基于幻灯片的演示、和图形图解应用中的那些)中，用户内容可以被包括在各种单元格、对象、或其他结构化或半结构化数据实体中。此外，敏感数据可以在多于一个数据实体之间被分割。当这样的文档包括敏感数据时，在尝试识别敏感数据和防止敏感数据丢失时可能会出现困难。

发明内容

提供了该发明内容以用简化的形式引入对以下的具体实施方式中进一步描述的概念的选择。应当理解的是，该发明内容不旨在标识所要求保护主题的关键特征或必要特征，也不旨在帮助确定所要求保护的主题的范围。

附图说明

可以参考以下附图更好地理解本公开的许多方面。尽管结合这些附图描述了几个实现，但是本公开不限于在本文中所公开的实现。相反，目的是要覆盖所有的替换、修改、和等同形式。

图1示出了示例中的数据丢失保护环境。

图2示出了示例中的数据丢失保护环境的元素。

图3示出了示例中的数据丢失保护环境的元素。

图4示出了示例中的数据丢失保护环境的操作。

图5示出了示例中的数据丢失保护环境的操作。

图6示出了示例中的数据丢失保护环境的操作。

图7示出了示例中的数据丢失保护环境的操作。

图8示出了示例中的数据丢失保护环境的数据阈值操作。

图9示出了适合于实现在本文中所公开的架构、过程、平台、服务、和操作场景中的任何一个的计算系统。

具体实施方式

用户生产力应用使用电子表格、幻灯片、矢量图形元素、文档、电子邮件、消息传送内容、数据库、或其他应用数据格式和类型来提供用户数据和内容创建、编辑、和分析。在用户内容中，可以包括各种文本、字母数字、或其他基于字符的信息。例如，电子表格可以包括社会保险号码(SSN)、信用卡信息、医疗健康标识符、护照号码、或其他信息。尽管录入该数据或用户内容的用户可能有权限查看敏感数据，但其他实体或分发端点可能不具有这样的权限。可以建立指示哪些类型的数据或用户内容性质上是敏感的各种隐私策略或数据隐私规则。可以包含在本文中所讨论的增强的数据丢失保护(DLP)措施以试图避免对该敏感数据的误分派和误分配。

在某些内容格式或内容类型(例如，包括在电子表格、基于幻灯片的演示、和图形图解应用中的那些)中，用户内容可以被包括在各种单元格、对象、或其他结构化或半结构化数据实体中。此外，敏感数据可以在多于一个数据元素或条目之间被分割。本文中的示例提供了对包括结构化数据元素的用户数据文件中的敏感数据的增强的识别。此外，本文中的示例提供了增强的用户界面，以向用户警告敏感数据。这些用户界面元素可以包括标记个体的包含敏感数据的数据元素，以及用于在编辑内容期间进行警报的阈值。

在使用结构化数据元素的一个示例应用(例如，电子表格应用)中，可以将数据录入到布置成列和行的单元格中。每个单元格可以包含用户数据或用户内容，并且还可以包括用于执行计算的一个或多个表达式，其可以引用一个或多个其他单元格中的用户录入的数据。诸如幻灯片放映演示应用之类的其他用户应用可以包括多于一个幻灯片上的用户内容以及在这些幻灯片上包括的对象内的用户内容。

有利地，本文的示例和实现提供了用于数据丢失保护服务的增强的操作和结构。这些增强的操作和结构具有更快识别文档并且尤其是结构化文档(例如，电子表格、演示、图形绘图等)内的敏感内容的技术效果。此外，多个应用可以共享单个分类服务，该分类服务提供跨许多不同应用和终端用户平台对用户数据文件中的敏感内容的检测和识别。终端用户级的注释和模糊过程也在应用的用户界面中提供显著的优势和技术效果。例如，可以向用户呈现对敏感内容的图形注释，以及呈现各种模糊或掩盖选项的弹出对话框。还可以建立各种增强的注释阈值以动态地向用户指示敏感内容，从而使得用户内容编辑和敏感数据模糊更高效并且符合各种数据丢失保护策略和规则。

作为用户应用的数据丢失保护环境的第一示例而提供了图1。图1示出了示例中的数据丢失保护环境100。环境100包括用户平台110和数据丢失保护平台120。图1的元素可以通过一个或多个物理或逻辑通信链路进行通信。在图1中，示出了链路160-161。然而，应当理解的是，这些链路仅仅是示例性的，并且可以包括一个或多个另外的链路，其可以包括无线、有线、光学、或逻辑部分。

数据丢失保护框架可以包括具体用户应用本地的部分，以及跨许多应用采用的共享的部分。用户平台110为用户提供了用于经由用户界面112来与用户应用111的元素交互的应用环境。在用户与应用111的交互期间，可以执行内容输入和内容操控。应用数据丢失保护(DLP)模块113可以在应用111内提供用于敏感数据注释和替换的功能的部分。在该示例中，应用DLP模块113是用户平台110本地的，但是可以替代地与应用111分离或者集成到应用111中。应用DLP模块113可以为用户和应用111提供敏感数据注释和替换。数据丢失保护平台120提供数据丢失保护框架的共享的部分，并且为许多应用提供共享的DLP服务121以便共享例如具有相关联的位置DLP部分193的应用190。

在操作中，应用111提供用户界面112，用户可以通过该用户界面112来与应用111交互，例如录入、编辑、以及以其他方式操控可以经由一个或多个数据文件加载或经由用户界面112录入的用户内容。在图1中，显示了电子表格工作簿，其中单元格布置成行和列。作为应用111的一部分，提供了数据丢失保护服务，其识别敏感用户内容并允许用户用安全的文本或数据来替换敏感用户内容。敏感内容包括可能具有隐私问题、隐私策略/规则、或者不期望传播或不想要传播的其他属性的内容。该上下文中的数据丢失是指将私有或敏感数据传播给未授权的用户或端点。

为了识别敏感内容，应用111向数据丢失保护服务提供用户内容到用户内容的片段或块中的分派。在图1中，示出了内容部分140，其中，个体的内容部分141-145随着时间被提供至DLP服务121。通常而言，应用111可以处理用户内容以在空闲时段期间(例如，当与应用111相关的一个或更多处理线程是空闲的或低于活动阈值时)将用户内容分派到所述部分中。如将在本文中讨论的，结构化用户内容在分派过程期间被转换成“平面化”或非结构化布置。这种非结构化布置对于由DLP服务121进行的处理具有若干优点。

接着，DLP服务121单独地处理用户内容的每个部分或“块”以确定所述部分是否包含敏感内容。可以将各种分类规则125(例如，数据方案、数据模式、或隐私策略/规则)引入DLP服务121以识别敏感数据。在DLP服务121解析了用户内容的每个个体的块之后，确定用户数据文件中的敏感数据的位置偏移，以指示给应用DLP服务113。应用DLP服务113中的映射器功能确定块偏移与文档的结构之间的结构性关系。可以向应用111提供位置偏移、敏感数据长度、和敏感数据类型的指示，如例如敏感数据指示150可见。由DLP服务121指示的位置偏移可能不会针对敏感内容产生在用户数据文件的结构性元素中的确切或具体位置。在这些实例中，应用111的应用DLP服务113可以采用映射过程来确定包含敏感数据的具体的结构性元素。

一旦确定了具体位置，则应用111就可以在用户界面112内注释敏感数据。该注释可以包括对敏感数据的全局或个体的标志或标记。所述注释可以包括在用户界面中呈现的“策略提示”。接着，可以向用户呈现一个或多个选项，所述选项用于模糊用户内容或以其他方式将内容渲染为不可识别为原本的敏感内容。可以建立关于敏感内容的通知的各种阈值，其基于在用户数据文件中存在的敏感数据的计数或数量来触发。

在一个示例中，用户数据文件114包括用户数据文件114的特定单元格中的内容115、116、和117，它们可以与电子表格工作簿的特定工作表或页面相关联。各种内容可以被包括在相关联的单元格中，并且该内容可以包括潜在敏感的数据，例如图1中可见的针对SSN、电话号码、和地址的示例。该内容中的一些内容可以跨越用户数据文件中的结构性边界，例如横跨多个单元格或横跨多个图形对象。如果“块”将数据分派到行或行分组中，则平面化的表示(即，剥离了任何结构性内容)仍然可以识别一个或多个单元格内的敏感数据。

用户平台110和DLP平台120中的每个的元素可以包括通信接口、网络接口、处理系统、计算机系统、微处理器、存储系统、存储介质、或一些其他处理设备或软件系统，并且可以分布在多个设备中或跨多个地理位置分布。用户平台110和DLP平台120中的每个的元素的示例可以包括诸如操作系统、应用、日志、接口、数据库、实用程序、驱动程序、网络化软件之类的软件，以及存储在计算机可读介质上的其他软件。用户平台110和DLP平台120中的每个的元素可以包括由分布式计算系统或云计算服务托管的一个或多个平台。用户平台110和DLP平台120中的每个的元素可以包括逻辑接口元素，例如软件定义的接口和应用编程接口(API)。

用户平台110的元素包括应用111、用户界面112、和应用DLP模块113。在该示例中，应用111包括电子表格应用。应当理解的是，用户应用111可以包括任何用户应用，例如生产力应用、通信应用、社交媒体应用、游戏应用、移动应用、或其他应用。用户界面112包括图形用户界面元素，其能够产生输出以向用户显示并且从用户接收输入。用户界面112可以包括针对用户接口系统908在下文图9中讨论的元素。应用DLP模块113包括一个或多个软件元素，它们被配置为分派内容以便传递至分类服务，注释被指示为敏感的数据，以及模糊敏感数据，此外还有其他操作。

DLP平台120的元素包括DLP服务121。DLP服务121包括应用编程接口(API)122形式的外部接口，但可以采用其他接口。DLP服务121还包括跟踪器123和分类服务124，它们将在下文更加详细地被讨论。API 122可以包括一个或多个用户接口，例如web接口、API、终端接口、控制台接口、命令行shell接口、可扩展标记语言(XML)接口等。跟踪器123保留在结构化用户内容的平面化部分内针对特定文档找到的敏感数据的计数或数量，并且还保留结构化用户内容的平面化部分内的、与结构化用户内容内的敏感数据的位置相对应的位置偏移的记录。跟踪器123还可以执行阈值分析以确定阈值数量的敏感数据何时被找到并且应当由应用DLP模块113来注释。然而，在其他示例中，DLP服务121的阈值/计数部分可以被包括在DLP模块113中。分类服务124解析平面化的用户内容以确定敏感数据的存在，并且可以采用定义用于识别敏感数据的规则和策略的各种输入。应用DLP模块113和共享的DLP服务121的元素可以被配置在图1所示的不同布置或分布中，例如当共享的DLP服务121的部分被包括在应用DLP模块113或应用111中时，此外还有其他配置。在一个示例中，共享的DLP服务121的部分包括动态链接库(DLL)，其被包括在用户平台110上以供应用111和应用DLP模块113使用。

为清楚起见，链路160-161连同图1的元素中没有示出的其他链路中的每个链路可以包括一个或多个通信链路，例如包括无线或有线网络链路的一个或多个网络链路。所述链路可以包括各种逻辑接口、物理接口、或应用编程接口。示例通信链路可以使用金属、玻璃、光学、空气、空间或一些其他材料作为传输介质。链路可以使用各种通信协议，例如互联网协议(IP)、以太网、混合光纤同轴电缆(HFC)、同步光纤网络(SONET)、异步传输模式(ATM)、时分复用(TDM)、电路交换、通信信令、无线通信、或一些其他通信格式，包括其组合、改进、或变型。所述链路可以是直接链路或者可以包括中间网络、系统、或设备，并且可以包括通过多个物理链路传输的逻辑网络链路。

为了进一步讨论环境100的元素和操作，呈现了图2。图2是示出了应用DLP模块113的示例配置200的框图，其突出显示了应用DLP模块113等的示例操作。在图2中，应用DLP模块113包括内容分派器(apportioner)211、注释器212、映射器213、和模糊器214。元素211-214中的每个可以包括由应用DLP模块113采用以如下所述地操作的软件模块。

在操作中，用户内容被提供至应用DLP模块113，例如电子表格文件或工作簿，如在图1中针对用户数据文件114可见。该用户数据文件可以被组织成结构化或半结构化格式，例如，针对电子表格示例是按行和列组织的单元格。可以替代地采用其他数据格式，例如具有页面/幻灯片和许多个体图形对象的幻灯片放映演示，在各种页面上具有各种对象的矢量绘图程序，具有各种对象(表格、文本框、图片)的文字处理文档，数据库，网页内容、或包括其组合在内其他格式。用户数据文件可以包含敏感内容或敏感数据。该敏感数据可以包括适合一个或多个模式或数据方案的任何用户内容。敏感数据类型的示例包括社会保险号码、信用卡号码、护照号码、地址、电话号码、或其他信息。

与对用户数据文件的编辑或查看并行地，内容分派器211将用户内容细分为一个或多个部分或“块”，其是来自原本/原生的结构化或层级形式的平面化形式。接着，内容分派器211可以将这些内容块以及针对每个块的块元数据提供至共享的DLP服务121。块元数据可以指示各种块属性，例如块在总内容中的位置偏移和块的长度。位置偏移对应于块相对于整个用户文档/文件的位置，并且块长度对应于块的大小。

共享的DLP服务121单独地解析内容块以识别块的平面化用户内容中的敏感数据，并且将对敏感数据的指示提供回应用DLP模块113。在下文所讨论的一些示例中，在向应用DLP模块113提供指示之前，将各种阈值应用至敏感数据的计数或数量。所述指示包括针对所述块中包含敏感数据的每个块的偏移，块的长度，以及可选地包括与敏感数据相关联的数据类型或数据方案的指示符。敏感数据指示可以用于确定用户数据文件的结构化数据中的敏感内容的实际或具体位置。对数据类型的指示符可以是以符号或数字编码的指示符，例如整数值，其指向映射器213可以使用以识别用于注释的数据类型的指示符列表。

映射器213可以用于将偏移和长度转换成文档或用户文件内的具体位置。偏移和长度对应于由映射器213保留并且与会话标识符相关联地存储的具体块身份。会话标识符可以是唯一标识符，其至少与用户打开或查看文档的会话持续一样久。可以向映射器213提供来自内容分派器211的块元数据，以形成块偏移、长度、和会话标识符之间的映射关系。响应于接收到对敏感数据的指示，映射器213可以采用映射关系来识别针对敏感数据指示以在文档内对应于块偏移和长度的粗略位置。由于块可以包含用户数据文件的多于一个结构性或层级性元素，因此映射器213可以执行另外的定位过程以在用户数据文件中找到敏感数据的具体位置。

例如，偏移可以指示粗略位置，例如在电子表格中的特定行或特定列。为了确定具体位置(例如，在所指示的行或列内的单元格内)，映射器213可以使用偏移/长度连同结构化数据的本地知识和用户数据文件本身来定位结构化数据中的敏感内容。映射器213确定块是从用户数据文件中的何处提供的，例如针对电子表格示例的相关联的行、列、工作表，以及针对幻灯片放映示例的相关联的幻灯片/页面和对象。其他示例(例如，文字处理示例)可能没有太多结构，并且内容更容易被平面化，并且偏移可以是基于文档词语计数或类似定位的。

在一些示例中，通过在特定粗略位置中针对敏感内容进行搜索来确定具体位置。当特定偏移涉及多个结构性元素或层级性元素时，映射器213可以迭代地搜索或遍历所述元素中的每个元素以定位敏感数据。例如，如果在文档中存在“n”个等级的结构/层级，则映射器213可以首先导航上层级，并且接着导航下层级。在电子表格示例中，层级/结构可以包括具有相关联的行和列的工作表。在演示文档示例中，层级/结构可以包括具有相关联的形状/对象的幻灯片/页面。可以逐步通过由偏移指示的每个工作表和幻灯片以找到包含敏感内容的确切单元格或对象。在另外的示例中，可以通过以下动作来完成对敏感数据的定位：重新创建与粗略位置相关联的一个或多个块以及在那些重新创建的块内找到敏感数据从而找到敏感数据的具体位置。

一旦确定了敏感数据的具体位置，则可以采用注释器212来向用户标记或以其他方式标注敏感数据。该注释可以采用全局标志或横幅(banner)的形式，其向用户指示该用户数据文件中存在敏感内容。该注释可以采用个体标志的形式，其指示接近敏感数据的标记。在一个示例中，图2示出了具有电子表格用户界面视图的配置201，该电子表格用户界面具有当前打开以供查看或编辑的工作簿。示出了横幅注释220以及个体的单元格注释221。个体的单元格注释221包括注释用户内容的一个或多个部分的图形指示，并且包括位于在用户界面112中可选择以呈现模糊选项的一个或多个部分附近的指示符。

当选择了特定注释时，可以向用户呈现一个或多个选项。可以呈现弹出菜单202，其包括各种查看/编辑选项，例如剪切、复制、粘贴等。弹出菜单202还可以包括模糊选项。对所述模糊选项中的一个的选择可以产生保留相关联的用户内容的数据方案的经模糊的内容，并且包括这样的符号，所述符号被选择以在保留相关联的用户内容的数据方案的同时防止识别相关联的用户内容。在一些示例中，部分地基于相关联的用户内容的数据方案等来选择所述符号。例如，如果数据方案包括数字数据方案，则字母可以用作模糊符号。同样，如果数据方案包括字母数据方案，则可以使用数字作为模糊符号。可以选择字母和数字的组合或其他符号作为字母数字内容示例中的模糊符号。

在图2中，第一模糊选项包括用掩盖的或以其他方式模糊的文本来替换敏感内容，而第二模糊选项包括用与当前选择的注释的内容类似的模式或数据方案来替换所有内容。例如，如果某个单元格中包含SSN，则可以向用户呈现这样的选项：用“X”字符替换SSN中的数字，同时保留SSN的数据方案完整，即留下由短划线字符分隔的熟悉的“3-2-4”字符布置。此外，另外的模糊选项可以包括用于用“X”字符替换适合所选SSN的模式的所有SSN的选项。应当理解的是，可以呈现不同的示例模糊选项，并且可以在替换过程中使用不同的字符。然而，无论采用什么模糊字符，敏感数据都将被匿名化渲染、净化、“清理”、或无法被识别为原始内容。

现在转到图3，示出了示例配置300以关注DLP服务121的各方面。在图3中，DLP服务121接收由内容分派器211在一个或多个内容块中提供的平面化的用户内容的部分，连同至少包括对块的总内容的偏移和块的长度的块元数据。在图3中示出了两种示例类型的结构化用户内容，即电子表格内容301和幻灯片放映/演示内容302。电子表格内容301具有反映定义个体单元格的行321和列322的结构。此外，电子表格内容301可以具有多于一个工作表320，其由工作表下方的选项卡限定，并且每个工作表可以具有单独一组行/列。每个单元格可以具有用户内容，例如字符、字母数字内容、文本内容、数字内容、或其他内容。幻灯片放映内容302可以具有包括多个对象324的一个或多个幻灯片或页面323。每个对象可以具有用户内容，例如字符、字母数字内容、文本内容、数字内容、或其他内容。

内容分派器211将用户内容细分成片段并移除任何相关联的结构，例如通过从单元格或对象中提取任何用户内容(例如，文本或字母数字内容)，并且接着将所提取的内容布置成平面化或线性块以用于传递至DLP服务121。这些块和块元数据被提供至DLP服务121以用于发现潜在的敏感数据。

一旦DLP服务121接收到用户内容的个体的块，则由分类服务124对块执行各种处理。而且，跟踪器123保留数据记录332，所述数据记录332包括将偏移/长度和会话标识符与找到的敏感数据的计数关联的一个或多个数据结构。为该DLP服务121存储数据记录332，以将包含敏感数据的块的偏移/长度提供回进行请求的应用，从而进一步定位和注释在其中找到的任何敏感内容。

分类服务124针对各种分类规则331来解析所述块中的每个块以识别敏感数据或敏感内容。分类规则331可以建立由一个或多个表达式定义的一个或多个预先确定的数据方案，所述一个或多个表达式用于解析平面化的块/数据表示以将所述块的部分识别为指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型。

通常基于与敏感内容相关联的数据结构模式或数据“方案”来识别敏感内容。这些模式或方案可以识别块的确切内容何时可能不同，但所述数据可能适合反映敏感数据类型的模式或布置。例如，SSN可以具有某一数据布置，该数据布置具有由预先确定的数量的短划线混合并且分隔的预先确定数量的数字。分类规则331可以包括在识别敏感数据时使用的各种定义和策略。这些分类规则可以包括隐私策略、数据模式、数据方案、和阈值策略。隐私策略可以指示，由于公司、组织、或用户策略等考虑，某些潜在敏感数据可能不会被指示为对应用敏感。在向应用报告敏感数据的存在之前，阈值策略可以建立用于在各个块中找到敏感数据的最小阈值。分类规则331可以由用户或由策略制定者(例如，管理员)来建立。

另外地，分类服务124可以通过由正则表达式(regex)服务333处理的一个或多个正则表达式来处理数据内容。Regex服务333可以包括正则表达式匹配和处理服务，以及用户或者策略制定者可以部署以用于识别敏感数据的各种正则表达式。下面在图7中讨论了regex服务333的另外的示例。

作为具体示例，分类过程341示出了几个内容块C₁-C₈，它们是最初在文档或用户数据文件中的结构性或层级性布置中的内容的线性化版本。分类服务124处理这些块以识别所述块中包括敏感数据的块。如果找到任何敏感数据，则可以向应用提供指示。所述指示可以包括敏感数据的偏移和长度，并且被提供给映射器213以在用户数据文件的结构内定位敏感数据。在处理每个块以进行敏感数据识别之后，分类服务124可以丢弃所述块本身。由于偏移和长度允许在原始数据文件内找到敏感数据，并且原始内容保留在数据文件中(除非已经发生干预编辑)，因此实际的块不需要一被处理就被保存。

为了形成所述块，内容分派器211将字母数字内容(例如，文本)捆绑到一个或多个线性数据结构中，例如，字符串或BSTR(基本字符串或二进制字符串)。分类服务124处理线性数据结构并且确定结果列表。针对敏感数据来对所述块进行检查，并且线性数据结构的部分可以被确定为具有敏感内容。分类服务124结合跟踪器123确定与线性数据结构中包含敏感数据的块相对应的偏移/长度。这些偏移可以指示粗略位置，所述粗略位置可以被转换回包含用户内容的原始文档(例如，用户数据文件)中的具体位置。当接收到块时，跟踪器123可以将每个块与在块元数据中指示的偏移/长度信息相关联。该偏移/长度信息可以用于通过映射器213反向映射至原始文档的结构或层级。

然而，DLP服务121通常仅具有回到原始文档或用户数据文件的部分上下文，例如由到原本生成的线性数据结构中的偏移所指示。此外，线性数据结构和用户内容本身可以在分类过程结束时由分类服务124释放/删除。这可以意味着分类服务124可能不能够直接搜索敏感内容以具体地在原始文档内定位敏感内容，并且即使分类服务124可以搜索精确的敏感内容，分类服务124也可能无法找到敏感内容，这是因为“分块”算法可以跨越原始文档或数据文件中的层级结构或构造的边界。作为具体示例，电子表格文档中的工作表320可以具有横跨四个相邻单元格的文本“SSN 12345 6789”。有利地，分类服务124可以发现该文本为包括敏感内容。然而，由于分类服务124进行的边界交叉分析，在策略规则评估结束时，分类服务124通常不具有足够的数据来找到原始文档中的敏感内容以呈现给用户。用户可能会留下不存在敏感内容的错误印象。

为了高效地针对敏感内容来扫描用户内容，分类服务124在应用空闲期间成块地读取用户内容，进行部分分析，并且继续该过程。当分类服务124完成读取所有内容时，分类服务124仅具有原始内容中的敏感内容的粗略位置，例如仅开始/偏移和长度。为了高效地映射回结构化或半结构化文档，映射器213可以采用所述技术的组合。应当注意的是，这些技术与拼写检查或语法检查的工作方式不同，部分原因在于可能需要总内容而不仅仅是词语/句子/段落以便了解内容是否超过阈值。

针对原始文档中存在的每个级别的物理层级或结构(即，工作簿中的工作表，或者演示中的幻灯片)，映射器213使用标识符来指示在映射数据结构中的存在，并且还以合理数量的层级等级(即工作表中的行，幻灯片中的形状)进一步将内容细分，以使得当每个内容被处理时，映射器213跟踪原始内容的长度，并且基于插入到映射中的顺序，跟踪该元素的隐含开始。标识符可以是在特定文档的打开实例之间持久存在的持久性标识符，或者可以在特定文档的每个实例中是不同的。在一些示例中，保留用于合并敏感内容的存在/不存在的计算，直到没有剩余的未经处理的内容也没有将进一步改变内容的任何未决的编辑为止。

假设存在敏感内容，映射器213从DLP服务121接收每条敏感内容的开始和长度，并且映射器213在最精确映射区域内的敏感内容的标识符和插入内容的映射数据结构中进行查找以找到确切的位置。出于性能的原因，可以仅跟踪某一数量的等级的层级，这使得可能无法单独地跟踪幻灯片内部形状内的表格或工作表内部的行内的单元格。因此，可以在进行反向映射之后执行部分重新遍历以便找到精确的位置。

在具体示例中，工作簿可以具有20个工作表，但具有数百万行，并且所述数百万行中的每一行可以具有50列用户数据。对于此中相对较少数量的敏感数据(即，一个工作表中只有一列具有敏感数据)，分类过程可能由于具有20*100万*50记忆的“长度+偏移”条数据而变得非常耗费存储器。移除最后一个维度可节省50倍的存储器，因为在原始文档中实际识别敏感数据时的计算成本很低。有利地，可以保持小的存储器占用空间以将开始/长度反向映射回原始内容。

为了进一步说明图1-3中的元素的操作，在图4中呈现了流程图。在图4中呈现了两个主要流程，即用于识别敏感数据的第一流程400，以及用于敏感数据注释和模糊的第二流程401。第一流程400可以馈送到第二流程401中，但其他配置也是可能的。

在图4中，DLP服务121接收(410)合并到关联的平面化表示中的结构化用户内容的子集，每个相关联的平面化表示具有到结构化用户内容的对应子集的映射。如在上文中提及的，结构化内容可以包括组织成表/行/列的电子表格内容，或者可以替代地包括其他结构，例如组织成幻灯片/对象的幻灯片放映内容，组织成页面/对象的绘制程序内容，或组织成页面的文本内容等。结构化用户内容的这些子集可以包括图1中所示的“块”141-146或图3中的块C₁-C₈等。底层用户内容的结构在这些子集中被平面化或移除以形成块，并且每个子集可以通过引用结构性标识符或定位器(例如，表/行/列或幻灯片/对象)而映射回原始结构。

DLP服务121接收这些块和块元数据，例如，通过图1中的链路160或API 122，并且个体地解析(411)平面化表示以将部分分类为包括与一个或多个预先确定的数据方案相对应的敏感内容。分类规则125可以建立由一个或多个表达式定义的一个或多个预先确定的数据方案，所述表达式用于解析平面化的块/数据表示以将块的部分识别为指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型。

如果找到敏感数据(412)，则针对所述部分中的每个部分，DLP服务121确定(413)与被指示为保留在数据记录332中的跟踪器123中的结构化用户内容相关的相关联的偏移/长度。DLP服务121接着至少向用户应用111指示(414)所述部分的相关联的偏移/长度，以用于向用户应用111标记用户界面112中的敏感内容。如果没有找到敏感数据，或者如果不满足任何相关联的阈值，则对块的进一步处理可以继续或随着用户应用111的提供进一步监视另外的块。此外，对用户内容进行编辑或改变可以针对任何经改变或编辑的用户内容来提示另外或重复的分类过程。

应用DLP模块113从DLP服务121的分类服务接收(415)对用户内容中包含敏感内容的一个或多个部分的指示，其中，所述指示包括与敏感内容相关联的偏移/长度。应用DLP模块113在用户应用111的用户界面112中呈现(416)图形指示，所述图形指示将用户内容的所述一个或多个部分注释为包含敏感内容。接着，应用DLP模块113可以在用户界面112中呈现(417)模糊选项，以用于在用户内容的一个或多个部分中掩盖至少选定部分内的敏感内容。响应于用户对模糊选项中的至少一个的选择，应用DLP模块113用保留相关联的用户内容的数据方案的经模糊的内容来替换(418)相关联的用户内容。

图5示出了序列图500以进一步示出图1-3的元素的操作。此外，图5包括针对图5中的处理步骤中的一些的详细示例结构510。在图5中，应用111可以打开文档以供用户查看或编辑。该文档可以由应用DLP模块113检测。可以将任何相关联的策略或分类规则推送至DLP服务121以定义任何分类策略。接着，DLP服务121可以在记录332中保留打开文档的处理实例，其可以包括几个打开文档的列表。当DLP模块113检测到应用111的空闲处理时间帧时，可以向DLP服务121呈现空闲指示符，DLP服务121响应性地请求用户内容的块以进行分类。可替代地，DLP模块113可以在应用111的空闲时段期间将用户内容块推送至DLP服务121。DLP模块113将用户内容分派到块中，并且可以基于包括在文档的结构或层级对象中的文本或其他内容来确定这些块。一旦确定了所述块，DLP模块113就将块传送至DLP服务121以进行分类。DLP服务121个体地对每个块进行分类，并且将分类规则应用于所述块以识别所述块中的潜在敏感的用户内容。该分类过程可以是迭代过程，以确保已经处理了由DLP模块113传送的所有块。如果在块之间找到敏感数据或内容，则DLP服务121向DLP模块113指示敏感数据的存在以用于进一步处置。如在本文中提及的，敏感数据可以由偏移、粗略位置、或其他位置信息以及长度信息来指示。接着，DLP模块113可以对文档中的敏感数据执行一个或多个注释过程和模糊过程。

例如可以由用户、管理员、策略人员、或其他实体在分类过程之前建立分类规则。如在结构510中所见，各种规则511和512可以是基于一个或多个断言(predicate)的。断言在图5中以两个类别示出，内容相关断言511和访问相关断言512。内容相关断言511可以包括指示敏感数据的数据方案，例如数据模式、数据结构信息、或定义数据方案的正则表达式。访问相关断言512包括用户级规则、组织级规则、或其他基于访问的规则，例如内容共享规则，其定义何时不希望敏感数据被特定用户、组织、或其他因素传播或释放。

可以建立策略规则513，其将内容相关断言和访问相关断言中的一个或多个组合到策略551-554中。每个策略规则还具有优先级和相关联的动作。通常而言，优先级与动作的严重性相匹配。例如，策略规则可以定义要阻止应用的“保存”特征。在另一示例策略规则中，用户内容可以包含根据内容相关断言定义的SSN，但是根据访问相关断言，这些SSN可以是用于传播可接受的。大多数策略规则在断言511-512中包含至少一个分类断言。这些策略可以影响一个或多个动作514。所述动作可以包括应用可以响应于识别或敏感内容而采取的各种注释操作，例如对用户的通知，通知但允许用户覆盖，阻止特征/功能(即“保存”或“复制”特征)，以及合理的覆盖等。

图6示出了流程图600，以进一步图示图1-3的元素的操作。图6关注于敏感数据识别、注释、和模糊过程的一个示例整体过程。子过程601包括策略和规则建立、存储、和获取。这些策略和规则可以是注释规则、分类规则、正则表达式、组织/用户策略、此外还有在本文中所讨论的其他信息。在图6的操作611中，可以经由用户接口或API引入各种检测规则630和替换规则631，以用于配置检测策略。检测规则630和替换规则631可以包括如在图5中找到的各种断言和规则等。用户、管理员、策略人员、或其他实体可以例如通过针对用户、组织、或应用使用以及其他实体和活动建立策略，来引入检测规则630和替换规则631。在操作612中，检测规则630和替换规则631可以被存储在一个或多个存储系统上以供以后使用。当一个或多个客户端希望使用由检测规则630和替换规则631建立的策略时，可以在操作613中下载或获取这些策略。例如，注释规则可以由应用下载以用于注释用户界面中的敏感内容，而分类规则可以由共享的DLP服务下载，以用于将用户内容分类为敏感内容。

子过程602包括客户端侧应用活动，例如加载文档以用于在用户界面中编辑或查看，以及提供这些文档的块以用于分类。在操作614中，客户端应用可以提供一个或多个终端用户体验以处理用户内容，编辑用户内容，或查看用户内容，此外还有其他操作。操作614还可以提供稍后讨论的注释和模糊过程。操作615将该用户内容的部分提供至共享的DLP服务以用于对用户内容进行分类。在一些示例中，所述部分包括被从原始文档剥离的相关联的结构或层级的用户内容的平面化块。

子过程603包括对用户内容的分类以检测用户内容中的敏感数据，以及向用户注释该敏感数据。在操作616中，应用各种检测规则，例如下文在图7中所讨论的正则表达式，此外还有其他检测规则和过程。如果找到敏感数据，则操作617确定是否应该通知用户。如果敏感数据的数量低于警报阈值数量，则可能不会发生通知。然而，如果用户要被警告，则操作619可以计算结构化数据的检测的区域内的敏感数据的位置。如在本文中所讨论的，可以采用映射过程以根据敏感数据串或部分的平面化数据偏移和长度来确定结构化元素或层级性元素内的敏感数据的具体位置。一旦确定了这些具体位置，则操作618可以向用户显示所述位置。采用注释或其他突出显示用户界面元素来向用户发信号通知用户内容中存在敏感数据。

子过程604包括对包括结构化或层级性元素的用户内容内的敏感数据进行模糊。在操作621中，可以接收用户输入以用“安全”或经模糊的数据/文本来替换敏感数据的至少一个实例。当向用户被示出以展示使得注释或“策略提示”出现的敏感数据片段的突出显示的区域时，可以向用户呈现用模糊敏感数据的“安全文本”来替换敏感数据的选项。取决于在操作611中最初设置策略的实体做出的选择，操作622和624确定并生成一个或多个替换或模糊规则。所述模糊规则可以用于用营销许可名称来替换内部代码名称，用于用样板名称来模糊个人可识别信息(PII)，可用于用向文档的未来观看者指示敏感数据类型(即，信用卡号，社会保险号，车辆识别号等)而不泄露实际的敏感数据的一组字符来替换数字敏感数据。操作623用经模糊的数据来替换敏感数据。经模糊的数据可用于用一组字符来替换数字敏感数据，所述字符可用于确认数据方案或内容类型，但即使由确定的个体仍然不足以导出原始数据(即，确定内容片段是SSN但不揭露实际的SSN)。用户可以使用经模糊的文本来执行个体或单个实例的敏感内容替换，或者从示出了多个敏感内容实例的用户界面进行批量替换。

可以用正则表达式或者可替代地经由非确定性有限自动机(NFA)、确定性有限自动机(DFA)、下推自动机(PDA)、图灵机、任意功能代码、或其他过程来完成对敏感内容(例如，文本或字母数字内容)的替换。对敏感内容的替换通常包括文本或内容中的模式匹配。通过考虑目标模式是否能够在字符串中的指定位置存在多个字符，该模式匹配可以留下未掩盖的字符或内容，并且所述字符不需要被掩盖，例如，针对分隔符字符。例如，字符串“123-12-1234”可以变为“xxx-xx-xxxx”，并且字符串“123 121234”在掩盖过程之后可以变为“xxx xx xxxx”。该模式匹配还可以出于唯一性目的而保持某些部分可辨识，例如使用信用卡号或SSN的最后的预先确定数量的数字。例如，在掩盖过程之后，“1234-1234-1234-1234”可以变成“xxxx-xxxx-xxxx-1234”。对于代码名称掩盖/替换，并非所有方面都是模式，并且可以实际上是内部代码名称或其他关键字。例如，代码名称“Whistler”可以在掩盖过程后变成“Windows XP”。此外，可以允许用安全文本替换不同数量的字符的模式以保持长度一致或者将长度设置为已知常数。例如，相同的规则可以在掩盖过程之后将“1234-1234-1234-1234”变成“xxxx-xxxx-xxxx-1234”和“xxxxx-xxxxx-xl234”。这可能需要包含足够数据的模式来处置这些情况中的任何情况。正则表达式可以通过用括号括起每个原子匹配表达式来扩充正则表达式并且跟踪哪些经扩充的“匹配”语句与哪个“替换”语句配对来处置这样的场景。正则表达式匹配的另外的示例在以下的图7中可见。

为了在多于一个文档/文件中保持注释和分类过程的完整性，可以建立各种过程。检测/分类、注释、和模糊规则和策略通常不被包括在文档文件中。这允许改变策略以及防止对模糊技术的逆向工程。例如，如果用户保存文档，接着关闭并加载同一文档，则针对文档的哪些部分包含考虑敏感数据存在策略问题所必需的敏感数据的规则可能已经改变。另外，注释标志不应被包括在剪贴板操作中，例如剪切、复制、或粘贴。如果用户要从一个文档复制内容并粘贴到另一个文档中，则该第二文档可以应用不同的检测/分类、注释、和模糊规则。如果用户要从第一文档中复制文本内容并粘贴到第二文档中，则在重新分类之前，应将第一文档注释视为是不相关的。即使用户要从一个文档中复制内容到同一文档中，敏感内容的任何计数也可能会变化，并且在整个文档中需要突出显示的内容可能会改变。

图7示出了流程图700以进一步图示图1-3的元素的操作。图7关注于敏感数据模糊过程中的正则表达式操作。在图7中，已知一正则表达式(regex)，例如虚构的驱动程序的许可证示例正则表达式730，以及与其匹配的字符串，可以通过以下方式来生成完全匹配：至少通过用括号(例如，每个原子)括起每个可分隔的字符匹配表达式来扩充正则表达式，如在操作711中所指示的。接着，可以在操作712中重新应用或执行经扩充的正则表达式来执行模糊或掩盖处理。针对每个匹配，操作713-714确定实际上匹配的最宽和最窄的字符集。例如，当匹配的字符是“-”时，字符较窄，因为其是单个字符。当匹配的字符是全字母字符的集合时，其较宽泛。可以在任何区域中的绝对字符计数是关键的决定因素。操作715中的模糊可以根据匹配宽泛度来替换字符。针对作为单个字符相匹配的字符，模糊过程可以不进行改变。针对那些在宽泛群组中相匹配的字符，模糊过程用不是该集合成员的“安全”字符来替换所述字符。例如，全字母的集合变为“0”，全数字的集合变为“X”，并且混合的字母数字内容变为“？”，其中，使用字符后退列表直到用尽为止。一旦文本或内容已经通过模糊或掩盖过程，操作716就确认当新文本/内容字符串不再与原始regex匹配时文本或内容已被成功地渲染为已模糊。

图8示出了图表800以进一步图示图1-3的元素的操作。图8关注于在用户界面中对敏感数据注释时使用的增强的阈值过程。图8的操作可以包括用于注释敏感数据的增强的滞后操作，并且可以由策略管理员或用户以及其他实体来建立各种阈值或注释规则。

图8包括图表800，其包括指示文档中存在的敏感数据/内容项的数量的竖直轴，以及指示时间的水平轴。建立第一阈值820，其可以发起对用户界面中敏感内容的注释的呈现或移除。可以建立第二阈值822，其还可以发起对敏感内容的注释的呈现或移除。可以建立弹性(elasticity)因子821和回弹(resiliency)属性823以修改第一和第二阈值的行为。

当在用户界面中注释敏感数据时，例如通过标志、标记、或突出显示，用户可以编辑敏感内容以修复敏感内容问题(例如，通过选择一个或多个模糊选项)。然而，一旦解决了阈值数量的敏感内容问题，可能没有足够的剩余问题实例来保证文档的注释总体上违反针对组织或保存位置的敏感内容规则。同样，当将新的敏感内容被引入文档中时，可以有足够的实例来保证文档的注释向用户指示敏感内容。

在用户的内容编辑过程期间，针对一个或多个内容元素启用和禁用注释指示符可以是至少部分地基于关于注释规则的内容元素的当前数量的。注释规则可以包括至少第一阈值数量820，用于在启用时将第一阈值数量820修改为第二阈值数量822的弹性因子821，以及指示第二阈值数量822何时覆盖第一阈值数量820的阈值回弹或“粘性”属性823的指示。诸如注释器212之类的注释服务可以确定或识别注释规则，例如在图5中讨论的策略规则513和动作514，其针对与内容编辑相关联的目标实体而被建立。所述目标实体可以包括执行内容编辑的用户，包括执行内容编辑的用户的组织，或者用户应用的应用类型等。在用户编辑包含敏感内容或者潜在地包含敏感内容的文档期间，注释器212监视相关联的用户数据文件中的用户内容，其在用户应用的用户界面中呈现以进行内容编辑。注释器212识别用户内容中包含与在本文中所讨论的一个或多个预先确定的数据方案相对应的敏感内容的内容元素的数量。所述内容元素可以包括单元格、对象、形状、词语或其他数据结构或数据层级性元素。

在编辑期间，并且至少基于内容元素的数量超过第一阈值数量，注释器212在用户界面中发起对至少一个注释指示符的呈现，所述注释指示符将用户界面中的用户内容标记为至少包含第一敏感内容。在图8(从“关闭”状态中的注释开始)中，第一阈值820将转换点830处的示例数量“8”指示为触发在用户界面中对注释指示符的呈现。具有敏感内容的内容元素的数量可以增加，例如通过用户编辑，并且接着在用户看到存在敏感内容并且开始选择模糊选项以掩盖该敏感内容之后可能减少。

至少基于内容元素的数量最初超过第一阈值数量820并且在弹性因子821被应用于第一阈值数量820时随后下降到低于第一阈值数量820，注释器212至少基于该弹性因子建立第二阈值数量822。当第二阈值数量822活跃时(即，当弹性因子821被应用于第一阈值数量820时)，则第二阈值数量822用于当所述数量低于第二阈值数量822时开始对至少一个注释指示符的呈现的移除，如转换点832中可见的。然而，至少基于内容元素的数量最初超过第一阈值数量820并且在弹性因子没有被应用于第一阈值数量820时随后下降到低于第一阈值数量820，移除对至少一个注释指示符的呈现，如由转换点831所指示的。

弹性因子821可以包括0-100％的百分比，或另一度量。在具体示例中，可以建立注释规则，其定义在文档中包含超过100个SSN违反公司策略。在对超过100个SSN的文档的编辑期间，针对第一阈值数量的注释规则可以提示突出显示文档中的所有SSN。当用户开始模糊所述SSN时，剩余的未模糊的SSN的数量将减少。即使不再满足触发注释的第一阈值数量820，例如当99个SSN保持未模糊时，弹性因子也可以保持对SSN的注释或突出显示。弹性因子100将对应于未经修改的第一阈值数量，并且弹性因子0将对应于在所有SSN被模糊之前不移除所述注释。弹性因子的中间值50将对应于一旦在注释最初触发以被呈现后第50个条目被修复则移除所述注释。因此，在图8的示例中，一旦注释已经被呈现给用户，弹性因子就建立了用于移除注释的第二阈值数量。在该示例中，第二阈值数量822处于“2”处，并且因此当剩余的敏感内容问题低于剩余“2”时，将移除所述注释，如由转换点832所指示的。

如果第二阈值数量822已经下降，并且接着在内容编辑期间出现另外的敏感内容问题，则注释器212必须决定何时通过再次呈现注释来警告用户。至少基于内容元素的数量最初低于第二阈值数量822并且在阈值回弹属性823被应用于第二阈值数量822时随后超过第二阈值数量822，注释器212在用户界面中发起对另外的注释的呈现，其将用户界面中的用户内容标记为包含敏感内容，如由转换点833所指示的。

回弹属性823包括第二阈值数量822的“粘性”属性，并且是由开/关或布尔条件定义的。当被禁用时，第二阈值数量822不被用于在超过的情况下重新呈现注释。当被启用时，第二阈值数量822被用于在超过的情况下重新呈现注释。因此，至少基于内容元素的数量最初低于第二阈值数量822并且在回弹属性没有被应用于第二阈值数量822时随后超过第二阈值数量822，注释器212拒绝对注释的呈现，其在用户界面中将用户内容标记为至少包含敏感内容直到内容元素的数量再次超过第一阈值数量820为止。

现在转到图9，呈现了计算系统901。计算系统901代表在本文中所公开的各种操作架构、场景、和过程可以在其中实现的任何系统或系统集合。例如，计算系统901可用于实现图1的用户平台110或DLP平台120中的任何一个。计算系统901的示例包括但不限于服务器计算机、云计算系统、分布式计算系统、软件定义的网络化系统、计算机、台式计算机、混合计算机、机架式服务器、web服务器、云计算平台、和数据中心设备，以及任何其他类型的物理或虚拟服务器机器，以及其他计算系统和设备，以及它们的任何变型或组合。当计算系统901的部分在用户设备上被实现时，示例设备包括智能电话、膝上型计算机、平板计算机、台式计算机、游戏系统、娱乐系统等。

计算系统901可以被实现为单个装置、系统、或设备，或者可以以分布式方式被实现为多个装置、系统、或设备。计算系统901包括但不限于处理系统902、存储系统903、软件905、通信接口系统907、和用户接口系统908。处理系统902可操作地与存储系统903、通信接口系统907、和用户接口系统908相耦合。

处理系统902从存储系统903加载并执行软件905。软件905包括应用DLP环境906和/或共享的DLP环境909，其代表关于前面的附图所讨论的过程。当由处理系统902执行以处理用户内容以用于对敏感内容的识别、注释、和模糊时，软件905指示处理系统902如在本文中至少针对在前述实现中讨论的各种过程、操作场景、和环境所描述的那样进行操作。计算系统901可以可选地包括为简洁起见没有讨论的另外的设备、特征、或功能。

仍然参考图9，处理系统902可以包括微处理器以及从存储系统903取回软件905并执行软件905的其他电路。处理系统902可以在单个处理设备内实现，但是也可以跨在执行程序指令时协作的多个处理设备或子系统而分布。处理系统902的示例包括通用中央处理单元、专用处理器、和逻辑器件，以及任何其他类型的处理设备、其组合或变型。

存储系统903可以包括能够由处理系统902读取并且能够存储软件905的任何计算机可读存储介质。存储系统903可以包括以任何用于存储信息(例如，计算机可读指令、数据结构、程序模块、或其他数据)的方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储介质的示例包括随机存取存储器、只读存储器、磁盘、光盘、闪速存储器、虚拟存储器和非虚拟存储器、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者任何其他合适的存储介质。计算机可读存储介质无论如何都不是传播的信号。

除了计算机可读存储介质以外，在一些实现中，存储系统903还可以包括软件905中的至少一些软件可以内部地或外部地通过其传送的计算机可读通信介质。存储系统903可以被实现为单个存储设备，但也可以跨位于同一位置或相对于彼此分布的多个存储设备或子系统来实现。存储系统903可以包括能够与处理系统902或者可能的其他系统进行通信的额外的元件，例如控制器。

软件905可以以程序指令来实现，并且在由处理系统902执行时，所述软件905引导处理系统902如关于在本文中所示出的各种操作性场景、顺序、和过程所描述的那样操作，此外还有其他功能。例如，软件905可以包括用于实现在本文中所讨论的数据集处理环境和平台的程序指令。

特别地，程序指令可以包括协作或以其他方式进行交互以实行在本文中所描述的各种处理和操作场景的各种组件或模块。可以以经编译或经解译的指令或者以指令的一些其他变型或组合来实施各种组件或模块。可以以同步或非同步的方式、顺序地或并行地、在单线程的环境中或在多线程的环境中、或者根据任何其他合适的执行范例、变型、或其组合来执行各种组件或模块。软件905可以包括除了或包括应用DLP环境906或共享的DLP环境909的额外的过程、程序、或组件，例如操作系统软件、虚拟机软件、或其他应用软件。软件905也可以包括固件或者可以由处理系统902执行的一些其他形式的机器可读处理指令。

通常而言，当被加载到处理系统902中并被执行时，软件905可以将合适的装置、系统、或设备(其由计算系统901所代表)全部从通用计算系统转换成专用计算系统，所述专用计算系统被定制为促进增强的应用协作。事实上，将软件905编码在存储系统903上可以转换存储系统903的物理结构。物理结构的具体的转换可以取决于该说明书的不同的实现中的各种因素。这样的因素的示例包括但不限于：用于实现存储系统903的存储介质的技术和计算机存储介质被表征为主要存储还是辅助存储，以及其他因素。

例如，如果计算机可读存储介质被实现为基于半导体的存储器，则当程序指令被编码在其中时，软件905可以转换半导体存储器的物理状态，例如，通过转换晶体管、电容器、或构成半导体存储器的其他分立电路器件的状态。可以关于磁或光介质而发生类似的转换。物理介质的其他转换是可以的而不脱离本说明的范围，其中，仅仅为了促进本讨论而提供了前述的示例。

应用DLP环境906或共享的DLP环境909中的每个包括一个或多个软件元件，例如OS921/931和应用922/932。这些元件可以描述用户、数据源、数据服务或其他元件与之交互的计算系统901的各个部分。例如，OS921/931可以提供应用922/932在其上执行的软件平台，并且应用922/932允许处理用户内容以用于对敏感内容的识别、注释、和模糊，此外还有其他功能。

在一个示例中，DLP服务932包括内容分派器924、注释器925、映射器926、和模糊器927。内容分派器924将结构化或层级用户内容元素平面化为线性块以供分类服务处理。注释器925在用户界面中以图形方式突出显示敏感数据或内容，以便可以警告用户存在阈值数量的敏感数据。映射器926可以导出文档中用于敏感数据注释的具体位置，例如当分类服务仅提供偏移/长度/ID以定位文档的各种结构化或层级性元素中的敏感数据时。模糊器927呈现用于掩盖/替换已经被识别为敏感数据的用户内容的模糊选项。模糊器927还响应于对模糊选项的用户选择来替换敏感内容。

在另一示例中，DLP服务933包括分类服务934、跟踪器935、策略/规则模块936、和regex服务937。分类服务934解析数据或内容的线性块以识别敏感数据。跟踪器935保留由分类服务934找到的敏感数据项的计数或数量，并向用于在文档中注释的映射器(例如，映射器926和注释器925)指示敏感数据偏移和长度。策略/规则模块936可以接收和保留用于对用户内容进行注释、分类、检测、模糊、或其他操作的各种策略和规则。Regex服务937包括一个示例分类技术，其使用正则表达式匹配以使用数据模式或数据方案来识别敏感数据，并且用模糊的内容来替换匹配的内容的文本。

通信接口系统907可以包括支持通过通信网络(未示出)与其他计算系统(未示出)进行通信的通信连接和通信设备。共同支持系统间通信的连接的示例可以包括：网络接口卡、天线、功率放大器、RF电路、收发机、以及其他通信电路。连接和设备可以通过通信介质来进行通信以与其他计算系统或系统的网络交换通信，所述通信介质例如金属、玻璃、空气、或任何合适的通信介质。通信接口系统907的物理或逻辑元件可以从遥测源接收数据集，在一个或多个分布式数据存储元件之间传输数据集和控制信息，以及与用户接合以接收数据选择并提供可视化数据集，此外还有其他特征。

用户接口系统908是可选的，并且可以包括键盘、鼠标、语音输入设备、用于接收来自用户的输入的触摸输入设备。诸如显示器、扬声器、web接口、终端接口、和其他类型的输出设备之类的输出设备也可以被包括在用户接口系统908中。用户接口系统908可以通过网络接口(例如，通信接口系统907)来提供输出和接收输入。在网络示例中，用户接口系统908可以通过在一个或多个网络接口上耦合的显示系统或计算系统来分组化显示或图形数据以供远程显示。用户接口系统908的物理或逻辑元件可以从用户或策略人员接收分类规则或策略，从用户接收数据编辑活动，向用户呈现敏感内容注释，向用户提供模糊选项，以及向用户呈现经模糊的用户内容，等等。用户接口系统908还可以包括能够由处理系统902执行以支持上文讨论的各种用户输入和输出设备的相关联的用户接口软件。单独地或者彼此以及与其他硬件和软件元件结合，用户接口软件和用户接口设备可以支持图形用户接口、自然用户接口、或任何其他类型的用户接口。

算系统901与任何其他计算系统(未示出)之间的通信可以通过通信网络或多个通信网络并且根据各种通信协议、协议的组合、或其变型来进行。示例包括：内联网、互联网、局域网、广域网、无线网络、有线网络、虚拟网络、软件定义的网络、数据中心总线、计算背板、或任何其他类型的网络、网络的组合、或其变型。前述的通信网络和协议是公知的并且不需要在这里详细讨论。然而，可以使用的一些通信协议包括但不限于：互联网协议(IP、IPv4、IPv6等)、传输控制协议(TCP)、和用户数据报协议(UDP)、以及任何其他合适的通信协议、其变型或组合。

从前述公开内容可以理解某些发明方面，其中以下是各种示例。

示例1：一种操作用户应用的方法，所述方法包括：至少识别第一阈值数量、当被启用时将所述第一阈值数量修改为第二阈值数量的弹性因子、以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示；监视对用户数据文件中的用户内容的内容编辑过程，以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量。所述方法包括：在所述内容编辑过程期间，至少部分基于以下项来启用和禁用对所述内容元素中的一个或多个内容元素的注释指示符的呈现：所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的指示。

示例2：示例1的方法，其中，所述注释指示符包括以下中的一个或多个：在所述用户应用的用户界面中呈现的全局指示符，所述全局指示符适用于所述用户数据文件；以及在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。

示例3：示例1的方法，还包括：在所述内容编辑过程期间：至少基于内容元素的所述当前数量超过所述第一阈值数量，发起在所述用户界面中对至少一个注释指示符的呈现，所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据。所述方法还包括：在所述内容编辑过程期间，至少基于内容元素的所述当前数量最初超过所述第一阈值数量，并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现。所述方法还包括：在所述内容编辑过程期间，至少基于内容元素的所述当前数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下，发起对所述至少一个注释指示符的所述呈现的移除。所述方法还包括：在所述内容编辑过程期间，至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下，并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量，发起在所述用户界面中对至少一个另外的注释指示符的呈现，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

示例4：示例3的方法，还包括：在所述内容编辑过程期间，至少基于内容元素的所述当前数量最初超过所述第一阈值数量，并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，移除对所述至少一个注释指示符的呈现。所述方法还包括：在所述内容编辑过程期间，至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下，并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量，拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

示例5：用于数据应用的数据隐私注释框架，包括：一个或多个计算机可读存储介质；操作性地与所述一个或多个计算机可读存储介质耦合的处理系统；以及存储在所述一个或多个计算机可读存储介质上的程序指令。所述程序指令至少基于由所述处理系统读取和执行，引导所述处理系统进行以下操作：至少识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的指示，监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容，以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量。所述程序指令还引导所述处理系统进行以下操作：在所述内容编辑期间，并且至少基于内容元素的数量超过所述第一阈值数量，发起在所述用户界面中对至少一个注释指示符的呈现，所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据。所述程序指令还引导所述处理系统进行以下操作：在所述内容编辑期间，并且至少基于内容元素的数量最初超过所述第一阈值数量，并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现。所述程序指令还引导所述处理系统进行以下操作：在所述内容编辑期间，并且至少基于内容元素的数量最初落到所述第二阈值数量以下，并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量，发起在所述用户界面中对至少一个另外的注释指示符的呈现，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

示例6：示例5的数据隐私注释框架，包括另外的程序指令，所述另外的程序指令至少基于由所述处理系统读取和执行，引导所述处理系统至少进行以下操作：在所述内容编辑期间，至少基于内容元素的数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下，发起对所述至少一个注释指示符的所述呈现的移除。

示例7：示例5的数据隐私注释框架，包括另外的程序指令，所述另外的程序指令至少基于由所述处理系统读取和执行，引导所述处理系统至少进行以下操作：在所述内容编辑期间，至少基于内容元素的数量最初超过所述第一阈值数量，并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，移除对所述至少一个注释指示符的呈现。

示例8：示例5的数据隐私注释框架，包括另外的程序指令，所述另外的程序指令至少基于由所述处理系统读取和执行，引导所述处理系统至少进行以下操作：在所述内容编辑期间，至少基于内容元素的数量最初落到所述第二阈值数量以下，并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量，拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

示例9：示例5的数据隐私注释框架，其中，识别第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的指示中的一个或多个包括：确定针对与所述内容编辑相关联的目标实体所建立的注释策略，所述注释策略包括以下中的一个或多个：所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。

示例10：示例9的数据隐私注释框架，其中，所述目标实体包括以下中的至少一个：执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。

示例11：示例5的数据隐私注释框架，其中，所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个：在所述用户界面中呈现的全局指示符，所述全局指示符适用于所述用户数据文件；以及在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。

示例12：示例5的数据隐私注释框架，其中，所述一个或多个预先确定的数据方案是由一个或多个表达式定义的，所述一个或多个表达式由分类服务使用，以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。

示例13：一种提供用于用户应用的数据隐私注释框架的方法，所述方法包括：识别所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的指示中的一个或多个：；以及监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容，以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量。所述方法包括，在所述内容编辑期间，至少基于内容元素的数量超过所述第一阈值数量，发起在所述用户界面中对至少一个注释指示符的呈现，所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据。所述方法包括，在所述内容编辑期间，至少基于内容元素的数量最初超过所述第一阈值数量，并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现。所述方法包括，在所述内容编辑期间，至少基于内容元素的数量最初落到所述第二阈值数量以下，并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量，发起在所述用户界面中对至少一个另外的注释指示符的呈现，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

示例14：示例13的方法，还包括：在所述内容编辑期间，至少基于内容元素的数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下，发起对所述至少一个注释指示符的所述呈现的移除。

示例15：示例13的方法，还包括：在所述内容编辑期间，至少基于内容元素的数量最初超过所述第一阈值数量，并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，移除对所述至少一个注释指示符的呈现。

示例16：示例13的方法，还包括：在所述内容编辑期间，至少基于内容元素的数量最初落到所述第二阈值数量以下，并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量，拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

示例17：示例13的方法，其中，识别所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示中的一个或多个包括：确定针对与所述内容编辑相关联的目标实体所建立的注释策略，所述注释策略包括以下中的一个或多个：所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。

示例18：示例17的方法，其中，所述目标实体包括以下中的至少一个：执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。

示例19：示例13的方法，其中，所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个：在所述用户界面中呈现的全局指示符，所述全局指示符适用于所述用户数据文件；以及在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。

示例20：示例13的方法，其中，所述一个或多个预先确定的数据方案是由一个或多个表达式定义的，所述一个或多个表达式由分类服务使用，以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。

在附图中所提供的功能块图、操作场景和序列、以及流程图代表用于执行本公开的新颖的方面的示例性系统、环境、和方法。尽管出于简化说明的目的，在本文中所包括的方法可以是以功能图、操作场景或序列、或流程图的形式的，并且可以被描述为一系列操作，但应当理解和领会的是，所述方法不受操作的顺序的限制，这是因为与此对应，一些操作可以以与在本文中所示出和描述的其他操作不同的顺序和/或同时进行。例如，本领域技术人员将理解并领会的是，方法可以可替代地被表示为一系列的相关的状态或事件，例如在状态图中。此外，不是在方法中所示出的所有的操作都针对新颖的实现而被需要。

所包括的描述和图描绘了具体的实现以教导本领域技术人员如何制作和使用最佳选项。出于教导发明性原理的目的，已经简化或省略了一些传统的方面。本领域技术人员将从落在本发明的范围内的这些实现中理解变型。本领域技术人员还将理解的是，可以以各种方法组合在上文中所描述的特征以形成多个实现。作为结果，本发明不限于在上文中所描述的具体的实现，而是仅由示例及其等价物来限制。

Claims

1.一种操作用户应用的方法，所述方法包括：

至少识别第一阈值数量、当被启用时将所述第一阈值数量修改为第二阈值数量的弹性因子、以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示；

监视对用户数据文件中的用户内容的内容编辑过程，以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量；以及

在所述内容编辑过程期间，至少部分基于以下项来启用和禁用对所述内容元素中的一个或多个内容元素的注释指示符的呈现：所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的所述指示。

2.根据权利要求1所述的方法，其中，所述注释指示符包括以下中的一个或多个：

在所述用户应用的用户界面中呈现的全局指示符，所述全局指示符适用于所述用户数据文件；以及

在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。

3.根据权利要求1所述的方法，还包括：

在所述内容编辑过程期间：

至少基于内容元素的所述当前数量超过所述第一阈值数量，发起在所述用户界面中对至少一个注释指示符的呈现，所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据；

至少基于内容元素的所述当前数量最初超过所述第一阈值数量，并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现；

至少基于内容元素的所述当前数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下，发起对所述至少一个注释指示符的所述呈现的移除；

至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下，并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量，发起在所述用户界面中对至少一个另外的注释指示符的呈现，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据；

至少基于内容元素的所述当前数量最初超过所述第一阈值数量，并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，移除对所述至少一个注释指示符的呈现；以及

至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下，并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量，拒绝对所述至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少所述第二敏感数据。

4.一种用于用户应用的数据隐私注释框架，包括：

一个或多个计算机可读存储介质；

操作性地与所述一个或多个计算机可读存储介质耦合的处理系统；以及

存储在所述一个或多个计算机可读存储介质上的程序指令，所述程序指令至少基于由所述处理系统读取和执行，引导所述处理系统至少进行以下操作：

识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的指示中的一个或多个；

监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容，以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量；以及

在所述内容编辑过程期间：

至少基于内容元素的所述数量超过所述第一阈值数量，发起在所述用户界面中对至少一个注释指示符的呈现，所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据；

至少基于内容元素的所述数量最初超过所述第一阈值数量，

并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现；

至少基于内容元素的所述数量最初落到所述第二阈值数量以下，并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量，发起在所述用户界面中对至少一个另外的注释指示符的呈现，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。

5.根据权利要求4所述的数据隐私注释框架，包括另外的程序指令，所述另外的程序指令至少基于由所述处理系统读取和执行，引导所述处理系统至少进行以下操作：

在所述内容编辑期间，至少基于内容元素的所述数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下，发起对所述至少一个注释指示符的所述呈现的移除；

在所述内容编辑期间，至少基于内容元素的所述数量最初超过所述第一阈值数量，并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，移除对所述至少一个注释指示符的呈现；以及

在所述内容编辑期间，至少基于内容元素的所述数量最初落到所述第二阈值数量以下，并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量，拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少所述第二敏感数据。

6.根据权利要求4所述的数据隐私注释框架，其中，识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的所述指示中的一个或多个包括：确定针对与所述内容编辑相关联的目标实体所建立的注释策略，所述注释策略包括以下中的一个或多个：所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。

7.根据权利要求6所述的数据隐私注释框架，其中，所述目标实体包括以下中的至少一个：执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。

8.根据权利要求4所述的数据隐私注释框架，其中，所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个：

在所述用户界面中呈现的全局指示符，所述全局指示符适用于所述用户数据文件；以及

9.根据权利要求4所述的数据隐私注释框架，其中，所述一个或多个预先确定的数据方案是由一个或多个表达式定义的，所述一个或多个表达式由分类服务使用，以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。

10.一种提供用于用户应用的数据隐私注释框架的方法，所述方法包括：

在所述内容编辑期间：

至少基于内容元素的所述数量最初超过所述第一阈值数量，并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下，至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现；

11.根据权利要求10所述的方法，还包括：

在所述内容编辑期间，至少基于内容元素的所述数量最初落到所述第二阈值数量以下，并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量，拒绝对所述至少一个另外的注释指示符的呈现直到内容元素的所述数量超过所述第一阈值数量为止，所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少所述第二敏感数据。

12.根据权利要求10所述的方法，其中，识别所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示中的一个或多个包括：确定针对与所述内容编辑相关联的目标实体所建立的注释策略，所述注释策略包括以下中的一个或多个：所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。

13.根据权利要求12所述的方法，其中，所述目标实体包括以下中的至少一个：执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。

14.根据权利要求10所述的方法，其中，所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个：

15.根据权利要求10所述的方法，其中，所述一个或多个预先确定的数据方案是由一个或多个表达式定义的，所述一个或多个表达式由分类服务使用，以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。