CN110506271A - 针对隐私敏感用户内容的可配置注释 - Google Patents

针对隐私敏感用户内容的可配置注释 Download PDF

Info

Publication number
CN110506271A
CN110506271A CN201880020423.6A CN201880020423A CN110506271A CN 110506271 A CN110506271 A CN 110506271A CN 201880020423 A CN201880020423 A CN 201880020423A CN 110506271 A CN110506271 A CN 110506271A
Authority
CN
China
Prior art keywords
content
user
threshold quantity
threshold
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880020423.6A
Other languages
English (en)
Other versions
CN110506271B (zh
Inventor
P·D·艾伦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Priority to CN202311312090.3A priority Critical patent/CN117195307A/zh
Publication of CN110506271A publication Critical patent/CN110506271A/zh
Application granted granted Critical
Publication of CN110506271B publication Critical patent/CN110506271B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • G06F21/6263Protecting personal data, e.g. for financial or medical purposes during internet communication, e.g. revealing personal data from cookies
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/70Protecting specific internal or peripheral components, in which the protection of a component leads to protection of the entire computer
    • G06F21/82Protecting input, output or interconnection devices
    • G06F21/84Protecting input, output or interconnection devices output devices, e.g. displays or monitors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Document Processing Apparatus (AREA)
  • User Interface Of Digital Computer (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Storage Device Security (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

在本文中提供了用于用户应用的数据隐私注释框架的系统、方法、和软件。示例性方法包括至少识别第一阈值数量,用于将所述第一阈值数量修改为第二阈值数量的弹性因子,以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示。所述方法包括监视对用户内容的内容编辑过程,以识别包含与一个或多个预先确定的数据方案相对应的敏感数据的用户内容的数量,并且在所述内容编辑过程期间,至少基于以下项来启用和禁用对所述内容元素的注释指示符的呈现:所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的指示。

Description

针对隐私敏感用户内容的可配置注释
背景技术
各种用户生产力应用允许数据输入以及对用户内容的分析。这些应用可以使用电子表格、演示、文本文档、混合媒体文档、消息传送格式、或其他用户内容格式来提供内容创建、编辑、和分析。在该用户内容中,各种文本、字母数字、或其他基于字符的信息可以包括用户或组织可能不希望被包含在已发布或分发的作品中的敏感数据。例如,电子表格可以包括社会保险号码(SSN)、信用卡信息、医疗健康标识符、或其他信息。尽管录入该数据或用户内容的用户可能有权限查看该敏感数据,但其他实体或分发端点可能不具有这样的权限。
信息保护和管理技术可以被称为数据丢失保护(DLP),其尝试避免对该敏感数据的误分派和误分配。在某些内容格式或内容类型(例如,包括在电子表格、基于幻灯片的演示、和图形图解应用中的那些)中,用户内容可以被包括在各种单元格、对象、或其他结构化或半结构化数据实体中。此外,敏感数据可以在多于一个数据实体之间被分割。当这样的文档包括敏感数据时,在尝试识别敏感数据和防止敏感数据丢失时可能会出现困难。
发明内容
在本文中提供了用于用户应用的数据隐私注释框架的系统、方法、和软件。示例性方法包括至少识别第一阈值数量,用于将所述第一阈值数量修改为第二阈值数量的弹性因子,以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示。所述方法包括监视对用户内容的内容编辑过程,以识别包含与一个或多个预先确定的数据方案相对应的敏感数据的用户内容的数量,并且在所述内容编辑过程期间,至少基于以下项来启用和禁用对所述内容元素的注释指示符的呈现:所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的指示。
提供了该发明内容以用简化的形式引入对以下的具体实施方式中进一步描述的概念的选择。应当理解的是,该发明内容不旨在标识所要求保护主题的关键特征或必要特征,也不旨在帮助确定所要求保护的主题的范围。
附图说明
可以参考以下附图更好地理解本公开的许多方面。尽管结合这些附图描述了几个实现,但是本公开不限于在本文中所公开的实现。相反,目的是要覆盖所有的替换、修改、和等同形式。
图1示出了示例中的数据丢失保护环境。
图2示出了示例中的数据丢失保护环境的元素。
图3示出了示例中的数据丢失保护环境的元素。
图4示出了示例中的数据丢失保护环境的操作。
图5示出了示例中的数据丢失保护环境的操作。
图6示出了示例中的数据丢失保护环境的操作。
图7示出了示例中的数据丢失保护环境的操作。
图8示出了示例中的数据丢失保护环境的数据阈值操作。
图9示出了适合于实现在本文中所公开的架构、过程、平台、服务、和操作场景中的任何一个的计算系统。
具体实施方式
用户生产力应用使用电子表格、幻灯片、矢量图形元素、文档、电子邮件、消息传送内容、数据库、或其他应用数据格式和类型来提供用户数据和内容创建、编辑、和分析。在用户内容中,可以包括各种文本、字母数字、或其他基于字符的信息。例如,电子表格可以包括社会保险号码(SSN)、信用卡信息、医疗健康标识符、护照号码、或其他信息。尽管录入该数据或用户内容的用户可能有权限查看敏感数据,但其他实体或分发端点可能不具有这样的权限。可以建立指示哪些类型的数据或用户内容性质上是敏感的各种隐私策略或数据隐私规则。可以包含在本文中所讨论的增强的数据丢失保护(DLP)措施以试图避免对该敏感数据的误分派和误分配。
在某些内容格式或内容类型(例如,包括在电子表格、基于幻灯片的演示、和图形图解应用中的那些)中,用户内容可以被包括在各种单元格、对象、或其他结构化或半结构化数据实体中。此外,敏感数据可以在多于一个数据元素或条目之间被分割。本文中的示例提供了对包括结构化数据元素的用户数据文件中的敏感数据的增强的识别。此外,本文中的示例提供了增强的用户界面,以向用户警告敏感数据。这些用户界面元素可以包括标记个体的包含敏感数据的数据元素,以及用于在编辑内容期间进行警报的阈值。
在使用结构化数据元素的一个示例应用(例如,电子表格应用)中,可以将数据录入到布置成列和行的单元格中。每个单元格可以包含用户数据或用户内容,并且还可以包括用于执行计算的一个或多个表达式,其可以引用一个或多个其他单元格中的用户录入的数据。诸如幻灯片放映演示应用之类的其他用户应用可以包括多于一个幻灯片上的用户内容以及在这些幻灯片上包括的对象内的用户内容。
有利地,本文的示例和实现提供了用于数据丢失保护服务的增强的操作和结构。这些增强的操作和结构具有更快识别文档并且尤其是结构化文档(例如,电子表格、演示、图形绘图等)内的敏感内容的技术效果。此外,多个应用可以共享单个分类服务,该分类服务提供跨许多不同应用和终端用户平台对用户数据文件中的敏感内容的检测和识别。终端用户级的注释和模糊过程也在应用的用户界面中提供显著的优势和技术效果。例如,可以向用户呈现对敏感内容的图形注释,以及呈现各种模糊或掩盖选项的弹出对话框。还可以建立各种增强的注释阈值以动态地向用户指示敏感内容,从而使得用户内容编辑和敏感数据模糊更高效并且符合各种数据丢失保护策略和规则。
作为用户应用的数据丢失保护环境的第一示例而提供了图1。图1示出了示例中的数据丢失保护环境100。环境100包括用户平台110和数据丢失保护平台120。图1的元素可以通过一个或多个物理或逻辑通信链路进行通信。在图1中,示出了链路160-161。然而,应当理解的是,这些链路仅仅是示例性的,并且可以包括一个或多个另外的链路,其可以包括无线、有线、光学、或逻辑部分。
数据丢失保护框架可以包括具体用户应用本地的部分,以及跨许多应用采用的共享的部分。用户平台110为用户提供了用于经由用户界面112来与用户应用111的元素交互的应用环境。在用户与应用111的交互期间,可以执行内容输入和内容操控。应用数据丢失保护(DLP)模块113可以在应用111内提供用于敏感数据注释和替换的功能的部分。在该示例中,应用DLP模块113是用户平台110本地的,但是可以替代地与应用111分离或者集成到应用111中。应用DLP模块113可以为用户和应用111提供敏感数据注释和替换。数据丢失保护平台120提供数据丢失保护框架的共享的部分,并且为许多应用提供共享的DLP服务121以便共享例如具有相关联的位置DLP部分193的应用190。
在操作中,应用111提供用户界面112,用户可以通过该用户界面112来与应用111交互,例如录入、编辑、以及以其他方式操控可以经由一个或多个数据文件加载或经由用户界面112录入的用户内容。在图1中,显示了电子表格工作簿,其中单元格布置成行和列。作为应用111的一部分,提供了数据丢失保护服务,其识别敏感用户内容并允许用户用安全的文本或数据来替换敏感用户内容。敏感内容包括可能具有隐私问题、隐私策略/规则、或者不期望传播或不想要传播的其他属性的内容。该上下文中的数据丢失是指将私有或敏感数据传播给未授权的用户或端点。
为了识别敏感内容,应用111向数据丢失保护服务提供用户内容到用户内容的片段或块中的分派。在图1中,示出了内容部分140,其中,个体的内容部分141-145随着时间被提供至DLP服务121。通常而言,应用111可以处理用户内容以在空闲时段期间(例如,当与应用111相关的一个或更多处理线程是空闲的或低于活动阈值时)将用户内容分派到所述部分中。如将在本文中讨论的,结构化用户内容在分派过程期间被转换成“平面化”或非结构化布置。这种非结构化布置对于由DLP服务121进行的处理具有若干优点。
接着,DLP服务121单独地处理用户内容的每个部分或“块”以确定所述部分是否包含敏感内容。可以将各种分类规则125(例如,数据方案、数据模式、或隐私策略/规则)引入DLP服务121以识别敏感数据。在DLP服务121解析了用户内容的每个个体的块之后,确定用户数据文件中的敏感数据的位置偏移,以指示给应用DLP服务113。应用DLP服务113中的映射器功能确定块偏移与文档的结构之间的结构性关系。可以向应用111提供位置偏移、敏感数据长度、和敏感数据类型的指示,如例如敏感数据指示150可见。由DLP服务121指示的位置偏移可能不会针对敏感内容产生在用户数据文件的结构性元素中的确切或具体位置。在这些实例中,应用111的应用DLP服务113可以采用映射过程来确定包含敏感数据的具体的结构性元素。
一旦确定了具体位置,则应用111就可以在用户界面112内注释敏感数据。该注释可以包括对敏感数据的全局或个体的标志或标记。所述注释可以包括在用户界面中呈现的“策略提示”。接着,可以向用户呈现一个或多个选项,所述选项用于模糊用户内容或以其他方式将内容渲染为不可识别为原本的敏感内容。可以建立关于敏感内容的通知的各种阈值,其基于在用户数据文件中存在的敏感数据的计数或数量来触发。
在一个示例中,用户数据文件114包括用户数据文件114的特定单元格中的内容115、116、和117,它们可以与电子表格工作簿的特定工作表或页面相关联。各种内容可以被包括在相关联的单元格中,并且该内容可以包括潜在敏感的数据,例如图1中可见的针对SSN、电话号码、和地址的示例。该内容中的一些内容可以跨越用户数据文件中的结构性边界,例如横跨多个单元格或横跨多个图形对象。如果“块”将数据分派到行或行分组中,则平面化的表示(即,剥离了任何结构性内容)仍然可以识别一个或多个单元格内的敏感数据。
用户平台110和DLP平台120中的每个的元素可以包括通信接口、网络接口、处理系统、计算机系统、微处理器、存储系统、存储介质、或一些其他处理设备或软件系统,并且可以分布在多个设备中或跨多个地理位置分布。用户平台110和DLP平台120中的每个的元素的示例可以包括诸如操作系统、应用、日志、接口、数据库、实用程序、驱动程序、网络化软件之类的软件,以及存储在计算机可读介质上的其他软件。用户平台110和DLP平台120中的每个的元素可以包括由分布式计算系统或云计算服务托管的一个或多个平台。用户平台110和DLP平台120中的每个的元素可以包括逻辑接口元素,例如软件定义的接口和应用编程接口(API)。
用户平台110的元素包括应用111、用户界面112、和应用DLP模块113。在该示例中,应用111包括电子表格应用。应当理解的是,用户应用111可以包括任何用户应用,例如生产力应用、通信应用、社交媒体应用、游戏应用、移动应用、或其他应用。用户界面112包括图形用户界面元素,其能够产生输出以向用户显示并且从用户接收输入。用户界面112可以包括针对用户接口系统908在下文图9中讨论的元素。应用DLP模块113包括一个或多个软件元素,它们被配置为分派内容以便传递至分类服务,注释被指示为敏感的数据,以及模糊敏感数据,此外还有其他操作。
DLP平台120的元素包括DLP服务121。DLP服务121包括应用编程接口(API)122形式的外部接口,但可以采用其他接口。DLP服务121还包括跟踪器123和分类服务124,它们将在下文更加详细地被讨论。API 122可以包括一个或多个用户接口,例如web接口、API、终端接口、控制台接口、命令行shell接口、可扩展标记语言(XML)接口等。跟踪器123保留在结构化用户内容的平面化部分内针对特定文档找到的敏感数据的计数或数量,并且还保留结构化用户内容的平面化部分内的、与结构化用户内容内的敏感数据的位置相对应的位置偏移的记录。跟踪器123还可以执行阈值分析以确定阈值数量的敏感数据何时被找到并且应当由应用DLP模块113来注释。然而,在其他示例中,DLP服务121的阈值/计数部分可以被包括在DLP模块113中。分类服务124解析平面化的用户内容以确定敏感数据的存在,并且可以采用定义用于识别敏感数据的规则和策略的各种输入。应用DLP模块113和共享的DLP服务121的元素可以被配置在图1所示的不同布置或分布中,例如当共享的DLP服务121的部分被包括在应用DLP模块113或应用111中时,此外还有其他配置。在一个示例中,共享的DLP服务121的部分包括动态链接库(DLL),其被包括在用户平台110上以供应用111和应用DLP模块113使用。
为清楚起见,链路160-161连同图1的元素中没有示出的其他链路中的每个链路可以包括一个或多个通信链路,例如包括无线或有线网络链路的一个或多个网络链路。所述链路可以包括各种逻辑接口、物理接口、或应用编程接口。示例通信链路可以使用金属、玻璃、光学、空气、空间或一些其他材料作为传输介质。链路可以使用各种通信协议,例如互联网协议(IP)、以太网、混合光纤同轴电缆(HFC)、同步光纤网络(SONET)、异步传输模式(ATM)、时分复用(TDM)、电路交换、通信信令、无线通信、或一些其他通信格式,包括其组合、改进、或变型。所述链路可以是直接链路或者可以包括中间网络、系统、或设备,并且可以包括通过多个物理链路传输的逻辑网络链路。
为了进一步讨论环境100的元素和操作,呈现了图2。图2是示出了应用DLP模块113的示例配置200的框图,其突出显示了应用DLP模块113等的示例操作。在图2中,应用DLP模块113包括内容分派器(apportioner)211、注释器212、映射器213、和模糊器214。元素211-214中的每个可以包括由应用DLP模块113采用以如下所述地操作的软件模块。
在操作中,用户内容被提供至应用DLP模块113,例如电子表格文件或工作簿,如在图1中针对用户数据文件114可见。该用户数据文件可以被组织成结构化或半结构化格式,例如,针对电子表格示例是按行和列组织的单元格。可以替代地采用其他数据格式,例如具有页面/幻灯片和许多个体图形对象的幻灯片放映演示,在各种页面上具有各种对象的矢量绘图程序,具有各种对象(表格、文本框、图片)的文字处理文档,数据库,网页内容、或包括其组合在内其他格式。用户数据文件可以包含敏感内容或敏感数据。该敏感数据可以包括适合一个或多个模式或数据方案的任何用户内容。敏感数据类型的示例包括社会保险号码、信用卡号码、护照号码、地址、电话号码、或其他信息。
与对用户数据文件的编辑或查看并行地,内容分派器211将用户内容细分为一个或多个部分或“块”,其是来自原本/原生的结构化或层级形式的平面化形式。接着,内容分派器211可以将这些内容块以及针对每个块的块元数据提供至共享的DLP服务121。块元数据可以指示各种块属性,例如块在总内容中的位置偏移和块的长度。位置偏移对应于块相对于整个用户文档/文件的位置,并且块长度对应于块的大小。
共享的DLP服务121单独地解析内容块以识别块的平面化用户内容中的敏感数据,并且将对敏感数据的指示提供回应用DLP模块113。在下文所讨论的一些示例中,在向应用DLP模块113提供指示之前,将各种阈值应用至敏感数据的计数或数量。所述指示包括针对所述块中包含敏感数据的每个块的偏移,块的长度,以及可选地包括与敏感数据相关联的数据类型或数据方案的指示符。敏感数据指示可以用于确定用户数据文件的结构化数据中的敏感内容的实际或具体位置。对数据类型的指示符可以是以符号或数字编码的指示符,例如整数值,其指向映射器213可以使用以识别用于注释的数据类型的指示符列表。
映射器213可以用于将偏移和长度转换成文档或用户文件内的具体位置。偏移和长度对应于由映射器213保留并且与会话标识符相关联地存储的具体块身份。会话标识符可以是唯一标识符,其至少与用户打开或查看文档的会话持续一样久。可以向映射器213提供来自内容分派器211的块元数据,以形成块偏移、长度、和会话标识符之间的映射关系。响应于接收到对敏感数据的指示,映射器213可以采用映射关系来识别针对敏感数据指示以在文档内对应于块偏移和长度的粗略位置。由于块可以包含用户数据文件的多于一个结构性或层级性元素,因此映射器213可以执行另外的定位过程以在用户数据文件中找到敏感数据的具体位置。
例如,偏移可以指示粗略位置,例如在电子表格中的特定行或特定列。为了确定具体位置(例如,在所指示的行或列内的单元格内),映射器213可以使用偏移/长度连同结构化数据的本地知识和用户数据文件本身来定位结构化数据中的敏感内容。映射器213确定块是从用户数据文件中的何处提供的,例如针对电子表格示例的相关联的行、列、工作表,以及针对幻灯片放映示例的相关联的幻灯片/页面和对象。其他示例(例如,文字处理示例)可能没有太多结构,并且内容更容易被平面化,并且偏移可以是基于文档词语计数或类似定位的。
在一些示例中,通过在特定粗略位置中针对敏感内容进行搜索来确定具体位置。当特定偏移涉及多个结构性元素或层级性元素时,映射器213可以迭代地搜索或遍历所述元素中的每个元素以定位敏感数据。例如,如果在文档中存在“n”个等级的结构/层级,则映射器213可以首先导航上层级,并且接着导航下层级。在电子表格示例中,层级/结构可以包括具有相关联的行和列的工作表。在演示文档示例中,层级/结构可以包括具有相关联的形状/对象的幻灯片/页面。可以逐步通过由偏移指示的每个工作表和幻灯片以找到包含敏感内容的确切单元格或对象。在另外的示例中,可以通过以下动作来完成对敏感数据的定位:重新创建与粗略位置相关联的一个或多个块以及在那些重新创建的块内找到敏感数据从而找到敏感数据的具体位置。
一旦确定了敏感数据的具体位置,则可以采用注释器212来向用户标记或以其他方式标注敏感数据。该注释可以采用全局标志或横幅(banner)的形式,其向用户指示该用户数据文件中存在敏感内容。该注释可以采用个体标志的形式,其指示接近敏感数据的标记。在一个示例中,图2示出了具有电子表格用户界面视图的配置201,该电子表格用户界面具有当前打开以供查看或编辑的工作簿。示出了横幅注释220以及个体的单元格注释221。个体的单元格注释221包括注释用户内容的一个或多个部分的图形指示,并且包括位于在用户界面112中可选择以呈现模糊选项的一个或多个部分附近的指示符。
当选择了特定注释时,可以向用户呈现一个或多个选项。可以呈现弹出菜单202,其包括各种查看/编辑选项,例如剪切、复制、粘贴等。弹出菜单202还可以包括模糊选项。对所述模糊选项中的一个的选择可以产生保留相关联的用户内容的数据方案的经模糊的内容,并且包括这样的符号,所述符号被选择以在保留相关联的用户内容的数据方案的同时防止识别相关联的用户内容。在一些示例中,部分地基于相关联的用户内容的数据方案等来选择所述符号。例如,如果数据方案包括数字数据方案,则字母可以用作模糊符号。同样,如果数据方案包括字母数据方案,则可以使用数字作为模糊符号。可以选择字母和数字的组合或其他符号作为字母数字内容示例中的模糊符号。
在图2中,第一模糊选项包括用掩盖的或以其他方式模糊的文本来替换敏感内容,而第二模糊选项包括用与当前选择的注释的内容类似的模式或数据方案来替换所有内容。例如,如果某个单元格中包含SSN,则可以向用户呈现这样的选项:用“X”字符替换SSN中的数字,同时保留SSN的数据方案完整,即留下由短划线字符分隔的熟悉的“3-2-4”字符布置。此外,另外的模糊选项可以包括用于用“X”字符替换适合所选SSN的模式的所有SSN的选项。应当理解的是,可以呈现不同的示例模糊选项,并且可以在替换过程中使用不同的字符。然而,无论采用什么模糊字符,敏感数据都将被匿名化渲染、净化、“清理”、或无法被识别为原始内容。
现在转到图3,示出了示例配置300以关注DLP服务121的各方面。在图3中,DLP服务121接收由内容分派器211在一个或多个内容块中提供的平面化的用户内容的部分,连同至少包括对块的总内容的偏移和块的长度的块元数据。在图3中示出了两种示例类型的结构化用户内容,即电子表格内容301和幻灯片放映/演示内容302。电子表格内容301具有反映定义个体单元格的行321和列322的结构。此外,电子表格内容301可以具有多于一个工作表320,其由工作表下方的选项卡限定,并且每个工作表可以具有单独一组行/列。每个单元格可以具有用户内容,例如字符、字母数字内容、文本内容、数字内容、或其他内容。幻灯片放映内容302可以具有包括多个对象324的一个或多个幻灯片或页面323。每个对象可以具有用户内容,例如字符、字母数字内容、文本内容、数字内容、或其他内容。
内容分派器211将用户内容细分成片段并移除任何相关联的结构,例如通过从单元格或对象中提取任何用户内容(例如,文本或字母数字内容),并且接着将所提取的内容布置成平面化或线性块以用于传递至DLP服务121。这些块和块元数据被提供至DLP服务121以用于发现潜在的敏感数据。
一旦DLP服务121接收到用户内容的个体的块,则由分类服务124对块执行各种处理。而且,跟踪器123保留数据记录332,所述数据记录332包括将偏移/长度和会话标识符与找到的敏感数据的计数关联的一个或多个数据结构。为该DLP服务121存储数据记录332,以将包含敏感数据的块的偏移/长度提供回进行请求的应用,从而进一步定位和注释在其中找到的任何敏感内容。
分类服务124针对各种分类规则331来解析所述块中的每个块以识别敏感数据或敏感内容。分类规则331可以建立由一个或多个表达式定义的一个或多个预先确定的数据方案,所述一个或多个表达式用于解析平面化的块/数据表示以将所述块的部分识别为指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型。
通常基于与敏感内容相关联的数据结构模式或数据“方案”来识别敏感内容。这些模式或方案可以识别块的确切内容何时可能不同,但所述数据可能适合反映敏感数据类型的模式或布置。例如,SSN可以具有某一数据布置,该数据布置具有由预先确定的数量的短划线混合并且分隔的预先确定数量的数字。分类规则331可以包括在识别敏感数据时使用的各种定义和策略。这些分类规则可以包括隐私策略、数据模式、数据方案、和阈值策略。隐私策略可以指示,由于公司、组织、或用户策略等考虑,某些潜在敏感数据可能不会被指示为对应用敏感。在向应用报告敏感数据的存在之前,阈值策略可以建立用于在各个块中找到敏感数据的最小阈值。分类规则331可以由用户或由策略制定者(例如,管理员)来建立。
另外地,分类服务124可以通过由正则表达式(regex)服务333处理的一个或多个正则表达式来处理数据内容。Regex服务333可以包括正则表达式匹配和处理服务,以及用户或者策略制定者可以部署以用于识别敏感数据的各种正则表达式。下面在图7中讨论了regex服务333的另外的示例。
作为具体示例,分类过程341示出了几个内容块C1-C8,它们是最初在文档或用户数据文件中的结构性或层级性布置中的内容的线性化版本。分类服务124处理这些块以识别所述块中包括敏感数据的块。如果找到任何敏感数据,则可以向应用提供指示。所述指示可以包括敏感数据的偏移和长度,并且被提供给映射器213以在用户数据文件的结构内定位敏感数据。在处理每个块以进行敏感数据识别之后,分类服务124可以丢弃所述块本身。由于偏移和长度允许在原始数据文件内找到敏感数据,并且原始内容保留在数据文件中(除非已经发生干预编辑),因此实际的块不需要一被处理就被保存。
为了形成所述块,内容分派器211将字母数字内容(例如,文本)捆绑到一个或多个线性数据结构中,例如,字符串或BSTR(基本字符串或二进制字符串)。分类服务124处理线性数据结构并且确定结果列表。针对敏感数据来对所述块进行检查,并且线性数据结构的部分可以被确定为具有敏感内容。分类服务124结合跟踪器123确定与线性数据结构中包含敏感数据的块相对应的偏移/长度。这些偏移可以指示粗略位置,所述粗略位置可以被转换回包含用户内容的原始文档(例如,用户数据文件)中的具体位置。当接收到块时,跟踪器123可以将每个块与在块元数据中指示的偏移/长度信息相关联。该偏移/长度信息可以用于通过映射器213反向映射至原始文档的结构或层级。
然而,DLP服务121通常仅具有回到原始文档或用户数据文件的部分上下文,例如由到原本生成的线性数据结构中的偏移所指示。此外,线性数据结构和用户内容本身可以在分类过程结束时由分类服务124释放/删除。这可以意味着分类服务124可能不能够直接搜索敏感内容以具体地在原始文档内定位敏感内容,并且即使分类服务124可以搜索精确的敏感内容,分类服务124也可能无法找到敏感内容,这是因为“分块”算法可以跨越原始文档或数据文件中的层级结构或构造的边界。作为具体示例,电子表格文档中的工作表320可以具有横跨四个相邻单元格的文本“SSN 12345 6789”。有利地,分类服务124可以发现该文本为包括敏感内容。然而,由于分类服务124进行的边界交叉分析,在策略规则评估结束时,分类服务124通常不具有足够的数据来找到原始文档中的敏感内容以呈现给用户。用户可能会留下不存在敏感内容的错误印象。
为了高效地针对敏感内容来扫描用户内容,分类服务124在应用空闲期间成块地读取用户内容,进行部分分析,并且继续该过程。当分类服务124完成读取所有内容时,分类服务124仅具有原始内容中的敏感内容的粗略位置,例如仅开始/偏移和长度。为了高效地映射回结构化或半结构化文档,映射器213可以采用所述技术的组合。应当注意的是,这些技术与拼写检查或语法检查的工作方式不同,部分原因在于可能需要总内容而不仅仅是词语/句子/段落以便了解内容是否超过阈值。
针对原始文档中存在的每个级别的物理层级或结构(即,工作簿中的工作表,或者演示中的幻灯片),映射器213使用标识符来指示在映射数据结构中的存在,并且还以合理数量的层级等级(即工作表中的行,幻灯片中的形状)进一步将内容细分,以使得当每个内容被处理时,映射器213跟踪原始内容的长度,并且基于插入到映射中的顺序,跟踪该元素的隐含开始。标识符可以是在特定文档的打开实例之间持久存在的持久性标识符,或者可以在特定文档的每个实例中是不同的。在一些示例中,保留用于合并敏感内容的存在/不存在的计算,直到没有剩余的未经处理的内容也没有将进一步改变内容的任何未决的编辑为止。
假设存在敏感内容,映射器213从DLP服务121接收每条敏感内容的开始和长度,并且映射器213在最精确映射区域内的敏感内容的标识符和插入内容的映射数据结构中进行查找以找到确切的位置。出于性能的原因,可以仅跟踪某一数量的等级的层级,这使得可能无法单独地跟踪幻灯片内部形状内的表格或工作表内部的行内的单元格。因此,可以在进行反向映射之后执行部分重新遍历以便找到精确的位置。
在具体示例中,工作簿可以具有20个工作表,但具有数百万行,并且所述数百万行中的每一行可以具有50列用户数据。对于此中相对较少数量的敏感数据(即,一个工作表中只有一列具有敏感数据),分类过程可能由于具有20*100万*50记忆的“长度+偏移”条数据而变得非常耗费存储器。移除最后一个维度可节省50倍的存储器,因为在原始文档中实际识别敏感数据时的计算成本很低。有利地,可以保持小的存储器占用空间以将开始/长度反向映射回原始内容。
为了进一步说明图1-3中的元素的操作,在图4中呈现了流程图。在图4中呈现了两个主要流程,即用于识别敏感数据的第一流程400,以及用于敏感数据注释和模糊的第二流程401。第一流程400可以馈送到第二流程401中,但其他配置也是可能的。
在图4中,DLP服务121接收(410)合并到关联的平面化表示中的结构化用户内容的子集,每个相关联的平面化表示具有到结构化用户内容的对应子集的映射。如在上文中提及的,结构化内容可以包括组织成表/行/列的电子表格内容,或者可以替代地包括其他结构,例如组织成幻灯片/对象的幻灯片放映内容,组织成页面/对象的绘制程序内容,或组织成页面的文本内容等。结构化用户内容的这些子集可以包括图1中所示的“块”141-146或图3中的块C1-C8等。底层用户内容的结构在这些子集中被平面化或移除以形成块,并且每个子集可以通过引用结构性标识符或定位器(例如,表/行/列或幻灯片/对象)而映射回原始结构。
DLP服务121接收这些块和块元数据,例如,通过图1中的链路160或API 122,并且个体地解析(411)平面化表示以将部分分类为包括与一个或多个预先确定的数据方案相对应的敏感内容。分类规则125可以建立由一个或多个表达式定义的一个或多个预先确定的数据方案,所述表达式用于解析平面化的块/数据表示以将块的部分识别为指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型。
如果找到敏感数据(412),则针对所述部分中的每个部分,DLP服务121确定(413)与被指示为保留在数据记录332中的跟踪器123中的结构化用户内容相关的相关联的偏移/长度。DLP服务121接着至少向用户应用111指示(414)所述部分的相关联的偏移/长度,以用于向用户应用111标记用户界面112中的敏感内容。如果没有找到敏感数据,或者如果不满足任何相关联的阈值,则对块的进一步处理可以继续或随着用户应用111的提供进一步监视另外的块。此外,对用户内容进行编辑或改变可以针对任何经改变或编辑的用户内容来提示另外或重复的分类过程。
应用DLP模块113从DLP服务121的分类服务接收(415)对用户内容中包含敏感内容的一个或多个部分的指示,其中,所述指示包括与敏感内容相关联的偏移/长度。应用DLP模块113在用户应用111的用户界面112中呈现(416)图形指示,所述图形指示将用户内容的所述一个或多个部分注释为包含敏感内容。接着,应用DLP模块113可以在用户界面112中呈现(417)模糊选项,以用于在用户内容的一个或多个部分中掩盖至少选定部分内的敏感内容。响应于用户对模糊选项中的至少一个的选择,应用DLP模块113用保留相关联的用户内容的数据方案的经模糊的内容来替换(418)相关联的用户内容。
图5示出了序列图500以进一步示出图1-3的元素的操作。此外,图5包括针对图5中的处理步骤中的一些的详细示例结构510。在图5中,应用111可以打开文档以供用户查看或编辑。该文档可以由应用DLP模块113检测。可以将任何相关联的策略或分类规则推送至DLP服务121以定义任何分类策略。接着,DLP服务121可以在记录332中保留打开文档的处理实例,其可以包括几个打开文档的列表。当DLP模块113检测到应用111的空闲处理时间帧时,可以向DLP服务121呈现空闲指示符,DLP服务121响应性地请求用户内容的块以进行分类。可替代地,DLP模块113可以在应用111的空闲时段期间将用户内容块推送至DLP服务121。DLP模块113将用户内容分派到块中,并且可以基于包括在文档的结构或层级对象中的文本或其他内容来确定这些块。一旦确定了所述块,DLP模块113就将块传送至DLP服务121以进行分类。DLP服务121个体地对每个块进行分类,并且将分类规则应用于所述块以识别所述块中的潜在敏感的用户内容。该分类过程可以是迭代过程,以确保已经处理了由DLP模块113传送的所有块。如果在块之间找到敏感数据或内容,则DLP服务121向DLP模块113指示敏感数据的存在以用于进一步处置。如在本文中提及的,敏感数据可以由偏移、粗略位置、或其他位置信息以及长度信息来指示。接着,DLP模块113可以对文档中的敏感数据执行一个或多个注释过程和模糊过程。
例如可以由用户、管理员、策略人员、或其他实体在分类过程之前建立分类规则。如在结构510中所见,各种规则511和512可以是基于一个或多个断言(predicate)的。断言在图5中以两个类别示出,内容相关断言511和访问相关断言512。内容相关断言511可以包括指示敏感数据的数据方案,例如数据模式、数据结构信息、或定义数据方案的正则表达式。访问相关断言512包括用户级规则、组织级规则、或其他基于访问的规则,例如内容共享规则,其定义何时不希望敏感数据被特定用户、组织、或其他因素传播或释放。
可以建立策略规则513,其将内容相关断言和访问相关断言中的一个或多个组合到策略551-554中。每个策略规则还具有优先级和相关联的动作。通常而言,优先级与动作的严重性相匹配。例如,策略规则可以定义要阻止应用的“保存”特征。在另一示例策略规则中,用户内容可以包含根据内容相关断言定义的SSN,但是根据访问相关断言,这些SSN可以是用于传播可接受的。大多数策略规则在断言511-512中包含至少一个分类断言。这些策略可以影响一个或多个动作514。所述动作可以包括应用可以响应于识别或敏感内容而采取的各种注释操作,例如对用户的通知,通知但允许用户覆盖,阻止特征/功能(即“保存”或“复制”特征),以及合理的覆盖等。
图6示出了流程图600,以进一步图示图1-3的元素的操作。图6关注于敏感数据识别、注释、和模糊过程的一个示例整体过程。子过程601包括策略和规则建立、存储、和获取。这些策略和规则可以是注释规则、分类规则、正则表达式、组织/用户策略、此外还有在本文中所讨论的其他信息。在图6的操作611中,可以经由用户接口或API引入各种检测规则630和替换规则631,以用于配置检测策略。检测规则630和替换规则631可以包括如在图5中找到的各种断言和规则等。用户、管理员、策略人员、或其他实体可以例如通过针对用户、组织、或应用使用以及其他实体和活动建立策略,来引入检测规则630和替换规则631。在操作612中,检测规则630和替换规则631可以被存储在一个或多个存储系统上以供以后使用。当一个或多个客户端希望使用由检测规则630和替换规则631建立的策略时,可以在操作613中下载或获取这些策略。例如,注释规则可以由应用下载以用于注释用户界面中的敏感内容,而分类规则可以由共享的DLP服务下载,以用于将用户内容分类为敏感内容。
子过程602包括客户端侧应用活动,例如加载文档以用于在用户界面中编辑或查看,以及提供这些文档的块以用于分类。在操作614中,客户端应用可以提供一个或多个终端用户体验以处理用户内容,编辑用户内容,或查看用户内容,此外还有其他操作。操作614还可以提供稍后讨论的注释和模糊过程。操作615将该用户内容的部分提供至共享的DLP服务以用于对用户内容进行分类。在一些示例中,所述部分包括被从原始文档剥离的相关联的结构或层级的用户内容的平面化块。
子过程603包括对用户内容的分类以检测用户内容中的敏感数据,以及向用户注释该敏感数据。在操作616中,应用各种检测规则,例如下文在图7中所讨论的正则表达式,此外还有其他检测规则和过程。如果找到敏感数据,则操作617确定是否应该通知用户。如果敏感数据的数量低于警报阈值数量,则可能不会发生通知。然而,如果用户要被警告,则操作619可以计算结构化数据的检测的区域内的敏感数据的位置。如在本文中所讨论的,可以采用映射过程以根据敏感数据串或部分的平面化数据偏移和长度来确定结构化元素或层级性元素内的敏感数据的具体位置。一旦确定了这些具体位置,则操作618可以向用户显示所述位置。采用注释或其他突出显示用户界面元素来向用户发信号通知用户内容中存在敏感数据。
子过程604包括对包括结构化或层级性元素的用户内容内的敏感数据进行模糊。在操作621中,可以接收用户输入以用“安全”或经模糊的数据/文本来替换敏感数据的至少一个实例。当向用户被示出以展示使得注释或“策略提示”出现的敏感数据片段的突出显示的区域时,可以向用户呈现用模糊敏感数据的“安全文本”来替换敏感数据的选项。取决于在操作611中最初设置策略的实体做出的选择,操作622和624确定并生成一个或多个替换或模糊规则。所述模糊规则可以用于用营销许可名称来替换内部代码名称,用于用样板名称来模糊个人可识别信息(PII),可用于用向文档的未来观看者指示敏感数据类型(即,信用卡号,社会保险号,车辆识别号等)而不泄露实际的敏感数据的一组字符来替换数字敏感数据。操作623用经模糊的数据来替换敏感数据。经模糊的数据可用于用一组字符来替换数字敏感数据,所述字符可用于确认数据方案或内容类型,但即使由确定的个体仍然不足以导出原始数据(即,确定内容片段是SSN但不揭露实际的SSN)。用户可以使用经模糊的文本来执行个体或单个实例的敏感内容替换,或者从示出了多个敏感内容实例的用户界面进行批量替换。
可以用正则表达式或者可替代地经由非确定性有限自动机(NFA)、确定性有限自动机(DFA)、下推自动机(PDA)、图灵机、任意功能代码、或其他过程来完成对敏感内容(例如,文本或字母数字内容)的替换。对敏感内容的替换通常包括文本或内容中的模式匹配。通过考虑目标模式是否能够在字符串中的指定位置存在多个字符,该模式匹配可以留下未掩盖的字符或内容,并且所述字符不需要被掩盖,例如,针对分隔符字符。例如,字符串“123-12-1234”可以变为“xxx-xx-xxxx”,并且字符串“123 121234”在掩盖过程之后可以变为“xxx xx xxxx”。该模式匹配还可以出于唯一性目的而保持某些部分可辨识,例如使用信用卡号或SSN的最后的预先确定数量的数字。例如,在掩盖过程之后,“1234-1234-1234-1234”可以变成“xxxx-xxxx-xxxx-1234”。对于代码名称掩盖/替换,并非所有方面都是模式,并且可以实际上是内部代码名称或其他关键字。例如,代码名称“Whistler”可以在掩盖过程后变成“Windows XP”。此外,可以允许用安全文本替换不同数量的字符的模式以保持长度一致或者将长度设置为已知常数。例如,相同的规则可以在掩盖过程之后将“1234-1234-1234-1234”变成“xxxx-xxxx-xxxx-1234”和“xxxxx-xxxxx-xl234”。这可能需要包含足够数据的模式来处置这些情况中的任何情况。正则表达式可以通过用括号括起每个原子匹配表达式来扩充正则表达式并且跟踪哪些经扩充的“匹配”语句与哪个“替换”语句配对来处置这样的场景。正则表达式匹配的另外的示例在以下的图7中可见。
为了在多于一个文档/文件中保持注释和分类过程的完整性,可以建立各种过程。检测/分类、注释、和模糊规则和策略通常不被包括在文档文件中。这允许改变策略以及防止对模糊技术的逆向工程。例如,如果用户保存文档,接着关闭并加载同一文档,则针对文档的哪些部分包含考虑敏感数据存在策略问题所必需的敏感数据的规则可能已经改变。另外,注释标志不应被包括在剪贴板操作中,例如剪切、复制、或粘贴。如果用户要从一个文档复制内容并粘贴到另一个文档中,则该第二文档可以应用不同的检测/分类、注释、和模糊规则。如果用户要从第一文档中复制文本内容并粘贴到第二文档中,则在重新分类之前,应将第一文档注释视为是不相关的。即使用户要从一个文档中复制内容到同一文档中,敏感内容的任何计数也可能会变化,并且在整个文档中需要突出显示的内容可能会改变。
图7示出了流程图700以进一步图示图1-3的元素的操作。图7关注于敏感数据模糊过程中的正则表达式操作。在图7中,已知一正则表达式(regex),例如虚构的驱动程序的许可证示例正则表达式730,以及与其匹配的字符串,可以通过以下方式来生成完全匹配:至少通过用括号(例如,每个原子)括起每个可分隔的字符匹配表达式来扩充正则表达式,如在操作711中所指示的。接着,可以在操作712中重新应用或执行经扩充的正则表达式来执行模糊或掩盖处理。针对每个匹配,操作713-714确定实际上匹配的最宽和最窄的字符集。例如,当匹配的字符是“-”时,字符较窄,因为其是单个字符。当匹配的字符是全字母字符的集合时,其较宽泛。可以在任何区域中的绝对字符计数是关键的决定因素。操作715中的模糊可以根据匹配宽泛度来替换字符。针对作为单个字符相匹配的字符,模糊过程可以不进行改变。针对那些在宽泛群组中相匹配的字符,模糊过程用不是该集合成员的“安全”字符来替换所述字符。例如,全字母的集合变为“0”,全数字的集合变为“X”,并且混合的字母数字内容变为“?”,其中,使用字符后退列表直到用尽为止。一旦文本或内容已经通过模糊或掩盖过程,操作716就确认当新文本/内容字符串不再与原始regex匹配时文本或内容已被成功地渲染为已模糊。
图8示出了图表800以进一步图示图1-3的元素的操作。图8关注于在用户界面中对敏感数据注释时使用的增强的阈值过程。图8的操作可以包括用于注释敏感数据的增强的滞后操作,并且可以由策略管理员或用户以及其他实体来建立各种阈值或注释规则。
图8包括图表800,其包括指示文档中存在的敏感数据/内容项的数量的竖直轴,以及指示时间的水平轴。建立第一阈值820,其可以发起对用户界面中敏感内容的注释的呈现或移除。可以建立第二阈值822,其还可以发起对敏感内容的注释的呈现或移除。可以建立弹性(elasticity)因子821和回弹(resiliency)属性823以修改第一和第二阈值的行为。
当在用户界面中注释敏感数据时,例如通过标志、标记、或突出显示,用户可以编辑敏感内容以修复敏感内容问题(例如,通过选择一个或多个模糊选项)。然而,一旦解决了阈值数量的敏感内容问题,可能没有足够的剩余问题实例来保证文档的注释总体上违反针对组织或保存位置的敏感内容规则。同样,当将新的敏感内容被引入文档中时,可以有足够的实例来保证文档的注释向用户指示敏感内容。
在用户的内容编辑过程期间,针对一个或多个内容元素启用和禁用注释指示符可以是至少部分地基于关于注释规则的内容元素的当前数量的。注释规则可以包括至少第一阈值数量820,用于在启用时将第一阈值数量820修改为第二阈值数量822的弹性因子821,以及指示第二阈值数量822何时覆盖第一阈值数量820的阈值回弹或“粘性”属性823的指示。诸如注释器212之类的注释服务可以确定或识别注释规则,例如在图5中讨论的策略规则513和动作514,其针对与内容编辑相关联的目标实体而被建立。所述目标实体可以包括执行内容编辑的用户,包括执行内容编辑的用户的组织,或者用户应用的应用类型等。在用户编辑包含敏感内容或者潜在地包含敏感内容的文档期间,注释器212监视相关联的用户数据文件中的用户内容,其在用户应用的用户界面中呈现以进行内容编辑。注释器212识别用户内容中包含与在本文中所讨论的一个或多个预先确定的数据方案相对应的敏感内容的内容元素的数量。所述内容元素可以包括单元格、对象、形状、词语或其他数据结构或数据层级性元素。
在编辑期间,并且至少基于内容元素的数量超过第一阈值数量,注释器212在用户界面中发起对至少一个注释指示符的呈现,所述注释指示符将用户界面中的用户内容标记为至少包含第一敏感内容。在图8(从“关闭”状态中的注释开始)中,第一阈值820将转换点830处的示例数量“8”指示为触发在用户界面中对注释指示符的呈现。具有敏感内容的内容元素的数量可以增加,例如通过用户编辑,并且接着在用户看到存在敏感内容并且开始选择模糊选项以掩盖该敏感内容之后可能减少。
至少基于内容元素的数量最初超过第一阈值数量820并且在弹性因子821被应用于第一阈值数量820时随后下降到低于第一阈值数量820,注释器212至少基于该弹性因子建立第二阈值数量822。当第二阈值数量822活跃时(即,当弹性因子821被应用于第一阈值数量820时),则第二阈值数量822用于当所述数量低于第二阈值数量822时开始对至少一个注释指示符的呈现的移除,如转换点832中可见的。然而,至少基于内容元素的数量最初超过第一阈值数量820并且在弹性因子没有被应用于第一阈值数量820时随后下降到低于第一阈值数量820,移除对至少一个注释指示符的呈现,如由转换点831所指示的。
弹性因子821可以包括0-100%的百分比,或另一度量。在具体示例中,可以建立注释规则,其定义在文档中包含超过100个SSN违反公司策略。在对超过100个SSN的文档的编辑期间,针对第一阈值数量的注释规则可以提示突出显示文档中的所有SSN。当用户开始模糊所述SSN时,剩余的未模糊的SSN的数量将减少。即使不再满足触发注释的第一阈值数量820,例如当99个SSN保持未模糊时,弹性因子也可以保持对SSN的注释或突出显示。弹性因子100将对应于未经修改的第一阈值数量,并且弹性因子0将对应于在所有SSN被模糊之前不移除所述注释。弹性因子的中间值50将对应于一旦在注释最初触发以被呈现后第50个条目被修复则移除所述注释。因此,在图8的示例中,一旦注释已经被呈现给用户,弹性因子就建立了用于移除注释的第二阈值数量。在该示例中,第二阈值数量822处于“2”处,并且因此当剩余的敏感内容问题低于剩余“2”时,将移除所述注释,如由转换点832所指示的。
如果第二阈值数量822已经下降,并且接着在内容编辑期间出现另外的敏感内容问题,则注释器212必须决定何时通过再次呈现注释来警告用户。至少基于内容元素的数量最初低于第二阈值数量822并且在阈值回弹属性823被应用于第二阈值数量822时随后超过第二阈值数量822,注释器212在用户界面中发起对另外的注释的呈现,其将用户界面中的用户内容标记为包含敏感内容,如由转换点833所指示的。
回弹属性823包括第二阈值数量822的“粘性”属性,并且是由开/关或布尔条件定义的。当被禁用时,第二阈值数量822不被用于在超过的情况下重新呈现注释。当被启用时,第二阈值数量822被用于在超过的情况下重新呈现注释。因此,至少基于内容元素的数量最初低于第二阈值数量822并且在回弹属性没有被应用于第二阈值数量822时随后超过第二阈值数量822,注释器212拒绝对注释的呈现,其在用户界面中将用户内容标记为至少包含敏感内容直到内容元素的数量再次超过第一阈值数量820为止。
现在转到图9,呈现了计算系统901。计算系统901代表在本文中所公开的各种操作架构、场景、和过程可以在其中实现的任何系统或系统集合。例如,计算系统901可用于实现图1的用户平台110或DLP平台120中的任何一个。计算系统901的示例包括但不限于服务器计算机、云计算系统、分布式计算系统、软件定义的网络化系统、计算机、台式计算机、混合计算机、机架式服务器、web服务器、云计算平台、和数据中心设备,以及任何其他类型的物理或虚拟服务器机器,以及其他计算系统和设备,以及它们的任何变型或组合。当计算系统901的部分在用户设备上被实现时,示例设备包括智能电话、膝上型计算机、平板计算机、台式计算机、游戏系统、娱乐系统等。
计算系统901可以被实现为单个装置、系统、或设备,或者可以以分布式方式被实现为多个装置、系统、或设备。计算系统901包括但不限于处理系统902、存储系统903、软件905、通信接口系统907、和用户接口系统908。处理系统902可操作地与存储系统903、通信接口系统907、和用户接口系统908相耦合。
处理系统902从存储系统903加载并执行软件905。软件905包括应用DLP环境906和/或共享的DLP环境909,其代表关于前面的附图所讨论的过程。当由处理系统902执行以处理用户内容以用于对敏感内容的识别、注释、和模糊时,软件905指示处理系统902如在本文中至少针对在前述实现中讨论的各种过程、操作场景、和环境所描述的那样进行操作。计算系统901可以可选地包括为简洁起见没有讨论的另外的设备、特征、或功能。
仍然参考图9,处理系统902可以包括微处理器以及从存储系统903取回软件905并执行软件905的其他电路。处理系统902可以在单个处理设备内实现,但是也可以跨在执行程序指令时协作的多个处理设备或子系统而分布。处理系统902的示例包括通用中央处理单元、专用处理器、和逻辑器件,以及任何其他类型的处理设备、其组合或变型。
存储系统903可以包括能够由处理系统902读取并且能够存储软件905的任何计算机可读存储介质。存储系统903可以包括以任何用于存储信息(例如,计算机可读指令、数据结构、程序模块、或其他数据)的方法或技术实现的易失性和非易失性、可移动和不可移动介质。存储介质的示例包括随机存取存储器、只读存储器、磁盘、光盘、闪速存储器、虚拟存储器和非虚拟存储器、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者任何其他合适的存储介质。计算机可读存储介质无论如何都不是传播的信号。
除了计算机可读存储介质以外,在一些实现中,存储系统903还可以包括软件905中的至少一些软件可以内部地或外部地通过其传送的计算机可读通信介质。存储系统903可以被实现为单个存储设备,但也可以跨位于同一位置或相对于彼此分布的多个存储设备或子系统来实现。存储系统903可以包括能够与处理系统902或者可能的其他系统进行通信的额外的元件,例如控制器。
软件905可以以程序指令来实现,并且在由处理系统902执行时,所述软件905引导处理系统902如关于在本文中所示出的各种操作性场景、顺序、和过程所描述的那样操作,此外还有其他功能。例如,软件905可以包括用于实现在本文中所讨论的数据集处理环境和平台的程序指令。
特别地,程序指令可以包括协作或以其他方式进行交互以实行在本文中所描述的各种处理和操作场景的各种组件或模块。可以以经编译或经解译的指令或者以指令的一些其他变型或组合来实施各种组件或模块。可以以同步或非同步的方式、顺序地或并行地、在单线程的环境中或在多线程的环境中、或者根据任何其他合适的执行范例、变型、或其组合来执行各种组件或模块。软件905可以包括除了或包括应用DLP环境906或共享的DLP环境909的额外的过程、程序、或组件,例如操作系统软件、虚拟机软件、或其他应用软件。软件905也可以包括固件或者可以由处理系统902执行的一些其他形式的机器可读处理指令。
通常而言,当被加载到处理系统902中并被执行时,软件905可以将合适的装置、系统、或设备(其由计算系统901所代表)全部从通用计算系统转换成专用计算系统,所述专用计算系统被定制为促进增强的应用协作。事实上,将软件905编码在存储系统903上可以转换存储系统903的物理结构。物理结构的具体的转换可以取决于该说明书的不同的实现中的各种因素。这样的因素的示例包括但不限于:用于实现存储系统903的存储介质的技术和计算机存储介质被表征为主要存储还是辅助存储,以及其他因素。
例如,如果计算机可读存储介质被实现为基于半导体的存储器,则当程序指令被编码在其中时,软件905可以转换半导体存储器的物理状态,例如,通过转换晶体管、电容器、或构成半导体存储器的其他分立电路器件的状态。可以关于磁或光介质而发生类似的转换。物理介质的其他转换是可以的而不脱离本说明的范围,其中,仅仅为了促进本讨论而提供了前述的示例。
应用DLP环境906或共享的DLP环境909中的每个包括一个或多个软件元件,例如OS921/931和应用922/932。这些元件可以描述用户、数据源、数据服务或其他元件与之交互的计算系统901的各个部分。例如,OS921/931可以提供应用922/932在其上执行的软件平台,并且应用922/932允许处理用户内容以用于对敏感内容的识别、注释、和模糊,此外还有其他功能。
在一个示例中,DLP服务932包括内容分派器924、注释器925、映射器926、和模糊器927。内容分派器924将结构化或层级用户内容元素平面化为线性块以供分类服务处理。注释器925在用户界面中以图形方式突出显示敏感数据或内容,以便可以警告用户存在阈值数量的敏感数据。映射器926可以导出文档中用于敏感数据注释的具体位置,例如当分类服务仅提供偏移/长度/ID以定位文档的各种结构化或层级性元素中的敏感数据时。模糊器927呈现用于掩盖/替换已经被识别为敏感数据的用户内容的模糊选项。模糊器927还响应于对模糊选项的用户选择来替换敏感内容。
在另一示例中,DLP服务933包括分类服务934、跟踪器935、策略/规则模块936、和regex服务937。分类服务934解析数据或内容的线性块以识别敏感数据。跟踪器935保留由分类服务934找到的敏感数据项的计数或数量,并向用于在文档中注释的映射器(例如,映射器926和注释器925)指示敏感数据偏移和长度。策略/规则模块936可以接收和保留用于对用户内容进行注释、分类、检测、模糊、或其他操作的各种策略和规则。Regex服务937包括一个示例分类技术,其使用正则表达式匹配以使用数据模式或数据方案来识别敏感数据,并且用模糊的内容来替换匹配的内容的文本。
通信接口系统907可以包括支持通过通信网络(未示出)与其他计算系统(未示出)进行通信的通信连接和通信设备。共同支持系统间通信的连接的示例可以包括:网络接口卡、天线、功率放大器、RF电路、收发机、以及其他通信电路。连接和设备可以通过通信介质来进行通信以与其他计算系统或系统的网络交换通信,所述通信介质例如金属、玻璃、空气、或任何合适的通信介质。通信接口系统907的物理或逻辑元件可以从遥测源接收数据集,在一个或多个分布式数据存储元件之间传输数据集和控制信息,以及与用户接合以接收数据选择并提供可视化数据集,此外还有其他特征。
用户接口系统908是可选的,并且可以包括键盘、鼠标、语音输入设备、用于接收来自用户的输入的触摸输入设备。诸如显示器、扬声器、web接口、终端接口、和其他类型的输出设备之类的输出设备也可以被包括在用户接口系统908中。用户接口系统908可以通过网络接口(例如,通信接口系统907)来提供输出和接收输入。在网络示例中,用户接口系统908可以通过在一个或多个网络接口上耦合的显示系统或计算系统来分组化显示或图形数据以供远程显示。用户接口系统908的物理或逻辑元件可以从用户或策略人员接收分类规则或策略,从用户接收数据编辑活动,向用户呈现敏感内容注释,向用户提供模糊选项,以及向用户呈现经模糊的用户内容,等等。用户接口系统908还可以包括能够由处理系统902执行以支持上文讨论的各种用户输入和输出设备的相关联的用户接口软件。单独地或者彼此以及与其他硬件和软件元件结合,用户接口软件和用户接口设备可以支持图形用户接口、自然用户接口、或任何其他类型的用户接口。
算系统901与任何其他计算系统(未示出)之间的通信可以通过通信网络或多个通信网络并且根据各种通信协议、协议的组合、或其变型来进行。示例包括:内联网、互联网、局域网、广域网、无线网络、有线网络、虚拟网络、软件定义的网络、数据中心总线、计算背板、或任何其他类型的网络、网络的组合、或其变型。前述的通信网络和协议是公知的并且不需要在这里详细讨论。然而,可以使用的一些通信协议包括但不限于:互联网协议(IP、IPv4、IPv6等)、传输控制协议(TCP)、和用户数据报协议(UDP)、以及任何其他合适的通信协议、其变型或组合。
从前述公开内容可以理解某些发明方面,其中以下是各种示例。
示例1:一种操作用户应用的方法,所述方法包括:至少识别第一阈值数量、当被启用时将所述第一阈值数量修改为第二阈值数量的弹性因子、以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示;监视对用户数据文件中的用户内容的内容编辑过程,以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量。所述方法包括:在所述内容编辑过程期间,至少部分基于以下项来启用和禁用对所述内容元素中的一个或多个内容元素的注释指示符的呈现:所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的指示。
示例2:示例1的方法,其中,所述注释指示符包括以下中的一个或多个:在所述用户应用的用户界面中呈现的全局指示符,所述全局指示符适用于所述用户数据文件;以及在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。
示例3:示例1的方法,还包括:在所述内容编辑过程期间:至少基于内容元素的所述当前数量超过所述第一阈值数量,发起在所述用户界面中对至少一个注释指示符的呈现,所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据。所述方法还包括:在所述内容编辑过程期间,至少基于内容元素的所述当前数量最初超过所述第一阈值数量,并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现。所述方法还包括:在所述内容编辑过程期间,至少基于内容元素的所述当前数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下,发起对所述至少一个注释指示符的所述呈现的移除。所述方法还包括:在所述内容编辑过程期间,至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下,并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量,发起在所述用户界面中对至少一个另外的注释指示符的呈现,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
示例4:示例3的方法,还包括:在所述内容编辑过程期间,至少基于内容元素的所述当前数量最初超过所述第一阈值数量,并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,移除对所述至少一个注释指示符的呈现。所述方法还包括:在所述内容编辑过程期间,至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下,并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量,拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
示例5:用于数据应用的数据隐私注释框架,包括:一个或多个计算机可读存储介质;操作性地与所述一个或多个计算机可读存储介质耦合的处理系统;以及存储在所述一个或多个计算机可读存储介质上的程序指令。所述程序指令至少基于由所述处理系统读取和执行,引导所述处理系统进行以下操作:至少识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的指示,监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容,以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量。所述程序指令还引导所述处理系统进行以下操作:在所述内容编辑期间,并且至少基于内容元素的数量超过所述第一阈值数量,发起在所述用户界面中对至少一个注释指示符的呈现,所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据。所述程序指令还引导所述处理系统进行以下操作:在所述内容编辑期间,并且至少基于内容元素的数量最初超过所述第一阈值数量,并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现。所述程序指令还引导所述处理系统进行以下操作:在所述内容编辑期间,并且至少基于内容元素的数量最初落到所述第二阈值数量以下,并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量,发起在所述用户界面中对至少一个另外的注释指示符的呈现,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
示例6:示例5的数据隐私注释框架,包括另外的程序指令,所述另外的程序指令至少基于由所述处理系统读取和执行,引导所述处理系统至少进行以下操作:在所述内容编辑期间,至少基于内容元素的数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下,发起对所述至少一个注释指示符的所述呈现的移除。
示例7:示例5的数据隐私注释框架,包括另外的程序指令,所述另外的程序指令至少基于由所述处理系统读取和执行,引导所述处理系统至少进行以下操作:在所述内容编辑期间,至少基于内容元素的数量最初超过所述第一阈值数量,并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,移除对所述至少一个注释指示符的呈现。
示例8:示例5的数据隐私注释框架,包括另外的程序指令,所述另外的程序指令至少基于由所述处理系统读取和执行,引导所述处理系统至少进行以下操作:在所述内容编辑期间,至少基于内容元素的数量最初落到所述第二阈值数量以下,并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量,拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
示例9:示例5的数据隐私注释框架,其中,识别第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的指示中的一个或多个包括:确定针对与所述内容编辑相关联的目标实体所建立的注释策略,所述注释策略包括以下中的一个或多个:所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。
示例10:示例9的数据隐私注释框架,其中,所述目标实体包括以下中的至少一个:执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。
示例11:示例5的数据隐私注释框架,其中,所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个:在所述用户界面中呈现的全局指示符,所述全局指示符适用于所述用户数据文件;以及在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。
示例12:示例5的数据隐私注释框架,其中,所述一个或多个预先确定的数据方案是由一个或多个表达式定义的,所述一个或多个表达式由分类服务使用,以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。
示例13:一种提供用于用户应用的数据隐私注释框架的方法,所述方法包括:识别所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的指示中的一个或多个:;以及监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容,以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量。所述方法包括,在所述内容编辑期间,至少基于内容元素的数量超过所述第一阈值数量,发起在所述用户界面中对至少一个注释指示符的呈现,所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据。所述方法包括,在所述内容编辑期间,至少基于内容元素的数量最初超过所述第一阈值数量,并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现。所述方法包括,在所述内容编辑期间,至少基于内容元素的数量最初落到所述第二阈值数量以下,并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量,发起在所述用户界面中对至少一个另外的注释指示符的呈现,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
示例14:示例13的方法,还包括:在所述内容编辑期间,至少基于内容元素的数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下,发起对所述至少一个注释指示符的所述呈现的移除。
示例15:示例13的方法,还包括:在所述内容编辑期间,至少基于内容元素的数量最初超过所述第一阈值数量,并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,移除对所述至少一个注释指示符的呈现。
示例16:示例13的方法,还包括:在所述内容编辑期间,至少基于内容元素的数量最初落到所述第二阈值数量以下,并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量,拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
示例17:示例13的方法,其中,识别所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示中的一个或多个包括:确定针对与所述内容编辑相关联的目标实体所建立的注释策略,所述注释策略包括以下中的一个或多个:所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。
示例18:示例17的方法,其中,所述目标实体包括以下中的至少一个:执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。
示例19:示例13的方法,其中,所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个:在所述用户界面中呈现的全局指示符,所述全局指示符适用于所述用户数据文件;以及在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。
示例20:示例13的方法,其中,所述一个或多个预先确定的数据方案是由一个或多个表达式定义的,所述一个或多个表达式由分类服务使用,以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。
在附图中所提供的功能块图、操作场景和序列、以及流程图代表用于执行本公开的新颖的方面的示例性系统、环境、和方法。尽管出于简化说明的目的,在本文中所包括的方法可以是以功能图、操作场景或序列、或流程图的形式的,并且可以被描述为一系列操作,但应当理解和领会的是,所述方法不受操作的顺序的限制,这是因为与此对应,一些操作可以以与在本文中所示出和描述的其他操作不同的顺序和/或同时进行。例如,本领域技术人员将理解并领会的是,方法可以可替代地被表示为一系列的相关的状态或事件,例如在状态图中。此外,不是在方法中所示出的所有的操作都针对新颖的实现而被需要。
所包括的描述和图描绘了具体的实现以教导本领域技术人员如何制作和使用最佳选项。出于教导发明性原理的目的,已经简化或省略了一些传统的方面。本领域技术人员将从落在本发明的范围内的这些实现中理解变型。本领域技术人员还将理解的是,可以以各种方法组合在上文中所描述的特征以形成多个实现。作为结果,本发明不限于在上文中所描述的具体的实现,而是仅由示例及其等价物来限制。

Claims (15)

1.一种操作用户应用的方法,所述方法包括:
至少识别第一阈值数量、当被启用时将所述第一阈值数量修改为第二阈值数量的弹性因子、以及对指示所述第二阈值数量何时覆盖所述第一阈值数量的阈值回弹属性的指示;
监视对用户数据文件中的用户内容的内容编辑过程,以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量;以及
在所述内容编辑过程期间,至少部分基于以下项来启用和禁用对所述内容元素中的一个或多个内容元素的注释指示符的呈现:所述内容元素相对于所述第一阈值数量的当前数量、当被启用时针对所述第一阈值数量的所述弹性因子、以及对所述阈值回弹属性的所述指示。
2.根据权利要求1所述的方法,其中,所述注释指示符包括以下中的一个或多个:
在所述用户应用的用户界面中呈现的全局指示符,所述全局指示符适用于所述用户数据文件;以及
在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。
3.根据权利要求1所述的方法,还包括:
在所述内容编辑过程期间:
至少基于内容元素的所述当前数量超过所述第一阈值数量,发起在所述用户界面中对至少一个注释指示符的呈现,所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据;
至少基于内容元素的所述当前数量最初超过所述第一阈值数量,并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现;
至少基于内容元素的所述当前数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下,发起对所述至少一个注释指示符的所述呈现的移除;
至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下,并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量,发起在所述用户界面中对至少一个另外的注释指示符的呈现,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据;
至少基于内容元素的所述当前数量最初超过所述第一阈值数量,并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,移除对所述至少一个注释指示符的呈现;以及
至少基于内容元素的所述当前数量最初落到所述第二阈值数量以下,并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量,拒绝对所述至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少所述第二敏感数据。
4.一种用于用户应用的数据隐私注释框架,包括:
一个或多个计算机可读存储介质;
操作性地与所述一个或多个计算机可读存储介质耦合的处理系统;以及
存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令至少基于由所述处理系统读取和执行,引导所述处理系统至少进行以下操作:
识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的指示中的一个或多个;
监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容,以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量;以及
在所述内容编辑过程期间:
至少基于内容元素的所述数量超过所述第一阈值数量,发起在所述用户界面中对至少一个注释指示符的呈现,所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据;
至少基于内容元素的所述数量最初超过所述第一阈值数量,
并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现;
至少基于内容元素的所述数量最初落到所述第二阈值数量以下,并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量,发起在所述用户界面中对至少一个另外的注释指示符的呈现,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
5.根据权利要求4所述的数据隐私注释框架,包括另外的程序指令,所述另外的程序指令至少基于由所述处理系统读取和执行,引导所述处理系统至少进行以下操作:
在所述内容编辑期间,至少基于内容元素的所述数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下,发起对所述至少一个注释指示符的所述呈现的移除;
在所述内容编辑期间,至少基于内容元素的所述数量最初超过所述第一阈值数量,并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,移除对所述至少一个注释指示符的呈现;以及
在所述内容编辑期间,至少基于内容元素的所述数量最初落到所述第二阈值数量以下,并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量,拒绝对至少一个另外的注释指示符的呈现直到内容元素的数量超过所述第一阈值数量为止,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少所述第二敏感数据。
6.根据权利要求4所述的数据隐私注释框架,其中,识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的所述指示中的一个或多个包括:确定针对与所述内容编辑相关联的目标实体所建立的注释策略,所述注释策略包括以下中的一个或多个:所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。
7.根据权利要求6所述的数据隐私注释框架,其中,所述目标实体包括以下中的至少一个:执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。
8.根据权利要求4所述的数据隐私注释框架,其中,所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个:
在所述用户界面中呈现的全局指示符,所述全局指示符适用于所述用户数据文件;以及
在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。
9.根据权利要求4所述的数据隐私注释框架,其中,所述一个或多个预先确定的数据方案是由一个或多个表达式定义的,所述一个或多个表达式由分类服务使用,以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。
10.一种提供用于用户应用的数据隐私注释框架的方法,所述方法包括:
识别第一阈值数量、针对所述第一阈值数量的弹性因子、以及对阈值回弹属性的指示中的一个或多个;
监视针对所述用户应用的用户界面中的内容编辑所呈现的用户数据文件中的用户内容,以识别所述用户内容中包含与一个或多个预先确定的数据方案相对应的敏感数据的内容元素的数量;以及
在所述内容编辑期间:
至少基于内容元素的所述数量超过所述第一阈值数量,发起在所述用户界面中对至少一个注释指示符的呈现,所述至少一个注释指示符在所述用户界面中将所述用户内容标记为包含至少第一敏感数据;
至少基于内容元素的所述数量最初超过所述第一阈值数量,并且在所述弹性因子被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,至少基于所述弹性因子来建立第二阈值数量以用于移除对所述至少一个注释指示符的所述呈现;
至少基于内容元素的所述数量最初落到所述第二阈值数量以下,并且在所述阈值回弹属性被应用于所述第二阈值数量时随后超过所述第二阈值数量,发起在所述用户界面中对至少一个另外的注释指示符的呈现,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少第二敏感数据。
11.根据权利要求10所述的方法,还包括:
在所述内容编辑期间,至少基于内容元素的所述数量在所述弹性因子被应用于所述第一阈值数量时落到所述第二阈值数量以下,发起对所述至少一个注释指示符的所述呈现的移除;
在所述内容编辑期间,至少基于内容元素的所述数量最初超过所述第一阈值数量,并且在所述弹性因子没有被应用于所述第一阈值数量时随后落到所述第一阈值数量以下,移除对所述至少一个注释指示符的呈现;以及
在所述内容编辑期间,至少基于内容元素的所述数量最初落到所述第二阈值数量以下,并且在所述回弹属性没有被应用于所述第二阈值数量时随后超过所述第二阈值数量,拒绝对所述至少一个另外的注释指示符的呈现直到内容元素的所述数量超过所述第一阈值数量为止,所述至少一个另外的注释指示符在所述用户界面中将所述用户内容标记为包含至少所述第二敏感数据。
12.根据权利要求10所述的方法,其中,识别所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示中的一个或多个包括:确定针对与所述内容编辑相关联的目标实体所建立的注释策略,所述注释策略包括以下中的一个或多个:所述第一阈值数量、针对所述第一阈值数量的所述弹性因子、以及对阈值回弹属性的所述指示。
13.根据权利要求12所述的方法,其中,所述目标实体包括以下中的至少一个:执行所述内容编辑的用户、包括执行所述内容编辑的所述用户的组织、以及所述用户应用的应用类型。
14.根据权利要求10所述的方法,其中,所述至少一个注释指示符和所述至少一个另外的注释指示符中的每个注释指示符包括以下中的一个或多个:
在所述用户界面中呈现的全局指示符,所述全局指示符适用于所述用户数据文件;以及
在所述用户界面中呈现的、位于包含所述敏感数据的个体内容元素附近的个体指示符。
15.根据权利要求10所述的方法,其中,所述一个或多个预先确定的数据方案是由一个或多个表达式定义的,所述一个或多个表达式由分类服务使用,以解析所述用户内容并且识别所述内容元素中包含指示一个或多个预先确定的内容模式或者一个或多个预先确定的内容类型的数据的内容元素。
CN201880020423.6A 2017-03-23 2018-03-14 针对隐私敏感用户内容的可配置注释 Active CN110506271B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311312090.3A CN117195307A (zh) 2017-03-23 2018-03-14 针对隐私敏感用户内容的可配置注释

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/466,988 US10410014B2 (en) 2017-03-23 2017-03-23 Configurable annotations for privacy-sensitive user content
US15/466,988 2017-03-23
PCT/US2018/022284 WO2018175163A1 (en) 2017-03-23 2018-03-14 Configurable annotations for privacy-sensitive user content

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202311312090.3A Division CN117195307A (zh) 2017-03-23 2018-03-14 针对隐私敏感用户内容的可配置注释

Publications (2)

Publication Number Publication Date
CN110506271A true CN110506271A (zh) 2019-11-26
CN110506271B CN110506271B (zh) 2023-09-29

Family

ID=61911670

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202311312090.3A Pending CN117195307A (zh) 2017-03-23 2018-03-14 针对隐私敏感用户内容的可配置注释
CN201880020423.6A Active CN110506271B (zh) 2017-03-23 2018-03-14 针对隐私敏感用户内容的可配置注释

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202311312090.3A Pending CN117195307A (zh) 2017-03-23 2018-03-14 针对隐私敏感用户内容的可配置注释

Country Status (18)

Country Link
US (2) US10410014B2 (zh)
EP (1) EP3602382B1 (zh)
JP (1) JP7012742B2 (zh)
KR (1) KR102464222B1 (zh)
CN (2) CN117195307A (zh)
AU (1) AU2018237533B2 (zh)
BR (1) BR112019016655A2 (zh)
CA (1) CA3054035A1 (zh)
CL (1) CL2019002634A1 (zh)
CO (1) CO2019010012A2 (zh)
IL (1) IL268794B2 (zh)
MX (1) MX2019011180A (zh)
NZ (1) NZ756030A (zh)
PH (1) PH12019550175A1 (zh)
RU (1) RU2764393C2 (zh)
SG (1) SG11201908288XA (zh)
WO (1) WO2018175163A1 (zh)
ZA (1) ZA201905231B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021120628A1 (zh) * 2019-12-19 2021-06-24 深圳壹账通智能科技有限公司 基于区块链的敏感词检测方法、装置、计算机设备和计算机可读存储介质
CN113360522A (zh) * 2020-03-05 2021-09-07 奇安信科技集团股份有限公司 一种快速识别敏感数据的方法及装置
CN116108486A (zh) * 2023-02-20 2023-05-12 北京亿赛通科技发展有限责任公司 一种实现dlp快速检测的系统及方法

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10410014B2 (en) * 2017-03-23 2019-09-10 Microsoft Technology Licensing, Llc Configurable annotations for privacy-sensitive user content
US10380355B2 (en) 2017-03-23 2019-08-13 Microsoft Technology Licensing, Llc Obfuscation of user content in structured user data files
US10671753B2 (en) 2017-03-23 2020-06-02 Microsoft Technology Licensing, Llc Sensitive data loss protection for structured user content viewed in user applications
US9965648B1 (en) * 2017-04-06 2018-05-08 International Business Machines Corporation Automatic masking of sensitive data
DE102017125930A1 (de) * 2017-11-07 2019-05-09 Comforte Ag Computerimplementiertes Verfahren zum Ersetzen eines Datenstrings durch einen Platzhalter
US11055431B2 (en) * 2017-12-15 2021-07-06 Blackberry Limited Securing data storage of personally identifiable information in a database
US10977211B2 (en) * 2018-10-11 2021-04-13 Dealvector, Inc. Effective deployment of spreadsheets in browser environments
US11429558B2 (en) 2018-10-11 2022-08-30 Dealvector, Inc. Mapping tests of spreadsheets in server-browser environments
US11429557B2 (en) 2018-10-11 2022-08-30 Dealvector, Inc. Templatization of spreadsheets in browser environments
US20200279050A1 (en) * 2019-02-28 2020-09-03 SpyCloud, Inc. Generating and monitoring fictitious data entries to detect breaches
US11151285B2 (en) * 2019-03-06 2021-10-19 International Business Machines Corporation Detecting sensitive data exposure via logging
US11341266B2 (en) * 2019-03-13 2022-05-24 At&T Intellectual Property I, L.P. Detecting and preventing storage of unsolicited sensitive personal information
US11562096B2 (en) * 2019-03-22 2023-01-24 International Business Machines Corporation Automated discovery and management of personal data
CN110109896B (zh) * 2019-04-13 2021-12-10 成都飞机工业(集团)有限责任公司 Uav飞行参数智能还原方法
CN110378708B (zh) * 2019-07-24 2020-10-09 核芯互联科技(青岛)有限公司 一种隐藏式资信证明方法、装置、系统及存储介质
US11960619B1 (en) * 2019-11-18 2024-04-16 Morgan Stanley Services Group Inc. System for intrafirm tracking of personally identifiable information
EP3929787A1 (en) * 2020-06-22 2021-12-29 CA, Inc. Detecting sensitive data records using a data format analysis
US11861039B1 (en) * 2020-09-28 2024-01-02 Amazon Technologies, Inc. Hierarchical system and method for identifying sensitive content in data
US20210319130A1 (en) * 2021-01-29 2021-10-14 Facebook, Inc. Efficiently scalable systems
US11687534B2 (en) * 2021-06-17 2023-06-27 Huawei Technologies Co., Ltd. Method and system for detecting sensitive data
US20230153457A1 (en) * 2021-11-12 2023-05-18 Microsoft Technology Licensing, Llc Privacy data management in distributed computing systems

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150827A1 (en) * 2005-12-22 2007-06-28 Mona Singh Methods, systems, and computer program products for protecting information on a user interface based on a viewability of the information
US20120137371A1 (en) * 2010-11-30 2012-05-31 International Business Machines Corporation Automatically classifying an input from field with respect to sensitivity of information it is designed to hold
US20130042171A1 (en) * 2011-08-12 2013-02-14 Korea Advanced Institute Of Science And Technology Method and system for generating and managing annotation in electronic book
US20130304690A1 (en) * 2012-05-10 2013-11-14 Check Point Software Technologies Ltd. Reducing false positives in data validation using statistical heuristics
US20140304197A1 (en) * 2010-12-14 2014-10-09 Sumesh Jaiswal Incremental machine learning for data loss prevention
CN104252479A (zh) * 2013-06-27 2014-12-31 华为技术有限公司 信息的处理方法、装置和系统
US20150040237A1 (en) * 2013-08-05 2015-02-05 Xerox Corporation Systems and methods for interactive creation of privacy safe documents
CN104517068A (zh) * 2014-12-31 2015-04-15 华为技术有限公司 一种处理录音文件方法和装置
US20150156171A1 (en) * 2013-12-03 2015-06-04 Nokia Corporation Method and apparatus for providing privacy adaptation based on receiver context
US9256727B1 (en) * 2014-02-20 2016-02-09 Symantec Corporation Systems and methods for detecting data leaks
CN105493074A (zh) * 2013-08-28 2016-04-13 国际商业机器公司 用于生成动态定制上下文敏感的帮助的方法
CN106095220A (zh) * 2016-05-30 2016-11-09 北京小米移动软件有限公司 通知消息提示方法及装置
CN106326734A (zh) * 2015-06-30 2017-01-11 阿里巴巴集团控股有限公司 一种检测敏感信息的方法和设备

Family Cites Families (93)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6424980B1 (en) 1998-06-10 2002-07-23 Nippon Telegraph And Telephone Corporation Integrated retrieval scheme for retrieving semi-structured documents
US7127615B2 (en) * 2000-09-20 2006-10-24 Blue Spike, Inc. Security based on subliminal and supraliminal channels for data objects
US7352868B2 (en) * 2001-10-09 2008-04-01 Philip Hawkes Method and apparatus for security in a data processing system
WO2003098466A1 (en) 2002-05-14 2003-11-27 Verity, Inc. Apparatus and method for region sensitive dynamically configurable document relevance ranking
US7886359B2 (en) 2002-09-18 2011-02-08 Symantec Corporation Method and apparatus to report policy violations in messages
US20040193910A1 (en) 2003-03-28 2004-09-30 Samsung Electronics Co., Ltd. Security filter for preventing the display of sensitive information on a video display
WO2005010727A2 (en) 2003-07-23 2005-02-03 Praedea Solutions, Inc. Extracting data from semi-structured text documents
US20050038788A1 (en) * 2003-08-14 2005-02-17 International Business Machines Corporation Annotation security to prevent the divulgence of sensitive information
EP1521161A3 (en) * 2003-09-25 2006-03-15 Matsushita Electric Industrial Co., Ltd. An apparatus and a method for preventing unauthorized use and a device with a function of preventing unauthorized use
US8261058B2 (en) 2005-03-16 2012-09-04 Dt Labs, Llc System, method and apparatus for electronically protecting data and digital content
US20070094491A1 (en) * 2005-08-03 2007-04-26 Teo Lawrence C S Systems and methods for dynamically learning network environments to achieve adaptive security
EP1961205B1 (en) 2005-12-16 2019-06-19 The 41st Parameter, Inc. Methods and apparatus for securely displaying digital images
JP5431148B2 (ja) 2006-05-31 2014-03-05 インターナショナル・ビジネス・マシーンズ・コーポレーション ストレージ用論理データオブジェクトの変換方法およびシステム
US7724918B2 (en) 2006-11-22 2010-05-25 International Business Machines Corporation Data obfuscation of text data using entity detection and replacement
US8635691B2 (en) 2007-03-02 2014-01-21 403 Labs, Llc Sensitive data scanner
US7949670B2 (en) 2007-03-16 2011-05-24 Microsoft Corporation Language neutral text verification
US8504553B2 (en) 2007-04-19 2013-08-06 Barnesandnoble.Com Llc Unstructured and semistructured document processing and searching
US8627403B1 (en) 2007-07-31 2014-01-07 Hewlett-Packard Development Company, L.P. Policy applicability determination
US20090100527A1 (en) 2007-10-10 2009-04-16 Adrian Michael Booth Real-time enterprise data masking
US20090132419A1 (en) 2007-11-15 2009-05-21 Garland Grammer Obfuscating sensitive data while preserving data usability
US7877398B2 (en) 2007-11-19 2011-01-25 International Business Machines Corporation Masking related sensitive data in groups
US8347396B2 (en) 2007-11-30 2013-01-01 International Business Machines Corporation Protect sensitive content for human-only consumption
US8280905B2 (en) * 2007-12-21 2012-10-02 Georgetown University Automated forensic document signatures
US8145632B2 (en) 2008-02-22 2012-03-27 Tigerlogic Corporation Systems and methods of identifying chunks within multiple documents
US7996373B1 (en) 2008-03-28 2011-08-09 Symantec Corporation Method and apparatus for detecting policy violations in a data repository having an arbitrary data schema
US20090259670A1 (en) 2008-04-14 2009-10-15 Inmon William H Apparatus and Method for Conditioning Semi-Structured Text for use as a Structured Data Source
US8041695B2 (en) 2008-04-18 2011-10-18 The Boeing Company Automatically extracting data from semi-structured documents
US8346532B2 (en) 2008-07-11 2013-01-01 International Business Machines Corporation Managing the creation, detection, and maintenance of sensitive information
US8069053B2 (en) 2008-08-13 2011-11-29 Hartford Fire Insurance Company Systems and methods for de-identification of personal data
US8200509B2 (en) 2008-09-10 2012-06-12 Expanse Networks, Inc. Masked data record access
US20100088296A1 (en) 2008-10-03 2010-04-08 Netapp, Inc. System and method for organizing data to facilitate data deduplication
US8533844B2 (en) * 2008-10-21 2013-09-10 Lookout, Inc. System and method for security data collection and analysis
US8156159B2 (en) 2009-02-11 2012-04-10 Verizon Patent And Licensing, Inc. Data masking and unmasking of sensitive data
US8863304B1 (en) 2009-03-26 2014-10-14 Symantec Corporation Method and apparatus for remediating backup data to control access to sensitive data
WO2011032037A1 (en) 2009-09-14 2011-03-17 The Directv Group, Inc. Method and system for distributing content
US20110219446A1 (en) 2010-03-05 2011-09-08 Jeffrey Ichnowski Input parameter filtering for web application security
US20110239113A1 (en) 2010-03-25 2011-09-29 Colin Hung Systems and methods for redacting sensitive data entries
US8949184B2 (en) 2010-04-26 2015-02-03 Microsoft Technology Licensing, Llc Data collector
SG177018A1 (en) * 2010-06-09 2012-01-30 Smart Communications Inc System and method for the provision of content to a subscriber
US8539560B2 (en) 2010-06-24 2013-09-17 International Business Machines Corporation Content protection using automatically selectable display surfaces
US9298878B2 (en) 2010-07-29 2016-03-29 Oracle International Corporation System and method for real-time transactional data obfuscation
US8892550B2 (en) 2010-09-24 2014-11-18 International Business Machines Corporation Source expansion for information retrieval and information extraction
JP5827467B2 (ja) 2010-11-12 2015-12-02 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 電子文書中の部分テキストデータをマスクする方法、装置、サーバ及びコンピュータプログラム
US9003542B1 (en) 2010-12-13 2015-04-07 Symantec Corporation Systems and methods for replacing sensitive information stored within non-secure environments with secure references to the same
US8682814B2 (en) * 2010-12-14 2014-03-25 Symantec Corporation User interface and workflow for performing machine learning
CN102552173B (zh) * 2010-12-23 2014-01-29 浙江医药股份有限公司新昌制药厂 一种高生物利用度的类胡萝卜素油悬浮液及其制备方法
RU2550531C2 (ru) 2010-12-30 2015-05-10 Инсайтен, Инк. Управление онлайновой конфиденциальностью
JP2012159939A (ja) * 2011-01-31 2012-08-23 Sony Corp 情報処理装置、および方法、プログラム、記録媒体、並びに情報処理システム
US8769200B2 (en) 2011-03-01 2014-07-01 Xbridge Systems, Inc. Method for managing hierarchical storage during detection of sensitive information, computer readable storage media and system utilizing same
US10534931B2 (en) 2011-03-17 2020-01-14 Attachmate Corporation Systems, devices and methods for automatic detection and masking of private data
EP2689353B1 (en) 2011-03-22 2019-11-06 Informatica LLC System and method for data masking
US8930381B2 (en) 2011-04-07 2015-01-06 Infosys Limited Methods and systems for runtime data anonymization
GB2505338B (en) 2011-04-19 2019-08-28 Hewlett Packard Development Co Obstructing user content based on location
US8688601B2 (en) 2011-05-23 2014-04-01 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
US8806204B2 (en) 2011-06-20 2014-08-12 Liaison Technologies, Inc. Systems and methods for maintaining data security across multiple active domains
US9104528B2 (en) * 2011-12-08 2015-08-11 Microsoft Technology Licensing, Llc Controlling the release of private information using static flow analysis
US9183212B2 (en) 2012-01-26 2015-11-10 Upthere, Inc. Representing directory structure in content-addressable storage systems
US8898796B2 (en) 2012-02-14 2014-11-25 International Business Machines Corporation Managing network data
US9237170B2 (en) 2012-07-19 2016-01-12 Box, Inc. Data loss prevention (DLP) methods and architectures by a cloud service
CN104781821B (zh) 2012-09-07 2018-06-22 克罗尔信息保证有限责任公司 文件共享网络中的片段匹配
US9489376B2 (en) 2013-01-02 2016-11-08 International Business Machines Corporation Identifying confidential data in a data item by comparing the data item to similar data items from alternative sources
US8973149B2 (en) * 2013-01-14 2015-03-03 Lookout, Inc. Detection of and privacy preserving response to observation of display screen
US8925099B1 (en) * 2013-03-14 2014-12-30 Reputation.Com, Inc. Privacy scoring
CN104166822B (zh) 2013-05-20 2017-10-13 阿里巴巴集团控股有限公司 一种数据保护的方法和装置
US9392012B2 (en) 2013-11-01 2016-07-12 Bank Of America Corporation Application security testing system
US9177174B1 (en) 2014-02-06 2015-11-03 Google Inc. Systems and methods for protecting sensitive data in communications
US9542622B2 (en) 2014-03-08 2017-01-10 Microsoft Technology Licensing, Llc Framework for data extraction by examples
US9330273B2 (en) 2014-03-19 2016-05-03 Symantec Corporation Systems and methods for increasing compliance with data loss prevention policies
JP6037461B2 (ja) * 2014-05-09 2016-12-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 機密情報に応じた表示を行う装置、システム、方法およびプログラム
US9785795B2 (en) 2014-05-10 2017-10-10 Informatica, LLC Identifying and securing sensitive data at its source
US9858440B1 (en) 2014-05-23 2018-01-02 Shape Security, Inc. Encoding of sensitive data
US10129370B2 (en) 2014-08-01 2018-11-13 Protegrity Corporation Mapping between user interface fields and protocol information
US9390282B2 (en) 2014-09-03 2016-07-12 Microsoft Technology Licensing, Llc Outsourcing document-transformation tasks while protecting sensitive information
US9384357B2 (en) * 2014-10-01 2016-07-05 Quixey, Inc. Providing application privacy information
EP3210140A4 (en) 2014-10-20 2018-06-06 3M Innovative Properties Company Identification of codable sections in medical documents
US9898619B1 (en) 2014-10-22 2018-02-20 State Farm Mutual Automobile Insurance Company System and method for concealing sensitive data on a computing device
US9697349B2 (en) 2014-10-26 2017-07-04 Microsoft Technology Licensing, Llc Access blocking for data loss prevention in collaborative environments
US9934406B2 (en) 2015-01-08 2018-04-03 Microsoft Technology Licensing, Llc Protecting private information in input understanding system
US9454675B2 (en) 2015-01-26 2016-09-27 Idis Co., Ltd. Apparatus and method for protecting personal information of recorded image, and computer-readable recording medium having computer program recorded therein
US10140343B2 (en) 2015-02-09 2018-11-27 Ca, Inc. System and method of reducing data in a storage system
CA3017430C (en) 2015-04-16 2023-07-04 Docauthority Ltd. Structural document classification
EP3166041A1 (en) 2015-11-07 2017-05-10 Tata Consultancy Services Limited Format preserving masking system and method
US10282557B1 (en) * 2015-11-19 2019-05-07 Veritas Technologies Llc Systems and methods for protecting sensitive data against data loss
US9904957B2 (en) * 2016-01-15 2018-02-27 FinLocker LLC Systems and/or methods for maintaining control over, and access to, sensitive data inclusive digital vaults and hierarchically-arranged information elements thereof
US10742844B2 (en) 2016-06-28 2020-08-11 Hewlett-Packard Development Company, L.P. Hiding sensitive data
US10430610B2 (en) 2016-06-30 2019-10-01 International Business Machines Corporation Adaptive data obfuscation
US10387670B2 (en) * 2016-09-21 2019-08-20 International Business Machines Corporation Handling sensitive data in an application using external processing
US20180253219A1 (en) 2017-03-06 2018-09-06 Microsoft Technology Licensing, Llc Personalized presentation of content on a computing device
US10671753B2 (en) 2017-03-23 2020-06-02 Microsoft Technology Licensing, Llc Sensitive data loss protection for structured user content viewed in user applications
US10410014B2 (en) * 2017-03-23 2019-09-10 Microsoft Technology Licensing, Llc Configurable annotations for privacy-sensitive user content
US10380355B2 (en) 2017-03-23 2019-08-13 Microsoft Technology Licensing, Llc Obfuscation of user content in structured user data files
US10412139B2 (en) 2017-05-26 2019-09-10 Streamsure Solutions Limited Communication event
US10200331B2 (en) 2017-06-28 2019-02-05 Xerox Corporation Methods and systems for performing structure-preserving obfuscation on emails

Patent Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070150827A1 (en) * 2005-12-22 2007-06-28 Mona Singh Methods, systems, and computer program products for protecting information on a user interface based on a viewability of the information
US20120137371A1 (en) * 2010-11-30 2012-05-31 International Business Machines Corporation Automatically classifying an input from field with respect to sensitivity of information it is designed to hold
US20140304197A1 (en) * 2010-12-14 2014-10-09 Sumesh Jaiswal Incremental machine learning for data loss prevention
US20130042171A1 (en) * 2011-08-12 2013-02-14 Korea Advanced Institute Of Science And Technology Method and system for generating and managing annotation in electronic book
US20130304690A1 (en) * 2012-05-10 2013-11-14 Check Point Software Technologies Ltd. Reducing false positives in data validation using statistical heuristics
CN104252479A (zh) * 2013-06-27 2014-12-31 华为技术有限公司 信息的处理方法、装置和系统
US20150040237A1 (en) * 2013-08-05 2015-02-05 Xerox Corporation Systems and methods for interactive creation of privacy safe documents
CN105493074A (zh) * 2013-08-28 2016-04-13 国际商业机器公司 用于生成动态定制上下文敏感的帮助的方法
US20150156171A1 (en) * 2013-12-03 2015-06-04 Nokia Corporation Method and apparatus for providing privacy adaptation based on receiver context
US9256727B1 (en) * 2014-02-20 2016-02-09 Symantec Corporation Systems and methods for detecting data leaks
CN104517068A (zh) * 2014-12-31 2015-04-15 华为技术有限公司 一种处理录音文件方法和装置
CN106326734A (zh) * 2015-06-30 2017-01-11 阿里巴巴集团控股有限公司 一种检测敏感信息的方法和设备
CN106095220A (zh) * 2016-05-30 2016-11-09 北京小米移动软件有限公司 通知消息提示方法及装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021120628A1 (zh) * 2019-12-19 2021-06-24 深圳壹账通智能科技有限公司 基于区块链的敏感词检测方法、装置、计算机设备和计算机可读存储介质
CN113360522A (zh) * 2020-03-05 2021-09-07 奇安信科技集团股份有限公司 一种快速识别敏感数据的方法及装置
CN113360522B (zh) * 2020-03-05 2023-10-31 奇安信科技集团股份有限公司 一种快速识别敏感数据的方法及装置
CN116108486A (zh) * 2023-02-20 2023-05-12 北京亿赛通科技发展有限责任公司 一种实现dlp快速检测的系统及方法
CN116108486B (zh) * 2023-02-20 2023-08-11 北京亿赛通科技发展有限责任公司 一种实现dlp快速检测的系统及方法

Also Published As

Publication number Publication date
US20190354715A1 (en) 2019-11-21
EP3602382A1 (en) 2020-02-05
RU2764393C2 (ru) 2022-01-17
MX2019011180A (es) 2019-10-30
US20180276401A1 (en) 2018-09-27
RU2019133476A (ru) 2021-04-23
EP3602382B1 (en) 2020-12-16
AU2018237533B2 (en) 2022-01-20
JP7012742B2 (ja) 2022-01-28
IL268794B2 (en) 2023-03-01
BR112019016655A2 (pt) 2020-04-07
KR102464222B1 (ko) 2022-11-04
RU2019133476A3 (zh) 2021-07-05
CN110506271B (zh) 2023-09-29
PH12019550175A1 (en) 2020-06-29
CO2019010012A2 (es) 2020-01-17
KR20190131032A (ko) 2019-11-25
AU2018237533A1 (en) 2019-08-22
NZ756030A (en) 2023-12-22
US10410014B2 (en) 2019-09-10
CN117195307A (zh) 2023-12-08
CL2019002634A1 (es) 2020-01-31
US11544402B2 (en) 2023-01-03
WO2018175163A1 (en) 2018-09-27
SG11201908288XA (en) 2019-10-30
ZA201905231B (en) 2020-10-28
JP2020516986A (ja) 2020-06-11
CA3054035A1 (en) 2018-09-27
IL268794B (en) 2022-11-01
IL268794A (en) 2019-10-31

Similar Documents

Publication Publication Date Title
CN110447035A (zh) 结构化用户数据文件中用户内容模糊
CN110506271A (zh) 针对隐私敏感用户内容的可配置注释
US10223548B2 (en) Scrubber to remove personally identifiable information
US10671753B2 (en) Sensitive data loss protection for structured user content viewed in user applications
CN106462933A (zh) 使用内容结构来社交地连接用户
RU2772300C2 (ru) Обфускация пользовательского контента в структурированных файлах пользовательских данных
JP2020101898A (ja) 設計図作成支援方法、設計図作成支援装置、及び設計図作成支援プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40017079

Country of ref document: HK

GR01 Patent grant
GR01 Patent grant