CN110914824B - 用于从文档中去除敏感内容的设备和方法 - Google Patents

用于从文档中去除敏感内容的设备和方法 Download PDF

Info

Publication number
CN110914824B
CN110914824B CN201880047969.0A CN201880047969A CN110914824B CN 110914824 B CN110914824 B CN 110914824B CN 201880047969 A CN201880047969 A CN 201880047969A CN 110914824 B CN110914824 B CN 110914824B
Authority
CN
China
Prior art keywords
document
original
character
documents
modified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201880047969.0A
Other languages
English (en)
Other versions
CN110914824A (zh
Inventor
C·D·安德森
R·L·劳恩斯韦特
M·D·斯托克斯
M·J·B·奥尔森
M·E·凯斯林
E·T·奥维森
T·L·雷利加
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Technology Licensing LLC
Original Assignee
Microsoft Technology Licensing LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Technology Licensing LLC filed Critical Microsoft Technology Licensing LLC
Publication of CN110914824A publication Critical patent/CN110914824A/zh
Application granted granted Critical
Publication of CN110914824B publication Critical patent/CN110914824B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/64Protecting data integrity, e.g. using checksums, certificates or signatures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Hardware Design (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本文中描述了一种用于以保存文档的有用性以便后续分析的方式从文档中去除敏感内容的计算机实现的技术。例如,该技术隐蔽文档中的敏感内容,同时保留文档中的有意义信息以便后续由机器学习引擎或其他机器实现的分析机制来处理。根据一个说明性方面,该技术使用基于一个或多个选择因素所挑选的修改策略来从文档中去除敏感内容。一种选择因素涉及到要在文档已经被匿名化之后对它们执行的处理的性质。

Description

用于从文档中去除敏感内容的设备和方法
背景技术
用户变得越来越多地致力于确保他们的个人文档保存私密。为了解决该问题,公司们已经尝试在他们顾客的文档被保存以及与他人共享(如果能够应用)的方式方面澄清他们的政策。在某些情况下,一家公司也可以对文档加密和/或选择性地对文档中的某些个人信息(例如,姓名、社会保险号码等)进行清理。然而,这些技术出于本文所给出的原因而并不完全令人满意。
发明内容
本文中描述了一种用于以保存文档的有用性以便后续分析的方式从文档中去除敏感内容的计算机实现的技术。例如,该技术隐蔽文档中的敏感内容,同时保留文档中的有意义信息以便由诸如机器学习分析引擎之类的机器实现的分析引擎进行后续处理。该技术因此保护了用户的隐私,同时对于更为准确的机器实现的分析引擎的开发有所贡献。
根据一个说明性方面,该技术利用一个或多个通用占位符字符来替代文档中的原始字符,同时保存与该文档相关联的格式和结构。
根据另一个说明性方面,该技术还保存与已经被隐蔽的敏感内容的一个或多个属性相关的信息。例如,该技术可以保存标识与已经被隐蔽的字符串相关联的语法特性的信息、利用其表达该字符串的自然语言等。
根据另一个说明性方面,该技术使用基于一个或多个选择因素所挑选的修改策略从文档中去除敏感内容。一种选择因素识别要在文档已经被匿名化之后对它们执行的处理的性质,例如要应用于所述文档的机器学习的性质。该技术通过挑选保存对经匿名化的文档执行的后续分析中将会最有用的信息的修改策略来对该选择因素加以利用。例如,该技术可以保存与文档中的词语相关的词性信息以适应由任何类型的自然语言分析引擎所执行的后续分析。
以上技术可以在各种类型的系统、设备、组件、方法、计算机可读存储介质、数据结构、图形用户界面演示、制造品中得到证明。
提供了该发明内容以用简化的形式介绍概念的选择;在下文的具体实施方式中所进一步描述了这些概念。该发明内容不旨在标识所要求保护的主题的关键特征或本质特征,也不旨在用来限制所要求保护的主题的范围。
附图说明
图1示出了用于从文档中去除敏感项目的系统。
图2示出了用于实现图1的系统的计算装备。
图3示出了用于结合图1的系统使用的用于存储修改策略集合的数据存储单元,以及用于存储两个或更多个修改规则集合的数据存储单元。
图4示出了作为图1的系统的元件的移除组件的一种实现。
图5-7示出了图1的系统的操作的三个示例。
图8是描述了图1的系统的一种操作方式的流程图。
图9示出了可以用于实现在前述附图中所示的特征的任何方面的计算功能。
在本公开和附图通篇中使用的相同的附图标记来指代相同的组件和特征。100系列附图标记指的是最初在图1中找到的特征、200系列附图标记指的是最初在图2中找到的特征、300系列附图标记指的是最初在图3中找到的特征,以此类推。
具体实施方式
该公开组织如下。A部分描述了用于通过应用深度学习模型、基于与所提交的查询相关联的上下文信息来执行搜索的说明性功能。B部分阐述了解释了A部分中的功能的操作的说明性方法。C部分描述了可以用于实现在A部分和B部分中所描述的特征的任何方面的说明性计算功能。
作为初步内容,附图中的一些附图在也被称为功能、模块、特征、元件等的一个或多个结构组件的上下文中描述了概念。在一个实现中,可以由在计算机设备上运行的软件或者其他逻辑硬件(例如,FPGA)等或其任何组合来实现在附图中所示出的各种处理相关的组件。在一种情况下,所示出的将附图中的各种组件分成不同的单元可以反映在实际实现中使用对应的不同的物理和有形组件。可替代地或另外地,可以由多个实际物理组件来实现在附图中所示出的任何单个组件。可替代地或另外地,在附图中描绘的任何两个或更多个分隔的组件可以反映由单个实际物理组件所执行的不同的功能。部分C提供了关于在附图中所示出的功能的一个说明性物理实现的另外的细节。
其他附图以流程图的形式描述了概念。在该形式中,将某些操作描述为组成以一定顺序执行的不同的块。这样的实现是说明性的而非限制性的。可以将在本文中所描述的某些块分组在一起并且在单个操作中执行、可以将某些块分割成多个组件块、并且可以以不同于在本文中所示出的顺序的顺序(包括执行块的并行的方式)来执行某些块。在一个实现中,可以由在计算机设备上运行的软件、或其他逻辑硬件(例如,FPGA)等、或其任何组合来实现在流程图中所示出的与有关处理的功能相关的块。
就术语而言,短语“被配置为”涵盖了用于执行所识别的操作的各种物理和有形的机制。所述机制可以被配置为例如使用在计算设备上运行的软件或者其他逻辑硬件(例如,FPGA)等或其任何组合来执行操作。
术语“逻辑单元”涵盖了用于实行任务的各种物理和有形的机制。例如,在流程图中所图示的每个有关处理的操作对应于用于实行该操作的逻辑组件。有关处理的操作例如可以使用在计算装备上运行的软件或者其他逻辑硬件(例如,FPGA)或者其任何组合来实行。在由计算装备实施时,无论以任何方式来实施,任何逻辑组件都表示作为计算系统的物理部分的电气组件。
本文所描述的任何存储资源或者存储资源的任何组合都可以被视为计算机可读介质。在许多情况下,计算机可读介质表示一些形式的物理和有形的实体。术语计算机可读介质还涵盖了例如经由物理管道和/或空气或其他无线介质等发送或接收的传播的信号。然而,具体的术语“计算机可读存储介质”和“计算机可读存储介质设备”则明确排除了传播的信号本身,而包括所有其他形式的计算机可读介质。
以下的说明可以将一个或多个特征标识为“可选的”。该类型的声明不应当被解释为对可以被认为是可选的特征的详尽的指示;即,尽管没有在文本中明确地标识,但其他特征可以被认为是可选的。此外,对单个实体的任何描述不旨在排除对多个这样的实体的使用;类似地,对多个实体的描述不旨在排除对单个实体的使用。另外,尽管该描述可以将某些特征解释为实行所标识的功能或者实现所标识的机制的可替代方式,但所述特征也可以以任何组合形式被结合。最后,术语“示例性的”或者“说明性地”是指在潜在的许多实现中的一个实现。
A.说明性系统
图1示出了可以从一个或多个文档中去除敏感内容的系统102,所述一个或多个文档是由用户创建的或者以其他方式与用户相关联。文档可以是指任何信息单元。例如,在没有限制的情况下,文档可以对应于由文字处理应用所产生的基于文本的文档、由电子表格应用所产生的电子表格文档、由有关演示的程序所产生的幻灯片板面,等等。在其他情况下,文档可以对应于在线内容,例如网页或网页的一部分。
在一种实现中,敏感内容包括文档中已经由用户所创建或者至少能够被用户修改的所有承载信息的内容。这样的内容在本文一般被为用户定义的内容。用户定义的内容包括文档正文内的字母数字描述性内容、超链接、文件名、图像、元数据等。在大多数情况下,当用户在托管应用中打开文档时,大量的用户定义的内容就立刻被展现给该用户。在其他情况下,在托管应用的一些模式下,一些用户定义的内容(例如,元数据)可以被隐藏而不被查看该文档的用户所看到。例如,用户定义的评论可以包括与基于文本的文档相关联的笔记,该笔记没有被嵌入在该文档的主要内容正文中。
在其他情况下,敏感内容可以包括所有用户定义的内容,但也有一些例外。例如,敏感内容包括文档正文内的所有字母数字描述性内容,但例外是一些常规性分段标题。例如,考虑简历。该文档的敏感内容可以包括构成该简历的所有字母数字描述性内容,但例外是可能出现在简历中的常规标题,例如没有被匿名化的“工作经历”、“教育”、“目标”、和“联系信息”等。在任何事件中,与常规地被视为个人识别信息(PII)的内容相比,在本文中被称为“敏感信息”的内容包含了更多的信息。PII是指能够用来直接或间接地确定特定个人身份的信息,例如个人的名字、地址、(多个)身份号码等。
任何还没有被系统102处理的文档在本文中都被称为原始文档。去除敏感内容对应于在本文中以各种方式被称为修改、去除、洗涤、匿名化、或清理的过程。已经以该方式被处理的文档以各种方式被称为经修改、经洗涤、经匿名化、或经清理的文档。
在其核心处,系统102包括去除组件104,其利用通用占位符信息来替代原始文档中的敏感内容从而产生经修改的文档。通过这样做,系统102隐蔽了文档中的全部或大多数的用户定义的内容。与此同时,去除组件104保存了与该文档相关联的格式和结构。在一些情况下,去除组件104还识别并保存其隐蔽的至少一些敏感内容项的一个或多个属性。
概言之,系统102服务于至少两个目标。首先,系统102通过去除敏感内容而保护了用户的隐私。实际上,系统102去除了全部(或大多数)的用户定义的内容,而不仅是PII的某些字段,并且因此与仅去除PII的所选择的字段的那些系统相比实现了更好的隐私相关的性能。其次,系统102改进了一个或多个接收方实体106后续处理经修改的文档的能力。例如,一个接收方实体对应于分析系统108。分析系统108托管一个或多个计算机实现的分析引擎,所述分析引擎对经修改的文档进行操作以生成一个或多个相应的模型。例如,分析引擎中的至少一些可以对应于机器学习机制。所述分析引擎利用它们对并非完全缺失可分析信息的经修改的文档进行操作这一事实而产生了更加有用且准确的模型。这将该方法与产生完全无意义信息的技术(例如,产生无意义哈希码的加密技术)区分开来。
利用以上介绍,现在将一般地在图中从左向右更详细地描述图1的系统102。为了促进解释,将在与单个用户相关联的单个文档集合的上下文中描述系统102。然而,以下所描述的相同原理可以扩展至与多于一个的用户相关联的文档集合,例如与和(多个)相同应用交互和/或共享一个或多个其他特性等的用户群组相关联的文档集合。
处理发起组件110发起对在一个或多个数据存储单元112(下文为了简明而以单数形式引用)中提供的一个或多个文档所执行的过程。处理发起组件110基于从一个或多个源接收的一个或多个触发事件来确定是否发起该过程。
在第一种情况下,处理发起组件110在接收到用户的如此操作的指示后发起洗涤过程,该指令对应于一种类型的触发事件。在第二种情况下,处理发起组件110在接收到与文档相关联的用户以外的一些用户或实体的如此操作的指令后发起洗涤过程;该指令对应于另一种类型的触发事件。例如,处理发起组件110可以在从系统管理员接收到如此操作的指令后发起该过程。
在第三种情况下,处理发起组件110在定期的基础上发起洗涤过程,例如每天一次、每周一次等。在这里,触发事件对应于在已经到达要调用系统102的经安排的时间时由时间保存机制所生成的输出信号。
在第四种情况下,处理发起组件110响应于用户对特定应用(例如,代表性应用A1)的激活而发起洗涤过程。该动作构成了另一种触发事件。更加具体地,响应于对应用A1的激活,系统102可以对数据存储单元112中与应用A1相关联的文档子集执行洗涤过程。如果得到用户授权,分析系统108与软件开发组件114协作以利用所产生的经匿名化的文档来为应用A1开发新的软件工具,或者为应用A1完善现有的软件工具。例如,分析系统108可以与软件开发组件114协作以响应于对经修改的文档执行机器学习来提供那些新的或经更新的工具。能够参与这样的架构的应用在本文中被称作“被启发的”应用。其之所以被认为被启发的是因为收到了由分析108所执行的模式分析的益处。
该第四种情况之下的动机如下。数据存储单元112可能存储了与用户能够使用的许多不同应用116相关联的各种各样的文档。系统102要分析所有文档会将是耗时且低效的。此外,所述文档中的许多可以与未被启发的应用相关联,这意味着这些应用不能够以上文所描述的方式接收到新的或经更新的软件工具。系统102利用用户对应用A1的激活以作为一种使得系统102关注于高度可能为用户提供价值的工作的方式。这样做提高了其系统操作的速度,并且减少了其对计算资源的使用。
以上所描述的触发事件是作为说明而非限制被描述的。在其他实现中,处理发起组件110可以响应于其他类型的触发事件。在其他的实现中,处理发起组件110可以基于单独的触发事件的任何逻辑组合来关于是否调用洗涤过程进行决策。
当文档处理操作被调用时,文档获取组件118就从数据存储单元112获取文档的子集。更具体地,文档获取组件118采集满足一个或多个特性的文档的子集。在一种情况下,文档获取组件118获取自从上一次执行洗涤操作起还没有被匿名化的所有文档。另外地或可替代地,文档获取组件118获取满足规定特性的所有文档,诸如与一个或多个特定应用相关联的文档,等等。文档获取组件118将所获取到的(多个)文档转发至去除组件104以供处理。
策略选择组件120从可能的修改策略的集合中确定要应用于文档的修改策略。所选出的修改策略确定了文档中的敏感内容被变换为匿名内容的方式。每种修改策略进而由规则集合所定义。以下将阐述规则的示例。通常而言,术语“规则”或“规则集合”在本文中用于指代可以被计算设备用来实行策略的任何逻辑和/或信息。例如,“规则集合”可以包含控制一些其他组件的操作的一个或多个IF-THEN(如果-那么)结构的规则、算法、等式、机器学习模型、一个或多个参数值(和/或任何其他信息项),等等。
策略选择组件120基于一个或多个选择因素来确定修改策略。在第一种情况下,选择因素指定了与文档相关联的用户的偏好。策略选择组件120挑选符合用户的偏好的修改策略。例如,不同修改策略可以将文档匿名化至不同的程度。用户可以指定对于高度隐私的偏好;策略选择组件120通过挑选出提供期望的隐私程度的修改策略来进行响应。
在第二种情况下,选择因素指定了经修改的文档要被发往的司法管辖区。例如,选择因素可以指定了经修改的文档要从第一国家被发送至第二国家。在更加复杂的情况下,选择因素可以描述经修改的文档在其去往接收方实体的路途中要经过的所有信息共享边界。例如,选择因素可以指定文档在被发送至第二司法管辖区之前被临时存储在第一司法管辖区。策略选择组件120利用这种类型的选择因素来挑选与关联于(多个)所识别的司法管辖区相关联的法律和社会规范相兼容的修改策略。
在第三种情况下,选择因素指定了要由接收方实体应用于经修改的文档的过程的类型。策略选择组件120通过挑选出为经修改的文档的期望的终端使用提供最有用的信息的修改策略来对这种类型的选择因素进行响应。例如,考虑这样的选择因素,其指定分析引擎将对经修改的文档的集合执行自然语言处理。响应于该因素,策略选择组件120可以挑选出将文档匿名化同时保存文档中的词语的词性信息的策略,所述词性信息例如是与文档中的每个词语相关联的词性,和/或整个文档中某些词性的概率。
在另一个示例中,选择因素指定分析引擎对文档执行考虑文档的主题分类的分析,例如个体文档是否涉及法律主题、医学主题等。例如,分析引擎可以在逐个领域的基础上确定文档、段落、句子、词语等的平均长度。响应于该因素,策略选择组件120可以挑选出这样的策略,其将文档匿名化同时例如通过识别与文档相关联的主题分类来保存标识与相应文档相关联的领域的信息。在另一种情况下,策略选择组件120可以挑选保存有关文档的另外的领域相关的元数据的策略。例如,假设文档涉及领域X(例如,法律领域),则策略选择组件120可以挑选出这样的策略,其还识别并存储与领域X相关联的某些词语(例如,“司法管辖区”、“互争权利诉讼”等)的频率。
在第四种情况下,选择因素提供了有关哪些策略在过去在接收方实体将对经匿名化的文档执行的过程类型方面已经成功的信息。例如,再次考虑分析引擎将对经匿名化的文档执行某种自然语言处理的情况。系统102可以提供性能信息,其描述了什么样的修改策略针对自然语言处理产生了良好结果以及哪些修改策略提供了不良结果。修改策略在其产生对于准确的机器训练模型的产出有所贡献的经匿名化的文档时产生良好结果。修改策略在其产生对于相对不准确的机器训练模型的产出有所贡献的经匿名化的文档时产生不良结果。模型的准确性进而可以基于其所生成的提供了正确回答的输出结果的百分比而被评估。
以上所描述的选择因素是作为说明而非限制来描述的。在其他实现中,策略选择组件120可以考虑不同的选择因素集合。
在一些情况下,一个或多个用户手动地提供所述选择因素中的至少一些。可替代地或另外地,系统102可以自动地提供所述选择因素中的至少一些。例如,考虑其中终端用户开始与文字处理应用交互以创建文档的情况。另外假设已经开发了对用户所创建的文档执行自然语言处理的一个或多个分析引擎。在该情况下,用户调用应用的动作使得系统102向策略选择组件120发送事件信号,其中该事件信号构成了通知策略选择组件120用户正在使用特定类型的应用的选择因素。策略选择组件120接着使用其逻辑来将该选择因素映射成这样的修改策略,其进行操作以保存(例如)与用户的文档相关联的一些语法和/或语义信息。
策略选择组件120自身可以以不同方式来实现。在一种方法中,策略选择组件120对应于查找表。该查找表将选择因素的集合映射至指定最受欢迎的修改策略的输出结果。在另一种方法中,策略选择组件120可以使用机器训练模型或基于规则的引擎进行决策。数据存储单元122存储该查找表或模型。
去除组件104基于已经由策略选择组件120所选择的修改策略来将文档匿名化。所选择的修改策略与数据存储单元124中提供的规则集合相关联。该规则管理去除组件104处理文档中的不同信息项的方式。下文将在图5-8的描述中阐述不同规则的示例。
作为洗涤操作的一部分,去除组件104可以可选地对文档中的信息项执行分析。例如,去除组件104可以识别文档中的每个词语的词性和/或整个文档中某些词性的概率,或者与整个文档(或者文档的一部分)相关联的主题,等等。去除组件104保存所识别的文档的属性中的至少一些,同时另外去除文档的敏感内容。下文所提供的示例将阐明去除组件104的操作的该方面。
数据存储单元126存储去除组件104所产生的经修改的文档。转发组件128将经修改的文档发送至接收方实体106中的一个或多个。在一些情况下,转发组件128可以跨例如对应于可能关于数据隐私具有不同法规的一个或多个司法管辖区(州、省、国家、公司边界等)的一个或多个信息共享边界来转发经修改的文档。
可选的用户可视性组件130在经修改的文档被传输至(多个)接收方实体106之前为用户示出匿名化过程的结果的示例。例如,考虑用户已经在创建文档时遇到了一些困难的示例。该用户可以将经匿名化的文档发送至技术辅助组件132,由此技术辅助组件132诊断用户的困难。技术辅助组件132可以对应于全自动引擎、半自动服务,或者完全手动的服务。在将经匿名化的文档发送至技术辅助组件之前,用户可以请求用户可视性组件130显示该经匿名化的文档以供用户检查。如果用户对隐蔽程度满意,则他或她可以通过将该经匿名化的文档转发至技术辅助组件132来继续。如果不满意,则用户可以通过与策略选择组件120交互来选择更加严格的修改策略。或者,用户可以选择放弃将经匿名化的文档发送至技术辅助组件132的任务。在其他情况下,用户可以与用户可视性组件130交互从而在不间断的基础上——例如在周期性或事件驱动的基础上——确定要被发送至(多个)接收方实体106的经匿名化的文档的类型。如果用户对于该实践不满意,则该用户可以对合适的配置设定进行改变以中断经匿名化的文档向(多个)接收方实体106的传输。
现在更详细地参考(多个)接收方实体106,分析系统108可以包括准备组件134,其可选地将经修改的文档变换成适合于由一个或多个分析引擎处理的形式。例如,准备组件134可以生成每个经修改的文档的典范版本,其以一致的方式列举了文档的特征。特征的集合构成该文档的矢量表示。
每个分析引擎可以执行任何类型的分析。例如,任何引擎可以对经修改的文档的集合应用任何类型的机器学习过程。在没有限制的情况下,该机器学习过程可以对应于以下的任何一种:回归技术(例如逻辑回归技术);支持向量机技术;决策树技术;聚类技术;神经网络技术;贝叶斯网络技术;等等。在其他情况下,任何分析引擎都可以应用基于规则的过程。
从更高层面的立场来看,一些分析引擎可以执行模式匹配来确定用户动作中的模式。例如,分析引擎可以确定用户动作中的时间模式,例如执行文档选择X的用户也将进行文档选择Y的指示。可替代地或另外地,分析引擎可以确定用户所创建的文档中常见的内容相关模式,其中系统102可以利用该模式来创建模板。
软件开发组件114以分析系统108所开发的一个或多个模型为基础来开发软件工具。在一种方法中,软件开发组件114以全自动的方式来操作。例如,假设分析系统108生成了预测出在用户执行动作A之后该用户立即执行动作B的模型。例如,软件开发工具可以预测出在用户选择创建特定类型的表格ABC时该用户选用字体XYZ。软件开发组件114可以开发工具,所述工具包括检测该用户何时已经执行了动作A的检测组件。软件工具还包括用户界面特征,其在检测到用户执行动作A时向用户提出执行动作B的邀请。例如,该软件工具可以包括出现在用户界面演示的标题部分中的弹出提示;该提示在用户提供创建表格ABC的指令时邀请该用户选用字体XYZ。在其他情况下,该软件开发工具在软件开发者的监督下以半自动的方式操作。在其他情况下,软件开发者以人工方式基于分析系统108所生成的输出结果来驱动开发过程的所有方面。在其他示例中,软件开发组件114可以以在用户文档中找到的常见内容为基础来开发模板。分析引擎例如可以使用聚类分析来识别该常见内容。
以上描述的(多个)接收方实体106的类型是作为示例而非限制被引用的。如图1中的元素136所述,系统102可以提供经修改的文档以供任何其他(多种)类型的自动、半自动、或人工处理来消费。
图2示出了用于实现图1的系统的计算装备。该计算装备包括用户利用其与应用116交互的本地计算设备202,以及一个或多个可选的远程计算设备204。本地计算设备202可以对应于以下的任何一个:台式计算设备、膝上计算设备、任何类型的手持计算设备(例如,智能电话、平板类型计算设备等)、游戏机设备、虚拟现实设备、机顶盒设备、可穿戴计算设备等。(多个)远程计算设备204可以对应于一个或多个服务器。一个或多个计算机网络206将本地计算设备202耦合至(多个)远程计算设备204。(多个)计算机网络206可以对应于任何类型的局域网、广域网(例如,互联网)、一个或多个点对点链路等,或者其任何组合。计算装备还包括与本地计算设备202位于同一位置的一个或多个本地数据存储单元208,以及在关于本地计算设备202的一个或多个远程位置处被提供的一个或多个远程数据存储单元210。
图1所示的各个组件可以以任何方式在本地计算设备202和(多个)远程计算设备204之间分布。图2通过一般地指示本地计算设备202包括系统功能的第一子集212并且(多个)远程计算设备204包括系统功能的第二子集214来对这一点进行图示。
在一种情况下,系统功能的第一子集212实现图1的所有组件。在另一种情况下,系统功能的远程的第二子集214实现图1的所有组件;在该情况下,用户使用本地计算设备202来与系统功能的第二子集214进行交互。在另一种情况下,系统功能的第一子集212和系统功能的第二子集214以分布式方式实现图1的组件。例如,在一种情况下,系统功能的第一子集212实现应用116,或者与应用116相关联的应用功能的至少一部分。系统功能的第二子集214实现图1所示的其他组件。例如,系统功能的第二子集214表示在用户的本地计算设备202上运行应用116的用户所能够使用的基于云的服务。
更加具体地,在一种情况下,在图1中所示的对于文档洗涤过程有所贡献的组件集合是由第一远程系统实现的,而对经匿名化的文档进行操作的(多个)接收方实体则是由第二远程系统实现的。在另一种情况下,所有这样的组件都是由单个远程系统实现的。
图3示出了识别策略选择规则集合的数据存储单元122。每种策略选择规则指定一种修改策略以及与该策略相关联的调用条件的集合。图3还示出了存储修改规则的两个或更多个集合的数据存储单元124。每个修改规则集合与修改策略相关联,并且描述原始文档被变换成经修改的文档的方式。如上文提到的,术语“规则”和“规则集合”要被扩展性地解读为包含计算设备为了实行策略所能够利用的任何控制信息。
在一种实现中,数据存储单元122对应于查找表。该查找表中的每个条目对应于一种策略选择规则,该策略选择规则将选择因素的集合(f1,f2,…,fn)映射至在已知选择因素的情况下合适的修改策略(例如s1)。在操作中,策略选择组件120接收选择因素的集合,并且使用该集合的选择因素作为查找关键字来找出在已知那些选择因素的情况下最适合的修改策略。更精确地,在该上下文中所称的选择因素对应于连同选择因素数值(例如,“USA”)一起的选择因素变量(例如,“司法管辖区”)。
在另一种实现中,数据存储单元122提供了离散或互连规则的集合以便在选择修改策略时使用。例如,那些规则可以被表达为“IF-THEN”类型的规则。可替代地或另外地,数据存储单元122可以提供将选择因素的集合映射为修改策略的指示的机器训练模型。可替代地或另外地,数据存储单元122可以存储控制策略选择组件120的操作的参数值。
在一个实现中,数据存储单元124存储多个修改规则集合。每个这样的规则集合定义了用于将原始文档变换成经修改的文档的修改策略。例如,图1提供了用于在实施第一修改策略s1时使用的修改规则集合的高阶表示。在一个实现中,每个修改规则集合可以包括映射表。该映射表指定可以或可以不出现在任何给定原始文档中的原始信息项的列表。该映射表指定了这些原始信息项要如何被变换成相应的经修改的信息项。
例如,一种说明性映射表可以指示:(a)原始文档中的所有大写字母字符都要被变换成通用占位符字符“X”;(b)所有小写字母字符都要被变换成通用占位符字符“x”;以及(c)所有数字字符都要被变换成占位符字符“0”,等等。在另一个示例中,一种说明性映射表可以通过如下声明来将上述表格加以改变:(a)作为名词字符串的一部分的所有大写字母字符都要被变换成通用占位符字符“N”;(b)作为名词字符串的一部分的所有小写字母字符都要被变换成通用占位符字符“n”;(c)作为动词字符串的一部分的所有大写字母字符都要被变换成通用占位符字符“V”;以及(d)作为动词字符串的一部分的所有小写字母字符都要被变换成通用占位符字符“v”,等等。
可替代地或另外地,如在第一示例中,映射表可以指示所有字符都要被变换成“X”或“x”。此外,映射表可以指定去除组件104要利用补充元数据来对经修改的文档中的每个字符串进行注释,例如通过利用“N”和“n”来标记名词字符串,以及利用“V”和“v”标记动词字符串。该类型的映射表在不使用不同的占位符替代字符的情况下传达了与先前所描述情况相同的属性信息。
可替代地或另外地,去除组件104可以生成与原始文档或者其部分相关的高阶信息,并且接着将描述该高阶信息的元数据附加至相关联的经修改的文档。例如,该高阶信息可以例如以一个或多个统计参数值的形式来描述原始文档或者其部分的语法和/或语义特性。
每个修改规则集合可选地可以包括例外列表。该例外列表指定要从映射表的规则中豁免的字符或字符串。例如,该映射表可以指定所有大写字母和小写字母都要分别利用字符“X”或“x”来替换。但是该例外列表可以指示短语“Work Experience(工作经历)”要从该变换豁免。因此,短语“Work Experience”将会以未经修改的形式出现在经修改的文档中。
其他的实现可以以其他方式提供修改逻辑。例如,另一种实现可以包括条件性修改规则集合,例如被构造为“IF-THEN”类型的规则,或者具有任何其他逻辑结构的规则。举一个例子,修改规则集合可以指定短语“Work Experience”要保持未经修改,但是这仅是在该短语出现在已经被归类为简历的文档的情况下。可替代地或另外地,数据存储单元124可以存储确定去除组件104的操作的参数值。
图4示出了作为图1的系统元件的去除组件104的一种实现。去除组件104可选地可以包括一组内容分析器402。每个内容分析器对原始文档的一些部分进行归类,包括整个原始文档、原始文档的段落、原始文档的句子、原始文档中的词语、原始文档中的字符等。
例如,领域确定组件404确定整个原始文档的主题(在本文也被称作文档的流派、领域等)。词性确定组件406确定原始文档中的每个字符串的词性。作者确定组件408确定在创建原始文档时由多个作者所作出的贡献,在有证据表明文档已经由两个或更多个作者所创建的情况下。音调确定组件410识别与原始文档的每个部分相关联的音调或风格。例如,音调确定组件410可以识别原始文档的每个部分你是表达了被动的还是主动的语音。可替代地或另外地,音调确定组件410可以识别原始文档的每个部分是表达肯定的还是否定的语义,等等。命名实体确定组件412确定原始文档中的每个字符串是否对应于命名实体。(命名实体对应于特定的人、地点、组织、事物等,通常与专有名字相关联。)语言确定组件414确定与原始文档中的每个字符串相关联的自然语言。
以上所标识的内容分析器的列表是作为示例而非限制被引用的;其他实现可以使用内容分析器的不同子集,或者不使用内容分析器。例如而非限制,其他实现可以包括:识别关键术语(词语、短语等)在文档中的存在的内容分析器;生成对文档的高阶摘要的内容分析器(其中,该分析例如可以由基于规则的引擎、深度神经网络等来执行);评估与文档相关联的阅读水平和/或阅读时间的内容分析器(其中,该分析例如可以由线性分类器、深度神经网络等来执行);等等。
更一般地,内容分析器的子集可以执行针对于文本的语法结构的分析。这类分析器包括词性确定组件406。内容分析器的另一个子集可以基于文档的语义维度来执行分析。这类分析器包括领域确定组件404、音调确定组件410、命名实体确定组件412等。内容分析器的另一个子集可以确定文本的某一元级属性,其中这样的分类并不一定取决于文本的特定段的含义。这类分析器包括作者确定组件408和语言确定组件414等。
每个内容分析器可以以任何方法来实现,例如机器训练模型、基于规则的系统等,或者其任何组合。举一个例子,词性确定组件可以由机器训练的条件性随机字段(CRF)模型所实施。领域确定组件404和音调确定组件410可以由机器训练分类组件来实现,例如线性分类模型、神经网络模型、决策树模型等。命名实体确定组件412可以通过查阅指示所考虑的字符串是否对应于命名实体的词典来实现,和/或通过使用任何类型的机器训练分类模型来实现。语言确定组件414可以类似地被实现为查找表和/或任何类型的机器训练的分类模型。作者确定组件408可以由基于规则的系统来实现,和/或通过使用任何类型的机器训练分类模型来实现,其中,所述基于规则的系统从原始文档中提取标识与原始文档内的不同篇章相关联的(多个)作者的现有元数据。
修改组件416实行与所选择的修改策略相关联的修改规则。修改组件416还利用内容分析器402的输出结果。例如,根据说明性规则,修改组件416可以基于来自词性确定组件406的关于词语“dog(狗)”是名词的指示而利用“Nnn”替代词语“Dog”。
图5-7示出了图1的系统102的操作的三个示例。以图5开始,该附图示出了原始文档502的一部分以及对应的经修改的文档504的一部分。根据特定的所选择的修改策略s1,系统102进行以下操作:(a)用“X”替代所有大写字母字符;(b)用“x”替代所有小写字母字符;以及(c)用“0”替代所有数字字符。尽管没有示出,但是系统102针对与文档相关联的所有元数据以及文件名自身执行该相同的替换。系统102还用与原始图像具有相同大小、位置、和分辨率的通用占位符图像来替代每个图像。系统102还将与每个超文本链接相关联的文本以及与该超文本链接相关联的地址匿名化。
然而,应当注意,系统102保存与原始文档502相关联的所有格式和结构。原始文档的该维度包括了原始文档502中的文本排列、应用于原始文档502中的文本的格式(包括加粗、下划线、斜体、文本颜色等)、与原始文档502中的原始文本相关联的字体、原始文本502的表格结构(在该特定示例中未示出),等等。
在可替代的示例中(未示出),系统102可以基于将原始文档502中的一个或多个短语包括在例外列表中来使得这些短语免于修改。例如,系统102可以使得短语“Table ofContent(内容表格)”免于匿名化。这种操作方式背后的原因在于该短语本质上是通用的。因此,在经修改的文档中保留该短语对于在仍然保护了与原始文档502相关联的真正敏感的内容的同时更好地传达文档的特性是有帮助的。
在第二示例中,图6示出了原始文档602的一部分以及通过应用第二修改策略s2所产生的对应的经修改的文档604的一部分。在这种情况下,系统102应用上文参考图5所描述的相同修改规则,例如通过用“X”和“x”替代字母字符。此外,图6中的系统102进行操作以:(a)用“N”替代名词字符串中的所有大写字母字符;(b)用“n”替代名词字符串中的所有小写字母字符;(c)用“V”替代动词字符串中的所有大写字母字符;(d)用“v”替代动词字符串中的所有小写字母字符;(e)用“E”替代命名实体中的所有大写字母字符;以及(f)用“e”替代命名实体中的所有小写字母字符,等等。系统102还以层级来应用这些规则。例如,系统102将字符串标记为命名实体而不是名词,尽管该命名实体也是名词。
图6还示出了如在经修改的文档606的可替代部分中指示的表达元数据的可替代方式,其对应于另一修改策略s2'(表示策略s2的变化形式)。在这里,系统102通过用“X”或“x”替代字符串来采用图5所示的修改规则。此外,系统102利用补充元数据来对串进行注释,所述补充元数据指示它们是对应于名词短语、动词短语、还是命名实体。系统102可以扩展图6所示的操作模式以识别并保存另外的元数据项,例如描述了以下项的元数据:其他词性(除名词和动词之外);与原始文档602或其一部分相关联的更高阶的摘要信息(例如,涉及原始文档602的语法和/或语义特性的统计信息等);与原始文档602的每个部分相关联的音调、主动/被动语音等,诸如此类。
在第三示例中,图7示出了原始文档702的一部分以及通过应用第三修改策略s3所产生的对应的经修改的文档704的一部分。在该情况下,系统102例如通过用“X”和“x”替代字母字符来应用上文参考图5所描述的相同修改规则。但是系统102不对某些术语/短语进行匿名化,例如“estate(财产)”、“per stirpes(按代位)”、“will(将)”、“personalproperty(个人财产)”等。系统120之所以免于对这些术语/短语匿名化是因为它们出现在排除列表中。或者,系统102可以免于修改这些术语/短语,原因在于:(1)整个文档已经被评估为涉及到法律文档;以及(2)所述术语/短语出现在例外列表中。这意味着系统102将在这些术语/短语出现在法律文档以外的任何文档中的情况下对它们进行匿名化。可替代地或另外地,系统102可以在以下时候免于修改某些术语/短语:(1)所述术语/短语出现在文档的某些部分(例如,标题)中;以及(2)所述术语/短语出现在例外列表中。这意味着系统102将根据某些术语/短语是否出现在文档内的某些上下文中来对它们进行匿名化。
此外,注意到,原始文档702由第一作者所撰写,但是包括由第二作者所作的评论706。还注意到,第二作者以西班牙语撰写了评论706。根据一种说明性修改规则,系统102用特殊的通用占位符字符(例如,“F”和“f”)来替代西班牙语文本以指示这些字符串对应于外国语言,或者这些字符串具体地涉及到西班牙语。该示例进行了默认自然语言是英语的非限制性假设。
图7还示出了如经修改的文档708的可替代部分中指示的与修改策略s3'相关联的捕获元数据的可替代方式。在这里,系统102通过用“X”或“x”替代字母字符来采用图5所示的修改规则。此外,系统102利用补充元数据对串进行注释,所述补充元数据标识与每个字符串相关联的作者、与每个字符串相关联的外国语言,等等。还注意到,系统102在该情况下不使任何字符串未被隐蔽。但是如由于具有标记“主题=L”的标签而显然的,系统102将指示其可能涉及到法律文档的元数据与整个经修改的文档708进行了关联。可替代地,系统102可能已经对经修改的文档102中的个体术语进行了标记以指示它们是法律短语。
图7还一般地图示了不同修改规则可以给予不同程度的隐私的观点。在经修改的文档704中,读者有可能从部分匿名化的文本中提取出有意义的隐私信息。例如,读者可以合理地推断出经修改的文档704是一份遗嘱,并且该遗嘱将财产以代位继承的方式遗赠给一列表的接收方。读者还可以基于每个推测姓名中的字符数量连同有关谁可能被命名的一些先验知识一起而推导出接收方(以及可能被排除的个人)的身份。出于该原因,用户可能希望利用在经修改的文档708中所使用的匿名化策略,其给予了更大程度的隐私。
作为部分A的结论,考虑以下端对端的示例。假设应用提供了文字处理体验,并且用户在他或她工作的过程中有向下属撰写有关每月绩效目标的备忘录的习惯。该备忘录趋向于遵循一种模式并且包括重复的语言。为了创建备忘录,该用户经常诉诸于从先前的备忘录剪切和粘贴。
在第一阶段,处理发起组件110确定用户已经激活了文字处理应用以创建新的每月绩效备忘录。对该文字处理应用的激活作为发起了由系统102进行的洗涤操作的触发条件来操作。作为响应,文档获取组件118获取该用户(或相关用户群组)在过去一年或者某一其他时间段内所创建的文档的子集。
策略选择组件120基于选择因素的组合来挑选修改策略。一种选择因素指示已经开发了基于自然语言的机器学习分析引擎的集合以处理由用户所使用的特定文字处理应用产生的文档。另一种选择因素指示将经匿名化的文档转发至分析引擎将不会涉及到将文档发送至该用户的当前信息共享司法管辖区以外。考虑到这些因素,假设策略选择组件120挑选了图6所示的修改策略的类型。该策略标记出文档中的名词、动词、和命名实体,同时去除了敏感内容。与所有修改策略相同,其也保存了该文档的格式和结构。
去除组件104基于所选择的修改策略来将用户的文档匿名化。转发组件128将经匿名化的文档转发至一个或多个机器学习分析引擎。假设一个分析引擎检测到用户的备忘录创建活动中的以下模式。首先,该分析引擎确定用户在起草备忘录时常常从可重复使用的段落中得到,但是在创建其他类型的文档时则并不如此。其次,该分析引擎确定该用户的备忘录常常包括迹象(telltale)结构模式和语法模式。响应于这些发现,软件开发组件114开发出实时地分析用户正在创建的文档的软件工具。当其检测到用户正在创建备忘录时(基于用户的书写中的迹象语法和/或结构模式的表现),其就为用户提供用于访问一组经常重复使用的段落的弹出式邀请。软件开发组件114在用户下一次与特定文字处理应用交互时向该用户提供该软件工具。用户可以同意邀请,此时软件开发组件114将该软件工具下载至用户的本地计算设备,或者以其他方式使得该软件工具对用户可用。
系统102在该示例中实现了至少两个目标。第一,其将文档匿名化以保护创建所述文档的用户的隐私。第二,其保存了最终使得软件开发组件114能够生成准确的机器生成模型以供用户使用的信息,所述模型例如机器学习模型或基于规则的机制等。此外,系统102通过对处理用户文档时所涉及到的复杂决策制定进行处理的通用技术架构来实现这些目标。例如通过消除或减少对于专设的(ad hoc)、视情况而定的、以及易于出错的隐私相关问题处置的依赖,组织可以利用该架构以准确、时间高效、且资源高效的方式来实现上述双重目标。
B.说明性过程
图8以流程图的形式示出了对部分A的系统102的操作进行解释的过程802。由于已经在部分A中描述了系统102操作之下的原则,所以某些操作在该部分中将以概述方式来提及。如具体实施方式的前言部分中所提到的,过程802被表达为以特定顺序执行的一系列操作。但是这些操作的顺序仅是代表性的,并且可以以任何方式而有所变化。
在框804处,系统102接收一个或多个触发事件。在框806处,系统102响应于对(多个)触发事件的接收而发起文档处理功能以提供发起指令。在框808处,系统102响应于发起指令而从数据存储单元获取一个或多个原始文档。在框810处,系统102(可选地)接收一个或多个选择因素。在框812处,系统814(可选地)响应于(多个)选择因素而识别要在从(多个)原始文档中去除敏感内容时使用的修改策略,以提供所选择的修改策略。在框814处,系统102根据所选择的修改策略以及根据相关联的修改规则集合来从(多个)原始文档中去除敏感内容,以提供一个或多个经修改的文档,同时保存与一个或多个原始文档相关联的格式和结构。在框816处,系统102将(多个)经修改的文档转发至接收方实体,例如以(多个)经修改的文档为基础来执行机器学习的计算机制。在一个实现中,所述原则因素中的至少一个描述接收方实体所执行的处理的特性。
C.代表性计算功能
图9示出了可以用于实现在前述附图中所阐述的机制的任何方面的计算功能902。例如,图9所示的计算功能902的类型可以被用来实现图2所示的本地用户计算设备202和/或图2所示的任何远程计算设备204。在所有情况下,计算功能902表示一个或多个物理和有形的过程机制。
计算功能902可以包括一个或多个硬件处理器设备904,例如一个或多个中央处理器(CPU)和/或一个或多个图形处理器(GPU),等等。计算功能902还可以包括用于存储诸如机器可读指令、设置、数据等的任何类型的信息的任何存储资源(也被称作计算机可读存储介质或计算机可读存储介质设备)。在没有限制的情况下,例如,存储资源906可以包括任何(多种)类型的RAM、任何(多种)类型的ROM、闪速存储器、硬盘、光盘,等等。更加一般地,任何存储资源可以使用用来存储信息的任何技术。另外,任何存储资源可以提供对信息的易失性或非易失性保存。另外,任何存储资源可以表示计算功能902的固定或可去除组件。在(多个)硬件处理器设备904实施任何存储资源或存储资源组合中存储的计算机可读指令时,计算功能902可以执行以上所描述的任何功能。例如,计算功能902可以实施计算机可读指令来执行部分B中所描述的过程802的每个框。计算功能902还包括用于与任何存储资源交互的一个或多个驱动机制908,例如硬盘驱动机制、光盘驱动机制,等等。
计算功能902还包括用于(经由输入设备912)接收各种输入以及用于(经由输出设备914)提供各种输出的输入/生成组件910。说明性的输入设备包括键盘设备、鼠标输入设备、触摸屏输入设备、数字板、一个或多个静态图像相机、一个或多个视频相机、一个或多个深度相机系统、一个或多个麦克风、语音识别机制、任何运动检测机制(例如,加速度计、陀螺仪等),等等。一种特定的输出机制可以包括显示设备916和相关联的图形用户界面呈现(GUI)918。显示设备916可以对应于液晶显示设备、发光二极管显示设备、阴极射线管设备、投影机制等。其他输出设备包括打印机、一个或多个扬声器、触觉输出机制、归档机制(用于存储输出信息),等等。计算功能902还可以包括一个或多个网络接口920,其用于经由一个或多个通信管道922与其他设备交换数据。一个或多个通信总线924将上述组件通信地耦合在一起。
可以以多种方式来实现通信导管922,例如,通过局域网、广域网(例如,互联网)、点对点连接等、或其组合来实现。通信导管922可以包括由任何协议或协议的组合所管理的硬接线链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
可替代地或另外地,可以至少部分地由一个或多个硬件逻辑组件来执行在前述部分中所描述的功能中的任何功能。例如,在没有限制的情况下,可以使用以下项中的一个或多个来实现计算功能1402,包括:现场可编程门阵列(FPGA);专用集成电路(ASIC);专用标准产品(ASSP);片上系统(SOC);复杂可编程逻辑器件(CPLD)等。在该情况下,机器可执行指令是以硬件逻辑自身来实施的。
以下概述提供了本文所阐述的技术的说明性方面的非穷举列表。
根据第一方面,描述了一个或多个用于从文档中去除敏感内容的计算设备。该(多个)计算设备包括:数据存储单元,其用于存储一个或多个原始文档;处理发起组件,其被配置为响应于接收到一个或多个触发事件而发起文档处理功能以提供发起指令;文档获取组件,其被配置为响应于该发起指令而从该数据存储获取要处理的一个或多个原始文档;策略选择组件,其被配置为响应于一个或多个选择因素而识别用于在从(多个)原始文档中去除敏感内容时使用的策略以提供所选择的修改策略;去除组件,其被配置为根据所选择的修改策略以及根据相关联的修改规则集合从(多个)原始文档中去除敏感内容以提供一个或多个经修改的文档;以及转发组件,其被配置为将(多个)经修改的文档通过通信管道转发至接收方实体。该去除组件被配置为从(多个)原始文档中去除敏感内容,同时保存与该(多个)原始文档相关联的格式和结构。另外,至少一种选择因素描述了要由接收方实体所执行的过程的特性。
根据第二方面,一种触发事件对应于用户对特定应用的激活。另外,该(多个)原始文档与该特定应用相关联。另外,该接收方实体对应于计算机制,该计算机制基于该(多个)经修改的文档来执行机器实现的分析,从而提供用于结合该特定应用使用的模型。
根据第三方面,该接收方实体是基于该(多个)经修改的文档执行机器实现的分析的计算机制。该第一方面中所提到的选择因素描述了该机器实现的分析所执行的过程的特性。
根据第四方面,另一种选择因素描述了与该接收方实体相关联的司法管辖区的隐私要求。
根据第五方面,另一种选择因素描述了与该(多个)原始文档相关联的用户的偏好。
根据第六方面,该修改规则集合提供了用于进行以下操作的指令:识别原始文档中的字符串中的原始字符;以及利用预先定义的通用占位符字符来替代该原始字符,同时保存与该原始字符和/或该原始字符出现在其中的字符串的属性相关的信息。
根据(取决于第六方面的)第七方面,该通用占位符字符是从两个或更多个可能的通用占位符字符的集合中选择的,并且该保存操作是通过从该集合中对通用占位符字符的选择而被执行的。
根据(取决于第六方面的)第八方面,该保存操作通过将补充元数据与通用占位符字符进行关联而被执行,该补充元数据传达了该属性。
根据(取决于第六方面的)第九方面,该去除组件包括内容分析器组件,其被配置为对(多个)原始文档中的文本执行分析以识别该属性。
根据(取决于第六方面的)第十方面,该去除组件被配置为识别应用于该原始字符和/或该原始字符出现在其中的字符串的属性集合中的每个属性。该属性集合包括:指示该原始字符是否为大写字母字符的第一属性;指示该原始字符是否为小写字母字符的第二属性;以及指示该原始字符是否为数字字符的第三属性。
根据第十一方面,该属性集合还包括指定与该字符串相关联的语法特性的属性。
根据第十二方面,该属性集合还包括指定与该原始字符和/或字符串相关联的自然语言的属性。
根据第十三方面,该属性集合还包括指定与该字符串相关联的语义特性的属性。
根据第十四方面,该修改规则集合指定从该修改规则集合中的一项或多项其他规则豁免的字符串的集合。
根据第十五方面,该修改规则集合提供指令,该指令用于生成并保存描述整个原始文档或原始文档的一部分的至少一个特性的元数据。
根据第十六方面,描述了一种由一个或多个计算设备实现以便从文档中去除敏感内容的方法。该方法包括:接收一个或多个触发事件;响应于接收到(多个)触发事件而发起文档处理功能以提供发起指令;响应于该发起指令而获取要处理的一个或多个原始文档;接收一个或多个选择因素;响应于(多个)选择因素而识别用于在从(多个)原始文档中去除敏感内容时使用的修改策略以提供所选择的修改策略;根据所选择的修改策略以及根据相关联的修改规则集合从(多个)原始文档中去除敏感内容,以提供一个或多个经修改的文档,同时保存与该(多个)原始文档相关联的格式和结构;以及将该(多个)经修改的文档转发至计算机制,所述计算机制以该(多个)经修改的文档为基础来执行机器实现的分析。该选择因素之一描述了该机器实现的分析所执行的过程的特性。
根据(取决于第十六方面的)第十七方面,该修改规则集合提供了用于进行以下操作的指令:识别原始文档中的字符串中的原始字符;以及利用预先定义的通用占位符字符来替代该原始字符,同时保存与该原始字符和/或该原始字符出现在其中的字符串的属性相关的信息。该属性通过对该通用占位符字符自身和/或与该通用占位符字符相关联的补充元数据的选择而被传达。
根据(取决于第十六方面的)第十八方面,该去除操作识别应用于该原始字符和/或该原始字符出现在其中的字符串的属性集合中的每个属性。该属性集合包括:指示该原始字符是否为大写字母字符的第一属性;指示该原始字符是否为小写字母字符的第二属性;指示该原始字符是否为数字字符的第三属性;指定与该字符串相关联的语法特性的第四属性;指定与该原始字符和/或字符串相关联的自然语言的第五属性;指定与该原始字符和/或字符串相关联的作者的第六属性;以及指定与该字符串相关联的语义特性的第七属性。
根据第十九方面,描述了一种用于存储计算机可读指令的计算机可读存储介质。该计算机可读指令当由一个或多个处理器设备执行时实行一种方法,所述方法包括:接收指示用户已经开始与特定应用交互的触发事件;响应于接收到该触发事件而发起文档处理功能以提供发起指令;响应于该发起指令而获取要处理的一个或多个原始文档,该(多个)原始文档与该特定应用相关联;根据相关联的修改规则集合从(多个)原始文档中去除敏感内容以提供一个或多个经修改的文档,同时保存与该(多个)原始文档相关联的格式和结构;以及将该(多个)经修改的文档转发至计算机制,所述计算机制以该(多个)经修改的文档为基础来执行机器实现的分析。该机器实现的分析被配置为产生用于与该特定应用一起被使用的模型。
根据(取决于第十九方面的)第二十方面,该去除操作涉及到识别应用于该原始字符和/或该原始字符出现在其中的字符串的属性集合中的每个属性。该属性集合包括:指示该原始字符是否为大写字母字符的第一属性;指示该原始字符是否为小写字母字符的第二属性;指示该原始字符是否为数字字符的第三属性;指定与该字符串相关联的语法特性的第四属性;指定与该原始字符和/或字符串相关联的自然语言的第五属性;指定与该原始字符和/或字符串相关联的作者的第六属性;以及指定与该字符串相关联的语义特性的第七属性。
第二十一方面对应于以上所提及的第一至第二十方面的任何组合(例如,并非在逻辑上不一致的任何置换或子集)。
第二十二方面对应于与第一至第二十一方面相关联的任何方法对应形式、设备对应形式、器件加功能对应形式、计算机可读存储介质对应形式、数据结构对应形式、制造品对应形式、图形用户界面演示对应形式等。
最后,本文所描述地功能可以采用各种机制来确保用户数据以符合适用法规、社会规范以及个体用户的预期和偏好的形式被处置。例如,该功能可以允许用户明确选择同意该功能的提供(并且随后明确选择退出)。该功能还可以提供适当的安全机制以确保用户数据的隐私,诸如密码保护机制等。
另外,该说明书已经以说明性挑战和问题为背景给出了各种概念。这种解释方式并非意在建议他人已经以本文所指定的方式意识到和/或明确表达出该挑战或问题。另外,这种解释方式并非意在建议权利要求中所引用的主题被局限于解决所标识的挑战或问题;也就是说,权利要求中的主题可以在本文所描述的那些以外的挑战或问题的环境下得以应用。
虽然已经以特定于结构特征和/或方法动作的语言描述了主题,但是所要理解的是,所附权利要求中限定的主题并不一定局限于上文所描述的具体特征或动作。相反,上文所描述的具体特征或动作是作为实施权利要求的示例形式而被公开。

Claims (15)

1.一个或多个计算设备,包括:
数据存储单元,其将不同的选择因素映射至不同的文档修改策略,所述不同的文档修改策略针对敏感内容的自动变换指定不同的文档修改规则;
处理设备;以及
存储资源,其存储机器可读指令,所述机器可读指令当由所述处理设备执行时,使所述处理设备进行以下操作:
响应于对一个或多个触发事件的接收而发起文档处理功能以提供发起指令;
响应于所述发起指令,获取用于处理的一个或多个原始文档;
至少基于与要由接收方实体产生的机器训练模型的类型相关联的选择因素,从所述数据存储单元中选择用于变换所述一个或多个原始文档中的敏感内容的文档修改策略,该文档修改策略指定一个或多个文档修改规则,所述一个或多个文档修改规则保存在所述一个或多个原始文档中适合于产生该类型的机器训练模型的信息;
根据与该文档修改策略相关联的所述一个或多个文档修改规则,变换所述一个或多个原始文档中的敏感内容,以提供一个或多个经修改的文档,所述一个或多个经修改的文档保存与所述一个或多个原始文档相关联的格式和结构;以及
将所述一个或多个经修改的文档通过通信管道转发至所述接收方实体。
2.根据权利要求1所述的一个或多个计算设备,
其中,一个触发事件对应于对应用的激活,
其中,所述一个或多个原始文档与所述应用相关联,并且
其中,所述接收方实体对应于计算机制,所述计算机制被配置为以所述一个或多个经修改的文档为基础来执行机器实现的分析,从而生成用于结合所述应用使用的所述机器训练模型。
3.根据权利要求1所述的一个或多个计算设备,
其中,所述接收方实体是计算机制,所述计算机制被配置为以所述一个或多个经修改的文档为基础来生成所述机器训练模型,并且
其中,与要由接收方实体产生的机器训练模型的类型相关联的所述选择因素描述由所述接收方实体执行的处理的特性。
4.根据权利要求1所述的一个或多个计算设备,其中,所述一个或多个文档修改规则提供用于进行以下操作的指令:
识别所述一个或多个原始文档中的字符串中的原始字符;以及
利用预先定义的通用占位符字符来替代所述原始字符,同时保存与所述原始字符和/或所述原始字符出现在其中的所述字符串的属性相关的信息。
5.根据权利要求4所述的一个或多个计算设备,其中,所述预先定义的通用占位符字符是从两个或更多个可能的通用占位符字符的集合中选择的,并且其中,所述保存是通过从所述集合中对所述预先定义的通用占位符字符的选择而被执行的。
6.根据权利要求4所述的一个或多个计算设备,其中,所述机器可读指令当由所述处理设备执行时,使所述处理设备进行以下操作:
通过将补充元数据与所述预先定义的通用占位符字符进行关联而保存在所述一个或多个原始文档中的所述信息,所述补充元数据传达所述属性。
7.根据权利要求4所述的一个或多个计算设备,其中,所述机器可读指令当由所述处理设备执行时,使所述处理设备进行以下操作:
对所述一个或多个原始文档中的文本执行分析以识别所述属性。
8.根据权利要求4所述的一个或多个计算设备,其中,所述机器可读指令当由所述处理设备执行时,使所述处理设备进行以下操作:
识别并保存应用于所述原始字符和/或所述原始字符出现在其中的所述字符串的属性集合中的每个属性,其中,所述属性集合包括:
指示所述原始字符是否是大写字母字符的第一属性;
指示所述原始字符是否是小写字母字符的第二属性;以及
指示所述原始字符是否是数字字符的第三属性。
9.根据权利要求8所述的一个或多个计算设备,其中,所述属性集合包括语法属性,所述语法属性指定与所述字符串相关联的语法特性。
10.根据权利要求8所述的一个或多个计算设备,其中,所述属性集合包括语言属性,所述语言属性指定与所述原始字符和/或所述字符串相关联的自然语言。
11.根据权利要求8所述的一个或多个计算设备,其中,所述属性集合包括语义属性,所述语义属性指定与所述字符串相关联的语义特性。
12.根据权利要求4所述的一个或多个计算设备,其中,第一文档修改规则指定从一个或多个其他文档修改规则豁免的字符串集合。
13.根据权利要求1所述的一个或多个计算设备,其中,所述一个或多个文档修改规则提供指令,所述指令用于生成并保存描述所述一个或多个原始文档的至少一个特性的元数据。
14.一种由一个或多个计算设备实现的方法,所述方法包括:
访问数据存储单元,所述数据存储单元将不同的选择因素映射至不同的文档修改策略,所述不同的文档修改策略针对原始文档中的敏感内容的自动变换指定不同的文档修改规则;
接收一个或多个触发事件;
响应于对所述一个或多个触发事件的接收而发起文档处理功能以提供发起指令;
响应于所述发起指令,获取要处理的原始文档;
接收与该原始文档相关联的一个或多个选择因素,所述一个或多个选择因素包括至少一个选择因素,所述至少一个选择因素识别要对源自该原始文档的经修改的文档执行的后续机器实现的分析的类型,其中,所述后续机器实现的分析涉及使用所述经修改的文档生成机器训练模型;
将所述一个或多个选择因素映射至所述数据存储单元中的文档修改策略,该文档修改策略指定一个或多个文档修改规则,所述一个或多个文档修改规则保存在该原始文档中适合于生成所述机器训练模型的信息;
根据由该文档修改策略指定的所述一个或多个文档修改规则,对来自该原始文档的敏感内容进行变换,所述变换导致所述经修改的文档,同时保存与该原始文档相关联的至少一些格式或结构;以及
将所述经修改的文档转发至被配置为使用所述经修改的文档生成所述机器训练模型的计算机制。
15.一种存储计算机可读指令的计算机可读存储介质,所述计算机可读指令当由一个或多个处理器设备执行时,使所述一个或多个处理器设备执行包括以下操作的动作:
获取要处理的原始文档;
访问数据存储单元,所述数据存储单元将不同的选择因素映射至不同的文档修改策略,所述不同的文档修改策略针对敏感内容的自动变换指定不同的文档修改规则;
识别用于处理所述原始文档的一个或多个选择因素,所述一个或多个选择因素包括与使用源自所述原始文档的经修改的文档产生机器训练模型相关的至少一个选择因素;
将所述一个或多个选择因素映射到所述数据存储单元中的文档修改策略,该文档修改策略指定一个或多个文档修改规则,所述一个或多个文档修改规则保存所述原始文档中适合于所述机器训练模型的产生的具体信息;
根据所述一个或多个文档修改规则对来自所述原始文档的敏感内容进行变换,所述变换导致经修改的文档并保存所述具体信息;以及
将所述经修改的文档提供给实体以生成所述机器训练模型。
CN201880047969.0A 2017-07-17 2018-05-29 用于从文档中去除敏感内容的设备和方法 Active CN110914824B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US15/650,991 2017-07-17
US15/650,991 US10713390B2 (en) 2017-07-17 2017-07-17 Removing sensitive content from documents while preserving their usefulness for subsequent processing
PCT/US2018/034807 WO2019018060A1 (en) 2017-07-17 2018-05-29 REMOVAL OF SENSITIVE CONTENT FROM DOCUMENTS WHILE PRESERVING THEIR UTILITY FOR FURTHER TREATMENT

Publications (2)

Publication Number Publication Date
CN110914824A CN110914824A (zh) 2020-03-24
CN110914824B true CN110914824B (zh) 2023-10-13

Family

ID=62598091

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880047969.0A Active CN110914824B (zh) 2017-07-17 2018-05-29 用于从文档中去除敏感内容的设备和方法

Country Status (4)

Country Link
US (1) US10713390B2 (zh)
EP (1) EP3655877B1 (zh)
CN (1) CN110914824B (zh)
WO (1) WO2019018060A1 (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10910089B2 (en) 2015-03-20 2021-02-02 Universal Patient Key, Inc. Methods and systems providing centralized encryption key management for sharing data across diverse entities
US11580254B2 (en) * 2017-08-24 2023-02-14 The Regents Of The University Of Colorado, A Body Corporate Systems and methods for record linkage
US11537748B2 (en) 2018-01-26 2022-12-27 Datavant, Inc. Self-contained system for de-identifying unstructured data in healthcare records
US11120144B1 (en) 2018-04-12 2021-09-14 Datavant, Inc. Methods and systems providing central management of distributed de-identification and tokenization software for sharing data
US11042668B1 (en) * 2018-04-12 2021-06-22 Datavant, Inc. System for preparing data for expert certification and monitoring data over time to ensure compliance with certified boundary conditions
US11080423B1 (en) 2018-04-13 2021-08-03 Datavant, Inc. System for simulating a de-identified healthcare data set and creating simulated personal data while retaining profile of authentic data
US10880273B2 (en) * 2018-07-26 2020-12-29 Insight Sciences Corporation Secure electronic messaging system
US10585989B1 (en) * 2018-09-07 2020-03-10 International Business Machines Corporation Machine-learning based detection and classification of personally identifiable information
US20200285771A1 (en) * 2019-03-05 2020-09-10 Abhishek Dey System and method for removing personally identifiable information from medical data
US11720621B2 (en) * 2019-03-18 2023-08-08 Apple Inc. Systems and methods for naming objects based on object content
US11562134B2 (en) * 2019-04-02 2023-01-24 Genpact Luxembourg S.à r.l. II Method and system for advanced document redaction
US11449674B2 (en) * 2020-04-28 2022-09-20 International Business Machines Corporation Utility-preserving text de-identification with privacy guarantees
US11217223B2 (en) 2020-04-28 2022-01-04 International Business Machines Corporation Speaker identity and content de-identification
JP7513089B2 (ja) 2020-06-03 2024-07-09 日本電気株式会社 文書の黒塗り箇所表示システム、方法、プログラム
US11755779B1 (en) 2020-09-30 2023-09-12 Datavant, Inc. Linking of tokenized trial data to other tokenized data
US11880473B2 (en) 2021-09-23 2024-01-23 International Business Machines Corporation Removing data having a data type from a data set
US11681865B2 (en) 2021-09-23 2023-06-20 International Business Machines Corporation Annotating a log based on log documentation
US20230185934A1 (en) * 2021-12-14 2023-06-15 Intuit Inc. Rule-based targeted extraction and encryption of sensitive document features
CN117150484B (zh) * 2023-10-30 2024-02-13 信智慧通科技(北京)有限公司 一种页面信息的处理方法、装置及设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329140A (zh) * 2010-12-22 2013-09-25 皇家飞利浦电子股份有限公司 基于用户隐私偏好创建访问控制策略
CN106663175A (zh) * 2014-09-03 2017-05-10 微软技术许可有限责任公司 在保护敏感信息的同时外包文档传输任务

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6631482B1 (en) * 2000-01-11 2003-10-07 International Business Machines Corporation Method and system for providing data output for analysis
US7533420B2 (en) 2004-12-09 2009-05-12 Microsoft Corporation System and method for restricting user access to a network document
US9065643B2 (en) 2006-04-05 2015-06-23 Visa U.S.A. Inc. System and method for account identifier obfuscation
CN101802840A (zh) * 2007-07-30 2010-08-11 微差通信公司 扫描至编校的可搜索文档
US20100046015A1 (en) * 2008-08-21 2010-02-25 Craig Thompson Whittle Methods and systems for controlled printing of documents including sensitive information
US9195808B1 (en) * 2009-07-27 2015-11-24 Exelis Inc. Systems and methods for proactive document scanning
US8510850B2 (en) 2010-12-17 2013-08-13 Microsoft Corporation Functionality for providing de-identified data
US8959654B2 (en) * 2011-05-23 2015-02-17 International Business Machines Corporation Minimizing sensitive data exposure during preparation of redacted documents
US8688601B2 (en) * 2011-05-23 2014-04-01 Symantec Corporation Systems and methods for generating machine learning-based classifiers for detecting specific categories of sensitive information
US8762406B2 (en) * 2011-12-01 2014-06-24 Oracle International Corporation Real-time data redaction in a database management system
US9489354B1 (en) 2012-06-27 2016-11-08 Amazon Technologies, Inc. Masking content while preserving layout of a webpage
US20140019586A1 (en) 2012-07-13 2014-01-16 Infosys Limited Methods for format preserving and data masking and devices thereof
US9875369B2 (en) 2013-01-23 2018-01-23 Evernote Corporation Automatic protection of partial document content
US9727746B2 (en) * 2013-09-23 2017-08-08 Xerox Corporation Policy aware configurable data redaction based on sensitivity and use factors
WO2015163924A1 (en) * 2014-04-25 2015-10-29 Hewlett-Packard Development Company, L.P. Data management in a distributed computing environment
US9734148B2 (en) 2014-10-21 2017-08-15 Google Inc. Information redaction from document data
US9697349B2 (en) * 2014-10-26 2017-07-04 Microsoft Technology Licensing, Llc Access blocking for data loss prevention in collaborative environments
US9477913B2 (en) 2014-11-12 2016-10-25 Xerox Corporation Print path obfuscation method and system for document content analytics assessment
US10218843B2 (en) * 2014-12-04 2019-02-26 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Contextual contact substitution for mobile devices
US9684798B2 (en) * 2015-05-01 2017-06-20 International Business Machines Corporation Audience-based sensitive information handling for shared collaborative documents
US20170193157A1 (en) * 2015-12-30 2017-07-06 Microsoft Technology Licensing, Llc Testing of Medicinal Drugs and Drug Combinations
US9886584B2 (en) * 2016-02-25 2018-02-06 International Business Machines Corporation Optimized redaction system
US10542123B2 (en) * 2016-05-23 2020-01-21 Usabilla B.V. System and method for generating and monitoring feedback of a published webpage as implemented on a remote client

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103329140A (zh) * 2010-12-22 2013-09-25 皇家飞利浦电子股份有限公司 基于用户隐私偏好创建访问控制策略
CN106663175A (zh) * 2014-09-03 2017-05-10 微软技术许可有限责任公司 在保护敏感信息的同时外包文档传输任务

Also Published As

Publication number Publication date
EP3655877B1 (en) 2021-07-21
US10713390B2 (en) 2020-07-14
CN110914824A (zh) 2020-03-24
US20190018983A1 (en) 2019-01-17
WO2019018060A1 (en) 2019-01-24
EP3655877A1 (en) 2020-05-27

Similar Documents

Publication Publication Date Title
CN110914824B (zh) 用于从文档中去除敏感内容的设备和方法
US9910886B2 (en) Visual representation of question quality
US10795922B2 (en) Authorship enhanced corpus ingestion for natural language processing
US9940323B2 (en) Text classifier operation
CN107026787B (zh) 确定电子通信回复中包括的非文本回复内容的方法和装置
RU2571373C2 (ru) Метод анализа тональности текстовых данных
US11164026B2 (en) Graphical user interface generation based on image analysis
US10585901B2 (en) Tailoring question answer results to personality traits
US9760627B1 (en) Private-public context analysis for natural language content disambiguation
US20170270535A1 (en) Systems and Methods for Engineering and Publishing Compliant Content
US10552539B2 (en) Dynamic highlighting of text in electronic documents
US11144560B2 (en) Utilizing unsumbitted user input data for improved task performance
US20160196336A1 (en) Cognitive Interactive Search Based on Personalized User Model and Context
US11281737B2 (en) Unbiasing search results
US20200401910A1 (en) Intelligent causal knowledge extraction from data sources
US11416907B2 (en) Unbiased search and user feedback analytics
US11120215B2 (en) Identifying spans using visual recognition
US11138380B2 (en) Identifying semantic relationships using visual recognition
CA3207902A1 (en) Auditing citations in a textual document
US10382440B2 (en) Method to allow for question and answer system to dynamically return different responses based on roles
US10754969B2 (en) Method to allow for question and answer system to dynamically return different responses based on roles
Saleiro et al. TexRep: A text mining framework for online reputation monitoring
CN113704508A (zh) 多媒体信息识别方法、装置、电子设备及存储介质
US11017172B2 (en) Proposition identification in natural language and usage thereof for search and retrieval
US20190278755A1 (en) Computer indexing and retrieval of insight data objects, systems and methods

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant