CN112272828A

CN112272828A - 模糊与个人可识别信息(pii)有关的信息

Info

Publication number: CN112272828A
Application number: CN201980038463.8A
Authority: CN
Inventors: A·巴尔策; D·莫瓦特; M·沃尔夫
Original assignee: Microsoft Technology Licensing LLC
Current assignee: Microsoft Technology Licensing LLC
Priority date: 2018-06-08
Filing date: 2019-05-31
Publication date: 2021-01-26
Anticipated expiration: 2039-05-31
Also published as: EP3803668A1; EP3803668B1; WO2019236393A1; US10839104B2; US20190377901A1

Abstract

一种用于保护与音频、文本和视频相关联的个人可识别信息(PII)的系统。所述系统包括：输出设备和处理器。所述处理器接收包括包含非个人可识别信息和个人可识别信息两者的音频、图像或视频的文档。所述处理器针对语音、面部、以图形呈现的文本或个人属性来扫描所述文档；并且将所述项与数据库中的记录进行匹配，以确定文档中的每个项是否与个人可识别信息相关联。所述处理器还响应于确定语音或视频与PII相关联来确定与语音或视频的存在相关联的开始时间和结束时间；生成在开始时间与结束时间之间的经模糊的音频、文本或视频；并且使所述输出设备输出经模糊的音频、文本或视频。

Description

模糊与个人可识别信息(PII)有关的信息

技术领域

在本文中所描述的实施例涉及使与文档中的个人可识别信息有关的音频、图像和视频数据模糊。

背景技术

政府法律和法规要求保护个人可识别信息(PII)。即使当不需要保护时，组织也可能出于各种原因(诸如促进与客户和用户的信任或者降低法律风险)而积极保护个人可识别信息。在日益协作和电子化的世界中，对个人可识别和敏感信息的管理变得尤为重要。尽管以防止未授权的访问的方式对这样的信息的管理常常主要集中在安全性上，但是保护的同等重要的方面是例如通过对电子文档的简单变换来帮助用户避免意外公开。无论出于何种原因，保护个人可识别信息会是昂贵的，这最终增加了组织试图保持受保护的个人可识别信息的成本。

发明内容

下文呈现了对本公开的一个或多个实现方式的简化概述，以便提供对这种实现方式的基本理解。该概述不是所有预期实现方式的宽泛概述，并且既不旨在标识所有实现方式的关键或重要元素，也并不旨在描绘任何或所有实现方式的范围。该概述的唯一目的是以简化的形式呈现本公开的一个或多个实现方式的一些概念，作为稍后呈现的更详细描述的序言。

随着政府法规(例如，通用数据保护法规(GDPR))的实施，组织需要能够有效地取回和(应要求)删除包含个人可识别信息的内容和文档。处理个人可识别信息的现有方式包括执行内部审核，其中客户端向组织提交与客户端的个人可识别信息相关联的请求。通常，为组织工作的个体对所有客户端文档执行大量查询，并且然后执行对每个文档的分析以确定该文档是否包括个人可识别信息。对个人可识别信息的编辑是手动地执行的。整个过程可能需要数天、数周或者数月。

在本文中所描述的实施例尤其包括软件应用，所述软件应用使得组织内的用户能够创建、保存和共享文档。“文档”的表达被用于表示数据库记录、文字处理文档、电子表格、演示文稿、便携式文档格式(PDF)文件、声音文件、图像文件、视频等。在本文中所描述的实施例通过利用组织的软件服务、使用组织的电子邮件服务或生产力套件(例如，文档存储和协作套件，诸如Sharepoint；媒体流服务，诸如Azure Media Services和MicrosoftStream)或者在操作系统级别(例如，使用具有访问控制功能的基于云的用户目录，诸如Azure Active Directory)，来保护个人可识别信息，其中所述软件服务通过利用所述组织创建账户或订阅来创建和存储数据。在一些实施例中，在本文中所讨论的系统和方法尤其使得能够在创作文档的同时对命名的个体进行即时标记，因此使得能够更快地并且在某些情况下几乎即时地取回与该个体有关的所有文档。所讨论的系统和方法还支持客户端的删除请求以使得原始文档被编辑而不是删除。这确保了当文档被共享时，仅有授权的接收者才可以看到与客户端相关联的个人可识别信息。另外，被发送到信任边界之外的任何文档都可以被自动地删除，或者自动地删除PII。

示例性实施例包括一种用于保护与音频、图像或视频数据相关联的个人可识别信息(PII)的计算机系统。所述计算机系统包括：输出设备；以及电子处理器，其被电连接到所述输出设备。所述电子处理器被配置为：接收包括从包含音频、图像和视频的组中选择的项的文档，其中所述音频、图像和视频包含非个人可识别信息和个人可识别信息两者。所述电子处理器被配置为针对语音或个人属性来扫描所述文档。所述电子处理器还被配置为：将语音或个人属性与数据库中的记录进行匹配，以确定文档中的语音或个人属性是否与个人可识别信息相关联。所述电子处理器还被配置为确定在所述文档中与语音或个人属性的存在相关联的开始时间和结束时间。所述电子处理器还被配置为生成文档的经模糊的版本，其中，所述文档中的语音或个人属性在开始时间与结束时间之间被模糊；以及生成信号，所述信号使所述输出设备输出所述文档的经模糊的版本。

另一示例性实施例包括一种用于保护个体的个人可识别信息的方法。所述方法包括：利用所述电子处理器接收包括从包含音频、图像或视频的组中选择的项的文档，其中所述音频、图像或视频包含非个人可识别信息和个人可识别信息两者。所述方法还包括利用所述电子处理器针对语音或个人属性来扫描所述文档。所述方法还包括利用所述电子处理器将所述语音或个人属性与数据库中的记录进行匹配，以确定所述文档中的语音或个人属性是否与个人可识别信息相关联。所述方法还包括确定在所述文档中与语音或个人属性的存在相关联的开始时间和结束时间。所述方法还包括生成所述文档的经模糊的版本，其中，所述语音或个人属性在开始时间与结束时间之间被模糊；以及生成信号，所述信号使所述输出设备输出文档的经模糊的版本。

另一示例性实施例包括针对位于(视频或音频文件的)嵌入式文本、图像和/或转录音频中的PII来扫描视频。在一个示例中，针对PII何时开始和何时停止设置了时间标记。在一些实施例中，嵌入式文本被编辑或“涂黑”，例如，利用黑盒放置在具有PII的区域的顶部进行呈现。在一个示例中，具有PII信息的音频能够被静音或修改，使得相关PII不能够被取回。然后，可以在此时(或者在文件中的位置处)放置客户端标识符参考，使得所述系统能够利用揭示信息的替换物来替代黑盒或音频(在一些情况下不是原始内容)。在另一种方案中，原始内容可以被存储在服务器上，然后利用相同的时间标记并且在相同的视觉位置处自动地取得并且呈现在用户设备上。在媒体已经被创建之后或者在记录时进行实时流送期间，都能够扫描这两种媒体类型(声音和视频)。

另一示例性实施例包括一种包含指令的非暂时性计算机可读介质，所述指令当由一个或多个处理器运行时使所述一个或多个处理器执行动作的集合。所述动作的集合包括：接收包括从包含音频、图像和视频的组中选择的项的文档，其中所述音频、图像和视频包含非个人可识别信息和个人可识别信息两者。所述动作的集合还包括针对语音、图像、视频或个人属性来扫描所述文档。所述动作的集合还包括将语音、图像、视频或个人属性与数据库中的记录进行匹配，以确定文档中的语音、图像、视频或个人属性是否与个人可识别信息相关联。所述动作的集合还包括确定在所述文档中与语音、视频或个人属性的存在相关联的开始时间和结束时间。所述动作的集合还包括生成所述文档的经模糊的版本，其中，所述文档中的语音、图像、视频或个人属性在开始时间与结束时间之间被模糊；以及生成信号，所述信号使所述输出设备输出所述文档的经模糊的版本。在一些实施例中，将个体语音的音频移除并且以文本到语音来替换(例如，通过使用Cortana或Apple的Siri语音)。当个体自己说的词语没有个人可识别信息，但是由于可以识别个体的声音而使得个体的声音的身份明显时，执行该操作。

通过使用在本文中所公开的技术，一个或多个设备能够被配置为关于功率资源、存储器资源、通信带宽资源、处理资源和/或其他资源来节省资源，同时提供用于控制和删除内容中的个人可识别信息的机制，诸如文字处理文件、音频数据和图像数据。根据在本文中所公开的技术的实施方式还能够实现除在本文中所提到的那些以外的技术效果。

附图说明

根据以下结合附图阅读的详细描述，将更好地理解本公开，其中，在附图描述中，相似的附图标记被用于指示相似的部分。

图1图示了个人可识别信息保护系统的示例。

图2是在图1中所示的示例性计算设备的框图。

图3是示出了根据一些实施例的被存储在图2中所示的计算设备的存储器中的若干软件程序的框图。

图4是根据一些实施例的在图1中所示的服务器的框图。

图5是在其中可以实践在本文中所提供的实施例的分布式计算系统的框图。

图6和图7是图示了根据一些实施例的用于保护个人可识别信息的方法的流程图。

图8是图示了根据一些实施例的用于使个人可识别信息模糊的过程的框图。

图9A和图9B图示了根据一些实施例的被清理以使PII模糊的示例性图像。

具体实施方式

在本文中描述了用于保护个人可识别信息(PII)的系统和方法的实施例。所述个人可识别信息保护系统被配置为基于被提供给所述系统的基于授权级别的规则来检测和移除文档内的个人可识别信息。

当使用软件应用(例如，使用诸如文字处理应用或电子邮件应用之类的生产力工具)创建和编辑电子文档时，通常以文档中的内容的形式或者以元数据的形式来创建各种形式的数据(例如，个人可识别信息)。控制对后续用户和文档的接收者的访问能够保护个体的个人可识别信息，并且确保针对用户的隐私。如在本文中所使用的，个人可识别信息(PII)包括特别识别特定实体(例如，用户、组织或内容等)的任何事物。这可能意味着不收集关于用户或者由用户提供的任何数据，除非他们明确授权组织共享该信息。个人可识别信息的一些常见示例包括：姓名、出生日期、生物统计信息(例如，面部图像、指纹、个人声音等)、政府颁发的识别号(例如，社会安全号(SSN)、驾驶证号等)、财务账户信息(例如，银行账号、信用卡号等)、个人电话号码、以及邮寄地址。可以被视为PII的其他数据包括互联网协议(IP)地址、公司名称和位置信息。PII也可以以自由形式的数据来合并，例如文档名称、电子邮件标题、图标、图像、音频和视频数据或者能够被用于确定关于实体(例如，用户、组织或特定内容)的细节的总计任何其他数据。

图1图示了个人可识别信息保护系统100的示例。在所图示的示例中，系统100包括经由网络103访问服务器104的客户端设备120a、120b、120c、120d。服务器104被连接至客户端数据库106、共享存储装置108和目录服务110(例如，提供文档以及用于查看文档中的个人可识别信息的关联授权级别的数据库或应用)以及规则和上下文数据库112。目录服务110提供用于管理用户102的若干类别的数据结构，包括管理个体用户102查看个人可识别信息的访问证书。系统100可以在本地或者在分布式环境中操作，诸如在客户端-服务器或云服务架构中操作。系统100的任何分布式组件可以彼此通信或者可以通过至少一个计算机网络来访问，所述计算机网络诸如是但不限于：互联网、内联网、局域网或广域网。

术语“客户端”、“消费者”、“客户”或“订户”在本文中能够被互换地使用，以指代使用利用系统100所提供的服务的用户102。一个或多个用户102能够作为(一个或多个)软件应用的“用户”订阅或者以其他方式来登记对一个或多个软件应用的访问。在一些实施例中，用户能够包括个体用户102或者多个用户的群组。

客户端计算设备120(有时在本文中被称为“客户端设备120”)能够被实现为任意数量的计算设备，包括但不限于：个人计算机、膝上型计算机、台式计算机、便携式通信设备(例如，移动电话或平板计算机)、或者能够通过网络103发送和/或接收数据的其他电子设备。(一个或多个)网络103代表许多不同类型的网络，并且包括使得能够在系统100中的各种实体之间进行通信的有线网络和/或无线网络。在一些配置中，(一个或多个)网络103能够包括互联网、局域网(LAN)、广域网(WAN)、移动电话网络(MTN)和其他类型的网络，可能会相互结合使用，以促进在服务器104与客户端设备120之间的通信。尽管在基于web的系统的上下文中描述了一些配置，但是可以使用其他类型的基于客户端/服务器的通信以及相关联的应用逻辑。

图2是在图1中所示的计算设备120的示例性框图。计算设备120包括被耦合到数据总线129的麦克风121、扬声器122、显示器123、通信接口124、用户接口125、电子处理器126、以及存储器128。由所述计算设备生成的图形用户界面被显示在显示器123上。

通信接口124向计算设备120提供具有外部网络(例如，无线网、互联网等)的通信网关。通信接口124可以包括例如以太网卡或适配器或者无线局域网(WLAN)卡或适配器(例如，IEEE标准802.1a/b/g/n)。通信接口124可以包括地址、控件和/或数据连接，以使得能够在外部网络上进行适当的通信。用户界面125提供输入机制，诸如可以是物理键盘或者在触摸屏显示器上生成的“软”键盘的键盘。用户界面125被配置为接收用户输入以访问被存储在存储器128中的一个或多个软件应用并且与之交互。

电子处理器126可以包括至少一个处理器或微处理器，其解释并且执行被存储在存储器128中的指令的集合。存储器128包括操作系统130和软件应用132。在所示的示例中，操作系统130包括创建图形用户界面的图形用户界面生成器131。软件程序132被配置为实现在本文中所描述的方法等其他事情。存储器128包括易失性存储器元件(例如，随机存取存储器(RAM))、非易失性存储器元件(例如，ROM)以及其组合。在一些实施例中，存储器128具有分布式架构，其中各种组件彼此远离，但是可以由电子处理器126来访问。在一些实施例中，电子处理器126被配置为对与PII相关联的数据进行加密并且将经加密的数据存储在存储器128中。

数据总线129或者其他组件互连允许计算设备120的组件之间进行通信。数据总线129可以具有为简化起见而省略的额外元件，诸如控制器、缓存器(例如，高速缓存)、驱动器、转发器和接收器或者其他类似组件以启用通信。数据总线129还可以包括地址、控件、数据连接或者前述的组合，以使得能够在前述组件之间进行适当的通信。在一些实施例中，电子处理器126被配置为对与PII相关联的数据进行加密并且将经加密的数据存储在存储器128中。

图3是示出了根据一些实施例的被存储在图2中所示的计算设备的存储器中的若干软件应用132的框图。在一些实施例中，软件应用132包括文字处理应用310、音频编辑应用320、图像编辑处理330、视频编辑应用340、模糊代理340和清理代理350。使用计算设备120中的电子处理器126来执行若干软件应用132。

模糊代理340与模糊引擎480进行交互以处理和模糊包含从用户102收集到的个人可识别信息的数据。可以保存的数据的类型的示例包括但不限于以下各项的集合：文本数据、音频数据、视频数据、任何嵌入式图像、文档中的图表等。

清理代理350基于被存储在规则数据库112中的规则来处理所保存的数据。清理代理350可以是独立应用或另一应用的集成组件。尽管被图示和描述为在单个计算设备中执行，但是模糊代理340和清理代理350可以跨许多计算设备来分布和/或执行。在一些实施例中，清理代理350和/或清理应用460包括对文档执行不同类型的动作的不同引擎。在各种实施例中，清理代理350和/或清理应用460包括解析引擎(例如，以识别可能的PII)和处理引擎(例如，以使用来自数据库112的规则来确定纯文本、图像、音频和/或视频是否包括基于与客户端数据库106中存储的参考数据的比较的PII)。所述解析引擎执行负责各种任务的处理动作，例如，解析包含个人可识别信息的文档或媒体文件内的字段，或者将识别出的字段转发给能够将所述字段分解为更小组件(例如，子字段或名字/值对)的子解析器。在一些实施例中，提供了一种过滤引擎，所述过滤引擎执行确定文档内的字段是否需要被处理的过滤动作(例如，确定文档中的音频或视频组件是否需要被处理)。

文字处理应用310、音频编辑应用320、图像编辑应用330和视频编辑应用340单独地或组合地为用户102提供了平台，以用于撰写、编辑、格式化、打印或播放包含个人可识别信息的文档或媒体文件。在一个示例中，文字处理应用310、音频编辑应用320、图像编辑应用330和视频编辑应用340包括扩展或特征，其允许相应的应用访问客户端数据库106以取回与用户102所访问的文档内的个人可识别信息相关联的客户端标识符参考。在一些实施例中，系统100被设计为识别可能的PII(例如，识别个体或组织的通用名称、个体的语音或图片等)。在一些实施例中，当网络连接不可用或者在没有中央数据库106可用的架构中时，可以对文档中的个人可识别信息进行加密并且与文档一起保存，而不是将经加密的个人可识别信息存储在集中式客户端数据库中。

图4是根据一些实施例的在图1中所示的服务器104的框图。服务器104包括电子处理器410以及包括一个或多个软件应用的存储器420。计算设备120通过网络103来访问服务器104的存储器420中的(一个或多个)软件应用。所述(一个或多个)软件应用能够包括但不限于：图像处理应用430、音频处理应用440、视频处理应用450、清理应用460、PII比较器470、模糊引擎480、以及其他程序490。图像处理应用430包括能够处理静态图像并且确定文档中是否存在包含与个体相关联的个人可识别信息的图像的软件程序。

能够通过例如在其内容上运行光学字符识别(OCR)算法以针对PII来扫描图像文件。在一个实例中，图像处理应用430检测图像中的字符并且将其转换为能够被处理的文本。在一些情况下，所述算法可能推断图像的元素是字符，但是没有100％的确定性。在这样的情况下，可以建议在分析内包括可疑字符(可选地假设其超过某个最小阈值)，以确保检测到所有PII。

另外，能够通过使用面部识别算法来检测面部，所述面部识别算法可以使用怀疑与眼睛、嘴、鼻子等相对应的元素的放置来检测面部。能够使用机器学习或其他方式将这些面部与已知面部的数据库进行匹配，以找到与该面部相对应的人。这样的数据库可以被保存在组织内，或者可以从诸如商业数据库、警察数据库、社交网站或资源组合等来源获得。对象识别算法还可以被用于检测其他潜在的PII，诸如生日蛋糕的出现，当与图像的元数据(或者位于照片一角的日期)组合时，可能允许观看者确定个体的生日。

替代地，将图像输入到系统中的个体能够突出感兴趣的区域并且将其标记为PII。在一些实施例中，这是通过标准图像编辑器区域选择工具来执行的。能够采用用户输入与自动检测的组合。一旦已经识别出PII，就能够对其进行加密。这能够通过获取每个像素或者一组连续像素并且在图像内对其进行加密来执行。该加密的区域能够被放置在图像内，覆盖原始数据。为了允许授权的用户对所述区域进行解密，与文件相关联的元数据可以包括关于经加密的区域的信息(例如，区域为矩形的左上角和右下角的坐标)以及能够被发送给服务器104用于请求访问的标识符。如果用户被授权，则能够通过递送解密密钥来授予访问权。以这种方式扩展文件元数据是可允许的，因为能够扩展与图像相关联的元数据而不会与大多数现有图像处理软件发生冲突或者减少冲突。替代地，也能够将元数据存储在与图像一起递送的“伴随(sidecar)”文件中，诸如Adobe的可扩展元数据平台(XMP)文件格式。在一些实施例中，针对每个PII区域存储元数据的元素，从而允许将不同的个体存储在图像的不同部分中，并且对应于用户是否被授权查看所讨论的每个个体进行取回。

替代对数据进行加密并且稍后递送解密密钥，能够利用特定模式来替换个人可识别信息元素。这可以包括所有黑色像素、所有白色像素、所有透明像素、不同特定颜色的所有像素或者构成已知图案的像素。其也可以包括对基础图像的像素化或模糊化，其将具有优点是：不模糊图像的大块，但是像素化或模糊化的级别应当足以掩盖PII(例如，使其无法被人检测到)。在这样的情况下，可以基于风险来确定像素化或模糊的级别。例如，在背景中的面部由于其尺寸小于前景的面部而可能不需要这样多的模糊。所述元数据(以与以前相同的方式存储)将识别从服务器104请求访问所需的数据。在这种情况下，服务器104存储图像的移除的元素，并且所述移除的元素被递送给请求访问的用户(如果被授权)以用于重组为最终图像。

在另一示例中，将PII像素直接替换为图像内部的元数据。通过在文件中包括不太可能出现在真实图像中的已知标记(诸如以特定组合的特定颜色的五个像素)来执行该操作。在此之后，在执行元数据文本到图像数据的直接转换之后，将用于标识PII的元数据放置在像素内。已知的指示符(可能与第一指示符相同)能够被用于识别区域的末端。该解决方案的优点在于：不需要外部元数据(并且因此减少了存储需求)。然而，PII区域可能不够大以用于存储元数据。在这种情况下，可以扩展所述PII区域。扩展的缺点是非PII区域被遮盖。另一难点在于PII可能分布在图像的多行上，使得每行将包括基本独立的区域(这是因为图像文件格式倾向于逐行存储数据)。可以通过在后续行内包括对第一行的引用，以减少所需的数据处理，来解决多行的挑战。对于该实施例，从服务器104获得缺失的数据。

各方法的组合可以被用于文件的不同部分。例如，诸如面部的PII可以通过模糊而被遮盖，而诸如文本的PII可以被完全加密。所述元数据将跟踪被用于促进稍后取回的技术。能够通过使用来自服务器104的数据块将像素替换为其他像素来执行图像的重组。在所有这些情况下，例如，未授权的用户将看到经编辑的图像具有无意义的加密像素或图案，从而使其无法被人检测到。

能够以与图像类似的方式来处理音频文件。用于将语音转换为文本的算法(语音到文本算法)能够被用于确定音频文件中所说的词语。以这种方式，能够检测诸如姓名或其他PII之类的词语以用于编辑。还能够采用语音识别算法以用于使用机器学习和/或其他手段从已知“声纹”的数据库中确定说话者。替代地，将音频文件输入到系统中的用户能够选择(在时间轴或类似物上)音频文件中需要加密的元素。如对于图像，能够采用手动输入和自动输入的组合。

音频处理应用440包括能够处理音频数据并且确定音频是否包括与文档内存在的一个或多个个体相关联的个人可识别信息的软件程序。在一些实施例中，所述音频处理应用被配置为处理与从环绕声系统(例如，5.1环绕声系统)接收到的音频相关联的多个信道。在一个示例中，当通过这样的环绕声系统的一个或多个信道可听到PII信息时，可以使用标记来指示受影响的信道以及与音频信号相关联的每个信道内受影响的时间。在一些实施例中，接收到的音频可以沿着其频谱被分成若干频率，并且若干均衡器可以被用于增加或减小特定频率范围内的音量。在一些实施例中，当仅将PII嵌入到频率的特定频率范围内(例如，在低音区域中)时，以减少低音频率来模糊可听频谱的低音区域的方式来处理音频。另外，与音频信号中的PII部分相关联的时间标记还可以包括可选数据，所述可选数据参考具有与频率范围相关联的下限和上限的频率范围。在一些实施例中，使用从包含音调、提示音、另一音频(例如，填充音乐)和静默时段的组中选择的项来模糊音频中所包含的PII。

在一些实施例中，以与针对图像文件对其进行存储相同的方式来存储PII音频元素。能够对其进行加密并且插入到音频文件本身中。然而，这带来了以下风险：经加密的音频将包含突然的大噪声，这可能对听觉有害。因此，音频播放器能够使用相关联的元数据(在音频文件本身或相关联的伴随文件中)来为未授权的用户跳过经编辑的元素。对于将元数据直接插入到音频文件中存在相同的问题和解决方案。在其他情况下，PII会被不存在声音、模式(诸如白噪声)或者PII的消声版本替代(前提是消声必须足以遮盖PII)。在一些实施例中，音频的原始版本被存储在服务器104上以供授权的用户取回。在一些实施例中，在音频文件被加密的情况下，向用户发送适当的加密密钥以获得对文档的PII部分的访问。

视频文件能够被视为音频文件与图像文件的组合。能够像处理音频文件一样处理视频的音频轨道(可以个体地或者在存在多个轨道时组合地考虑，例如立体声或杜比5.1环绕声)。视频的个体帧能够按照与个体图像文件相同的方式进行处理。可以应用前述加密或移除技术中的任一种，并且可以针对不同元素应用不同的技术。在一个示例中，音频PII被白噪声代替，而图像PII被加密。对于图像，取决于输入的性质，可以使用其他高级技术。在一些实施例中，移除运动模糊对于准确的图像检测是期望的。替代地，使用机器学习和检测对象的其他方式依次处理多个帧，以用于检测PII。顺序处理多个帧能够提供更多上下文。例如，位于帧侧面的元素可能不足以用于对象识别，但是当能够在视频的另一部分看到整个对象时，其可能变得有意义。在一些实施例中，对于音频、图形文本、图像和视频元素的组合一起构成PII，但是仅这些中的任一个单独将都不足以构成PII的情况，应当给予特殊考虑。这能够通过在运行PII检测过程之前将文本和通过处理所生成的其他数据进行组合来执行。例如，在视频中示出房屋的场景中，具有门牌号和路标并且房主谈论街对面的邻居。在这种情况下，PII可以是视频、音频或者这两者一起。在这样的情况下，电子处理器410被配置为使用被存储在规则和上下文数据库112中的各种规则和上下文来执行进一步的处理，以确定并且模糊音频和视频中构成个人可识别信息的部分。

在一些实施例中，清理应用460使用存储在规则和上下文数据库112中的规则和上下文信息来定位和替换文档中的个人可识别信息。在一些实施例中，清理应用460本身是独特的应用，其能够打开文档文件，并且使得用户能够通过定位和替换特定文本、图像、音频和/或视频来浏览文档内容以清理文档内的信息(例如，PII)。当清理应用460内的解析过程识别出PII时，执行后处理操作以准备消息来存储在数据存储库(例如，共享存储装置108)中。在一些实施例中，所述后处理操作包括注释操作，所述注释操作利用在将文档添加到数据存储库中时(例如，在文档为尚未被清理之前的情况)恰当地解释文档中的数据所需的额外信息来对文档进行注释。在一些实施例中，当文档被不具有注释操作的应用接收时，所述应用使用先前的注释(例如，存储在数据库/存储器中的)并且将其应用于这些文档。

在一些实施例中，客户端标识符包括多个片段以指示若干条信息。例如，第一片段可以与个体相关联，而第二片段可以与组织相关联。第三片段可以与组或公司(具有层级)相关联，或者第四片段可以与客户端数据库查找系统相关联(例如，检查护照号码)。

可以被添加到文档的其他信息包括：例如，文档源(例如，服务器标识符)。在一些实施例中，执行保护记录存储操作，所述操作将具有PII的经清理的文档以保护或模糊的格式发送给数据存储库(例如，共享存储装置108)。一旦在数据存储库中，经清理的文档就可供数据的各种消费者来使用。

图5是在其中可以实践在本文中所提供的实施例的分布式计算系统的框图。与软件应用132相关联地开发、交互或编辑的内容可以被存储并且从不同的服务器、通信信道或者其他存储类型中取回。例如，可以使用目录服务110、web门户510、邮箱服务520或社交网络服务530来存储各种文档。软件应用132可以使用这些类型的系统等中的任意一种来实现数据利用，如在本文中所描述的。服务器104还可以在web上通过网络103向客户端提供软件应用132。举例来说，所述客户端计算设备可以被实现为计算设备120并且被体现在个人计算设备120-1、平板计算机120-2和/或移动计算设备(例如，智能电话)120-3中。客户端设备的这些实施例中的任何一个都可以从共享存储装置108获得内容。

图6和图7是图示了根据一些实施例的用于保护个人可识别信息的方法的流程图。在框610处，电子处理器410从共享存储装置108接收文档，所述文档包括从包含音频、图像和视频的组中所选择的项，所述音频、图像和视频包含非个人可识别信息和个人可识别信息两者。在框620处，电子处理器410针对语音或个人属性(例如，姓名、头衔、描述、图片或者与个体、实体等相关联的其他文本、音频、图像或视频信息)的个人可识别信息来扫描所述文档。在一些实施例中，扫描所述文档包括将图像、音频和/或视频数据转换为文本，以及通过将文本转换为可以被用于确定个人可识别信息的存在的逻辑句法成分来分析文本串。

在框630处，电子处理器410将语音或个人属性与存储在客户端数据库106中的记录进行匹配，并且确定语音或个人属性是否与个人可识别信息相关联。在一个示例中，基于将音频数据转换为文本信息并且针对个人可识别信息来解析文本信息，将个人属性与个人可识别信息相关联。在一些实施例中，针对个人可识别信息来解析文本信息包括针对从包含以下项目的组中所选择的一个或多个项进行解析：姓名、出生日期、出生地点、电子邮件地址、电话号码、传真号码、特定内容、社交网络证书、生物统计信息(包括指纹、语音、面部数据等)、金融账号、组织颁发身份证明和政府颁发身份证明。响应于确定语音或个人属性与个人可识别信息相关联，确定与文档中的语音或个人属性的存在相关联的开始时间和结束时间(框640)。在一些实施例中，电子处理器410确定个人可识别信息是否与客户端数据库106中的一条记录恰好匹配(框710)。在一个示例中，当确定恰好与一条记录相匹配时，将个人可识别信息从文档中移除，并且利用客户标识符参考来替换(框730)。在一些实施例中，当确定在客户端数据库中存在多于一条相关联的记录时，将匹配的选择提供给用户(框750)。另一方面，如果没有个人可识别信息与客户端数据库106中的记录相匹配，则利用新的记录来更新客户端数据库(框770)。

在框650处，电子处理器410生成文档的经模糊的版本，其中，文档中的语音或个人属性在开始时间与结束时间之间被模糊。在框660处，电子处理器410生成信号，所述信号使输出设备(例如，扬声器122)以文档的经模糊的版本输出经模糊的音频。在一些实施例中，电子处理器410被配置为取回包含与个体相关联的个人可识别信息的所有文档。电子处理器410还可以被配置为删除包含与个体相关联的个人可识别信息的所有文档。

在本文中所提供的实施例使用客户端数据库106来枚举可以在文档中引用的客户端的完整列表(例如，用户、个体、客户、企业等)。每条记录均指代个体客户端。在一些实施例中，可基于与访问数据库的用户相关联的授权级别来访问客户端数据库106。在一个实施例中，所述记录可以促进在线交互，并且因此包含用户名(其可以是电子邮件地址)和某种形式的密码(键入的字符，或基于电话的认证，或指纹等)。在一个示例中，当客户要求即时取回和删除关于他们的所有文档时，该请求可能需要进一步确定适当的个体。在这样的情况下，与文档相关联的特性(例如，在创建、编辑或删除诸如包含音频和/或图像的文档的数据的时间)可以被用于确定系统中可用的多个选择当中的适当个体的身份。

在一些实施例中，电子处理器410被配置为通过提示用户102利用姓名或文档中的其他识别信息(例如，地址或用户的图片)来确认他的或她的身份，从而提供隐式客户端识别。在一些情况下，向作者提供提示，以从可能的匹配集合中显式选择关于哪个个体被设想为作者。在一些实施例中，基于与用户的相关性来对潜在匹配进行排序。在其他情况下，例如，如果确定作者具有较低的访问权限，则可以存储个体的所有潜在匹配，并且不将其显示给用户。另外，当文档被删除时，电子处理器410为每个潜在匹配提供在那些情况下所引用的用户是否为实际用户的请求。在一些实施例中，关于用户的额外数据(关于何时将文档输入到系统中以及何时将其删除)被记录在数据库中。在这种情况下，系统100被配置为基于文档中的信息来确定个体的身份。在一些实施例中，删除文档的时间被用于确定用户所设想的个体的身份。

在一些实施例中，客户端可以使用与客户端相关联的密码密钥，并且使所有文本、音频、图像和/或视频数据包括在文档本身内加密和存储的个人可识别信息而不是被存储在集中式数据存储库(例如共享存储装置108)中。在操作中，当首先打开用户的客户端应用(用于管理文档中嵌入的PII)时，其检测到本地没有存储密钥，并且向客户端数据库106发送请求以获取本地加密密钥。服务器104根据用户的授权级别将客户端有权使用的所有密钥发回。通过针对到期日查询客户端数据库106并且在本地记录这些细节，或者通过类似方法，使用作为秘钥的部分而存储的元数据确定出，一旦客户端检测到密钥已经过期(尽管在这种情况下仅需要取得一个密钥)，就可以执行相同的过程。

在一些实施例中，用户的客户端应用还可以具有被嵌入在应用中的初始密钥。这允许用户在没有网络请求密钥的情况下启动应用。在一些实施例中，递送客户端应用的服务器104为特定用户准备所述应用，在这种情况下，用户将接收他们有权获得的密钥。

当离线时，客户端应用能够使用所保留的加密密钥对文档中的元数据进行加密和解密。所述元数据可以直接在文档中或者经由在线服务提供的元数据而包含有关解密所需密钥的信息，所述在线服务包括将标识符映射到加密密钥的表格。在任一种情况下，当用户没有要求的密钥时，所述信息将对用户看起来是经编辑的。

当在线时，所述客户端应用可以继续使用所保留的密钥，或者其能够从客户端数据库106请求新的密钥。通过使用所保留的密钥能够实现性能增益，并且能够异步地请求新的密钥作为后台任务，以确保密钥保持最新。在一些实施例中，当以在线模式操作时，还能够恢复到在服务器104(或者某个其他端点)上执行解密。

当加密密钥被(有意地或无意地)泄漏时，由于能够解密PII，因此将导致安全事件。在这种情况下，所述客户端应用当下次连接到数据库时，将交付新的密钥以替换旧的受影响的密钥。这些将被标记为优先级，从而客户端应用将立即使用旧密钥来解密包含利用那些旧密钥加密的PII的所有文档，然后再使用新密钥来重新加密数据。此时，旧密钥将被删除。该任务也将在正常的、计划的秘钥旋转期间执行，这可以在秘钥泄漏但是未检测到的情况下执行。

在上述场景中，已经删除了旧密钥副本的那些客户端不能够读取发送利用旧密钥加密的文档的其他客户端。为了实现更无缝的操作，客户端可以将旧的无效密钥保留固定的时段，例如30天。在一些实施例中，可以建立要求客户端以定期的、限定的间隔连接到数据库的策略，以确保以定期的间隔取回新的密钥。这允许将受损的密钥快速地移出所有客户端应用。在一些实施例中，可以将密钥的到期日设置为比典型的更短的持续时间，从而定期地改变密钥并且减轻任何未知泄漏的影响。这减轻了与将密钥分布给多个实体相关联的问题，这些问题可能不像集中式系统(或者仅分布给少量端点)容易保持安全。

在一些实施例中，文档由其他软件应用使用，其可能与个人可识别信息取回服务具有有限的兼容性。这样的应用可能仅呈现文档的纯文本，但是可能无法调用个人可识别信息取回服务。结果，这些应用无法示出或解密个人可识别信息。在一些情况下，当文档被发送到组织边界之外(例如，从律师事务所到另一律师事务所)时，接收用户无授权访问被用于创建参考的客户端的数据库。结果，用户看到包括经编辑的部分的文档。在其他示例中，所述接收用户能够从发送用户请求访问授权。在一些实施例中，这可以通过在目录服务中创建新的用户身份并且将相关的客户端记录与该用户身份相关联并且与接收用户共享新的用户身份来授予。在一些实施例中，已经被清理的个人可识别信息能够被显示在仪表板上，所述仪表板让用户102查看或删除引用该用户或其他客户端的文档。

图8是图示了根据一些实施例的用于使个人可识别信息模糊的过程的框图。在所提供的示例中，文档810被提供给清理应用460。清理应用460执行负责任务的处理动作，例如，解析文档内包含个人可识别信息的字段或者将所识别出的字段转发给子解析器，所述子解析器能够将所述字段分解成较小的组件(例如，子字段或名称/值对)。清理应用460确定是否需要处理文档内的字段以及需要执行的处理的类型(例如，以图形呈现的文本、音频或图像/视频处理)。在一个示例中，文档中需要图像处理的部分被提供给图像处理应用430。在一个示例中，文档中需要音频处理的部分被提供给音频处理应用440。类似地，文档中需要视频处理的部分被提供给视频处理应用450。

图像处理应用430、音频处理应用440和视频处理应用450相互接口并且相互操作，以确定个人可识别信息的存在，所述个人可识别信息在文件810内以一个或多个以图形呈现的文本、音频、图像/视频格式来呈现。一旦确定了包括个人可识别信息的文档的部分，就将所述部分与客户端数据库106中的记录进行比较，以确定与该个人可识别信息相关联的个体。例如，由音频处理应用440处理文档810的音频附件中的语音，并且使用PII比较器470将经处理的语音的语音特性与客户端数据库106中所存储的记录进行比较。在另一示例中，通过图像处理应用430来处理文档810内的图像，并且使用PII比较器470将图像中所示的面部的面部图像特性与客户端数据库106中所存储的记录进行比较。在一些实施例中，被包括在文档810中的图像数据、音频数据(例如，语音数据)和视频数据由图像处理应用430和音频处理应用440以及视频处理应用450进行转换，以确定个人可识别信息的存在。在一些实施例中，电子处理器410被配置为使用在规则和上下文数据库112中可用的若干规则和上下文来确定是否能够组合多个非个人可识别信息以构成个人可识别信息。在使用PII比较器确定个人可识别信息的存在时，模糊引擎480使文档810中包含个人可识别信息的部分模糊。在一个示例中，通过模糊引擎480使语音数据中包括个人可识别信息(例如，个体的姓名、出生日期等)的部分模糊。

图9A和图9B图示了被清理以模糊PII的示例性图像。图9A图示了包括个体的图片912和生日蛋糕916的图像的图像910。图片912包括个体的面部图像914。生日蛋糕916的图像包括文本918，文本918具有在蛋糕上书写的“生日快乐Tom”。在操作中，在本文中所描述的系统和方法分析图片912以及蛋糕916的图像，并且确定图像中包括个人可识别信息的部分。在图片912的情况下，分析个体的面部图像914，并且将面部特性与客户端数据库106中所存储的图像进行比较，以确定个体的身份。取决于所确定的个体的身份而模糊面部图像914。如在图9B中所示的，黑盒922被用于覆盖面部图像914，以模糊个体的身份。另外，文本“Tom”也被黑盒覆盖，以模糊生日蛋糕上所示的个体的姓名。

在一些实施例中，在本文中所公开的系统和方法利用一种或多种搜索服务，其扫描组织可以使用的各种数据存储库。例如，用户可以使用其电子身份登录进行认证。由于该电子身份与他们的客户端标识符相关联(或者与其相同)，因此搜索将取回包含其客户端标识符的所有文档。然后，用户可以查看包含对其引用的所有文档。如果他们阅读的文档也包含对其他客户端的引用，则将编辑与其他客户端有关的个人可识别信息。在一些实施例中，由于可以触发另外的工作流，因此用户102可能不会立即在显示器123上看到所有这些信息，这可以包括动态地验证策略(例如，根据在规则和上下文数据库112中所提供的规则)或法律允许给定文档发布回客户，或者不经受诉讼。在其他示例中，所述工作流包括对由个人可识别信息取回服务所取回的信息的最终手动审核。在一些实施例中，系统100存储包含特定客户端标识符的所有文档。以这种方式存储文档促进在用户请求时提供与用户相关联的所有数据。这也可以防止恶意用户将随机客户端标识符插入到文档中，以期获得访问权。在一些实施例中，用户102(例如，职员)可以亲自与客户端一起工作，以给他们与客户端有关的所有文档的打印输出，其中其他客户端的所有PII从文档中被编辑。在一些实施例中，客户端可以请求在与组织或机构相关联的所有文档中删除客户端的PII信息。在这样的情况下，所述个人可识别信息保护系统确保在从每个文档中编辑PII时，文档的其余部分保持不变。进一步的注释(例如，在文档模板级别或者由文档作者手动进行)能够确定整个文档是被删除还是被简单地编辑。另外，能够在客户端数据库级别或者通过操作系统组策略将用于保护文档中PII的设置推送到一个或多个作者的应用(例如，文字处理应用)中。

在以上描述和附图中描述和图示的实施例并不限于在本文中所提供的特定细节，并且可以以各种方式进行修改。此外，可能存在本文中未描述的其他实施例。同样地，在本文中被描述为由一个组件执行的功能可以由多个组件以分布式方式来执行。类似地，多个组件执行的功能可以合并并由单个组件来执行。

在所提供的实施例中，被描述为执行特定功能的组件还可以执行在本文中未描述的额外功能。例如，以某种方式“配置”的设备或结构至少以这种方式来配置，但是也可以以未列出的方式来配置。此外，在本文中所描述的一些实施例可以包括一个或多个电子处理器，其被配置为通过执行被存储在非暂时性计算机可读介质中的指令来执行所描述的功能。类似地，在本文中所描述的实施例可以被实现为存储可由一个或多个电子处理器运行以执行所描述的功能的指令的非暂时性计算机可读介质。如在本申请中所使用的，“非暂时性计算机可读介质”包括所有计算机可读介质，但是不包括暂时性的传播信号。因此，非暂时性计算机可读介质可以包括例如硬盘、CD-ROM、光存储设备、磁存储设备、ROM(只读存储器)、RAM(随机存取存储器)、寄存器存储器、处理器高速缓存或者其任何组合。

另外，在本文中使用的措词和术语是出于描述的目的，并且不应当被视为限制。例如，在本文中所使用“包括”、“包含”、“含有”、“具有”以及其变型意味着涵盖其后列出的项目及其等同物以及额外项目。术语“连接”和“耦合”被宽泛地使用，并且涵盖直接和间接连接和耦合。此外，“连接”和“耦合”并不限于物理或机械连接或耦合，并且可以包括直接或间接的电连接或耦合。另外，可以使用有线连接、无线连接或者其组合来执行电子通信和通知，并且可以在各种类型的网络、通信信道和连接上直接或通过一个或多个中间设备来发送电子通信和通知。此外，诸如第一和第二、顶部和底部等的关系术语在本文中可以仅用于将一个实体或动作与另一实体或动作区分开，而不必要求或暗示实体或动作之间的任何实际的这样的关系或次序。

在以下权利要求中阐述了一些实施例的各种特征和优点。

Claims

1.一种用于保护与文本、音频、图像或视频数据相关联的个人可识别信息(PII)的计算机系统，所述计算机系统包括：

输出设备；

电子处理器，其被电连接到所述输出设备并且被配置为：

接收包含非个人可识别信息和个人可识别信息两者的文档；

针对语音或第一个人属性来扫描所述文档；

将所述语音或所述第一个人属性与数据库中的记录进行匹配，以确定所述文档中的所述语音或所述第一个人属性是否与个人可识别信息相关联；

确定与所述文档中的音频中的所述语音或所述第一个人属性的存在相关联的开始时间和结束时间；

生成所述文档的经模糊的版本，其中，所述音频中的所述语音或所述第一个人属性在所述开始时间与所述结束时间之间被模糊；以及

生成信号，所述信号使所述输出设备输出所述文档的所述经模糊的版本。

2.根据权利要求1所述的计算机系统，其中，所述文档包括个人可识别信息，所述个人可识别信息被包括在从包含以图形呈现的文本、音频、图像和视频数据的组中选择的项中。

3.根据权利要求1所述的计算机系统，其中，经模糊的音频包括从包含音调、提示音、第二音频和静音时段的组中选择的项，以代替所述语音或所述第一个人属性。

4.根据权利要求1所述的计算机系统，其中，确定所述第一个人属性与个人可识别信息相关联包括：将所述音频转换为文本信息，并且针对个人可识别信息来解析所述文本信息。

5.根据权利要求4所述的计算机系统，其中，针对个人可识别信息的所述文本信息包括从包含姓名、出生日期、出生地点、电子邮件地址、电话号码、传真号码、特定内容、社交网络证书、生物统计信息、财务账号、组织颁发的身份证明和政府颁发的身份证明的组中选择的项。

6.根据权利要求5所述的计算机系统，其中，所述电子处理器还被配置为：

响应于所述个人可识别信息与所述数据库中的任何所述记录不匹配，利用与所述个人可识别信息相关联的新记录来更新所述数据库。

7.根据权利要求1所述的计算机系统，其中，所述电子处理器还被配置为：

针对面部图像或第二个人属性来扫描所述文档；

将所述面部图像或所述第二个人属性与所述数据库中的记录进行匹配，以确定所述文档中的所述面部图像或所述第二个人属性是否与个人可识别信息相关联；

响应于确定所述面部图像或所述第二个人属性与个人可识别信息相关联，使包括所述面部图像或所述第二个人属性的图像部分模糊；

生成包括经模糊的面部图像或经模糊的第二个人属性的经模糊的图像；以及

显示所述经模糊的图像。

8.根据权利要求1所述的计算机系统，其中，所述数据库是基于与用户相关联的授权级别可访问的。

9.根据权利要求1所述的计算机系统，其中，所述电子处理器还被配置为：

删除包含与个体相关联的个人可识别信息的所有文档。

10.一种用于保护实体的个人可识别信息的方法，所述方法包括：

利用电子处理器来接收包括从包含以图形呈现的文本、音频、图像和视频的组中选择的项的文档，所述以图形呈现的文本、音频、图像和视频包含非个人可识别信息和个人可识别信息两者；

利用所述电子处理器针对语音或第一个人属性来扫描所述文档；

利用所述电子处理器将所述语音或个人属性与数据库中的记录进行匹配，以确定所述文档中的所述语音或所述第一个人属性是否与个人可识别信息相关联；

确定与所述音频中的所述语音或所述第一个人属性的存在相关联的开始时间和结束时间；

11.根据权利要求10所述的方法，还包括：

取回包含与个体相关联的个人可识别信息的所有文档；以及

删除包含与所述个体相关联的个人可识别信息的所有文档。

12.根据权利要求10所述的方法，其中，接收包含一个或多个实体的非个人可识别数据和个人可识别信息两者的所述文档包括：

接收包括个人可识别信息的所述文档，所述个人可识别信息被包括在从包含以图形呈现的文本、音频、图像和视频数据的组中选择的项中。

13.根据权利要求10所述的方法，其中，确定所述个人属性与个人可识别信息相关联包括：将所述音频转换为文本信息，并且针对个人可识别信息来解析所述以图形呈现的文本。

14.根据权利要求13所述的方法，其中，针对个人可识别信息来解析所述以图形呈现的文本包括：针对从包含姓名、出生日期、出生地点、电子邮件地址、电话号码、传真号码、特定内容、社交网络证书、生物统计信息、财务账号、组织颁发的身份证明和政府颁发的身份证明的组中选择的项来解析所述以图形呈现的文本信息。

15.一种包含计算机可读指令的有形机器可读介质，所述计算机可读指令当由一个或多个处理器运行时使所述一个或多个处理器执行一种方法，所述方法包括：

接收包括从包含音频、图像和视频的组中选择的项的文档，所述音频、图像和视频包含非个人可识别信息和个人可识别信息两者；

针对语音或第一个人属性来扫描所述文档；

将所述语音或个人属性与数据库中的记录进行匹配，以确定所述文档中的所述语音或所述第一个人属性是否与个人可识别信息相关联；