CN114386085A

CN114386085A - 掩蔽文档中的敏感信息

Info

Publication number: CN114386085A
Application number: CN202111208569.3A
Authority: CN
Inventors: M·贝斯勒; A·梅尔; M·W·格拉斯尔特; Y·塞尔莱特; L·布雷默
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2020-10-19
Filing date: 2021-10-18
Publication date: 2022-04-22
Also published as: DE102021123058A1; GB2600823A; GB202113984D0; US20220123935A1; JP2022067087A

Abstract

本发明公开涉及掩蔽文档中的敏感信息。示例性实施例公开了一种用于保护敏感信息的方法、计算机程序产品和计算机系统。示例性实施例可以包括：使用倒排文本索引来评估倒排文本索引的索引令牌的一个或多个统计度量，使用一个或多个统计度量来选择候选令牌集合，从所述倒排文本索引中提取元数据，将该候选令牌集合与对应的令牌元数据相关联，对至少一个文档进行令牌化，从而产生一个或多个文档令牌，将一个或多个文档令牌与候选令牌集合进行比较，选择要掩蔽文档令牌集合，根据相关联的令牌元数据来选择包括敏感信息的文档令牌集合的至少一部分，掩蔽文档令牌集合的至少一部分，以及提供一个或多个掩蔽文档。

Description

掩蔽文档中的敏感信息

技术领域

本发明涉及数字计算机系统领域，并且更具体地，涉及一种用于掩蔽文档中的敏感信息的方法。

背景技术

数据保护和保持敏感信息私密对于公司及其客户是非常重要的。然而，数据隐私保护的技术挑战随着将服务移至第三方并进入云的趋势随着数据的多样性增加而增加。

发明内容

示例性实施例公开了一种用于保护敏感信息的方法、计算机程序产品和计算机系统。示例性实施例可以包括：使用倒排文本索引来评估倒排文本索引的索引令牌的一个或多个统计度量，使用所述一个或多个统计度量来选择候选令牌集合，从所述倒排文本索引中提取元数据，将该候选令牌集合与对应的令牌元数据关联，对至少一个文档进行令牌化，从而产生一个或多个文档令牌，将所述一个或多个文档令牌与所述候选令牌集合进行比较，选择要被掩蔽的文档令牌集合，根据所述相关联的令牌元数据来选择包括敏感信息的文档令牌集合的至少一部分，掩蔽所述文档令牌集合的所述至少一部分，以及提供一个或多个掩蔽文档(masked document)。

附图说明

结合附图，将最好地理解以举例方式给出的并且不旨在仅将示例性实施例限制于其的以下详细说明，在附图中：

图1示出根据示例性实施例的系统的示例性框图。

图2描绘了根据示例性实施例的示出用于保护文档中的敏感信息的方法的示例性流程图。

图3描绘了根据示例性实施例的示出用于提供可包括敏感信息的候选令牌集合的方法的示例性流程图。

图4示出根据示例性实施例的用于保护文档中的敏感信息的方法的示例性流程图。

图5描绘了根据示例性实施例的示出用于保护文档中的敏感信息的方法的示例性流程图。

图6描绘了描绘根据示例性实施例的系统的硬件组件的示例性框图。

图7描绘了根据示例性实施例的云计算环境。

图8描绘了根据示例性实施例的抽象模型层。

附图不一定是按比例的。附图仅是示意性表示，并非旨在描绘示例性实施例的具体参数。附图旨在仅描绘典型的示例性实施例。在附图中，相同的标号表示相同的元件。

具体实施方式

本文公开了所要求保护的结构和方法的详细实施例；然而，可以理解，所公开的实施例仅仅是可以以不同形式体现的所要求保护的结构和方法的说明。示例性实施例仅是说明性的，然而，能够以许多不同的形式体现，并且不应被解释为限于这里阐述的示例性实施例。而是，提供这些示例性实施例以使得本公开将是彻底和完整的，并且将向本领域技术人员完全传达由示例性实施例覆盖的范围。在描述中，可省略众所周知的特征和技术的细节以避免不必要地模糊所给出的实施例。

说明书中对“一个实施例”、“实施例”、“示例性实施例”等的引用指示所描述的实施例可以包括特定特征、结构或特性，但是每个实施例可以不必包括该特定特征、结构或特性。此外，这样的短语不一定指代相同的实施例。进一步，当结合实施例描述特定特征、结构或特性时，认为结合无论是否明确描述的其他实施例来实现这样的特征、结构或特性在本领域技术人员的知识范围内。

为了不模糊示例性实施例的呈现，在以下详细描述中，本领域中已知的一些处理步骤或操作可能已经组合在一起用于呈现和说明的目的，并且在一些情况下可能没有详细描述。在其他实例中，可能根本不描述本领域中已知的一些处理步骤或操作。应理解，以下描述集中于根据各种示例性实施例的区别特征或元件。

本发明的不同实施例的描述将出于说明的目的而呈现，但不旨在是详尽的或限于所公开的实施例。在不背离所描述的实施例的范围和精神的情况下，许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或对在市场上找到的技术上的技术改进，或使得本领域普通技术人员能够理解在此披露的实施例。

所请求的文档可以是结构化或非结构化的文档。与结构化文档相比，非结构化文档可包括不具有预定义数据模型或不以预定义方式组织的非结构化信息。与以字段化形式存储在数据库中的或在结构化文档的文档中注释的数据相比，这可能使得难以使用程序理解这样的文档。文档可以例如是电子文档。电子文档可以是旨在以电子形式或作为打印输出使用的电子媒体内容。电子文档可以包括例如网页、嵌入在网页中并且可以在网页中呈现的文档、电子表格、电子邮件、书籍、图片和具有诸如文档阅读器、编辑器或媒体播放器之类的相关联的用户代理的呈现。

文档的典型应用场景可包括加载文档并将其显示在不同用户的界面上。然而，这可能导致包括敏感信息的数据被复制到较不受信任的环境。敏感信息可包括私人数据，诸如社会安全号、护照数据、信用卡号、健康记录细节等，其不应被泄露给不信任方。本主题可以通过使用数据掩蔽来解决这个问题。数据掩蔽的目的可以是对数据去敏化，以便隐藏或掩蔽敏感数据项，使得数据作为整体对其预期目的保持有用。可执行数据掩蔽，使得对文档的访问满足预定义的数据访问规则。数据访问规则可包括管理策略和/或用户访问权限。例如，管理规则可要求保护任何类型的敏感信息，诸如个人信息。

然而，常规数据掩蔽可能是非常消耗资源的，因为其可能需要大的基础设施处理、设置和配置来工作。本主题可以通过提供文档的高效且优化的数据掩蔽来解决该问题。本主题可以是有效的，因为它可以使用潜在地包含敏感信息的相同候选令牌集合来识别在多个被请求文档中要掩蔽的内容。这可以节省原本单独处理每个文档所需的处理资源。本主题可以是最佳的，因为倒排文本索引(也被称为倒排索引)可以以不同的格式来提供，例如，压缩格式，这能够实现资源节省处理。倒排文本索引可以是索引数据结构，其存储从诸如单词或数字的令牌到该组文档中的一个或多个文档中其位置的映射。例如，倒排文本索引可以是散列映射(hashmap)数据结构。倒排文本索引的令牌可以被称为索引令牌。

根据一个实施例，所述方法还包括：确定候选令牌集合的主题元数据。候选令牌集合中的每个令牌的主题元数据指示令牌的主题或包含令牌的文档的主题，其中令牌的令牌元数据还包括主题元数据。

令牌的主题元数据可以包括表示令牌的主题的属性值和描述令牌的主题的属性的一个或多个值。例如，如果令牌是作为孤儿疾病的morbus-addison，则该令牌的主题可以是疾病并且一些主题元数据可以是像孤儿疾病的指示符。令牌与多个主题相关联也是可能的。根据上述示例，令牌morbus-addison的主题可以是疾病主题和孤儿疾病主题。令牌的主题元数据可以另外地或可替代地包括指示需要是机密的这个主题的令牌的值的管理规则。例如，给定令牌的主题可以涉及医疗保健系统，并且管理规则可以指示关于患者的信息应当被机密地处理。因此，可以对每个候选令牌的令牌元数据的内容进行处理，以确定其是否包含敏感信息，例如，使用数据敏感-非敏感分类器。分类器可以例如使用令牌的域来将其与管理目录相关联，并且针对该域定义的规则可以用于对令牌进行分类。该处理可以例如还包括数据挖掘以解释令牌元数据中存在的属性值并对其应用规则。数据挖掘可以使得能够利用商业词汇再次检查元数据以查看关于元数据的“已知”内容以及任何种类的敏感度分类是否与其相关联。

此实施例可使得能够准确选择候选令牌集合的至少一部分，因为选择可基于元数据的丰富内容。

根据一个实施例，该方法还包括将令牌主题输入到信息管控工具并接收主题元数据作为输出。信息管理工具可以例如是公司管理目录解决方案。

根据一个实施例，索引令牌的统计度量包括以下项中的一个或组合：包含索引令牌的文档集合中的文档的数量，所述索引令牌在所述文档集合中的出现频率、所述索引令牌的令牌类型在所述文档集合中的出现频率，其中选择所述候选令牌集合包括将所述统计度量与预定义的阈值进行比较。令牌类型可以是文本类型、数字类型或其组合。例如，可以为每个令牌类型提供可配置的阈值，其指示允许令牌在文档集合(令牌的张贴列表)中出现的频率。例如，在索引令牌的出现频率小于可配置阈值的情况下，可以将其选择为可能潜在地包含敏感信息的候选令牌。即，索引令牌的频率越低，这是可疑的并且潜在地必须被掩蔽的个体信息越有可能。在另一示例中，可以使用多于一个统计度量来决定索引令牌是否是潜在地包含敏感信息的候选令牌。根据上述示例，如果索引令牌的出现频率小于可配置阈值，则可以进一步确定包含所述索引令牌的文档集合中的文档的数量是否小于另一可配置阈值，并且如果是，则可以选择索引令牌作为候选令牌。

根据一个实施例，在文档集合改变的情况下，更新倒排文本索引。该方法还包括：在存储系统或数据存储器中与令牌元数据相关联地存储候选令牌集合，以及重复地：执行对候选令牌集合的选择和对所述元数据的提取，以及相应地更新所述存储系统，其中经更新的存储系统用于选择被掩蔽的文档令牌。

本方法可以包括用于提供候选令牌集合的第一方法，之后是用于掩蔽所请求的文档的第二方法。第一方法包括在接收文档请求之前执行的本方法的步骤。第二方法包括接收文档请求的步骤以及本方法的以下步骤。可独立于第一方法执行第二方法。例如，在接收到文档请求时，可以读取存储系统以检索候选令牌集合。存储系统可以使用第一方法用独立于第二方法的新的候选令牌集合来更新。由此，此实施例可进一步改进数据掩蔽的准确性，因为其可基于最新数据。

根据一个实施例，根据关联的令牌元数据选择包括敏感信息的文档令牌集合的至少一部分包括对令牌元数据运行分类器，以及将文档令牌集合分类为敏感或非敏感令牌，其中基于分类来执行选择。例如，如果令牌元数据包括令牌类型，则其可以用于决定是否要掩蔽文档令牌。如果文档令牌是数字和字符串的组合，则这可以指示它表示敏感信息。即，可以仅掩蔽特定类别或类型的候选令牌。令牌的出现频率可以被定义(第一定义)为令牌的出现次数除以文档集合中的文档数量。在另一示例中，出现频率可以被定义(第二定义)为包含令牌的文档的数量除以该组文档中的文档数量。例如，如果令牌元数据还包括索引令牌存在于其中的文档的文档ID，则文档ID可以有利地用于掩蔽文档令牌或不掩蔽文档令牌，如果根据第一定义的文档令牌的出现频率低，即.小于阈值。例如，由于频率是相对于所有文档定义的，所以即使相同的令牌仅存在于一个文档中，频率仍然可以较小，因为频率是使用所有文档计算的。即，如果相同的文档令牌仅存在于一个文档中，则10倍它可指示它非敏感，尽管频率可能很小。由此，使用附加文档ID可以使得能够检测这样的情况，例如，为非敏感的。例如，如果令牌元数据还包括指示位于某个区域中的用户不被允许访问诸如人的地址之类的信息的管理规则，则分类器可以确定请求文档的用户的位置，并且可以基于该位置和根据规则来决定是否掩蔽地址信息(其是文档令牌集合的一部分)。

根据一个实施例，该方法还包括：确定由所请求的文档的内容表示的域，其中该组文档表示所确定的域并且排除所请求的文档。换言之，所请求的文档可能尚未用于生成倒排索引；然而，根据本实施例可有利地使用倒排索引，因为其要求所请求的文档和倒排索引的文档集合具有相同的域。这可以例如使得能够将用于提供候选令牌的测试数据与用于对待掩蔽的令牌进行分类的数据分离。

根据一个实施例，该组文档包括所请求的文档。这可能是有利的，因为它可以提供对文档令牌集合的准确选择，并因此提供准确的数据掩蔽，因为文档令牌可以是索引令牌的一部分。

图1是示出了根据本主题的示例的文档提供者系统100的框图。文档提供者系统100包括文档检索系统101和用户计算机系统102。文档检索系统101和用户计算机系统102可以可操作用于经由网络103通信。网络103可以例如是互联网、局域网、广域网和/或无线网络。

文档检索系统101能够访问存储器中的文档，该存储器在这里由数据库105表示，该数据库105可操作地耦合到文档检索系统101。数据库105包含要在操作中被发送到用户计算机系统102的文档。这些文档可以是任何类型的主要非结构化文本，诸如报纸文章、房产记录或手册中的段落。文档检索系统101可以实现文档检索。文档检索可被定义为用户计算机系统102的一些声称的用户查询与数据库105中的一个或多个文档的匹配。存储在数据库105中的文档108可以表示一个或多个域的集合。例如，文档108可包括分别表示不同域的多组文档。领域代表属于世界一部分的概念或类别，例如生物学或政治。该领域通常模拟术语的领域特定定义。例如，领域可以指保健、广告、商务、医疗和/或生物医学特定领域。数据库105还可以包括倒排文本索引109。倒排文本索引可以是存储从索引令牌(诸如单词或数字)到其在文档108中的一个或多个文档中的位置的映射的索引数据结构。为了简化描述，仅示出一个倒排文本索引，但是不限于例如。数据库105可以为多组文档中的每一组存储一个倒排索引。

文档检索系统101可以被配置成根据本主题保护敏感信息。例如，文档检索系统101可以实现动态数据掩蔽过程，由此文档可以根据需要被访问、掩蔽和发送到用户计算机系统102。特别地，要被发送到用户计算机系统102的文档可以包含某些令牌，这些令牌可以在文档被发送出去之前被掩蔽。例如，要掩蔽的令牌可基于其中文档被请求或将被发送到用户计算机系统102的上下文来动态地确定。例如，取决于数据访问规则，取决于用户计算机系统102和提交访问文档的查询的用户的位置，可以不同地掩蔽同一文档。例如，欧洲(EU)或美国(US)数据可以根据通用数据保护法规(GDPR)或联邦法规来掩蔽。

用户计算机系统102可以经由网络103接收被掩蔽文档并且将该被掩蔽文档存储在此处由数据库106表示的可操作地耦合到用户计算机系统102的存储装置中。

图2是根据本主题的示例的用于保护文档中的敏感信息的方法的流程图。出于解释的目的，图2中所描述的方法可以在图1中所展示的系统中实现，但不限于此实现方式。图2的方法可以例如由文档检索系统101执行。

倒排文本索引109可以在步骤201中用于评估倒排文本索引109的索引令牌的一个或多个统计度量。索引令牌的统计度量可以包括以下中的一个或组合：包含索引令牌的文档集合108中的文档的数量、索引令牌在文档集合中的出现频率和索引令牌的令牌类型在文档集合中的出现频率。可以使用倒排文本索引109中包含的信息来评估统计度量。文档的数量和频率的组合可以例如是具有包括所述文档数量和频率的两个元素的阵列或向量或列表等。

在步骤203中，所评估的统计度量可以用于从倒排文本索引109的索引令牌中选择可以包含敏感信息的候选令牌集合。为此，可以将倒排文本索引109的每个索引令牌的统计度量与阈值进行比较。阈值可以是可配置的阈值。基于比较结果，每个索引令牌可以被选择为候选令牌。例如，如果索引令牌不频繁地出现在文档集合108中，则该索引令牌可被选择为候选令牌。为此，可以将索引令牌在文档集合108中出现的频率与最大频率值进行比较。如果同现的频率小于最大频率值，则可以选择索引令牌作为候选令牌。这可以导致N个候选令牌T_cand1,T_cand2…T_candN的集合。

在步骤205中，可以从倒排文本索引109提取描述候选令牌集合的元数据。所提取的索引令牌的元数据可以至少包括索引令牌的令牌类型和包含索引令牌的文档的文档标识符。

候选令牌集合可以在步骤207中与相应的令牌元数据相关联，其中令牌的令牌元数据包括令牌的所提取的元数据。候选令牌集合可以例如与令牌元数据相关联地存储在数据存储器中。例如，候选令牌可以与令牌类型、文档频率和倒排文本索引中存在的诸如文档元数据(例如，类型)之类的潜在其他信息有关的一些元数据一起存储，这还包括该令牌所在的文档的文档ID。

在步骤209中可以接收对文档108中的至少一个文档的请求。该请求例如可以是用户查询，该用户查询的范围可以从信息需求的多句完整描述到几个单词。可以从用户计算机系统102接收对文档的请求。用户计算机系统102可以例如从用户计算机系统102的用户接收数据分析请求。数据分析请求可包括自然语言数据。数据分析请求的自然语言处理可由用户计算机系统102执行，从而导致由用户计算机系统102发送的请求。术语“用户”指实体，例如，个体、另一个计算机、或在用户计算机系统102上执行的应用。

当接收到该请求时，在步骤211中可以将所请求的文档令牌化以获得文档令牌。这可以产生令牌化文档，该令牌化文档可以是被表示为单词集合(文档令牌)的文档。如果例如倒排文本索引包括所请求的文档的索引令牌，则该步骤211可以是可选的。在这种情况下，这些索引令牌可以作为所请求的文档的文档令牌来提供，例如不必重新令牌化所请求的文档。

在步骤213中，可以将所请求的文档的文档令牌与候选令牌集合进行比较。为此，候选令牌集合可以从数据存储器读取。这可能是有利的，因为数据存储器可包括候选令牌集合的最新版本。

基于比较结果，在步骤215中可以从所请求的文档的所有文档令牌中选择要被掩蔽的文档令牌集合。比较结果可以例如指示哪些文档令牌是候选令牌集合的一部分。由此，所选择的文档令牌集合可以包括属于候选令牌集合的文档令牌。此外，比较结果可以例如指示语义上与候选令牌集合相关的文档令牌。这些语义上相关的文档令牌可以是文档令牌集合的一部分。例如，如果候选令牌指示患者的年龄(其在某些上下文中应当是机密的)，则包括出生日期的文档令牌可以在语义上与该候选令牌相关。例如，关于令牌的语义关系的信息可以是令牌元数据的一部分。这个步骤215可以产生M个文档令牌T_doc1,T_doc2…T_docM的集合。M个文档令牌T_doc1,T_doc2…T_docM中的每一个可以与一个或多个候选令牌T_cand1,T_cand2…T_candN相关联。例如，两个或更多个文档令牌可以与不同的候选令牌或与相同的候选令牌相关联。M个文档令牌的集合中的每个文档令牌可以与对应的候选令牌的令牌元数据相关联。

在步骤217，可以根据相关联的令牌元数据选择包括敏感信息的文档令牌集合的至少一部分。该文档令牌集合的至少一部分可以包括L个文档令牌T_doc1,T_doc2…T_docL，其中L≤M。该选择可以通过处理与该文档令牌集合相关联的令牌元数据来执行。例如，可以自动执行该步骤217。例如，如果令牌与也可以在管理目录内找到或与业务术语关联的主题/术语相关联，则可以应用针对该业务术语定义的规则。例如，如果业务术语被定义为敏感的，则可以掩蔽候选令牌。

文档令牌集合的至少一部分可以在步骤219中在文档中被掩蔽，得到掩蔽文档。例如，可以经由散列来执行掩蔽。这里，文档令牌可与长期散列密钥一起被散列。然后，可以用发送给用户的掩蔽文档中的结果得到的散列值来替换文档令牌。基于替换(substitution)、改组(shuffling)、删除(“无效(nulling)”)、混淆(obfuscation)、或扰动(perturbation)技术的其他已知方法可以用于执行掩蔽。

在步骤221中可以提供掩蔽文档。例如，文档检索系统101可以响应于该请求向用户计算机系统102发送掩蔽文档。

在步骤209，可以针对每个请求的文档重复步骤211至221。例如，所请求的文档可以由步骤211至221同时或并行地处理。

图3是根据本主题的示例的用于提供可以包括敏感信息的候选令牌集合的方法的流程图。出于解释的目的，图3中所描述的方法可以在图1中所展示的系统中实现，但不限于此实现方式。图3的方法可以例如由文档检索系统101执行。

在步骤300中，可以提供倒排文本索引109。倒排文本索引109是从文档集合中获得的，例如，索引令牌和倒排文本索引的相关信息是从文档集合中获得的。

倒排文本索引109可以在步骤301中用于评估倒排文本索引109的索引令牌的一个或多个统计度量。索引令牌的统计度量可以包括以下中的一个或组合：包含索引令牌的文档集合108中的文档的数量、索引令牌在文档集合中的出现频率和索引令牌的令牌类型在文档集合中的出现频率。可以使用倒排文本索引109中包含的信息来评估统计度量。

评估的统计度量可以用于在步骤303中从倒排文本索引109的索引令牌选择可以包含敏感信息的候选令牌集合。为此，可以将倒排文本索引109的每个索引令牌的统计度量与阈值进行比较。阈值可以是可配置的阈值。基于比较结果，每个索引令牌可以被选择为候选令牌。例如，如果索引令牌不频繁地出现在文档集合108中，则该索引令牌可被选择为候选令牌。为此，可以将索引令牌在文档集合108中出现的频率与最大频率值进行比较。如果同现的频率小于最大频率值，则可以选择索引令牌作为候选令牌。

可以在步骤305中从倒排文本索引109提取描述候选令牌集合的元数据。所提取的索引令牌的元数据可以至少包括索引令牌的令牌类型和包含索引令牌的文档的文档标识符。

在步骤307中，候选令牌集合可以与相应的令牌元数据相关联，其中令牌的令牌元数据包括所提取的令牌的元数据。候选令牌集合可以存储在数据存储器中。

可以确定(查询步骤308)由倒排索引表示的文档集合是否已经改变。该改变可以例如包括向该文档集合添加一个或多个文档、移除该文档集合中的一个或多个文档和/或改变该文档集合中的一个或多个文档的内容。如果文档集合已经改变，可以重复步骤300至308，以便生成新的倒排索引并且用新的确定的候选令牌集合来更新数据存储器。如果文档集合没有改变，则可以保持最后提供或生成的候选令牌集合。

图4是根据本主题的示例的用于保护文档中的敏感信息的方法的流程图。出于解释的目的，图4中描述的方法可以在图1中展示的系统中实现，但不限于此实现方式。图4的方法可以例如由文档检索系统101执行。

在步骤400中，可以提供候选令牌集合。候选令牌集合是可以潜在地表示敏感信息的令牌。在一个示例中，可以使用例如图3的方法来提供候选令牌集合。数据存储器的实际内容可以包括在步骤400中提供的候选令牌集合。在另一示例中，候选令牌集合可以由一个或多个用户来定义。可以利用文档集合108来提示所述一个或多个用户，并且要求所述一个或多个用户提供可能潜在地包括敏感信息的候选令牌，并且可以在文档检索系统处从所述一个或多个用户接收所述候选令牌集合。步骤409至421分别是图2的步骤209至221。步骤409至421可以通过读取数据存储器的内容来执行。由于数据存储器的内容由例如图3中的独立方法提供，步骤400的提供的候选令牌集合可以随时间变化。

图5是根据本主题的示例的用于保护文档中的敏感信息的方法的流程图。出于解释的目的，图5中描述的方法可以在图1中展示的系统中实现，但不限于此实现方式。图5的方法可以例如由文档检索系统101执行。

图5的方法类似于图4的方法，其中，使用在步骤400中所提供的候选令牌集合，针对每个进一步接收的请求重复步骤409至421。例如，如由图3的方法填充的数据存储器的实际数据内容可用于每次迭代中。

图6描绘了根据示例性实施例的系统内的设备的框图。应了解，图6仅提供一个实施方式的说明且不暗示关于其中可实施不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。

本文所使用的设备可包括一个或多个处理器102、一个或多个计算机可读RAM 04、一个或多个计算机可读ROM 06、一个或多个计算机可读存储介质08、设备驱动器12、读/写驱动器或接口14、网络适配器或接口16，所有这些都通过通信架构18互连。通信架构18可用任何架构来实现，所述架构被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息。

一个或多个操作系统10和一个或多个应用程序11被存储在一个或多个计算机可读存储介质08上，以供一个或多个处理器02经由一个或多个相应的RAM 04(其通常包括高速缓冲存储器)来执行。在所示实施例中，计算机可读存储介质08中的每一个可以是内部硬盘驱动器的磁盘存储设备，CD-ROM、DVD、记忆棒、磁带、磁盘、光盘、诸如RAM、ROM、EPROM、闪存的半导体存储装置，或任何其他可存储计算机程序和数字信息的计算机可读有形存储设备。

在此使用的设备还可以包括R/W驱动器或接口14，用于从一个或多个便携式计算机可读存储介质26读取和向其写入。所述设备上的应用程序11可以存储在便携式计算机可读存储介质26中的一个或多个上，经由相应的R/W驱动器或接口14被读取并且被加载到相应的计算机可读存储介质08中。

在此使用的装置还可以包括网络适配器或接口16，诸如TCP/IP适配器卡或无线通信适配器(诸如使用OFDMA技术的4G无线通信适配器)。所述计算设备上的应用程序11可以经由网络(例如，互联网、局域网或其他广域网或无线网络)和网络适配器或接口16从外部计算机或外部存储设备下载到计算设备。程序可从网络适配器或接口16加载到计算机可读存储介质08上。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。

在此使用的设备还可以包括显示屏20、键盘或小键盘22、以及计算机鼠标或触摸板24。设备驱动器12接口至显示屏20用于成像、接口至键盘或小键盘22、接口至计算机鼠标或触摸板24、和/或接口至显示屏20用于字母数字字符输入和用户选择的压力感测。设备驱动器12、R/W驱动器或接口14以及网络适配器或接口16可以包括硬件和软件(存储在计算机可读存储介质08和/或ROM 06上)。

基于在示例性实施例中的特定示例性实施例中针对其实施所述程序的应用来识别本文中所描述的程序。然而，应当理解，本文中的任何特定程序命名法仅为了方便而使用，并且因此示例性实施例不应限于仅在由这种命名法识别和/或暗示的任何特定应用中使用。

基于上文，已经公开了计算机系统、方法和计算机程序产品。然而，在不偏离示例性实施例的范围的情况下，可以进行许多修改和替换。因此，通过示例而非限制的方式公开了示例性实施例。

应当理解，尽管本公开包括关于云计算的详细描述，但是本文所引用的教导的实现不限于云计算环境。相反，示例性实施例能够结合现在已知或以后开发的任何其他类型的计算环境来实现。

云计算是一种服务递送模型，用于实现对可配置计算资源(例如，网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池的方便、按需的网络访问，所述可配置计算资源可以用最小的管理努力或与服务提供者的交互来快速配置和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。

特性如下：

按需自助服务：云消费者可按需自动地单方面供应计算能力，诸如服务器时间和网络存储，而无需与服务的提供者的人类交互。

广泛的网络接入：能力在网络上是可用的并且通过标准机制来访问，所述标准机制促进由异构的瘦或厚客户端平台(例如，移动电话、膝上型计算机和PDA)的使用。

资源池化：提供者的计算资源被池化以使用多租户模型服务于多个消费者，其中不同的物理和虚拟资源根据需要被动态地指派和重新指派。存在位置独立性的意义，因为消费者通常对所提供资源的确切位置不具有控制或知识，但可能能够指定在较高抽象层(例如，国家、州或数据中心)处的位置。

快速弹性：可以快速且弹性地提供能力(在一些情况下，自动地)以快速缩小并且快速释放以快速放大。对于消费者，可用于供应的能力通常显得不受限制，并且可以在任何时间以任何数量购买。

测量的服务：云系统通过利用适于服务类型(例如，存储、处理、带宽和活动用户账户)的某种抽象级别的计量能力来自动控制和优化资源使用。可监视、控制和报告资源使用，从而为所利用的服务的提供者和消费者两者提供透明度。

业务模型如下：

软件即服务(SaaS)：提供给消费者的能力是使用在云基础设施上运行的提供者的应用。应用可通过诸如web浏览器(例如，基于web的电子邮件)的瘦客户端接口从不同客户端设备访问。消费者不管理或控制包括网络、服务器、操作系统、存储装置或甚至个体应用能力的底层云基础设施，可能的例外是有限的用户特定的应用配置设置。

平台即服务(PaaS)：向消费者提供的能力是在云基础设施上部署消费者创建或获取的应用，所述应用是使用提供者所支持的编程语言和工具来创建的。消费者不管理或控制包括网络、服务器、操作系统或存储装置的底层云基础设施，但是具有对所部署的应用以及可能的应用托管环境配置的控制。

基础设施即服务(IaaS)：提供给消费者的能力是提供消费者能够部署和运行可包括操作系统和应用的任意软件的处理、存储、网络和其他基本计算资源。消费者不管理或控制底层云基础设施，而是具有对操作系统、存储装置、所部署的应用的控制，以及对所选联网组件(例如，主机防火墙)的可能有限的控制。

部署模型如下：

私有云：云基础设施仅为组织操作。它可由组织或第三方管理，并且可存在于场所内或场所外。

社区云：云基础设施由若干组织共享并且支持具有共享的关注(例如，任务、安全要求、策略和合规性考虑)的特定社区。它可由组织或第三方管理，并且可存在于场所内或场所外。

公共云：使云基础设施对公众或大型产业组可用并且由销售云服务的组织拥有。

混合云：云基础设施由两个或更多个云(私有、社区或公共的)组成，这些云保持唯一实体但通过标准化或专有技术来绑定在一起，这些技术实现数据和应用便携性(例如，用于云之间的负载平衡的云突发)。

云计算环境是面向服务的，关注于无状态(statelessness)、低耦合、模块性(modularity)和语义互操作性。云计算的核心是包括互连节点网络的基础设施。

现在参见图7，描绘了说明性云计算环境50。如图所示，云计算环境50包括一个或多个云计算节点40，云消费者使用的本地计算设备(诸如,例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N)可与云计算节点40通信。节点40可彼此通信。它们可以被物理地或虚拟地分组(未示出)在一个或多个网络中，诸如上文描述的私有云、社区云、公共云或混合云或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应理解，图7中所示的计算装置54A-N的类型旨在仅是说明性的，并且计算节点40和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如，使用网络浏览器)与任何类型的计算机化设备通信。

现在参见图8，示出了由云计算环境50(图7)提供的一组功能抽象层。应预先理解，图8中所示的部件、层和功能旨在仅是说明性的，并且示例性实施方式不限于此。如所描绘的，提供了以下层和相应的功能：

硬件和软件层60包括硬件和软件组件。硬件组件的示例包括：主机61；基于RISC(精简指令集计算机)架构的服务器62；服务器63；刀片服务器64；存储设备65；以及网络和联网组件66。在一些实施例中，软件组件包括网络应用服务器软件67和数据库软件68。

虚拟化层70提供抽象层，从该抽象层可以提供虚拟实体的以下示例：虚拟服务器71；虚拟存储装置72；虚拟网络73，包括虚拟专用网络；虚拟应用和操作系统74；以及虚拟客户端75。

在一个实例中，管理层80可提供下文所描述的功能。资源供应81提供用于执行云计算环境内的任务的计算资源和其他资源的动态获取。计量和定价82在云计算环境内利用资源时提供成本跟踪，并针对这些资源的消费进行计费或发票。在一个示例中，这些资源可以包括应用软件许可。安全性为云消费者和任务提供身份验证，以及对数据和其他资源的保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务级别管理84提供云计算资源分配和管理，使得满足所需的服务级别。服务水平协议(SLA)计划和履行85提供云计算资源的预安排和采购，根据SLA预期该云计算资源的未来要求。

工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负载和功能的示例包括：地图和导航91；软件开发和生命周期管理92；虚拟教室教育交付93；数据分析处理94；事务处理95；以及敏感信息掩蔽96。

示例性实施例可以是任何可能的集成技术细节水平的系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(一个或多个)，所述计算机可读程序指令用于致使处理器执行示例性实施例的各方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构)，以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身，诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备，或经由网络(例如，互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行示例性实施例的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据，或以一种或多种编程语言的任何组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言，诸如Smalltalk、C++等，以及过程式编程语言，诸如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中，远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机，或者可以连接到外部计算机(例如，通过使用互联网服务提供商的互联网)。在一些实施例中，电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化，以便执行示例性实施例的各方面。

本文中参考根据示例性实施例的方法、设备(系统)和计算机程序产品的流程图图示和/或框图来描述示例性实施例的各方面。应当理解，流程图图示和/或框图的每个方框以及流程图图示和/或框图中各方框的组合，都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得通过计算机或其他可编程数据处理装置的处理器执行所述指令，创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在计算机可读存储介质中，该指令可指导计算机、可编程数据处理装置和/或其他设备以特定方式起作用，使得具有存储在其中的指令的计算机可读存储介质包括制品，该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

计算机可读程序指令还可以加载到计算机、其他可编程数据处理装置或其他装置上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的过程，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据各种示例性实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个方框可以代表模块、片段或指令的一部分，其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些可替代实现方式中，框中所标注的功能可以不以图中所标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。还将注意的是，框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现，所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

Claims

1.一种用于保护文档中的敏感信息的计算机实现的方法，包括：

为文档集合提供倒排文本索引；

使用所述倒排文本索引来评估所述倒排文本索引的索引令牌的一个或多个统计度量；

使用所述一个或多个统计度量来选择可能包含敏感信息的候选令牌集合；

从所述倒排文本索引提取描述所述候选令牌集合的元数据，其中所提取的元数据至少包括所述索引令牌的令牌类型和包含所述索引令牌的文档的文档标识符；

将所述候选令牌集合与相应的令牌元数据关联，其中所述令牌的令牌元数据包括所述令牌的所提取的元数据；

接收对至少一个文档的请求；

令牌化所述至少一个文档，从而产生一个或多个文档令牌；

将所述一个或多个文档令牌与所述候选令牌集合进行比较；

基于所述比较选择要掩蔽的文档令牌集合；

根据相关联的令牌元数据选择包括敏感信息的文档令牌集合的至少一部分；

掩蔽所述一个或多个文档中的文档令牌集合的至少一部分，从而产生一个或多个掩蔽文档；以及

提供所述一个或多个掩蔽文档。

2.如权利要求1所述的方法，还包括：

确定所述候选令牌集合的主题元数据，所述候选令牌集合的主题元数据包括所述候选令牌集合的主题或包含所述候选令牌集合的文档的主题，其中所述令牌的令牌元数据还包括所述主题元数据。

3.如权利要求2所述的方法，还包括：

确定所述候选令牌集合中的每个令牌的令牌类别；

将所述令牌类别输入到信息管理工具；以及

接收所述主题元数据作为输出。

4.如权利要求1所述的方法，其中：

所述索引令牌的统计度量包括所述文档集合中包含所述索引令牌的文档的数量、所述索引令牌在所述文档集合中的出现频率或所述索引令牌的令牌类型在所述文档集合中的出现频率中的一个或多个；以及

选择所述候选令牌集合包括：将所述统计度量与预定义的阈值进行比较。

5.如权利要求4所述的方法，其中，所述令牌类型包括文本类型或数字类型中的一个或多个。

6.如权利要求1所述的方法，还包括：

在存储系统中与所述令牌元数据相关联地存储所述候选令牌集合；

使用更新的倒排文本索引来评估所述更新的倒排文本索引的更新的索引令牌的一个或多个统计度量；

使用所述一个或多个统计度量来选择可能包含敏感信息的更新的候选令牌集合；

从所述更新的倒排文本索引提取描述所述更新的候选令牌集合的更新的元数据，其中，所提取的更新的元数据至少包括所述更新的索引令牌的令牌类型和包含所述更新的索引令牌的文档的文档标识符；以及

相应地更新所述存储系统，其中更新的存储系统用于选择被掩蔽的更新的文档令牌。

7.如权利要求1所述的方法，其中：

根据相关联的令牌元数据选择包括敏感信息的文档令牌集合的至少一部分包括：对令牌元数据运行分类器并将文档令牌集合分类为敏感令牌或非敏感令牌；并且

基于所述分类来执行所述选择。

8.如权利要求1所述的方法，还包括：

确定由所请求的文档的内容表示的域，其中所述文档集合表示所确定的域并且排除所请求的文档。

9.如权利要求1所述的方法，其中所述文档集合包括所请求的文档。

10.如权利要求1所述的方法，其中所请求的文档是非结构化文档。

11.一种用于保护文档中的敏感信息的计算机程序产品，所述计算机程序产品包括：

一个或多个非暂态计算机可读存储介质和存储在所述一个或多个非暂态计算机可读存储介质上的程序指令，所述程序指令能够执行如权利要求1至10中任一项所述的方法。

12.一种用于保护文档中的敏感信息的计算机系统，所述计算机系统包括：

一个或多个计算机处理器、一个或多个计算机可读存储介质以及存储在所述计算机可读存储介质中的一个或多个上的程序指令，所述程序指令由能够执行如权利要求1至10中任一项所述的方法的一个或多个处理器中的至少一个处理器执行。