CN115380288A

CN115380288A - 用于私密和安全数据链接的上下文数据脱敏的系统和方法

Info

Publication number: CN115380288A
Application number: CN202180026223.3A
Authority: CN
Inventors: 萨蒂恩德·戈埃尔; 阿普万·查赫拉; 詹姆斯·B·库什曼二世
Original assignee: Coribra LLC
Current assignee: Cnv Xinke Co ltd; Corebra Belgium GmbH
Priority date: 2020-01-29
Filing date: 2021-01-29
Publication date: 2022-11-22
Anticipated expiration: 2041-01-29
Also published as: US20210232701A1; US20230334174A1; WO2021152542A1; CA3166490A1; BR112022012800A2; US11704438B2; US12008137B2; US20220318428A1; US11366928B2; EP4097617A1; AU2021214982A1; MX2022008926A; IL295114A; JP2023507231A; CN115380288B; KR20220124288A

Abstract

本技术涉及上下文数据脱敏和注册的方法和系统。数据脱敏过程可以包括对摄取的数据进行分类，处理数据，和对数据进行令牌化，同时维护摄取的数据的安全性/隐私。数据脱敏过程可以包括数据配置，所述数据配置包括生成所摄取数据的匿名化标签，验证所摄取数据的属性，将所述属性标准化为标准化格式，以及通过一个或多个规则引擎处理所述数据。一个规则引擎可以包括地址标准化，所述地址标准化生成标准地址列表，可以在不对外传输客户端数据的情况下提供对所摄取数据列的洞察。脱敏的数据可以作为数据脱敏过程的一部分进行令牌化，以安全地维护对摄取数据的印象并生成对摄取数据的洞察。

Description

用于私密和安全数据链接的上下文数据脱敏的系统和方法

相关申请交叉引用

本申请要求2020年1月29日提交的美国临时申请第16/776,293号的权益和优先权，上述专利申请的全部内容通过引用并入本文。

技术领域

本公开涉及数据处理，并且，特别地，安全和私密地处理数据以产生对所述数据的洞察(insight)。

背景技术

多种实体可以在多种计算设备上数字化地维护大量数据。例如，一个组织可以在一系列互连的服务器上维护多列数据。通常可能需要检查这些大量数据以确定对数据多种特征的多种洞察。然而，检索和处理大量数据可能是计算资源密集型的。

在许多情况下，客户端数据可以从客户端计算设备传输到外部计算设备以进行数据检查。但是，客户端数据会包含敏感/私密信息，例如包含个人身份信息(PII)的客户端数据。在这种情况下，向外部传输客户端数据可能会使此敏感数据易受到未经授权的访问。因此，在限制对客户端数据的外部访问的同时，可能需要识别客户端数据的特征。

附图说明

对于本领域技术人员来说，通过研究结合了附图的具体实施方式，本技术的多种特征和特性将变得更加清楚。本技术的实施例在附图中以示例而非限制的方式进行说明，其中相同的参考标记可表示相同的元素。

图1是可以实施当前实施例的网络结构示例。

图2是示出了数据脱敏(data masking)过程示例的框图。

图3是示出了数据编目/分类过程示例的框图。

图4是示出了数据的元数据处理的示例过程的框图。

图5是示出了数据剖析(data profiling)过程示例的框图。

图6是示出了令牌化过程示例的框图。

图7是在数据脱敏过程中对数据进行安全分类和令牌化的示例方法的框图。

图8是示出了处理系统的示例的框图，所述处理系统至少可以实施本文描述的一些操作。

附图所描绘的多种实施例仅用于说明目的。本领域技术人员将认识到，在不背离技术原理的情况下可以采用替代性的实施例。因此，虽然附图中示出了具体实施例，该技术适应于多种修改。

具体实施方式

许多实体(例如公司，组织)维护大量数据。这些数据可以存储在计算设备的多种注册表或数据库中。在许多情况下，这些实体可能需要跨不同数据集识别和匹配记录并获得对数据集的洞察。例如，一个组织，考虑到多个相似的数据集，可能会尝试在相似的数据集中识别并且选择高质量和准确的数据集。

然而，在许多情况下，检查所有数据集以检测洞察会是计算资源密集型的。例如，检索和显示多个数据集可能是对计算资源的低效使用。此外，在许多情况下，这些数据集可能会被发送到外部设备以进行处理。然而，当这些数据集包含敏感数据(例如，包含个人身份信息(PII)的数据)时，将此类数据传输到外部设备可能会使数据容易受到未经授权的访问。因此，实体可以限制来自与实体关联的计算设备对数据的传输/访问。

本实施例涉及上下文数据脱敏，其在运行时对基础数据的安全性有所增强。特别地，数据匿名化过程可以对代表底层数据中包括的一种数据类型的摄取的数据进行分类，脱敏，并且令牌化，从而在维护数据隐私/安全的同时安全地维护所述数据。

所述数据可以按类型，域，子域，商业实体，数据类，和/或数据组级别进行分类，以便在数据脱敏过程中摄取数据。在数据摄取过程中，可以根据对数据分类的授权以进行数据脱敏和/或令牌化。可以运行数据脱敏来令牌化跨注册数据源的数据。所述数据脱敏过程可以安全地运行(例如，通过位于客户端网络防火墙后面的节点/应用程序)。经过令牌化和上下文脱敏的数据可以存储在网络可访问的服务器系统中以进行资产匹配。所述存储的数据可用于生成对数据质量的多种洞察，同时维护数据的安全性/隐私性。

所述数据脱敏过程可能包括在客户端计算设备上对客户端数据的自动审查/检查。可以生成匿名和令牌化的数据的私密印象。所述数据的印象可以提供与客户端数据相关的信息，而不会被追踪到客户端数据。数据脱敏可以使用类来匹配数据类型。类的示例可以包括名字，地址，电话号码，出生日期，社会安全号码等。然而，任何合适类型的类都可以与摄取的数据相关联。识别数据类可以用于提供对数据的洞察，而无需将源数据传输到外部计算设备。

所述数据脱敏过程可以包括数据配置过程，该数据配置过程可以包括生成被分类数据的匿名化标签，所述匿名化标签可以提供对摄取的元数据的洞察，而不会使底层数据(例如，包括个人身份信息(PII)的数据)被识别。

所述数据脱敏过程可以包括验证客户端数据的属性，将所述属性标准化为标准化格式，并通过一个或多个规则引擎处理所述数据。

在所述数据脱敏过程中处理的数据可以由网络可访问的服务器系统进行令牌化和维护。基于令牌化的数据，可以在不访问/传输底层数据本身的情况下生成对所述底层数据的洞察。这可以提高数据隐私性和安全性，因为可以基于所述数据生成洞察，而无需通过网络将数据发送到外部计算设备。

所述数据脱敏可以产生对要生成的数据的私密和安全的洞察。洞察的一个示例可以包括实体洞察，示出源系统内的重复以及记录级别的源重叠率之间的重叠。另一个洞察的示例可以包括域内和跨域的数据属性的重复或多个例子，包括百分比重叠。作为进一步的示例，洞察可以包括来自规范化和标准化的数据质量报告(标准相对非标准的百分比是多少)或基于标签处理的趋势(例如，具有相同地址的记录)。

下面描述的实施例代表了使本领域技术人员能够实施这些实施例的必要信息并示出实施这些实施例的最佳模式。在根据附图阅读以下描述后，本领域技术人员将理解本公开的概念并且将认识到本文未具体阐述的这些概念的应用。这些概念和应用包括在本公开和所附权利要求的范围内。

描述实施例可能参考特定的计算机程序，系统配置，网络等。然而，本领域技术人员将认识到这些特征同样可应用于其他计算机程序类型，系统配置，网络类型等。例如，尽管术语“Wi-Fi网络”可用于描述网络，但相关实施例可以部署在另一种类型的网络中。

此外，本公开的技术可以使用专用硬件(例如，电路)，用软件和/或固件合适地编程的可编程电路，或专用硬件和可编程电路的组合来实施。因此，实施例可能包括机器可读介质，所述介质具有可用于对计算设备(例如，计算设备或网络可访问的服务器系统)进行编程的指令，以如本文所述地检查数据和处理数据。

名词解释

本文使用的术语的目的仅用于描述实施例，并不旨在限制本公开的范围。在上下文允许的情况下，使用单数或复数形式的词也可以分别包括复数或单数形式。

如本文所使用的，除非另有明确说明，否则诸如“处理”，“计算(computing)”，“计算(calculating)”，“确定”，“显示”，“生成”，或类似的术语，是指计算机或类似的电子计算设备的动作和过程，这些设备将在计算机存储器或寄存器内表示为物理(电子)量的数据操作并转换为在计算机的存储器，寄存器，或其他此类存储介质，传输，或显示设备内类似表示为物理量的其他数据。

如本文所使用的，诸如“连接”，“耦接”，或类似的术语，可以指代两个或多个元素之间直接或间接的任何连接或耦合。元素之间的耦合或连接可以是物理的，逻辑的，或两者的组合。

对“实施例”或“一个实施例”的提及是指所描述的特定特征，功能，结构，或特征包括在至少一个实施例中。此类短语的出现不一定指代同一实施例，也不一定指代彼此相互排斥的替代性实施例。

除非上下文另有明确要求，否则“包括(comprise)”和“包含(comprising)”应被理解为包容性的含义，而不是排他或详尽的含义(即，“包括但不限于”的含义)。

术语“基于”也应被理解为包容性的含义，而不是排他或详尽的含义。因此，除非另有说明，否则术语“基于”旨在表示“至少部分基于”。

术语“模块”泛指软件组件，硬件组件，和/或固件组件。模块通常是功能组件，可以基于指定的输入生成有用的数据或其他输出。一个模块可以是自包含的。计算机程序可以包括一个或多个模块。因此，计算机程序可以包括负责完成不同任务的多个模块或负责完成多个任务的单个模块。

当用于提及多个项目的列表时，“或”一词旨在涵盖以下所有解释：列表中的任何项目，列表中的所有项目，以及列表中项目的任何组合。

在本文描述的任何过程中执行的步骤序列是示例性的。然而，除非与物理可能性相反，这些步骤可能以多种顺序和组合来执行。例如，可以将步骤添加到本文描述的过程中，或从中移除。类似地，步骤可以被替换或重新排序。因此，任何过程的描述都旨在是开放式的。

环境概述

图1是可以实施本实施例的示例网络架构100。如图1所示，网络架构100可以包括远程节点102。所述远程节点102可以包括可以与客户端设备和内部计算设备两者通信的计算设备。例如，远程节点102可以与客户端节点104通信并检查存储在所述客户端节点104处的客户端数据。在许多情况下，可以允许远程节点102访问客户端节点104(例如，远程节点102被允许在客户端网络中实施的防火墙后面)。如下文所述，所述远程节点102可以检查由客户端节点104维护的客户端数据并为数据生成分类以提供对数据的洞察，而无需从客户端节点104移除底层数据。

所述远程节点102可以运行如下所述的多种数据提取和处理任务。例如，远程节点102可以映射客户端数据以进行数据分类，以确定客户端数据的合适的类别。源数据的分类部分(例如，客户端数据的子集)可以由远程节点102提取以进一步处理。此外，远程节点102可以运行如本文所述的任何数据脱敏处理任务。

所述远程节点102可以通过网络106与网络可访问的服务器系统108通信。所述网络可访问的服务器系统108可以包括一个或多个可以如本文所述地处理和维护数据的互连的服务器。在一些实施例中，网络可访问服务器系统108可以有助于基于云的计算环境。在一些实例中，远程节点102可以将去识别化的客户端数据和生成的数据分类发送到网络可访问服务器系统108。所述网络可访问服务器系统108可以处理获得的数据并运行如本文所述的进一步处理任务。在一些实例下，网络可访问服务器系统108可以将配置文件生成器中包括的多种配置参数和用户认证信息传送到远程节点102。

所述远程节点102可以通过网络110与安全服务器112通信。所述安全服务器112可以包括具有有限访问权的计算设备(例如，服务器，互联的一系列服务器)以确保安全数据的安全性。所述安全服务器112可以向远程节点102提供种子和密钥信息。例如，安全服务器112可以维护散列码生成器(例如，SEED SHA 2(512/256))和/或客户端/源特定的加密密钥(例如，高级加密标准密钥(AES 256))。安全服务器112和远程节点102可以通过网络110的散列消息认证码(HMAC)层或传输层安全性(TLS)层来交流信息(例如，种子和密钥信息)。

数据脱敏过程概述

如上所述，数据脱敏过程可以包括对客户端数据进行分类和生成数据的印象(匿名客户端数据)并且可以用于生成对客户端数据的洞察。在许多情况下，客户端数据可以包含个人身份信息(PII)，其中可以包含表示个人或组织的信息。对于包括PII或商业敏感数据类的客户端数据，创建对客户端数据进行匿名化处理的印象，可以提高客户端数据的安全性和数据隐私。

图2是示出数据脱敏过程示例200的框图。可以摄取和检查客户端数据以为所述客户端数据确定分类。例如，可以由安全计算设备(例如，远程节点102)摄取/检查多列数据。

可以对所述客户端数据进行编目/分类202。对客户端数据进行编目/分类可以包括检查所述客户端数据并识别数据集中包括的信息类型。示例分类器可以包括姓名，电话号码，电子邮件地址，出生日期，信用卡号等。在一些实例中，可以为一列数据或一个数据集提供多个分类，其中所述多个分类可以表示在所述数据列或数据集中包括多种类型的数据。

所述数据的分类可以被发送到数据脱敏204。在一些实例中，为客户端数据确定的分类和客户端数据的子集(例如，不包括个人身份信息的客户端数据)都可以通过数据脱敏过程进行处理。

数据脱敏可以包括元数据脱敏206。元数据脱敏206可以包括检查为数据确定的分类以及与所述数据相关的元数据，以生成可以匿名化所述分类和/或元数据的标签。例如，如果一列数据的分类将“名字(First Name)”标识为分类，则可以为该分类生成标签“la1”。因此，标签(例如，标签“la1”)只能向可以将所述标签翻译成包括在客户端数据中的数据类型的设备表示数据类型。

在许多实例中，标签可以对应于数据的多个属性。例如，标签可以包括与名字，姓氏，和出生日期相对应的信息。因此，一系列标签可以对应于摄取的数据的任意数量的属性和/或特征。所述系列标签对于每个客户端可以是唯一的，并且可以包括摄取的数据的属性和/或特征的任意组合。每个标签都可以提供对与摄取的数据相关联的元数据的脱敏洞察，以提供与摄取的数据相关的进一步信息，同时增加数据的隐私和/或安全性。所述标签可用于对摄取的数据的元数据进行去识别化。

对应于客户端的一系列标签可以从与客户端相关的配置信息中检索。所述配置信息可以在网络可访问的服务器系统(例如，网络可访问的服务器系统108)被维护。所述配置信息可以提供客户端特有的系列标签和/或识别由安全服务器维护的特定于客户端的加密信息(例如，加密密钥，散列码信息)的位置的地址。在一些实施例中，所述系列标签和所述配置文件生成器中的任意一个对客户端来说都可以是特有的。

数据脱敏可以包括通过剖析过程208处理数据。剖析数据可以包括多个处理步骤，以优化从处理脱敏数据中生成的洞察的准确性和效率。剖析数据可以包括检索客户端数据的属性。属性的示例可以包括为客户端数据生成的标签中的任意一个，客户端数据的元数据，和去识别化的客户端数据。

所述客户端数据可以被验证和标准化，以生成统一的一组信息来进行令牌化。例如，名字可以被标准化为所有字母字符都大写的通用格式。在许多情况下，可以基于数据类使用多个规则引擎。

在剖析数据中，数据可以在组合常规引擎210和多值记录引擎212的任何一个中进行处理。组合常规引擎210可以结合数据集的多个标签/分类。在一些实例中，标签可以对应于类的子部分。例如，标签可以表示一个相关的类或属性。

多值记录引擎212可以将一个记录有多个值的数据集标准化。例如，一个人可以包括多个地址；家庭地址和工作地址。这两个地址都可以与个人相关联并且被标准化，从而使两个地址都被识别为地址。

处理后的数据可以被令牌化214。令牌化可以包括对数据进行散列以生成数据的令牌化版本。在一些实施例中，可以使用特定于客户端的加密密钥对令牌化数据进行加密，以产生中间加密令牌。

加密令牌可以用元数据标识以生成上下文令牌。可以通过将数据的分类与维护与每个分类类型相关联的标记列表的配置文件生成器216进行比较，以生成上下文令牌。所述配置文件生成器216可以提供多种配置信息，例如源特定标签，键的路径和用于创建上下文令牌的散列。

散列密钥和加密密钥可以被维护在安全服务器存储218中。所述安全存储218可以包括多种安全信息，例如加密密钥。令牌化数据可以由网络可访问的服务器系统108维护以进一步处理。

数据分类

如上所述，可以摄取和检查客户端数据以生成客户端数据的分类。图3是示出了示例数据编目/分类过程的框图300。

如图3所示，可以摄取数据302。摄取数据可以包括从客户端计算设备(例如，客户端节点104)获得和/或检查客户端数据。例如，摄取数据可以包括检查一列客户端数据。

摄取客户端数据可以包括识别客户端数据的特征。例如，远程节点可以检查客户端数据以识别客户端数据的文本/短语，客户端数据的元数据，或包括在客户端数据中可用于生成客户端数据分类的任何其他特征。在一些实施例中，分类信息可以从客户端服务器检索或由配置文件生成器提供。

在一些情况下，可以对摄入的数据进行编目/分类304以生成客户端数据的分类308。例如，客户端数据的分类可以基于域306a，子域306b，属性306c，或实体分类306d中的任何一个。与摄取的数据相关联的分类可以为摄取的数据提供上下文，所述上下文可用于生成对摄取的数据的洞察。

域306a可以包括与一组客户端数据相关的更广的域。例如，域分类器可以包括“人员”，“组织”，“产品”等中的任何一个。作为另一个示例，域分类器可以显示客户端数据是否包括PII。

子域306b可以包括在其上收集客户端数据的更窄的域。例如，所述子域可以包括客户端(例如，雇主，银行)。例如，客户端数据可以与包含在“人员”域中的雇主的雇主协议相关。可以检查客户端数据并且确定子域分类器可以识别雇主。作为另一个示例，可以检查客户端数据以识别包括在客户端数据中的表格类型。

属性306c可以表示包括在客户端数据中的数据类型。例如，属性306c可以包括包括在客户端数据中的姓名，电话号码，电子邮件，社会安全号码，信用卡号码，地理位置，语言等中的任何一个。

实体分类306d可以表示特定实体。例如，实体分类306d可以表示特定客户端。作为另一示例，如果银行具有个人账户和抵押贷款账户两者，实体分类306d可以指定客户端数据与银行的抵押账户贷款相关联。

元数据处理

数据脱敏过程可以包括元数据处理。元数据处理可以包括处理获得的分类和客户端数据以生成标签，所述标签提供客户端数据中包括的信息的匿名表示。在一些情况下，所述标签和/或客户端数据可以被加密。

图4是示出了用于数据的元数据处理的示例过程的框图400。如图4所示，数据脱敏406可以包括获取任何生成的分类402和/或摄取的客户端数据404。在一些情况下，数据脱敏406可以包括获取特定于客户端的配置信息(例如，特定于客户端的标签)以提供给所述客户端数据。此外，数据脱敏406可以包括获取特定于客户端的加密信息和散列信息。例如，所述加密信息可以包括特定于客户端的加密密钥(例如，E-EKEY)。所述散列信息可以包括散列盐(例如，H-SALT)。例如，所述散列盐可以通过SHA2 512/256由计算机生成。

标记存储(或“配置文件生成器”)418可以在标签创建412中用于生成标签。标签可以是客户端数据子集中包含的信息类型的特定于客户端指示符。标签可以匿名化客户端数据的属性，所述属性只能使用特定于客户端的配置信息进行翻译。可以基于检索与摄取数据404和分类402相关的元数据410并运行标签创建过程412来生成所述标签。标签创建过程412可以包括将输入信息与特定于客户端的标签集进行比较以识别与输入信息对应的标签。

作为示例，如果客户端使用数据库字段名“FirstName”，对应于数据类“firstname”，则相应的标签可以包括“La1”。使用特定于客户端的配置信息，授权设备(例如，网络可访问服务器系统108)可以翻译标签La1以识别客户端数据与数据类别“first name”相关。因此，在此示例中，未经授权的实体(例如，无法访问特定于客户端的配置信息的实体)将无法确定标签表示的信息类型，因为标签是匿名的。

生成的标签可以提供对应于客户端数据的多种属性的客户端数据的印象。在一些实例中，标签可以对应于客户端数据的多个属性。例如，标签可以识别包括表示“名字(First Name)”的第一属性和表示“地址(Address)”的第二属性的摄取数据。在一些实施例中，一系列标签可以包括属性的层次结构。例如，标签的层次结构可以包括标签的子集，所述子集包括第一层属性，例如姓名，地址等。进一步说明这个示例，标签的层次结构可以包括进一步定义第一层属性的第二层属性，例如姓名属性的三个字母和姓名属性的Soundex。

数据剖析

数据脱敏过程可以包括数据剖析。数据剖析可以包括修改输入信息以优化匹配准确性的若干处理步骤，从而为数据生成洞察。例如，数据剖析可以在令牌化剖析数据之前对数据进行标准化和改变。

图5是示出数据剖析过程示例的框图500。如图5所示，数据剖析500可以包括获取输入信息。示例输入信息可以包括生成的标签502和/或摄取的数据504。所述摄取的数据504可以包括去识别化的客户端数据。

数据剖析500过程可以包括定义属性506。属性506可以表示客户端数据的特性或特征。例如，属性506可以包括出生日期(例如，1990年1月1日)。这可以包括月份日期型，日期，年份日期型，和/或完整的出生日期(DOB)。其他示例属性506可以包括地址，姓名，电子邮件地址，性别，电话号码，社会安全号码等。属性506还可以包括表示客户端数据的标签/分类。

数据剖析500可以包括所述属性506的标准化508。标准化508可以包括验证包括在属性506中对应于属性的数据，并且将属性506的格式标准化为统一格式。数据剖析500可以包括多个标准化过程，可以标准化多种类型的属性。在许多情况下，标准化可以是横向和/或纵向的模块化。

所述标准化属性可以通过一个或多个规则引擎510进行处理。规则引擎可以进一步处理标准化属性，使得从标准化属性中能够得出更多洞察。示例规则引擎510可以包括昵称引擎512a，地址库引擎512b，或任何其他数量的规则引擎(例如，规则引擎N 512n)。

昵称引擎512可以将相关名称与公共标识符相关联。例如，名称Rick是名称Richard的常用昵称。昵称引擎512可以检查属性以确定名称是否具有与所述名称相关联的共同昵称。例如，昵称引擎512a可以识别名称Richard具有共同昵称Rick。在这种情况下，昵称引擎512a可以创建标识所述昵称的属性的后续标签或印象。被剖析的数据514可以包括表示常见昵称的第二印象。所述第二印象可以表示任何属性或属性的组合。

地址库引擎512b可以包括识别属性是否包括地址并且将地址添加到包括多种地址的储存库/列表。所述地址库引擎512b可以将地址与客户端/实体相关联。在通过规则引擎510进行处理后，数据剖析可以输出被剖析的数据514。

在一些实施例中，用于脱敏数据的示例方法可以包括摄取对应于客户端的数据流。所述对应于客户端的数据流可以包括一列或多列客户端数据。如上所述，数据脱敏过程可以创建匿名数据的印象，其中任何PII被移除，使得客户端数据不会暴露到客户端服务器外部。

在一些实施例中，所述数据流可以包括一个或多个表示所述属性特征的分类器。所述特征可用于识别第一标签。所述分类器可以包括表示包括在数据流中的信息类型的域分类器，表示在域分类器中标识的所选信息类型的子集的子域分类器，表示包括在数据流中的可识别信息的类型的属性分类器，以及表示与所述客户端相关联的组织的部门的实体分类器中的任何一个。

所述方法可以包括从数据流中识别属性。所述属性可以包括对包括在数据流中一部分数据的印象，所述印象防止从维护数据流的客户端节点传输包括在数据流中的信息。在一些实施例中，所述属性可以包括移除了任何PII的数据，从而客户端数据的安全性/隐私得以维护。

所述方法可以包括检索包括标签列表的特定于客户端的配置信息。所述标签列表中的每个标签都可以提供数据集中包含的信息类型的特定于客户端的表示。所述标签可以被匿名化，使得只有能够访问特定于客户端的配置信息的认证实体才能识别所述标签表示的信息。

所述方法可以包括识别标签列表中包括的第一标签，所述第一标签对应于属性中的信息类型。例如，如果所述属性是出生日期，则第一个标签可以表示出生日期。

所述方法可以包括通过数据剖析过程处理所述属性和所述第一标签。所述数据剖析过程可以包括检索与所述第一标签相对应的一组验证规则和一组标准化规则。所述一组验证规则可以提供表示属性是否对应于标签的规则。所述一组标准化规则可以提供将属性修改为标准化格式的规则。

数据剖析过程可以包括将所述属性与该组验证规则进行比较以确定所述属性是否对应于所述标签。如果确定所述属性对应于所述标签，则可以修改该属性，如下所述。

在其他实施例中，所述方法可以包括确定所述属性不符合对应于第一标签的一系列验证规则。在这些实施例中，响应于确定所述属性不符合所述系列验证规则，所述第一标签可以与所述属性解除关联。可以识别不同于所述第一标签的第二标签，并且可以通过确定所述属性符合对应于第二标签的第二系列验证规则来验证所述属性。

数据剖析过程可以包括根据该组标准化规则将属性修改为标准化格式。这可以响应于确定所述属性对应于第一标签而运行。

数据剖析过程可以包括通过多个规则引擎处理属性。所述规则引擎可以包括名称引擎，所述名称引擎将属性与关联名称列表中包括的通常关联的名称相关联，以响应于确定所述属性显示名称。所述规则引擎还可以包括地址库引擎，响应于确定所述属性显示地址，而将所述属性添加到与客户端相关联的地址库中。

在一些实施例中，所述方法可以包括从安全服务器检索一组特定于客户端的加密信息。所述特定于客户端的加密信息可以包括特定于客户端的散列盐和特定于客户端的加密密钥。可以使用散列盐对所述属性进行散列以生成散列属性。可以使用加密密钥对散列属性进行加密。在一些实施例中，可以将第一标签与包括一系列特定于客户端的标记的标记存储进行比较，以识别对应于第一标签的第一标记。可以生成包括所述散列属性和所述第一标记的上下文令牌。在这些实施例中，上下文令牌可以被发送到网络可访问服务器系统。

在一些实施例中，特定于客户端的加密信息可以使用散列消息认证码(HMAC)协议加密或通过TLS机制传输，并且散列码可以包括计算机生成的SHA2 512/256令牌。

在一些实施例中，所述方法可以包括识别标签列表中包括的多个标签。所述多个标签可以表示属性中包含的多种类型的信息。响应于确定属性与多于一个标签相关联，可以将多个标签组合成组合标签，所述组合标签通过组合常规识别包括在所述属性中的多种类型的信息。

在一些实施例中，所述方法可以包括确定第一标签匹配于对应于客户端的数据流中的先前识别的属性的先前识别的标签。所述方法还可以包括组合第一标签与先前识别的标签，使得先前识别的属性和属性都对应于先前识别的标签。

所述方法可以包括将处理后的属性和第一标签输出到网络可访问的服务器系统。网络可访问的服务器系统可以维护一系列与脱敏数据相关的经处理的属性或令牌，并生成对客户端数据的洞察。

数据令牌化

数据脱敏过程可以包括令牌化过程。令牌化可以包括对经剖析的数据进行编码，使得所述数据可以被存储和检查，以生成对客户端数据的洞察。对数据进行令牌化可以为客户端数据提供额外的安全性。

图6是示出了令牌化过程示例的框图600。所述令牌化过程可以包括获得剖析数据602，所述剖析数据包括在如本文所述的数据脱敏过程中处理的数据。可以使用散列码生成器(例如，SALT 604)对剖析数据进行散列。散列码生成器可以在运行时被调用。散列盐可用于使用例如安全散列算法(SHA 512/256)的NIST标准加密散列函数对数据进行散列。对数据进行散列可以生成数据606的令牌化版本。例如，散列数据可以包括64个字符的令牌。可以使用编码技术(例如，Base64编码)将令牌606进一步压缩为44个字符的字符串。

在一些实施例中，令牌606可以使用特定于客户端的加密密钥(例如E-EKEY)进行加密，以产生中间加密令牌(例如ETOKEN 608)。这可以为客户端数据提供额外的一层加密和安全性，以进一步减轻对客户端数据的未授权访问的风险。

可以用元数据标记令牌606(或者在某些情况下，加密令牌608)，以生成上下文令牌610。在一些实施例中，可以用特定于客户端的标签标记上下文令牌610，以生成特定于客户端的上下文令牌(例如，CTOKEN 610)。可以基于在标记存储612中维护的信息来生成上下文令牌610。

在一些实施例中，可以使用任何加密过程和/或上下文分析过程来生成上下文令牌610。加密过程可以包括使用特定于客户端的加密信息来加密令牌化信息。上下文分析过程可以包括将客户端的上下文信息添加到令牌化信息中。上下文信息可以是特定于客户端的，也可以是被多个客户端使用的。

标记存储612可以包括对应于多种分类类型的一系列标记。例如，标记存储612可以维护实体分类标签(EE)，域分类(DD)，和子域分类(SDSD)。在一些情况下，所述标记的长度最多可达8个字符。标记存储612可以为每个客户端维护唯一的标签方案。标记存储612可以包括与加密密钥相关联的加密信息。标记存储612中包括的信息会在标记令牌化数据以生成上下文令牌时被提供。标记存储612可以由网络可访问的服务器系统安全地维护，并且对标记存储的访问可以只提供给授权用户。

上下文令牌610可以在网络可访问的服务器系统中维护，所述服务器系统被配置为为客户端维护上下文令牌610并生成对数据的洞察。在一些情况下，所述令牌可以从远程节点被发送到网络可访问的服务器系统，以进行数据匹配和洞察生成。

实施数据脱敏程序的方法示例

图7是示出了用于在数据脱敏过程中安全地分类和令牌化数据的示例方法700的框图。如图7所示，所述方法可以包括摄取对应于客户端的数据集(框702)。所述数据集可以包括与客户端相关的一系列数据列。所述信息可以在客户端节点处维护。在一些情况下，所述数据集中包括的数据中的至少一部分包括个人身份信息(PII)。

所述方法可以包括检查所述数据集以识别分类器，所述分类器表示包括在所述数据集中的属性的特征(框704)。在一些实施例中，所述分类器包括域分类器，子域分类器，属性分类器，和实体分类器中的任何一个。在一些情况下，可以基于检查所述数据集来确定每个分类器。

所述方法可以包括检索特定于客户端的加密信息和特定于客户端的配置信息，所述信息包括表示数据集中包括的信息类型的匿名标签的列表(框706)。在一些实施例中，特定于客户端的加密信息可以从安全服务器检索，特定于客户端的加密信息可以使用散列消息认证码(HMAC)协议进行加密，并且其中所述散列码可以包括计算机生成的SHA2 512/256令牌。

所述方法可以包括基于所识别的分类器，识别与所述属性中的信息类型相对应的匿名标签列表中包括的标签(方框708)。标签可以提供所述属性中表示的一种信息类型的匿名标识符。可以基于任何所述属性和所述分类器生成所述标签。例如，如果属性与名称相关，则对应的标签可以是“La1”。在这些实施例中，只有有权访问与所述标签对应的信息列表的实体才能识别由每个标签识别的信息类型，从而匿名化所述数据。

所述方法可以包括处理所述数据集的属性以生成被修改为标准化格式的经修改属性(框710)。这可以包括如本文所述的剖析过程。

在一些实施例中，处理所述数据集的属性以生成所述修改属性还包括检索与所述标签对应的一组验证规则和一组标准化规则。所述一组验证规则可以提供显示所述属性是否对应于所述标签的规则。所述一组标准化规则可以提供将所述属性修改为标准化格式的规则。可以将所述属性与所述一组验证规则进行比较，以确定所述属性是否对应于所述标签。可以根据所述一组标准化规则将所述属性修改为标准化格式，以响应确定所述属性对应于所述标签。

在一些实施例中，处理所述数据集的属性以生成所述经修改属性还包括使用一系列规则引擎来处理所述属性。所述规则引擎可以包括名称引擎，所述名称引擎将所述属性与关联名称表中包括的通常关联的名称相关联，响应于确定所述属性表示名称。所述规则引擎还可以包括地址库引擎，所述地址库引擎将所述属性添加到与客户端相关联的地址库中，以响应于确定所述属性表示地址。

所述方法可以包括生成经修改的属性的令牌化版本(框712)。生成经修改属性的令牌化版本可以包括对所述经修改的属性(或属性的组合)进行令牌化和加密，以生成标签特定的令牌(框714)。这可以包括使用包括在特定于客户端的加密信息中的散列码对所述经修改的属性进行散列，以生成散列的经修改属性。可以使用编码方案将所述散列的经修改属性从64个字符的令牌压缩为44个字符的字符串。

生成经修改的属性的令牌化版本还可以包括将标签与标记存储进行比较，所述标记存储包括一系列特定于客户端的标记，以识别对应于所述标签的第一标记(框716)。生成经修改属性的令牌化版本还可以包括生成包括第一标记的经修改属性的上下文令牌(框718)。

在一些实施例中，可以将经修改属性的令牌化版本从远程节点发送到网络可访问的服务器系统。

在一些实施例中，响应于识别所述标签，所述方法可以包括基于标签和属性生成数据集的第一组洞察。响应于生成经修改的属性，所述方法还可以包括基于经修改的属性为数据集生成第二组洞察。所述第一组洞察和第二组洞察可以存储在网络可访问的服务器系统中。

处理系统示例

图8是示出了处理系统800示例的框图，可以实施本文描述的至少一些操作。如图8所示，处理系统800可以包括一个或多个中央处理单元(“处理器”)802，主存储器806，非易失性存储器810，网络适配器812(例如，网络接口)，视频显示器818，输入/输出设备820，控制设备822(例如，键盘和指点设备)，包括存储介质826的驱动单元824，以及通信连接到总线816的信号生成设备830。总线816被示为抽象，代表任何一个或多个单独的物理总线，点对点连接，或两者都通过适当的网桥，适配器，或控制器连接。因此，总线816可以包括例如系统总线，外围组件互连(PCI)总线或PCI-Express总线，超传输或工业标准架构(ISA)总线，小型计算机系统接口(SCSI)总，通用串行总线(USB)，IIC(I2C)总线，或电气和电子工程师协会(IEEE)标准1394总线，也称为“火线”。

在多种实施例中，处理系统800作为用户设备的一部分进行操作，尽管处理系统800也可以连接(例如，有线或无线)到用户设备。在联网部署中，处理系统800可以在客户端-服务器网络环境中以服务器或客户机的身份操作，或者作为对等(或分布式)网络环境中的对等机操作。

处理系统800可以是服务器计算机，客户端计算机，个人计算机，平板电脑，膝上型计算机，个人数字助理(PDA)，蜂窝电话，处理器，网络设备，网络路由器，交换机或桥接器，控制台，手持控制台，游戏设备，音乐播放器，联网(“智能”)电视，电视连接设备，或任何能够执行指定处理系统800要采取的动作的一组指令(顺序的或其他的)的便携式设备或机器。

虽然主存储器806，非易失性存储器810，和存储介质826(也称为“机器可读介质”)被显示为单一介质，但术语“机器可读介质”和“存储介质”应当被理解为包括存储一组或多组指令828的单一介质或多个介质(例如，集中式或分布式数据库，和/或相关联的高速缓存和服务器)。术语“机器可读介质”和“存储介质”还应当被理解为包括能够存储，编码，或携带一组指令以供计算系统执行并且使计算系统执行当前公开的实施例的任何一个或多个方法的任何介质。

一般来说，为实施本公开的实施例而执行的例程，可以作为操作系统或称为“计算机程序”的特定应用程序，组件，程序，对象，模块或指令序列的一部分来实施。计算机程序通常包括在多个时间设置在计算机中的多种存储器和存储设备中的一个或多个指令(例如，指令804，808，828)，并且当由一个或多个处理单元或处理器802读取和执行时，使处理系统800运行操作以执行涉及本公开的多个方面的元素。

此外，虽然已经在功能齐全的计算机和计算机系统的背景下描述了实施例，但本领域技术人员将理解所述多种实施例能够作为程序产品以多种形式分发，并且无论用于实际实现分发的特定类型的机器或计算机可读介质如何，本公开同样适用。例如，本文所描述的技术可以使用虚拟机或云计算服务来实现。

机器可读存储介质，机器可读介质，或计算机可读(存储)介质的进一步示例包括但不限于可记录类型介质，例如易失性和非易失性存储设备810，软盘和其他可移动磁盘，硬盘驱动器，光盘(例如，光盘只读存储器(CD ROMS)，数字通用光盘(DVD))，以及传输类型介质，例如数字和模拟通信链路。

网络适配器812使处理系统800能够通过由处理系统800和外部实体支持的任何已知和/或方便的通信协议，以处理系统800外部的实体来形成网络814中的数据。

网络适配器812可以包括网络适配器卡，无线网络接口卡，路由器，接入点，无线路由器，交换机，多层交换机，协议转换器，网关，网桥，桥接路由器，集线器，数字媒体接收器，和/或中继器中的一个或多个。

网络适配器812可以包括防火墙，所述防火墙在一些实施例中可以控制和/或管理访问/代理计算机网络中的数据的权限，并且跟踪不同机器和/或应用程序之间的不同信任级别。防火墙可以是具有硬件和/或软件组件的任意组合的任意数量的模块，所述组件能够在特定的一组机器和应用程序，机器和机器，和/或应用程序和应用程序之间实施一组预定的访问权限，例如，来规范这些不同实体之间的流量和资源共享。防火墙可以另外管理和/或访问访问控制列表，所述访问控制列表详细说明了权限，包括例如个人，机器，和/或应用程序对对象的访问和操作权限，以及在何种情况下获得权限权利立场。

如上所述，本文介绍的技术通过，例如，可编程电路(例如，一个或多个微处理器)，用软件和/或固件编程，完全以专用硬连线的(即，不可编程的)电路，或以这些形式的组合来实现。专用电路可以是以下形式，例如，一个或多个专用集成电路(ASIC)，可编程逻辑器件(PLD)，现场可编程门阵列(FPGA)等。

从前述内容来看，可以理解的是，本发明的具体实施例已经在本文中进行了描述以用于说明目的，但是可以在不偏离本发明的范围的情况下进行多种修改。因此，除所附权利要求书以外，本发明不受到限制。

Claims

1.一种用于对数据进行安全分类和令牌化的计算机实现方法，所述方法包括：

摄取对应于客户端的数据集；

检查所述数据集以识别分类器，所述分类器表示所述数据集中包括的属性的特征；

检索特定于客户端的加密信息和特定于客户端的配置信息，其中包括表示所述数据集中包含的信息类型的匿名标签列表；

识别所述匿名标签列表中包含的标签，所述标签与基于所述已识别的分类器的所述属性中的信息类型相对应；

处理所述数据集的所述属性以生成经修改的属性，所述经修改的属性被修改为标准化格式；以及

生成所述经修改的属性的令牌化版本，包括：

使用包含在所述特定于客户端的加密信息中的散列盐和加密密钥，对所述经修改的属性进行散列处理，以生成散列的经修改的属性；

将所述标签与包括一系列特定于客户端的标记的标记存储进行比较，以识别与所述标签对应的第一标记；以及

生成包括所述第一标记的经修改的属性的上下文令牌。

2.根据权利要求1所述的计算机实施方法，其中所述数据集中包含数据的至少一部分包括个人身份信息(PII)。

3.根据权利要求1所述的计算机实施方法，其中所述分类器包括域分类器，子域分类器，属性分类器，和实体分类器中的任何一种。

4.根据权利要求1所述的计算机实施方法，其中所述特定于客户端的加密信息从安全服务器中检索，所述特定于客户端的加密信息使用散列消息认证码(HMAC)协议进行加密或通过TLS协议传输，并且其中所述散列盐包括计算机生成的SHA2 512/256令牌，以及AES256加密密钥。

5.根据权利要求1所述的计算机实施方法，其中处理所述数据集的所述属性以生成所述经修改的属性还包括：

检索与所述属性对应的一组验证规则和一组标准化规则，所述一组验证规则提供表示所述属性是否对应于所述标签，并且所述一组标准化规则提供将所述属性修改为所述标准化格式的规则；

将所述属性与所述一组验证规则进行比较，以确定所述属性是否对应于所述标签；以及

响应于确定所述属性对应于所述标签，根据所述一组标准化规则将所述属性修改为所述标准化格式。

6.根据权利要求1所述的计算机实施方法，其中处理所述数据集的所述属性以生成所述经修改的属性还包括：

使用一系列规则引擎处理所述属性，所述一系列规则引擎包括：

名称引擎，所述名称引擎响应于确定所述属性表示名称，将所述属性与关联名称列表中包含的常见关联名称相关联；以及

地址库引擎，所述地址库引擎响应于确定所述属性表示地址，将所述属性添加到与客户端相关联的地址库中。

7.根据权利要求1所述的计算机实施方法，还包括：

使用Base64编码方案将所述散列的经修改的属性从64个字符的令牌压缩为44个字符的字符串。

8.根据权利要求1所述的计算机实施方法，还包括：

使用所述特定于客户端的加密信息中包含的特定于客户端的加密密钥，对所述散列的经修改的属性进行加密。

9.根据权利要求1所述的计算机实施方法，还包括：

响应于识别所述标签，根据所述标签和所述属性生成所述数据集的第一组洞察；

响应于生成所述经修改的属性，根据所述经修改的属性为所述数据集生成第二组洞察；以及

将所述第一组洞察和所述第二组洞察存储在网络可访问的服务器系统中。

10.一种由计算节点执行以生成令牌化的客户端数据印象的方法，所述方法包括：

从客户端节点获取对应于客户端的数据流，所述数据流包括一系列数据集；

对于所述数据流中包含的每个数据集--

检查所述数据集以识别表示所述数据集中包含的属性特征的分类器；

识别与所述数据集相对应的特定于客户端的标签列表中包含的标签；

使用一系列规则引擎处理所述属性，所述一系列规则引擎被配置为根据所述一系列规则引擎修改所述属性；以及

生成包含所述经修改的属性的令牌化版本的令牌；以及

将为所述数据流生成的令牌发送到被配置为维护所述生成的令牌的网络可访问服务器系统。

11.根据权利要求10所述的方法，还包括：

从安全服务器中检索特定于客户端的加密信息，所述加密信息包括散列代码和特定于客户端的加密密钥；以及

检索特定于客户端的配置信息，所述配置信息包括表示所述数据集中包含的信息类型的特定于客户端的标签的列表，其中每个标签被配置为匿名化与所述数据流相关的信息，使得使用所述标签识别与所述数据流相关的信息只能使用所述特定于客户端的配置信息来识别。

12.根据权利要求11所述的方法，其中为所述经修改的属性生成所述令牌化版本包括：

使用所述特定于客户端的加密信息中包含的所述散列代码对所述经修改的属性进行散列处理，以生成散列的经修改的属性；

将所述分类器与包含一系列特定于客户端的标记的标记存储进行比较，以识别对应于所述分类器的第一标记；以及

生成包含所述第一标记的所述经修改的属性的上下文令牌，所述令牌包括上下文令牌。

13.根据权利要求11所述的方法，还包括：

使用包括在所述特定于客户端的加密信息中的所述特定于客户端的加密密钥，对所述经修改的属性进行加密。

14.根据权利要求10所述的方法，其中所述识别所述分类器还包括：

从域分类器列表中确定域分类器，每个域分类器表示所述数据集中包含的一种信息类型；

从子域分类器列表中确定子域分类器，每个子域分类器表示所述域分类器中识别的选定信息类型的子集；

从属性分类器列表中确定属性分类器，每个属性分类器表示所述数据集中包含的一种可识别信息类型；以及

从实体分类器列表中确定实体分类器，每个实体分类器表示与所述客户端关联的组织的部门。

15.根据权利要求10所述的方法，其中使用所述系列规则引擎对所述属性进行的处理还包括：

检索对应于所述标签的一组验证规则和一组标准化规则，所述一组验证规则提供表示所述属性是否对应于所述标签的规则，以及所述一组标准化规则提供将所述属性修改为标准化格式的规则；

16.一种有形的，非瞬态的计算机可读介质，其上存储有指令，当由处理器执行时，使所述处理器：

摄取对应于客户端的数据集；

识别表示所述数据集中包含的属性的特征的分类器；

基于所述识别的分类器，识别对应于所述属性中包含的信息类型的匿名标签列表中包含的标签；

修改所述数据集的所述属性以生成经修改的属性；以及

生成经修改属性的令牌化版本，包括：

使用包含在所述特定于客户端的加密信息中的散列码对所述经修改的属性进行散列处理，以生成散列的经修改的属性；

将所述标签与包括一系列特定于客户端的标记的标记库进行比较，以识别对应于所述标签的第一标记；以及

生成包含第一标记的经修改属性的上下文令牌。

17.根据权利要求16所述的计算机可读介质，其中所述属性包括对所述数据集所包括的数据的印象，同时防止从维护所述数据集的客户端节点传输所述数据集。

18.根据权利要求16所述的计算机可读介质，其中所述分类器包括以下任何一种：表示所述数据集中所包括的信息类型的域分类器，表示在所述域分类器中识别的所述选取的信息类型的子集的子域分类器，表示所述数据集中包括的一种可识别信息类型的属性分类器，以及表示与所述客户端相关联的组织的部门的实体分类器。

19.根据权利要求16所述的计算机可读介质，其中所述特定于客户端的加密信息是从安全服务器检索的，所述特定于客户端的加密信息是使用散列消息认证码(HMAC)协议加密的，并且其中所述散列码包括计算机生成的SHA2 512/256令牌。

20.根据权利要求16所述的计算机可读介质，其中所述处理所述数据集的所述属性以生成所述经修改的属性还包括：

检索对应于所述标签的一组验证规则和一组标准化规则，所述一组验证规则提供表示所述属性是否对应于所述标签的规则，所述一组标准化规则提供将所述属性修改为标准化格式的规则；

将所述属性与所述一组验证规则进行比较，以确定所述属性是否与所述标签相对应；以及

响应于确定所述属性对应于所述标签，根据所述一组套标准化规则将所述属性修改为所述标准化格式。

21.根据权利要求16所述的计算机可读介质，其中所述处理所述数据集的所述属性以生成所述经修改的属性还包括：

22.根据权利要求16所述的计算机可读介质，所述计算机可读介质还使所述处理器：

使用包括在所述特定于客户端的加密信息中的特定于客户端的加密密钥来加密所述散列的经修改的属性。