CN113220949A

CN113220949A - 一种隐私数据识别系统的构建方法及装置

Info

Publication number: CN113220949A
Application number: CN202110517500.2A
Authority: CN
Inventors: 刘佳伟; 王德胜; 张谦; 贾茜; 王心刚; 章鹏
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2021-05-12
Filing date: 2021-05-12
Publication date: 2021-08-06
Anticipated expiration: 2041-05-12
Also published as: CN113220949B

Abstract

本说明书公开了一种隐私数据识别系统的构建方法及装置。该方法应用于隐私识别服务平台，隐私识别服务平台配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能；各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据；所述方法包括：接收目标需求方发送的识别系统构建请求；请求中包括：对隐私数据类型的识别需求、以及对识别性能的需求；从多个隐私识别模块集合中，选择与识别性能需求相匹配的模块集合；在所选择的模块集合中，选择与隐私数据类型的识别需求相匹配的一个或多个识别模块；基于所选择的模块，构建对应于目标需求方的隐私数据识别系统。

Description

一种隐私数据识别系统的构建方法及装置

技术领域

本说明书实施例涉及隐私保护领域，尤其涉及一种隐私数据识别系统的构建方法及装置。

背景技术

在处理业务时，业务平台可以获取到较多与用户相关的业务数据。在这些业务数据中存在部分数据属于隐私数据，业务平台有义务保护这些隐私数据。

具体在保护隐私数据时，业务平台可以直接保护全部的业务数据，从而保护业务数据所包含的隐私数据。但这种方法成本较高，额外保护了无需保护的非隐私数据；被保护的业务数据也难以快速处理，导致业务处理的效率较慢。

为了降低成本，提高业务处理的效率，业务平台可以先从业务数据中识别出隐私数据，再针对识别出的隐私数据进行保护。因此，业务平台具有识别隐私数据的需求。

但由于开发能力不足等原因，业务平台往往难以开发出用于识别隐私数据的系统来满足自身的识别隐私数据需求。

发明内容

为了解决上述技术问题，本说明书提供了一种隐私数据识别系统的构建方法及装置。技术方案如下所示。

一种隐私数据识别系统的构建方法，应用于隐私识别服务平台，所述隐私识别服务平台配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能；各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据；所述隐私识别服务平台对接至少一个隐私识别需求方；所述方法用于针对目标需求方构建隐私数据识别系统；

所述方法包括：

接收目标需求方发送的识别系统构建请求；所述请求中包括：对隐私数据类型的识别需求、以及对识别性能的需求；

从所述多个隐私识别模块集合中，选择与识别性能需求相匹配的模块集合；

在所选择的模块集合中，选择与隐私数据类型的识别需求相匹配的一个或多个识别模块；

基于所选择的模块，构建对应于所述目标需求方的隐私数据识别系统。

一种隐私数据识别系统的构建装置，应用于隐私识别服务平台，所述隐私识别服务平台配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能；各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据；所述隐私识别服务平台对接至少一个隐私识别需求方；所述装置用于针对目标需求方构建隐私数据识别系统；

所述装置包括：

接收单元：用于接收目标需求方发送的识别系统构建请求；所述请求中包括：对隐私数据类型的识别需求、以及对识别性能的需求；

集合选择单元：用于从所述多个隐私识别模块集合中，选择与识别性能需求相匹配的模块集合；

模块选择单元：用于在所选择的模块集合中，选择与隐私数据类型的识别需求相匹配的一个或多个识别模块；

构建单元：用于基于所选择的模块，构建对应于所述目标需求方的隐私数据识别系统。

上述技术方案，通过为隐私识别服务平台配置通用的隐私识别模块，使得业务平台可以作为目标需求方，借助隐私识别服务平台中已经配置好的隐私识别模块，快速选择匹配自身开发需求的识别模块并构建隐私数据识别系统，降低了开发难度。同时减少了重复开发的情况，可以满足多个业务平台的不同开发需求，并进一步适配针对识别性能的需求，提高业务平台的使用体验。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书实施例中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1是本说明书实施例提供的一种用于构建隐私识别系统的开发系统的结构示意图；

图2是本说明书实施例提供的一种隐私数据识别系统的构建方法的流程示意图；

图3是本说明书实施例提供的一种隐私数据识别系统的构建方法的原理示意图；

图4是本说明书实施例提供的一种隐私数据识别系统的构建装置的结构示意图；

图5是用于配置本说明书实施例方法的一种设备的结构示意图。

具体实施方式

为了使本领域技术人员更好地理解本说明书实施例中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行详细地描述，显然，所描述的实施例仅仅是本说明书的一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员所获得的所有其他实施例，都应当属于公开的范围。

例如，在处理转账业务时，业务平台不可避免地会获取到用户的银行卡号；在处理用户注册业务时，业务平台不可避免地会获取到用户的手机号。这些数据显然都属于用户的隐私数据，业务平台有义务保护这些数据。

但由于开发能力不足等原因，业务平台往往难以开发出用于识别隐私数据的系统来满足自身的识别隐私数据需求。因此，业务平台通常会委托具有开发能力的独立开发商帮助开发隐私数据识别系统。

但是，独立开发商往往会根据单个业务平台的需求，定制化地开发一个仅适用于该业务平台的隐私数据识别系统。在面对多个业务平台的开发需求时，往往存在重复开发的情况。

本说明书提供了一种隐私数据识别系统的构建方法，应用于隐私识别服务平台。通过为隐私识别服务平台配置通用的隐私识别模块，在面对多个业务平台的开发需求时，可以匹配不同的开发需求选择相应的隐私识别模块，构建定制化的隐私数据识别系统，避免重复开发的情况。

其中，隐私识别服务平台可以直接面向具有开发需求的业务平台，也可以面向独立开发商以降低其开发难度。

如图1所示，为本说明书提供的一种用于构建隐私识别系统的开发系统的结构示意图。其中包括隐私识别服务平台、业务平台1、业务平台2和独立开发商。业务平台1直接委托隐私识别服务平台进行开发，而业务平台2委托独立开发商进行开发，独立开发商基于隐私识别服务平台的识别模块进行开发。

为了适配不同的开发需求，隐私识别服务平台可以配置有识别不同隐私数据类型的多个隐私识别模块。从而可以根据开发需求中指定需要识别的隐私数据类型，从隐私识别服务平台配置的隐私识别模块中确定与开发需求相匹配的识别模块，进而构建隐私数据识别系统。

此外，为了进一步适配不同的开发需求，隐私识别服务平台中存在不同的隐私识别模块在识别相同的隐私数据类型时，可以具有不同的识别性能。具体可以是不同的隐私识别模块利用不同的识别方式识别相同的隐私数据类型，从而具有不同的识别性能。其中，识别性能具体可以包括识别速度、识别准确率等。

例如，在识别相同的隐私数据类型时，第一识别模块可以是以单个数据为粒度，一次识别一个数据；第二识别模块可以是以字段为粒度，一次识别一个字段下的全部数据。换言之，针对一张数据表，第一识别模块可以是逐个识别每个数据，第二识别模块可以是逐个识别每列数据。相比之下，第一识别模块的识别速度比第二识别模块慢，但识别准确率比第二识别模块高。

因此，隐私识别服务平台在根据开发需求确定业务平台需要识别的隐私数据类型的基础上，还可以根据开发需求确定业务平台需要的识别性能。从而可以从隐私识别服务平台配置的隐私识别模块中确定与开发需求相匹配的识别模块，进而构建隐私数据识别系统。

上述技术方案，通过为隐私识别服务平台配置通用的隐私识别模块，使得业务平台可以借助隐私识别服务平台中已经配置好的隐私识别模块，快速选择匹配自身开发需求的识别模块并构建隐私数据识别系统，降低了开发难度。同时减少了重复开发的情况，可以满足多个业务平台的不同开发需求，并进一步适配针对识别性能的需求，提高业务平台的使用体验。

如图2所示，为本说明书提供的一种隐私数据识别系统的构建方法的流程示意图。该方法可以应用于隐私识别服务平台。

隐私识别服务平台可以配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能。其中，各个识别模块集合可以是根据识别方法划分的，同一识别模块集合中的识别模块可以使用相同的识别方法，因此，可以具有相同的识别性能。

在一种可选的实施例中，识别性能可以包括识别速度和/或识别准确率。

需要注意的是，识别速度较快的情况下，识别准确率较低；此外，识别准确率较高的识别模块所耗费的计算资源较多。业务平台在确定所需要的识别性能时，应当综合考虑业务平台自身的条件。例如，计算资源是否充足。

为了便于理解识别方法与识别性能的关系，下面给出一种可选的实施例。其中隐私识别服务平台可以配置有3个隐私识别模块集合。分别是针对每列数据整体进行隐私数据识别的第一识别模块集合、利用机器学习的方法针对每个数据进行隐私数据识别的第二识别模块集合、以及利用非机器学习的方法针对每个数据进行隐私数据识别的第三识别模块集合。

显然，第一识别模块集合的识别速度最快，但针对一列数据整体进行识别，准确率较低；而第二识别模块集合利用了机器学习的方法，识别准确率较高，但计算资源耗费较多，并且需要每个数据都需要经过机器学习中模型的计算，识别速度最慢。

其中，第三识别模块集合并未利用机器学习的方法，但也是针对每个数据逐个进行识别，识别准确率大于第一识别模块集合、且小于第二识别模块集合。此外，第三识别模块集合可以利用简单的规则匹配方法对每个数据进行识别，显然识别速度快于机器学习的识别速度，因此，识别速度大于第二识别模块集合、且小于第一识别模块集合。

业务平台可以根据自身的业务需求、以及自身计算资源的多少，确定所需要的识别性能，从而选择相对应的识别模块集合。

各识别模块集合整体能够识别的隐私数据类型可以相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据。

因此，业务平台在选择了对应的识别模块集合后，可以从集合中选择所需要识别的隐私数据类型的识别模块。

此外，需要注意的是，识别模块集合中可以包括一个或多个识别模块。在任一识别模块集合中包括一个识别模块的情况下，该识别模块可以识别多种隐私数据类型。一种具体的示例可以是用于隐私数据识别的多分类模型，可以识别多种隐私数据类型。

隐私识别服务平台可以对接至少一个隐私识别需求方，隐私识别需求方具体可以包括独立开发商或者业务平台。独立开发商可以对接至少一个业务平台，对隐私数据类型的识别需求、以及对识别性能的需求可以是任一业务平台构建识别系统的需求。

本说明书所提供的该方法可以用于针对目标需求方构建隐私数据识别系统，先根据目标需求方的识别性能需求确定识别模块集合，再根据目标需求方的隐私数据类型需求，从所确定的识别模块集合中确定对应的识别模块，从而构建隐私数据识别系统。

该方法具体可以包括以下步骤。

S101：接收目标需求方发送的识别系统构建请求；该请求中包括：对隐私数据类型的识别需求、以及对识别性能的需求。

接收识别系统构建请求之前，在一种可选的实施例中，目标需求方可以预先向隐私识别服务平台发送服务获取请求，由隐私识别服务平台向目标需求方提供所支持的各项服务。

例如，具体可以是由隐私识别服务平台向目标需求方提供一个可视化界面，可视化界面中可以包括隐私识别服务平台所能够识别的全部隐私数据类型、以及所提供的全部识别性能。

目标需求方可以通过简单的选择操作，从可视化界面中选择出所需要识别的隐私数据类型、以及所需要的识别性能，通过可视化界面提供的配置接口，将选择操作对应的内容封装成识别系统构建请求、并发送到隐私识别服务平台。

当然，隐私识别服务平台也可以直接向目标需求方提供配置接口，该配置接口可以根据目标需求方的操作，从提供的隐私数据类型以及识别性能中选择所需要的隐私数据类型和识别性能，从而构建识别系统构建请求发送到隐私识别服务平台。

本实施例可以方便目标需求方的操作，降低目标需求方的操作门槛。

对隐私数据类型的识别需求可以包括目标需求方所需要识别的一个或多个隐私数据类型；对识别性能的需求可以包括目标需求方指定的一个或多个识别性能。

针对隐私数据类型的识别需求，在一种可选的实施例中，识别需求中可以包括一种或多种隐私数据类型。隐私数据类型例如，银行卡号、身份证号、电话号码等等。目标需求方可以根据自身需求确定所需要识别的隐私数据类型。

针对识别性能需求，在一种可选的实施例中，识别性能需求中可以包括一种或多种识别性能。

需要解释的是，目标需求方可能根据自身需求，确定需要多种识别性能。

例如，目标需求方的业务范围较为广泛，存在部分业务数据需要尽快识别出隐私数据，对于识别准确率的要求并不高；同时存在其他部分业务数据并不需要尽快识别隐私数据，但需要保证识别准确率。因此，目标需求方可以具有包括‘识别速度快’、以及‘识别准确率高’两种识别性能的需求。针对构建完成的隐私数据识别系统，可以根据业务数据进行逻辑判断，使用不同的隐私识别模块进行识别。

或者，由于识别准确率高的隐私数据识别系统需要较多计算资源，而目标需求方的计算资源并不固定，时而充足时而不足。因此，目标需求方可以具有包括‘识别速度快’、以及‘识别准确率高’两种识别性能的需求。针对构建完成的隐私数据识别系统，可以根据当前计算资源是否充足进行逻辑判断，使用不同的隐私识别模块进行识别。如果当前计算资源不足，可以选择识别速度快且耗费计算资源不多的识别模块进行识别。

在一种可选的实施例中，在接收到识别系统构建请求后，可以根据该请求构建一个配置文件，利用该配置文件表示对隐私数据类型的识别需求、以及对识别性能的需求等等。

S102：从多个隐私识别模块集合中，选择与识别性能需求相匹配的模块集合。

由于隐私识别服务平台预先配置了具有不同识别性能的多个隐私识别模块集合，因此，可以根据S101中获取的识别性能需求，在隐私识别服务平台的多个模块集合中选择相匹配的模块集合。

具体可以是根据识别性能需求中包括的一个或多个识别性能，确定具有这些识别性能的模块集合。

需要注意的是，针对包含单个识别性能的需求，可能存在一个匹配该识别性能需求的模块集合，也可能存在多个匹配该识别性能需求的模块集合。

例如，存在3种识别速度分别为1、2、3的模块集合，在识别性能需求为识别速度大于1的情况下，显然识别速度为2、3的模块集合都可以匹配该识别性能需求。

存在匹配单个识别性能需求的多个模块集合时，可以根据预设策略选择其中的单个模块集合，例如识别性能最好的，或者识别性能最差的等等；也可以随机选择其中的一个模块集合。

而针对包含多个识别性能的识别性能需求，显然也可以确定出多个模块集合。

因此，S102中所选择的模块集合可以是一个，也可以是多个。

S103：在所选择的模块集合中，选择与隐私数据类型的识别需求相匹配的一个或多个识别模块。

由于各识别模块集合整体能够识别的隐私数据类型可以相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据，因此，可以根据S101中获取的识别需求，在模块集合中选择相匹配的识别模块。

具体可以是根据识别需求中包括的一个或多个隐私数据类型，在S102所选择的每个模块集合中确定能够识别这些隐私数据类型的模块。

需要注意的是，由于S102中可能选择多个模块集合，因此，在S102中选择多个模块集合的情况下，可以针对所选择的每个模块集合选择识别模块。

此外，所选择的识别模块可能能够识别目标需求方所需要的隐私数据类型以外的数据类型。例如，当所选择的某个模块集合中仅包括一个识别模块，可以识别多种隐私数据类型。而目标需求方只需要识别其中的部分隐私数据类型，该识别模块可以识别这部分隐私数据类型以外的其他数据类型。

在这种情况下，可选地，可以删除或屏蔽所选择的识别模块的部分能力，使得识别模块无法识别目标需求方所需要的隐私数据类型以外的其他数据类型。从而可以避免计算资源的浪费，只关注目标需求方所需要识别的隐私数据类型。

因此，可以选择与隐私数据类型的识别需求相匹配的一个或多个识别模块并进行配置，以使所选择的识别模块仅能识别目标需求方所需要识别的一个或多个隐私数据类型。

S104：基于所选择的模块，构建对应于目标需求方的隐私数据识别系统。

如果S102中选择了单个模块集合，则可以将S103中从单个模块集合中选择的模块组合起来，构建隐私数据识别系统。具体在利用所构建的该系统识别隐私数据时，可以将待识别数据输入到系统中的每个模块，综合每个识别模块的识别结果得出该系统针对待识别数据的识别结果。当然，也可以将待识别数据逐个输入到系统中的每个模块，如果任一模块确定待识别数据为隐私数据则停止。

如果S102中选择了多个模块集合，则可以将S103中从多个模块集合中选择的模块分别组合起来。具体可以是针对每个模块集合，将从该集合中选择的模块组合成一个流程，该流程具体在识别隐私数据时，可以将待识别数据输入到流程中的每个模块，综合每个识别模块的识别结果得出该流程针对待识别数据的识别结果。当然，也可以将待识别数据逐个输入到流程中的每个模块，如果任一模块确定待识别数据为隐私数据则停止。

而针对多个模块集合，可以组合得到多个流程，从而利用多个流程构建隐私数据识别系统。

需要注意的是，针对包含多个流程的识别系统，由于不同流程可以利用不同的识别方法进行隐私数据识别，满足不同的识别性能需求。因此，在构建隐私数据识别系统时，可以增加用于选择流程进行识别的业务逻辑。

具体可以是增加指定业务逻辑，判断目标需求方当前的识别性能需求，例如，计算资源是否充足、识别速度是否存在要求等等，从而可以在系统包含的多个流程中选择能够满足当前识别性能需求的流程进行识别。

当然，也可以增加遍历执行每个流程的业务逻辑。综合多个流程得到的识别结果得出该系统针对待识别数据的识别结果，从而综合多种识别方法，提高识别准确率。

此外，在构建隐私数据识别系统时，也可以并不增加任何逻辑，仅包含多个流程。具体如何执行的逻辑可以由目标需求方指定。目标需求方可以自行开发业务逻辑，利用包含多个流程的系统识别隐私数据。具体可以是通过指定的规则选择单个流程进行识别，将所选择的单个流程的识别结果作为系统的识别结果；也可以是选择全部或部分流程进行识别，综合多个流程的识别结果作为系统的识别结果。

上述实施例可以进一步贴合目标需求方的实际识别性能需求，并且可以随时切换流程选择的业务逻辑，从而更好地利用包含多个流程的系统识别隐私数据。

上述方法流程，通过为隐私识别服务平台配置通用的隐私识别模块，使得目标需求方可以借助隐私识别服务平台中已经配置好的隐私识别模块，快速选择匹配自身开发需求的识别模块并构建隐私数据识别系统，降低了开发难度。同时减少了重复开发的情况，可以满足多个隐私识别需求方的不同开发需求，并进一步适配针对识别性能的需求(例如，针对识别准确率的需求、针对识别速度或时效性的需求、针对计算资源的适配等等)，提高隐私识别需求方的使用体验。

由于上述方法流程中，融合了多种隐私数据识别方法，能够大大提高系统支持识别的隐私数据类型的数量，提高产品壁垒和目标需求方的使用体验。

而适配识别性能的需求，具体可以体现在引入按记录扫描方案和按列扫描方案的切换，以适配用户不同的实时性需求(识别速度需求)。还可以体现在引入不同计算资源的识别方法，以适配不同的计算资源场景。

此外，在基于上述方法流程构建完成隐私数据识别系统后，可以利用隐私数据识别系统针对数据进行隐私识别，并针对识别出的隐私数据进行保护。具体可以是提高隐私数据的查看权限、针对隐私数据进行脱敏、标记隐私数据便于后续管理和保护等等。从而在准确保护了业务数据中的隐私数据的前提下，降低对业务处理效率的影响。

上述方法流程中，多个模块集合是根据识别性能划分的，不同的模块集合整体可以识别相同的隐私数据类型，具有不同的识别性能。此外，模块集合还可以进一步根据待识别数据的语义类型进行划分。语义类型包括单一语义类型和复合语义类型。

为了便于理解，首先给出一种具体的示例。

针对单一语义类型的数据“王xx”，其中仅包括表示单个业务含义姓名的一个数据。而针对复合语义类型的数据“王xx的手机号码是134xxxxxxxx”，其中包括了表示不同业务含义的2个数据，分别是姓名“王xx”和电话号码“134xxxxxxxx”，并且包括了其他不具备实际业务含义的字符。

显然，当一个数据整体仅仅表示一个业务含义，可以认为该数据是单一语义类型。

当一个数据整体并不仅仅表示一个业务含义，具体可以是包含至少2个具备业务含义的数据，或者包含单个具备业务含义的数据以及其他不具备业务含义的数据，则可以认为该数据是复合语义类型。

而针对不同语义类型的待识别数据，识别方法可能存在差异。

例如，在利用机器学习的方法识别隐私数据时，可以具体采用训练分类模型的方式，利用有标签的数据(是隐私数据或者不是隐私数据)训练分类模型，而在数据通常都是单一语义类型的情况下，模型的输入通常是数据整体。

但如果数据为复合语义类型，则数据整体中包含许多冗余信息，使用分类模型的方式效果较差，通常是将复合语义类型的数据中属于隐私数据的部分单独标注，再输入到模型中。具体可以采用命名实体识别方法。

此外，针对不同语义类型的待识别数据，识别方法也可能相同。

例如，在针对单列数据整体进行隐私识别时，可以基于列名称的元数据模型识别是否为隐私数据。而列名称显然与语义类型无关，因此，针对单一语义类型或复合语义类型的数据可以使用相同的识别方法进行识别。

因此模块集合中，可能存在针对不同语义类型、识别相同隐私数据类型的不同识别模块；也可能存在针对不同语义类型、识别相同隐私数据类型的同一识别模块。

结合上述方法流程，在S103中选择识别模块时，可以由目标需求方在S101的请求中包含所需要识别的数据的具体语义类型，从而可以在确定匹配隐私数据类型的识别模块后，可以进一步确定匹配相应语义类型的识别模块。

可选地，也可以在S103选择识别模块时，可以确定匹配隐私数据类型的全部识别模块，其中可以包括针对不同语义类型的不同识别模块。相对应地，在S104构建隐私数据识别系统时，可以增加针对待识别数据的语义类型的判断逻辑，从而选择相应的识别模块进行隐私识别。

为了便于进一步理解识别模块，下面给出部分识别模块的示例。

1)针对单个数据利用非机器学习方法进行识别的识别模块。

由于部分隐私数据类型的数据存在固定的格式，例如银行卡号、身份证号等等，通常可以使用预先设定的规则进行识别。具体可以是正则表达式、校验规则、预设数值集合、用户自定义的其他规则等等。

正则表达式具体是基于状态机理论，能够从一段文本中提取出符合预设模式的字符串。基于正则表达式的方法可以识别具有统一模式的数据，例如邮箱，IP地址，MAC地址等。目前正则表达式方案可分为预置正则表达式方案和自生成正则表达式方案。预置正则表达式顾名思义是指开发人员根据已知的隐私数据类型，预先在系统中编写了相应的正则表达式供用户使用；而自生成正则表达式是在当系统内置的正则无法满足用户需求时，系统基于某种算法通过用户给定的部分训练数据训练得到复合待检测数据模式的正则表达式。

此外，还可以使用诸如模11算法，Luhn校验算法来校验待识别的字符串。其适合于银行卡号、身份证号等具有构造规则的隐私字段的识别。

针对取值范围固定的隐私数据，例如，用户的星座只有12个取值，可以使用预设数值集合(即枚举法)进行识别。

当然，用户也可以根据自身的业务数据中特定隐私数据的格式制定自定义规则，用于隐私识别。

因此，隐私识别服务平台可以配置有规则模块：规则模块中内置了目前已知的各种隐私数据类型的检测方法，例如正则表达式，校验规则，枚举，自定义规则等。其主要用于数据的精细匹配。

当然，也可以配置有抽样规则模块。从待识别数据中随机选择几条数据，利用所有规则进行识别，然后将所命中的规则选择出来作为指定规则，利用指定规则识别全部的待识别数据，从而避免利用全部规则识别全部待识别数据，达到降低计算量的目的。

2)针对单个数据利用机器学习方法进行识别的识别模块。

具体可以利用有监督学习的分类模型进行识别。

例如，可以是利用有标签样本(标记为隐私数据或非隐私数据的数据样本)训练分类模型，从而可以识别出隐私数据。当然，也可以训练多分类模型。

此外，还可以利用命名实体识别方法进行识别。当处理诸如地址，公司名，人名等无规律的数据或者复合语义类型的数据时，可以使用该方法。命名实体识别(Named EntityRecognition，NER)，主要分为字级别的NER算法和词级别的NER算法。

字级别的NER算法通常基于深度序列模型构建，会消耗较多的计算资源。而词级别的NER算法通常基于统计序列模型，例如词级别的条件随机场(CRF)或者隐马尔科夫模型(hmm)等，消耗计算资源较低，但识别效果往往不如深度序列模型。消耗不同计算资源的2种NER算法可以适应不同性能需求。根据性能需求对于自身计算资源的条件预估、或者对于识别效果的需求，可以选择对应的NER算法进行识别。

3)针对单列数据整体进行识别的识别模块。

信息熵模块：该模块为按列扫描的方案，获取某个隐私数据类型下的多个数据样本，从中利用统计的手段获取到样本的一系列统计量信息作为该隐私数据类型的统计信息。针对待识别数据，可以从一列待识别数据中抽样，利用统计的手段获取到抽样数据的一系列统计量信息、与多个隐私数据类型的统计信息进行对比。

该识别模块具有很高的扫描效率和识别效率，能够满足有高实时性要求的客户，但是该识别模块比较依赖数据量，抽样的数据量越大效果越好，抽样成本会比较高。

血缘关系模块：该模块为按列扫描的方案，通过解析数据库的构建脚本，从而发现数据库中列和列之间的关系，例如复制、引用等，当已知某列为隐私数据时，能够确定复制该列或者引用该列的其他列数据也为隐私数据。

元数据识别模块：该模块为列扫描的方案，通过预设一些指定id的正则表达式，来快速检测数据库中某列的id是否符合预设的指定id，如果满足则认为该列是隐私数据类型。通常是按全局唯一标识符(Globally Unique Identifier，GUID)构建正则表达式，例如数据库“a”的表“b”的列“c”，使用GUID描述为“a.b.c”。假定配置了识别规则中隐私数据所属列名称的正则表达式为“a\\.b\\.*”，其中*表示任意列，则上述“a.b.c”对应的列符合该正则表达式，从而被认为是隐私数据类型。

当然，上述不同识别模块也可以组合进行隐私识别，例如，先利用多分类模型进行隐私识别，得到多个可能的分类，再利用这些分类对应的预设规则进行检验，从而提高识别准确率。

通过上述识别模块的示例，可以看出利用不同的识别方法，识别性能也存在差异，可以满足存在不同识别性能需求的不同隐私识别需求方。

除了上述识别模块，在实际使用场景中，偶尔会出现数据库中某个表下某列数据被识别到错误的类别中去。

可选地，在隐私数据识别系统中可以将该列的id加入到白名单或黑名单中，使其立刻被纠正到正确的分类中去，提高目标需求方的使用体验。

需要注意的是，由于白名单或黑名单是目标需求方指定的，相较于识别模块的识别结果更符合目标需求方的业务需求，因此，白名单或黑名单的优先级可以高于识别模块。

如果某列数据在白名单或黑名单中，则可以不利用识别模块进行隐私识别，直接得出识别结果。

目标需求方可以在构建隐私数据识别系统时，将黑名单或白名单发送到隐私识别服务平台，帮助构建系统。也可以在构建隐私数据识别系统之后，利用黑名单或白名单更新该系统。

当然，上述实施例也可以对应于单个数据，针对单个数据的错误识别结果，将该数据的id加入到黑名单或白名单中，使其立刻被纠正到正确的分类中去。

因此，在上述方法流程中，可以由目标需求方指定“手动配置规则”，用于指示一个或多个待识别数据的正确识别结果，添加到识别系统中，用于隐私识别，从而可以针对部分待识别数据无需后续的识别模块进行识别，提高数据的识别速度，并提高识别准确率。

具体可以是在构建系统时添加，也可以是在构建系统完成后，更新系统，将手动配置规则添加进去。

需要注意的是，手动配置规则的优先级可以高于识别模块。在利用识别系统进行隐私识别时，可以先根据手动配置规则进行隐私识别，再根据识别模块进行隐私识别。

如果基于手动配置规则可以确定某一待识别数据的识别结果，则可以不利用后续的识别模块进行识别，直接得到系统的识别结果。

针对利用上述方法流程构建的隐私数据识别系统，可以将构建完成的系统部署在目标需求方本地，方便目标需求方自身调整或使用。

也可以将构建完成的系统部署在隐私识别服务平台，可以由目标需求方使用。具体可以由目标需求方将待识别数据发送到隐私识别服务平台进行隐私识别。这种方式可以确保隐私识别服务平台中配置的识别模块不被泄露或滥用。

当然，也可以由目标需求方直接将待识别数据存储在与隐私识别服务平台可以通信的数据存储平台上，从而可以直接使用隐私识别服务平台针对数据存储平台上存储的待识别数据进行隐私识别，从而避免了在数据传输过程中的数据安全问题。

在实际应用中，可以将隐私识别服务平台所提供的识别模块看作不同的识别服务，目标需求方可以购买所需要的识别服务，在隐私识别服务平台进行隐私识别。而待识别数据也可以存储在隐私识别服务平台所在的云端，存储服务和识别服务可以是同一服务提供商提供的，进而直接针对在云端存储的待识别数据进行隐私识别。

为了便于进一步理解上述方法流程，本说明书还提供了一个具体的应用实施例。

如图3所示，为本说明书提供的一种隐私数据识别系统的构建方法的原理示意图。

其中，隐私识别服务平台配置有不同识别性能的识别模块集合，其中包括“按列扫描”的识别模块集合、“按记录扫描且耗费计算资源较少”的识别模块集合、“按记录扫描且耗费计算资源较多”的识别模块集合。其中，按列扫描的识别模块集合的识别速度最快，耗费计算资源最少。

隐私识别服务平台还可以接收识别系统构建请求，从而根据该请求构建配置文件。配置文件中指定了对隐私数据类型的识别需求、以及对识别性能的需求。

首先，判断配置文件中是否存在手动配置规则，如果存在，则将该规则添加到待构建的系统中，再执行后续步骤。

再判断配置文件中是否存在高实时性的识别性能需求。具体可以是识别速度大于某一阈值的需求。如果存在，则将对应的“按列扫描”的识别模块集合添加到待构建的系统中，再执行后续步骤。

再判断配置文件中是否存在计算资源不足的识别性能需求。如果存在，则将对应的“按记录扫描且耗费计算资源较少”的识别模块集合添加到待构建的系统中。如果不存在，则将对应的“按记录扫描且耗费计算资源较多”的识别模块集合添加到待构建的系统中。

根据配置文件中指定的隐私数据类型，从已添加的模块集合中选择相匹配的识别模块构建系统。

本应用实施例中，根据目标需求方针对识别速度、所耗费的计算资源等识别性能的需求，确定满足识别性能的模块集合，并进一步从确定的模块集合中确定可以用于识别指定隐私数据类型的识别模块，从而可以针对不同的需求方，定制化构建满足不同识别性能需求的隐私数据识别系统。

对应于上述方法流程，本说明书还提供了一种装置实施例。

如图4所示，为本说明书提供的一种隐私数据识别系统的构建装置的结构示意图。该装置可以应用于隐私识别服务平台，隐私识别服务平台配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能；各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据；隐私识别服务平台对接至少一个隐私识别需求方；该装置用于针对目标需求方构建隐私数据识别系统。

该装置可以包括以下单元。

接收单元201：用于接收目标需求方发送的识别系统构建请求；请求中包括：对隐私数据类型的识别需求、以及对识别性能的需求。

集合选择单元202：用于从多个隐私识别模块集合中，选择与识别性能需求相匹配的模块集合。

模块选择单元203：用于在所选择的模块集合中，选择与隐私数据类型的识别需求相匹配的一个或多个识别模块。

构建单元204：用于基于所选择的模块，构建对应于目标需求方的隐私数据识别系统。

隐私识别需求方可以包括：业务平台和/或独立开发商；独立开发商可以对接至少一个业务平台，对隐私数据类型的识别需求、以及对识别性能的需求可以是任一业务平台构建识别系统的需求。

模块选择单元203可以用于：选择与隐私数据类型的识别需求相匹配的一个或多个识别模块并进行配置，以使所选择的识别模块仅能识别目标需求方所需要识别的一个或多个隐私数据类型。

请求中还包括：手动配置规则；手动配置规则用于指示一个或多个待识别数据的正确识别结果；构建单元204可以用于：基于所选择的模块和手动配置规则，构建对应于目标需求方的隐私数据识别系统。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现一种隐私数据识别系统的构建方法。

图5示出了本说明书实施例所提供的一种更为具体的计算机设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现一种隐私数据识别系统的构建方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护。

Claims

1.一种隐私数据识别系统的构建方法，应用于隐私识别服务平台，所述隐私识别服务平台配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能；各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据；所述隐私识别服务平台对接至少一个隐私识别需求方；所述方法用于针对目标需求方构建隐私数据识别系统；

所述方法包括：

2.根据权利要求1所述的方法，所述隐私识别需求方包括：业务平台和/或独立开发商；所述独立开发商对接至少一个业务平台，所述对隐私数据类型的识别需求、以及对识别性能的需求是任一业务平台构建识别系统的需求。

3.根据权利要求1所述的方法，所述对隐私数据类型的识别需求包括目标需求方所需要识别的一个或多个隐私数据类型；所述对识别性能的需求包括目标需求方指定的一个或多个识别性能。

4.根据权利要求3所述的方法，所述选择与隐私数据类型的识别需求相匹配的一个或多个识别模块，包括：

选择与隐私数据类型的识别需求相匹配的一个或多个识别模块并进行配置，以使所选择的识别模块仅能识别目标需求方所需要识别的一个或多个隐私数据类型。

5.根据权利要求1所述的方法，所述请求中还包括：手动配置规则；所述手动配置规则用于指示一个或多个待识别数据的正确识别结果；

所述基于所选择的模块，构建对应于所述目标需求方的隐私数据识别系统，包括：

基于所选择的模块和所述手动配置规则，构建对应于所述目标需求方的隐私数据识别系统。

6.一种隐私数据识别系统的构建装置，应用于隐私识别服务平台，所述隐私识别服务平台配置有多个隐私识别模块集合，不同的隐私识别模块集合具有不同的识别性能；各识别模块集合整体能够识别的隐私数据类型相同、任意识别模块集合内的不同模块分别用于识别不同类型的隐私数据；所述隐私识别服务平台对接至少一个隐私识别需求方；所述装置用于针对目标需求方构建隐私数据识别系统；

所述装置包括：

7.根据权利要求6所述的装置，所述隐私识别需求方包括：业务平台和/或独立开发商；所述独立开发商对接至少一个业务平台，所述对隐私数据类型的识别需求、以及对识别性能的需求是任一业务平台构建识别系统的需求。

8.根据权利要求6所述的装置，所述对隐私数据类型的识别需求包括目标需求方所需要识别的一个或多个隐私数据类型；所述对识别性能的需求包括目标需求方指定的一个或多个识别性能。

9.根据权利要求8所述的装置，所述模块选择单元用于：选择与隐私数据类型的识别需求相匹配的一个或多个识别模块并进行配置，以使所选择的识别模块仅能识别目标需求方所需要识别的一个或多个隐私数据类型。

10.根据权利要求6所述的装置，所述请求中还包括：手动配置规则；所述手动配置规则用于指示一个或多个待识别数据的正确识别结果；

所述构建单元用于：基于所选择的模块和所述手动配置规则，构建对应于所述目标需求方的隐私数据识别系统。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，所述处理器执行所述程序时实现如权利要求1至5任一项所述的方法。