CN111709052B

CN111709052B - 一种隐私数据识别和处理方法、装置、设备和可读介质

Info

Publication number: CN111709052B
Application number: CN202010485005.3A
Authority: CN
Inventors: 王德胜; 贾茜; 刘洋; 章鹏; 刘佳伟; 张谦
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2020-06-01
Filing date: 2020-06-01
Publication date: 2021-05-25
Anticipated expiration: 2040-06-01
Also published as: CN111709052A

Abstract

本说明书实施例公开了隐私数据识别和处理方法、装置、设备及计算机可读介质。方案包括：采用预先训练的命名实体识别模型，确定目标字段的多条数据中的隐私序列的位置信息和序列隐私类型信息；从而得到所述多条数据的隐私结构类型，所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；进而确定所述目标字段的隐私结构类型；然后对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签，所述标签可以用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

Description

一种隐私数据识别和处理方法、装置、设备和可读介质

技术领域

本申请涉及计算机技术领域，尤其涉及一种隐私数据识别和处理方法、装置、设备及计算机可读介质。

背景技术

随着物联网和移动互联网的迅猛发展，数据以几何级数的速度快速增长，而爬虫技术的日新月异，也让数据暴露在不确定的环境中。用户信息与数据保护作为互联网治理体系的重要组成部分，是构建良好互联网秩序的重中之重。近年来，用户信息安全问题逐渐成为公众关切的焦点问题。例如，近几年发生的个人行踪记录信息、酒店住宿记录信息遭售卖，个人“朋友圈”信息遭盗用等事件，均暴露了用户隐私数据保护的迫切需求。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。

为此，亟需提供有效的防范隐私数据泄露的方法。

发明内容

有鉴于此，本申请实施例提供了一种隐私数据识别和处理方法、装置、设备及计算机可读介质，用于从海量现存数据中识别字段的隐私结构类型并添加标签，使得当用户获取该隐私字段的数据时，能够根据标签对该隐私字段的数据进行相应脱敏处理，从而实现对隐私数据的识别和处理。

为解决上述技术问题，本说明书实施例是这样实现的：

本说明书实施例提供的一种隐私数据识别方法，包括：获取目标字段对应的多条数据；采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息；基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型；对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

本说明书实施例提供的一种隐私数据处理方法，包括：响应于对目标数据的获取请求，获取所述目标数据所属目标字段的标签；根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息；根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式；采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

本说明书实施例提供的一种隐私数据识别装置，包括：数据获取模块，用于获取目标字段对应的多条数据；识别模块，用于采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息；数据隐私结构类型确定模块，用于基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；字段隐私结构类型确定模块，用于基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型；标签添加模块，用于对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

本说明书实施例提供的一种隐私数据处理装置，包括：标签获取模块，用于响应于对目标数据的获取请求，获取所述目标数据所属目标字段的标签；隐私结构类型确定模块，用于根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；隐私序列识别模块，用于采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息；脱敏方式确定模块，用于根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式；脱敏模块，用于采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

本说明书实施例提供的一种隐私数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

获取目标字段对应的多条数据；采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息；基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型；对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

本说明书实施例提供的一种隐私数据处理设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

响应于对目标数据的获取请求，获取所述目标数据所属目标字段的标签；根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息；根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式；采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

本说明书实施例提供的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现前述隐私数据识别方法、隐私数据处理方法。

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

提供了一种隐私数据识别方法，具体地，将命名实体识别模型应用于对隐私数据的识别，通过命名实体识别模型定位出目标字段对应的数据中的隐私序列并识别出隐私序列的隐私结构类型，进而确定目标字段的隐私结构类型，添加与隐私结构类型相应的标签，使得，当用户获取该目标字段的数据时，能够采用与所述标签对应的脱敏方式来对被获取的隐私数据进行脱敏处理。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本说明书实施例中隐私数据识别和处理方法的应用场景的示意图；

图2为本说明书实施例提供的一种隐私数据识别方法的流程示意图；

图3为本说明书实施例提供的一种隐私数据处理方法的流程示意图；

图4为本说明书实施例中隐私数据识别和处理的方案在具体应用场景中的流程示意图；

图5为本说明书实施例提供的对应于图2的一种隐私数据识别装置的结构示意图；

图6为本说明书实施例提供的对应于图3的一种隐私数据处理装置的结构示意图；

图7为本说明书实施例提供的一种隐私数据识别和处理设备的结构示意图。

具体实施方式

隐私数据保护可以大致分为两部分，首先需要从海量数据表中识别出潜在的隐私数据，然后利用各种手段对识别出的隐私数据进行加密，以有效防范隐私数据的泄露。可见，如何有效地从海量数据中识别出潜在的隐私数据，是进行隐私数据保护的前提。为此，需要提供一种能够进行隐私数据识别的方法。

数据的存储形式可以包括结构化形式、半结构化形式或非结构化形式。结构化的数据可以使用关系型数据库表示和存储，表现为二维形式，例如，如关系型数据库、面向对象数据库中的数据。半结构化数据包含相关标记，用来分隔语义元素以及对记录和字段进行分层，常见的半结构化数据例如，XML、JSON、HTML等。非结构化数据可以是没有固定结构的数据，常见的非结构化数据例如各种文档、图片、视频、音频等。

目前，可以采用正则表达式的方式或多分类模型来识别结构化存储的隐私数据。然而，对于半结构化或非结构化存储的数据，例如文本形式、JSON、XML、URL等形式的数据，在一条数据中可能包含一个或者多个序列，且不同的序列属于不同的隐私类别，采用正则表达式或多分类模型来识别均具有缺陷。

若采用正则表达式，由于每个正则表达式只能用于识别一种类型的隐私序列，若想要识别出该条数据中的所有隐私序列，则需要使用多个正则表达式，方案复杂、效率低；并且正则表达式无法处理两种隐私类型的序列字符重叠的情况。例如，针对URL字符串“http://alipay.com/service？certNo＝34240118600913257X&phone＝18866668888&name＝张三”，至少需要三类的正则表达式来分别识别身份证号、手机号和姓名，并且身份证号中的序列“18600913257”可能会识别为手机号，即，正则表达式对于这种字符重叠的情况无法有效处理。

若采用多分类模型，针对每条待预测数据，可以采用多分类模型输出该待预测数据属于各类隐私类型的概率，然后将概率最大的类型作为最终的识别结果，然而，采用多分类模型只能识别出一条数据整体上是否是隐私数据以及能够得到一条数据整体属于哪种隐私类型的结论，但是无法识别出数据中包含的归属于不同隐私类型的各个序列，也无法准确地识别出隐私序列在该条数据中的位置。例如，针对URL字符串“http://alipay.com/service？certNo＝34240118600913257X&phone＝18866668888&na me＝张三”，多分类模型方法只能判断这个URL是否是隐私数据，而无法识别该URL中有多种不同类型的隐私序列。

实际应用中，以一个具体的应用场景为例，当接收到数据请求方针对目标数的请求信息后，需要对其请求的数据中包含的隐私序列进行脱敏后再向该数据请求方反馈脱敏后的数据。而为了对隐私序列进行准确的脱敏处理，不仅需要得知该被请求中数据中是否需要包含隐私序列，还需要知道该数据中所包含的隐私序列的类型以及隐私序列的在该条数据中的具体位置。

为此，需要提供一种能够从包含多个隐私序列的隐私数据中识别出其中包含的所有隐私序列并确定隐私序列的隐私类型的方法。

在本申请的实施例中，隐私数据即秘密数据，是指不想被他人或无关人等获知的信息。隐私数据可以包括个人隐私数据和共同隐私数据。其中，个人隐私数据包括可以用来定位或者识别个人的个人特征信息(例如，电话号码、地址、信用卡号等)、敏感信息(例如，个人健康情况、财务信息、公司重要文件等)等。共同隐私数据可以包括家庭隐私数据(例如，家庭年收入情况等)。

在本申请的实施例中，隐私数据可以是任意想要保护的数据内容。隐私数据可以包括：个人基本信息、个人身份信息、个人生物识别信息、网络身份标识信息、个人健康生理信息、个人教育工作信息、个人财产信息、个人通信信息、联系人信息、个人上网记录、个人常用设备信息、个人位置信息等。

对于上述各大类的隐私数据，可以被进一步划分为更具体的隐私类型。其中，个人基本信息类隐私数据可以包括个人姓名、生日、性别、民族、国籍、家庭关系、住址、个人电话号码、电子邮箱等具体隐私类型。

个人身份信息类隐私数据可以包括身份证、军官证、护照、驾驶证、工作证、出入证、社保卡、居住证等具体隐私类型。

个人生物识别信息类隐私数据可以包括个人基因、指纹、声纹、眼纹、掌纹、耳廓、虹膜、面部特征等具体隐私类型。

网络身份标识信息类隐私数据可以包括系统账号、IP地址、邮箱地址及与前述有关的密码、口令、口令保护答案、用户个人数字证书等具体隐私类型。

个人健康生理信息类隐私数据可以包括个人因生病医治等产生的相关记录，如病症、住院志、医嘱单、检验报告、手术及麻醉记录、护理记录、用药记录、药物食物过敏信息、生育信息、以往病史、诊治情况、家族病史、现病史、传染病史等，以及与个人身体健康状况相关的其他信息；以及，体重、身高、肺活量等具体隐私类型。

个人教育工作信息类隐私数据可以包括个人职业、职位、工作单位、学历、学位、教育经历、工作经历、培训记录、成绩单等具体隐私类型。

个人财产信息类隐私数据可以包括银行账号、鉴别信息(口令)、存款信息(包括资金数量、支付收款记录等)、房产信息、信贷记录、征信信息、交易和消费记录、流水记录等，以及虚拟货币、虚拟交易、游戏类兑换码等虚拟财产信息等具体隐私类型。

个人通信信息类隐私数据可以包括通信记录和内容、短信、彩信、电子邮件，以及描述个人通信的数据(通常称为元数据)等具体隐私类型。

联系人信息类隐私数据可以包括通讯录、好友列表、群列表、电子邮件地址列表等具体隐私类型。

个人上网记录类隐私数据可以指通过日志储存的用户操作记录，可以包括网站浏览记录、软件使用记录、点击记录等具体隐私类型。

个人常用设备信息类隐私数据可以指用于描述个人常用设备基本情况的信息，可以包括硬件序列号、设备MAC地址、软件列表、唯一设备识别码(如IMEI/androidID/IDFA/OPENUDID/GUID、SIM卡IMSI信息等)等具体隐私类型。

个人位置信息类隐私数据可以包括行踪轨迹、精准定位信息、住宿信息、经纬度等具体隐私类型。

此外，隐私数据还可以包括婚史、宗教信仰、性取向、未公开的违法犯罪记录等具体隐私类型。

以上罗列的信息仅是作为本申请的实施例可识别和处理的隐私数据的示例，并不限于上述示例。

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

以下结合附图，详细说明本申请各实施例提供的技术方案。

图1为本说明书实施例中隐私数据识别和处理方法的应用场景的示意图。如图1所示，第一服务器102可以用于识别数据库104中的隐私数据，并对隐私数据对应的隐私字段进行打标；第二服务器106可以用于接收到用户终端108的数据访问请求后，判断该被访问的数据是否对应于隐私字段，若是，则对该被访问数据进行脱敏处理后再向用户反馈。尽管图1中分别示出了第一服务器102和第二服务器106，但是在实际应用中，第一服务器102与第二服务器106也可以是指同一个服务器。

可选地，为了避免隐私数据识别和打标的过程会影响用户对数据的访问，可以在闲时来完成隐私数据识别和打标，其中，闲时可以是在数据库被访问的频率较低的时段，例如，一天中的00:00至5:00。

图2为本说明书实施例提供的一种隐私数据识别方法的流程示意图。从程序角度而言，流程的执行主体可以为服务器。

如图2所示，该流程可以包括下述各步骤。

步骤202：获取目标字段对应的多条数据。

在本申请的实施例中，进行隐私数据的识别具体可以包括对存储有隐私数据的隐私字段的识别。隐私字段可以是存储有隐私数据的字段。隐私数据可以是包含有隐私序列的数据。序列，是由一串字符构成的数据片段，构成序列的字符可以为文字、字母、数字、符号等。

下面举例来说明隐私字段、隐私数据以及隐私序列。

例如，某字段对应的数据为URL，其中一个URL可以为“http://alipay.com/service？certNo＝34240118600913257X&phone＝18866668888&name＝张三”，其中，包含有“34240118600913257X”(身份证号)、“18866668888”(联系电话)和“张三”(姓名)这些隐私序列，该URL为一条隐私数据，该URL所属的字段可以是隐私字段。

再如，某字段对应的数据为病例记录，其中一个病例记录中可以为“张三(34240118600913257X)患有XX型疾病，家属联系方式18888888888，家庭住址：XX市XX区XX小区XX栋XX单元XX室”，其中，包含有“张三”(姓名)、“34240118600913257X”(身份证号)、“XX型疾病”(患病)、“18888888888”(联系电话)、“XX市XX区XX小区XX栋XX单元XX室”(住址)这些隐私序列，该病历记录为一条隐私数据，该病例记录所属的字段可以是隐私字段。

在本申请的实施例中，当识别一个目标字段是否为隐私字段时，可以基于该目标字段对应的至少部分数据来识别。

在可选的实施例中，步骤202具体可以是获取目标字段对应的数据中不小于预定数量的数据，或者，可以是获取目标字段对应的数据中不小于预定比例的数据。可选地，获取的所述多条数据也可以同时满足不小于预定数量且不小于预定比例。将被识别的样本数量设置为满足不小于预定数量和/或预定比例的条件，可以进一步提升，基于这些样本得到的对所述目标字段是否包含隐私数据的判断结果的准确性。

步骤204：采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息。

命名实体识别(Named Entity Recognition，NER)表示从一段自然语言文本中找出相关实体，并标注出其位置以及类型。实体可以根据需要进行定义，只要是业务需要的特殊文本片段都可以称为实体。在本申请的实施例中，由命名实体识别的实体即隐私序列，通过命名实体识别模型识别出的隐私序列的序列隐私类型，可以是上文的具体隐私类型。

在本申请的实施例中，可以采用预先训练的命名实体识别模型来对所述多条数据中的隐私序列进行识别。所述采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息，具体可以包括，对所述多条数据中的字符进行序列标记，该序列标记的结果可以包含隐私序列的位置信息和序列隐私类型信息。其中，所述位置信息，用于表示构成所述隐私序列的字符在所述数据字符串中的具体位置。所述序列隐私类型信息，用于表示所述隐私序列的具体隐私类型。

进行序列标记的方法包括但可以采用任意现有的序列标记方式，本申请对此不进行具体限定。下文中以BIEO标注方式(即，采用Begin,Intermediate,End,Other标注)为例进行具体说明。

假定想要保护的隐私序列的具体隐私类型有m种，可以将各具体隐私类型记为C₁,C₂,C₃,……,C_m-1,C_m。给定一个字符长度为n的待识别数据w＝{w₁,w₂,w₃,……,w_n-1,w_n}，该待识别数据W中若干个连续的字符可以组成序列S＝[w_k-i,w_k-i+1,……,w_k]。如果序列S是属于C_j隐私类型，那么基于命名实体识别技术进行隐私序列识别的结果可以进行如下标记：将w_k-i标记为C_{j_}B,将w_k-i+1至w_k-1标记为C_{j_}I，将w_k标记为C_{j_}E。其中，B即Begin，用于标识隐私序列的开始字符；E即End，用于标识隐私序列的结束字符；I即Intermediate，用于标识隐私序列的中间字符。

作为一个具体示例，一条数据为“姓名：张三丰，住址：海淀区西二旗某小区，联系方式：18688888888，银行卡：6227111111111111111”，采用命名实体识别模型，可以将该数据进行如下标记：“O，O，O，N_B，N_I，N_E，O，O，O，O，A_B，A_I，A_I，A_I，A_I，A_I，A_I，A_I，A_E，O，O，O，O，O，O，P_B，P_I，P_I，P_I，P_I，P_I，P_I，P_I，P_I，P_I，P_E，O，O，O，O，O，C_B，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_I，C_E”。其中，B、I、E的含义如上文所述，O即Other，用于标识非隐私序列中的字符。在该示例中，N即Name，用于标识姓名类型的隐私序列；A即Address，用于标识地址类型的隐私序列；P即Phone，用于标识手机号类型的隐私序列；C即Card，用于标识银行卡号类型的隐私序列。上述用于标识序列具体隐私类型的字母标识仅作为示例，在实际应用中可以设定为任意标识。

在本申请的实施例中，采用了命名实体识别模型来识别隐私数据，通过序列标注的方式进行数据中隐私序列的识别。由于命名实体识别模型采用序列标记的方式，不仅能够识别出数据中是否包含隐私序列，还能够识别出所包含的一条或多条隐私序列各自的位置信息和序列隐私类型信息。

在本申请的实施例中，所述命名实体识别模型具体可以采用HMM、MEMM、CRF、NN/CNN-CRF、RNN-CRF、Bi-LSTM+CRF、BERT+CRF等机器学习或深度学习方法，不限于此。

步骤206：基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据。

在本申请的实施例中，数据的隐私结构类型可以用于表示数据中是否包含隐私序列以及数据中包含的隐私序列的类型信息。

对于所述多条数据中的任意一条数据，均可以通过采用命名实体识别模型来确定该条数据中包含的隐私序列的位置信息和序列隐私类型信息，进而可以得知该条数据的隐私结构类型。

若识别结果为该条数据中不包含隐私序列，则将该条数据确定为非隐私结构类型的数据。例如，对于数据“2020年春节天气很好”，若识别结果为“O，O，O，O，O，O，O，O，O，O，O”，则确定该数据为非隐私结构类型的数据。

若识别结果为该条数据中仅包含一个隐私序列，则将该条数据确定为单序列隐私结构类型的数据。例如，对于数据“18688888888”，识别结果为“P_B，P_I，P_I，P_I，P_I，P_I，P_I，P_I，P_I，P_I，P_E”，则确定该数据为单序列隐私结构类型的数据，且具体类型为手机号。

若识别结果为该条数据中包含多个序列且至少包含一个隐私序列，则将该条数据确定为复合序列隐私结构类型的数据。例如，沿用上文的示例“姓名：张三丰，住址：海淀区西二旗某小区，联系方式：18688888888，银行卡：6227111111111111111”，根据其识别结果，则确定该数据为复合序列隐私结构类型的数据。

步骤208：基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型。

在本申请的实施例中，对于目标字段，通过识别该目标字段对应的不小于预定数量、不小于预定比例或者既不小于预定数量也不小于预定比例的多条数据的隐私结构类型，可以综合得到该目标字段的隐私结构类型。

根据可选的实施例，可以将所述多条数据中占比最大的隐私结构类型的数据的对应类型，作为该目标字段的隐私结构类型。具体地：首先基于所述多条数据中各条数据的隐私结构类型，确定所述多条数据中所述非隐私结构类型的数据在所述多条数据中所占的第一比值、所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，以及所述复合序列隐私结构类型的数据在所述多条数据中所占的第三比值；然后根据所述第一比值、所述第二比值和所述第三比值，确定比值最大的隐私结构类型为所述目标字段的备选隐私结构类型。进一步地，可以判断是否所述比值最大的隐私结构类型的比值不小于预设比值，得到第三判断结果；若所述第三判断结果为是，将所备选隐私结构类型确定为所述目标字段的隐私结构类型。根据该实施例，可以在占比最大的隐私结构类型的数据的占比达到预设的比值的情况下，将占比最大的隐私结构类型的数据对应的类型确定为该目标字段的隐私结构类型，可以提高目标字段的隐私结构类型识别结果的准确性。假设预设比值为90％，若占比最大的隐私结构类型的数据的占比为92％，则将占比最大的隐私结构类型的数据对应的类型确定为该目标字段的隐私结构类型。

可选地，为了提升目标字段的隐私结构类型识别结果的可靠性，可以在占比最大的隐私结构类型的数据的占比达到预设的比值且数量达到预定数量的情况下，将占比最大的隐私结构类型的数据对应的类型确定为该目标字段的隐私结构类型。所述基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型，具体包括：首先，基于所述多条数据中各条数据的隐私结构类型，确定所述多条数据中所述非隐私结构类型的数据在所述多条数据中所占的第一比值、所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，以及所述复合序列隐私结构类型的数据在所述多条数据中所占的第三比值；然后，根据所述第一比值、所述第二比值和所述第三比值，确定比值最大的隐私结构类型为所述目标字段的备选隐私结构类型。进一步地，可以判断是否所述比值最大的隐私结构类型的比值不小于预设比值且所述比值最大的隐私结构类型的数据的数据量不小于预设阈值，得到第四判断结果；若第四判断结果为是，将所述备选隐私结构类型，确定为所述目标字段的隐私结构类型。

在实际应用中，所述确定所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，具体可以包括：对于所述单序列隐私结构类型的每种具体序列隐私类型，分别计算所述具体序列隐私类型的数据的数据量与所述多条数据的总数据量的比例，作为所述具体序列隐私类型的第二比值。也就是说，对于单序列隐私结构类型中的每种具体的序列隐私类型，例如，对于“身份证号”、“手机号”两类单序列隐私结构类型的数据，可以分别统计其对应的数据量和对应的比值。

在本申请中，使用了术语第一、第二等来描述各种内容，以将第一内容与第二内容区分开，但是这些内容不应受这些术语的限制。

步骤210：对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

在本申请的实施例中，所述标签可以是与所述目标字段对应的，这就使得，当所述目标字段中的任意数据被访问时，可以根据该目标字段的标签对应的脱敏方式来对所述被访问的数据进行脱敏处理。

具体地，若目标字段为非隐私结构类型，则可以为该目标字段设置表示“非隐私”的标签，或者不设置标签。

若目标字段为复合序列隐私结构类型，则可以为该目标字段设置表示“复合序列隐私类型”的标签。

若目标字段为单序列隐私结构类型，则可以为该目标字段设置表示“单序列隐私类型”的标签。更具体地，可以为该目标字段设置表示具体序列隐私类型的标签，例如设置为表示“身份证”、“手机号”、“姓名”等具体隐私类型的标签，以使得，当该目标字段中的任意数据被获取或访问时，可以根据与“身份证”、“手机号”、“姓名”等具体隐私类型对应的脱敏方式来对该任意数据进行脱敏处理。

本说明书一个或多个实施例中使用了流程图用来说明根据本说明书一个或多个实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

图2中的方法，采用命名实体识别模型来对目标字段中的多条数据进行识别，得到所述多条数据的隐私结构类型，进而得到目标字段的隐私结构类型，并为所述目标字段添加用于标识隐私结构类型的标签，以使得，当目标字段中的数据被访问时，可以根据标签标识的隐私结构类型对应的预设脱敏方法对目标字段进行脱敏处理。从而，保护了隐私数据不被泄露。

基于图2的方法，本说明书实施例还提供了该方法的一些具体实施方案，下面进行说明。

根据本申请的实施例，需要预先训练用于进行隐私数据识别的命名实体识别模型。具体地，所述获取目标字段对应的多条数据(步骤202)之前，还可以包括：获取包含标记的样本数据；所述标记用于标识所述样本数据中的隐私序列的位置信息和序列隐私类型信息；根据所述包含标记的样本数据，对命名实体识别模型进行训练，得到训练后的命名实体识别模型。

其中，所述包含标记的样本数据，可以是采用序列标记方法进行标记的样本数据。所述包含标记的样本数据可以包含非隐私结构类型的样本数据、单序列隐私结构类型的样本数据以及复合序列隐私结构类型的样本数据。

在实际应用中，目标字段对应的数据可以是以结构化形式、半结构化形式或非结构化形式存储的数据。其中，结构化形式存储的数据可以是例如以二维数组的形式存储的数据。半结构化形式存储的数据，即结构复合型数据，可以是例如JSON格式、XML格式、URL格式的数据等。非结构化形式存储的数据可以是例如文本形式的数据。

在本申请的一个或多个实施例中，在所述采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息(步骤204)之前，还可以包括：判断所述多条数据是否为结构复合型数据，得到第一判断结果，其中，所述结构复合型数据为包含用于分隔语义元素的标记的半结构化数据；若所述第一判断结果为是，则将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据；若所述第一判断结果为否，则将所述多条数据整体确定为所述预先训练的命名实体识别模型的输入数据。

其中，将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体为，根据所述标记，提取被分隔的语义元素，之后使用所述预先训练的命名实体识别模型来对所述语义元素的具体序列隐私类型进行识别。该实施例的方案中，基于数据本身的结构特点，对数据中的关键信息进行提取，一定程度上避免了跨结构部分的字符对识别结果的干扰，进一步提升了序列隐私类型识别结果的准确性。

可选地，所述结构复合型数据可以包括URL格式数据。所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体可以包括：将所述URL格式数据中的域名和请求参数确定为所述预先训练的命名实体识别模型的输入数据。

作为示例，在URL“http://alipay.com/service？certNo＝34240118600913257X&phone＝18866668888&name＝张三”中，可以提取出其中的域名“http://alipay.com”以及请求参数“34240118600913257X”、“18866668888”和“张三”，作为实际被输入至预先训练的命名实体识别模型进行识别的数据。

可选地，所述结构复合型数据可以包括JSON格式数据。所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体可以包括：将所述JSON格式数据中的value值确定为所述预先训练的命名实体识别模型的输入数据。

例如，以JSON格式存储的病例，{k1:value1；k2,value2}，其中，k1表示第一次看病，value1表示第一次看病的病例内容，k2表示第二次看病，value2表示第二次看病的病例内容。在实施例中，可以提取其中的value1和value2的具体内容，作为实际被输入至预先训练的命名实体识别模型进行识别的数据。

可选地，所述结构复合型数据可以包括XML格式数据。所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体可以包括：将所述XML格式数据中的value值确定为所述预先训练的命名实体识别模型的输入数据。

上述URL格式数据、JSON格式数据、XML格式数据仅作为结构复合型数据的示例，本申请的实施例的方案也可以应用关于其他半结构化数据。

尽管，在上文的实施例中描述了可以进行结构复合型数据识别和拆分，以进一步提升命名实体模型对隐私数据中隐私序列的识别结果的准确性，但是，该方案是优选的，而非必须的。

此外，在实际应用中，为了进一步提升隐私数据识别的准确性，可选地，可以采用隐私序列检测规则，对命名实体识别模型的识别出的隐私序列进行再次检测确认。

根据本申请的一个或多个实施例，所述基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型，具体可以包括：根据所述隐私序列的所述序列隐私类型信息，确定与所述序列隐私类型信息表示的序列隐私类型对应的隐私序列检测规则；判断所述隐私序列是否符合所述隐私序列检测规则，得到第二判断结果。若所述第二判断结果为是，将所述序列隐私类型信息表示的序列隐私类型确定为所述隐私序列的实际序列隐私类型；基于所述多条数据中隐私序列的位置信息和所述实际序列隐私类型，确定所述多条数据的隐私结构类型。若所述第二判断结果为否，则可以通过其他类型的序列隐私类型对应的隐私序列检测规则，来重新确定所述隐私序列的实际序列隐私类型。

可选地，所述隐私序列检测规则具体包括正则表达式和数字校验规则中的至少一种。所述确定与所述序列隐私类型信息表示的序列隐私类型对应的隐私序列检测规则，具体包括，确定用于检测所述序列隐私类型信息表示的序列隐私类型的正则表达式和数字校验规则。对于同一个隐私序列，可以既进行正则表达式的验证，又进行数字校验规则的验证，或者选择其中一种方式进行验证。

其中，所述正则表达式(RegularExpression)，又称正则表示式、正则表示法、规则表达式、常规表示法，其基于约定的语法规则，构建单个字符串来描述、匹配一系列符合某个句法规则的字符串。本申请的实施例中使用的正则表达式方案可以包括预置正则表达式和自动化正则表达式，所述预置正则表达式可以是通过专业人士针对隐私数据类型撰写的正则表达式，所述自动化正则表达式可以是根据训练数据的特征，通过算法自动生成的符合条件的正则表达式。作为示例，对于序列隐私类型为“手机号”的隐私序列，可以使用正则表达式“^1[3-9][0-9]{9}$”来进行验证。另一示例，对于序列隐私类型为“身份证号”的隐私序列，可以使用正则表达式“^\d{6}(18|19|20)？\d{2}(0[1-9]|1[12])(0[1-9]|[12]\d|3[01])\d{3}(\d|X)$”来进行验证。

所述数字校验规则，即，隐私数据自身的构造规则。作为示例，对于序列隐私类型为“银行卡号”的隐私序列，可以使用Luhn算法来进行验证。

根据本申请的实施例，所述对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签(步骤210)之后，还可以包括：响应于用户对所述目标字段对应的目标数据的获取请求，获取所述目标字段的标签；根据所述标签，采用与所述标签表示的隐私结构类型对应的脱敏方式处理所述目标数据。

在本申请的实施例中，对隐私数据进行识别的实际应用过程可以包括两个阶段，第一阶段，可以基于目标字段中的多条数据，来判断得到该目标字段的隐私结构类型，并为该目标字段添加用于标识所述隐私结构类型的标签；第二阶段，当该目标字段对应的目标数据被访问时，可以根据该目标字段的标签所标识的隐私结构类型，来采用预设的与所述标识的隐私结构类型对应的数据脱敏方法，来对该目标数据进行数据脱敏处理。

可选地，第一阶段与第二阶段可以在不同时间阶段执行。例如，为了避免进行隐私字段打标的方案的执行影响用户对数据库的访问，可以在用户访问量较小的闲时执行第一阶段的对隐私字段的打标操作。可选地，第一阶段方案的执行主体与第二阶段方案的执行主体可以是相同或不同的服务器。

上文中已经从第一阶段的对隐私字段进行打标的角度，描述了隐私数据的识别方法。下面将从第二阶段的对被请求的目标数据进行保护的角度，描述隐私数据的保护方法。

图3为本说明书实施例提供的一种隐私数据处理方法的流程示意图。从程序角度而言，流程的执行主体可以为服务器。

如图3所示，该流程可以包括下述各步骤。

步骤302：响应于对目标数据的获取请求，获取所述目标数据所属目标字段的标签。

其中，所述标签可以是采用上文所述的隐私数据识别方法确定的。具体地，所述获取所述目标数据所属目标字段的标签(步骤302)之前，还可以包括：定目标字段对应的多条数据的隐私结构类型；基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型；对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签。更具体地，所述标签可以是采用如步骤202至210所述的方法确定的。

所述标签可以表示所述目标字段为非隐私结构类型、单序列隐私结构类型或复合序列隐私结构类型中的任意一种。可选地，对于单序列隐私结构类型的数据，所述标签可以表示所述目标字段的具体序列隐私类型。

步骤304：根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据。

根据本申请的实施例，由于当用户访问数据时，直接通过标签可以得知用户访问的数据是否包含隐私数据，无需再通过模型来判断该数据的类型，可以提升用户访问数据时服务器的数据反馈效率。

步骤306：采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息。

步骤306中所述预先训练的命名实体识别模型与步骤204中使用的预先训练的命名实体识别模型，可以是同一个模型。在本申请的实施例中，当标签表示目标字段为复合序列隐私结构类型时，可以采用所述预先训练的命名实体识别模型，再次识别该被获取的目标数据中的至少一个隐私序列，进而对所述至少一个进行序列进行脱敏处理。

在此需要说明的是，尽管当用户访问的数据为复合序列隐私结构类型时，还需要采用命名实体识别模型来再次识别目标数据中的隐私序列，但是由于此时仅是对用户要访问的数据进行识别，所以速度是较快的。

步骤308：根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式。

步骤310：采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

根据本申请的实施例，向目标数据请求方返回的所述目标数据是经脱敏处理后的，具体地，所述目标数据中的隐私序列是脱敏处理后的。

在可选的实施例中，所述获取所述目标数据所属目标字段的标签(步骤302)之后，还可以包括：根据所述目标字段的标签，确定所述目标数据的隐私结构类型为单序列隐私结构类型，所述单序列隐私结构类型的数据为包含一个隐私序列的数据；根据所述目标数据的具体序列隐私类型，确定与所述具体序列隐私类型对应的数据脱敏方式；采用所述对应的数据脱敏方式对所述目标数据进行脱敏处理。由此，向目标数据请求方返回的所述目标数据是经脱敏处理后的。

在可选的实施例中，所述获取所述目标数据所属目标字段的标签(步骤302)之后，还可以包括：根据所述目标字段的标签，确定所述目标数据的隐私结构类型为非隐私结构类型，所述非隐私结构类型的数据为不包含隐私序列的数据，则不对所述目标数据进行脱敏处理，即，直接向数据请求方返回所述目标数据。

在本申请的一个或多个实施例中，所述采用所述对应的数据脱敏方式对所述隐私序列进行脱敏处理(步骤310)，具体可以包括：掩盖所述隐私序列中的至少部分字符；或，采用所述隐私序列的哈希值替换所述隐私序列；或，保持数据长度不变，替换所述隐私序列的至少部分字符。

可选地，对于各个不同类型的隐私序列，均可以预设与该隐私序列对应的数据脱敏方式。可选地，对于手机号类型的隐私序列，可以采用掩盖所述隐私序列中的至少部分字符的方式，例如，对于手机号“18866668888”，脱敏后可以为“188*****888”。可选地，对于手机号类型的隐私序列，也可以采用所述隐私序列的哈希值替换所述隐私序列，例如，使用Hash(18866668888)的值替换手机号“18866668888”。可选地，对于电子邮箱类型的隐私序列，可以采用保持数据长度不变，替换所述隐私序列的至少部分字符的方式，例如，使用假名替换，以“zhangsan@123.com”替换“desheng.wangds@antfin.com”。

上述方案中，在用户请求数据时，通过对用户请求数据中的隐私序列进行脱敏处理，防止隐私数据被泄露，保护了隐私数据的安全。

根据上面的说明，本说明书实施例提供的一种实际应用场景下进行隐私数据识别和处理的方案，图4为本说明书实施例中隐私数据识别和处理的方案在具体应用场景中的流程示意图。

如图4中所示，402：数据预处理，即，针对每个目标字段，批量地从数据库中抽样一定比例的数据记录，或者，抽样一定数量的数据记录。

404：可选地，判断数据记录是否为例如JSON、XML、URL等半结构化格式的结构复合型数据；若否，将数据记录作为文本数据输入至NER模型进行处理；若是，先进行结构复合型数据的拆分，再将拆分后的文本输入至NER模型进行处理。

406：采用NER模型进行处理。在NER模型的训练阶段，需要从数据库中抽样出部分敏感数据作为训练集来进行训练模型训练，所述敏感数据中以序列标记的方式标记出隐私序列。在使用训练好的NER模型进行推理预测的阶段，针对每条数据记录，可以识别出其中的隐私序列。

408：可选地，可以对NER模型的推理预测结果进行规则二次检测，具体地，若匹配了规则，则认为该条记录为对应的类别，进行规则二次识别能够进一步提高隐私数据识别结果的准确性，减少误判。

410：基于二次规则检测的结果，统计数据预处理阶段抽取的数据中每个类别分别得到的票数，得票数最高的类别作为备选类别，最高票数满足一定的阈值且判定的概率大于一定阈值的备选类别作为最终结果；如果两个阈值均不满足，则该识别流程结束。

412：根据数据隐私结构类型识别结果，对数据库中的目标字段的数据隐私结构类型进行标记，以便于后续数据脱敏处理。

414：当用户查询数据库中目标字段的数据时，若该目标字段被标记为隐私字段，则根据该目标字段的具体标签，对数据进行脱敏处理。

基于同样的思路，本说明书实施例还提供了上述方法对应的装置。

图5为本说明书实施例提供的对应于图2的一种隐私数据识别装置的结构示意图。

如图5所示，该装置可以包括如下模块。

数据获取模块502，用于获取目标字段对应的多条数据。

识别模块504，用于采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息。

数据隐私结构类型确定模块506，用于基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据。

字段隐私结构类型确定模块508，用于基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型。

标签添加模块510，用于对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

可选地，所述装置还可以包括数据拆分模块，可以用于：判断所述多条数据是否为结构复合型数据，得到第一判断结果，其中，所述结构复合型数据为包含用于分隔语义元素的标记的半结构化数据；若所述第一判断结果为是，则将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据。

可选地，所述字段隐私结构类型确定模块508，具体可以用于：根据所述隐私序列的所述序列隐私类型信息，确定与所述序列隐私类型信息表示的序列隐私类型对应的隐私序列检测规则；判断所述隐私序列是否符合所述隐私序列检测规则，得到第二判断结果；若所述第二判断结果为是，将所述序列隐私类型信息表示的序列隐私类型确定为所述隐私序列的实际序列隐私类型；基于所述多条数据中隐私序列的位置信息和所述实际序列隐私类型，确定所述多条数据的隐私结构类型。其中，所述隐私序列检测规则具体包括正则表达式和数字校验规则中的至少一种。

在本申请的一个或多个实施例中，所述字段隐私结构类型确定模块508，具体可以用于：基于所述多条数据中各条数据的隐私结构类型，确定所述多条数据中所述非隐私结构类型的数据在所述多条数据中所占的第一比值、所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，以及所述复合序列隐私结构类型的数据在所述多条数据中所占的第三比值；根据所述第一比值、所述第二比值和所述第三比值，确定比值最大的隐私结构类型为所述目标字段的备选隐私结构类型；判断是否所述比值最大的隐私结构类型的比值不小于预设比值，得到第三判断结果；若所述第三判断结果为是，将所备选隐私结构类型确定为所述目标字段的隐私结构类型。

在本申请的一个或多个实施例中，所述字段隐私结构类型确定模块508，具体还可以用于：基于所述多条数据中各条数据的隐私结构类型，确定所述多条数据中所述非隐私结构类型的数据在所述多条数据中所占的第一比值、所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，以及所述复合序列隐私结构类型的数据在所述多条数据中所占的第三比值；根据所述第一比值、所述第二比值和所述第三比值，确定比值最大的隐私结构类型为所述目标字段的备选隐私结构类型；判断是否所述比值最大的隐私结构类型的比值不小于预设比值且所述比值最大的隐私结构类型的数据的数据量不小于预设阈值，得到第四判断结果；若第四判断结果为是，将所述备选隐私结构类型，确定为所述目标字段的隐私结构类型。

可选地，所述装置还可以包括脱敏模块，用于：响应于用户对所述目标字段对应的目标数据的获取请求，获取所述目标字段的标签；根据所述标签，采用与所述标签表示的隐私结构类型对应的脱敏方式处理所述目标数据。

可选地，所述装置还可以包括模型训练模块，用于：获取包含标记的样本数据；所述标记用于标识所述样本数据中的隐私序列的位置信息和序列隐私类型信息；根据所述包含标记的样本数据，对命名实体识别模型进行训练，得到训练后的命名实体识别模型。

图6为本说明书实施例提供的对应于图3的一种隐私数据处理装置的结构示意图。

如图6所示，该装置可以包括如下模块。

标签获取模块602，用于响应于对目标数据的获取请求，获取所述目标数据所属目标字段的标签。

隐私结构类型确定模块604，用于根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据。

隐私序列识别模块606，用于采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息。

脱敏方式确定模块608，用于根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式。

脱敏模块610，用于采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

在本申请的一个或多个实施例中，所述隐私结构类型确定模块604，还可以用于：根据所述目标字段的标签，确定所述目标数据的隐私结构类型为单序列隐私结构类型；所述单序列隐私结构类型的数据为包含一个隐私序列的数据。所述脱敏方式确定模块608，还可以用于：根据所述目标数据的具体序列隐私类型，确定与所述具体序列隐私类型对应的数据脱敏方式。所述脱敏模块610，还可以用于：采用所述对应的数据脱敏方式对所述目标数据进行脱敏处理。

可以理解，上述的各模块是指计算机程序或者程序段，用于执行某一项或多项特定的功能。此外，上述各模块的区分并不代表实际的程序代码也必须是分开的。

基于同样的思路，本说明书实施例还提供了上述方法对应的设备。

图7为本说明书实施例提供的一种隐私数据识别和处理设备的结构示意图。如图7所示，设备700可以包括：

至少一个处理器710；以及，

与所述至少一个处理器通信连接的存储器730；其中，

所述存储器730存储有可被所述至少一个处理器710执行的指令720，所述指令被所述至少一个处理器710执行，以使所述至少一个处理器710能够：

获取目标字段对应的多条数据；

采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息；

基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；

基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型；

对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

或者，以使所述至少一个处理器710能够：

响应于对目标数据的获取请求，获取所述目标数据所属目标字段的标签；

根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；

采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息；

根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式；

采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

基于同样的思路，本说明书实施例还提供了上述方法对应的一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现上面任一实施例中所述的隐私数据识别方法和/或隐私数据处理方法。

上述对本说明书特定实施例进行了描述，在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置、设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书实施例提供的装置、设备与方法是对应的，因此，装置、设备也具有与对应方法类似的有益技术效果，由于上面已经对方法的有益技术效果进行了详细说明，因此，这里不再赘述对应装置、设备的有益技术效果。

以上所述仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体，意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本申请可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

Claims

1.一种隐私数据识别方法，包括：

获取数据库中的目标字段对应的多条数据；

2.如权利要求1所述的方法，所述采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息之前，还包括：

判断所述多条数据是否为结构复合型数据，得到第一判断结果，其中，所述结构复合型数据为包含用于分隔语义元素的标记的半结构化数据；

若所述第一判断结果为是，则将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据。

3.如权利要求2所述的方法，所述结构复合型数据包括JSON格式数据，所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体包括：将所述JSON格式数据中的value值确定为所述预先训练的命名实体识别模型的输入数据；

或，

所述结构复合型数据包括XML格式数据，所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体包括：将所述XML格式数据中的value值确定为所述预先训练的命名实体识别模型的输入数据；

或，

所述结构复合型数据包括URL格式数据，所述将所述多条数据中的语义元素确定为所述预先训练的命名实体识别模型的输入数据，具体包括：将所述URL格式数据中的域名和请求参数确定为所述预先训练的命名实体识别模型的输入数据。

4.如权利要求1所述的方法，基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型，具体包括：

根据所述隐私序列的所述序列隐私类型信息，确定与所述序列隐私类型信息表示的序列隐私类型对应的隐私序列检测规则；

判断所述隐私序列是否符合所述隐私序列检测规则，得到第二判断结果；

若所述第二判断结果为是，将所述序列隐私类型信息表示的序列隐私类型确定为所述隐私序列的实际序列隐私类型；

基于所述多条数据中隐私序列的位置信息和所述实际序列隐私类型，确定所述多条数据的隐私结构类型。

5.如权利要求4所述的方法，所述隐私序列检测规则具体包括正则表达式和数字校验规则中的至少一种。

6.如权利要求1所述的方法，所述基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型，具体包括：

基于所述多条数据中各条数据的隐私结构类型，确定所述多条数据中所述非隐私结构类型的数据在所述多条数据中所占的第一比值、所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，以及所述复合序列隐私结构类型的数据在所述多条数据中所占的第三比值；

根据所述第一比值、所述第二比值和所述第三比值，确定比值最大的隐私结构类型为所述目标字段的备选隐私结构类型；

判断是否所述比值最大的隐私结构类型的比值不小于预设比值，得到第三判断结果；

若所述第三判断结果为是，将所备选隐私结构类型确定为所述目标字段的隐私结构类型。

7.如权利要求1所述的方法，所述基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型，具体包括：

判断是否所述比值最大的隐私结构类型的比值不小于预设比值且所述比值最大的隐私结构类型的数据的数据量不小于预设阈值，得到第四判断结果；

若第四判断结果为是，将所述备选隐私结构类型，确定为所述目标字段的隐私结构类型。

8.如权利要求6所述的方法，确定所述单序列隐私结构类型的数据在所述多条数据中所占的第二比值，具体包括：

对于所述单序列隐私结构类型的每种具体序列隐私类型，分别计算所述具体序列隐私类型的数据的数据量与所述多条数据的总数据量的比例，作为所述具体序列隐私类型的第二比值。

9.如权利要求1所述的方法，对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签之后，还包括：

响应于用户对所述目标字段对应的目标数据的获取请求，获取所述目标字段的标签；

根据所述标签，采用与所述标签表示的隐私结构类型对应的脱敏方式处理所述目标数据。

10.如权利要求1所述的方法，所述获取目标字段对应的多条数据之前，还包括：

获取包含标记的样本数据；所述标记用于标识所述样本数据中的隐私序列的位置信息和序列隐私类型信息；

根据所述包含标记的样本数据，对命名实体识别模型进行训练，得到训练后的命名实体识别模型。

11.一种隐私数据处理方法，包括：

响应于对数据库中的目标数据的获取请求，获取所述目标数据所属目标字段的标签；

12.如权利要求11所述的方法，所述获取所述目标数据所属目标字段的标签之后，还包括：

根据所述目标字段的标签，确定所述目标数据的隐私结构类型为单序列隐私结构类型；所述单序列隐私结构类型的数据为包含一个隐私序列的数据；

根据所述目标数据的具体序列隐私类型，确定与所述具体序列隐私类型对应的数据脱敏方式；

采用所述对应的数据脱敏方式对所述目标数据进行脱敏处理。

13.如权利要求11所述的方法，所述获取所述目标数据所属目标字段的标签之前，还包括：确定目标字段对应的多条数据的隐私结构类型；

对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签。

14.一种隐私数据识别装置，包括：

数据获取模块，用于获取数据库中的目标字段对应的多条数据；

识别模块，用于采用预先训练的命名实体识别模型，确定所述多条数据中隐私序列的位置信息和序列隐私类型信息；

数据隐私结构类型确定模块，用于基于所述多条数据中隐私序列的所述位置信息和所述序列隐私类型信息，确定所述多条数据的隐私结构类型；所述隐私结构类型包括非隐私结构类型、单序列隐私结构类型和复合序列隐私结构类型；其中，所述非隐私结构类型的数据为不包含隐私序列的数据，所述单序列隐私结构类型的数据为包含一个隐私序列的数据，所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；

字段隐私结构类型确定模块，用于基于所述多条数据的隐私结构类型，确定所述目标字段的隐私结构类型；

标签添加模块，用于对所述目标字段添加用于表示所述目标字段的隐私结构类型的标签；所述标签用于指示采用与所述标签对应的数据脱敏方式对所述目标字段的数据进行脱敏处理。

15.如权利要求14所述的装置，还包括数据拆分模块，用于：

16.如权利要求14所述的装置，所述字段隐私结构类型确定模块，具体用于：

17.一种隐私数据处理装置，包括：

标签获取模块，用于响应于对数据库中的目标数据的获取请求，获取所述目标数据所属目标字段的标签；

隐私结构类型确定模块，用于根据所述目标字段的标签，确定所述目标数据的隐私结构类型为复合序列隐私结构类型；所述复合序列隐私结构类型的数据为包含多个序列且所述多个序列中包含至少一个隐私序列的数据；

隐私序列识别模块，用于采用预先训练的命名实体识别模型，识别所述目标数据中隐私序列的集合，得到所述集合中的各隐私序列的位置信息和序列隐私类型信息；

脱敏方式确定模块，用于根据所述集合中各隐私序列的序列隐私类型信息，确定所述各隐私序列的数据脱敏方式；

脱敏模块，用于采用所述数据脱敏方式对所述隐私序列的集合进行脱敏处理。

18.如权利要求17所述的装置，所述隐私结构类型确定模块，还用于：根据所述目标字段的标签，确定所述目标数据的隐私结构类型为单序列隐私结构类型；所述单序列隐私结构类型的数据为包含一个隐私序列的数据；

所述脱敏方式确定模块，还用于根据所述目标数据的具体序列隐私类型，确定与所述具体序列隐私类型对应的数据脱敏方式；

所述脱敏模块，还用于采用所述对应的数据脱敏方式对所述目标数据进行脱敏处理。

19.一种隐私数据识别设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

获取数据库中的目标字段对应的多条数据；

20.一种隐私数据处理设备，包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

21.一种计算机可读介质，其上存储有计算机可读指令，所述计算机可读指令可被处理器执行以实现权利要求1至13中任一项所述的方法。