CN111062490A

CN111062490A - 一种包含隐私数据的网络数据的处理方法及装置

Info

Publication number: CN111062490A
Application number: CN201911285296.5A
Authority: CN
Inventors: 林博
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2020-04-24
Anticipated expiration: 2039-12-13
Also published as: CN111062490B

Abstract

本申请公开了一种包含隐私数据的网络数据的处理方法及装置，所述方法包括：对网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据集包括多个数据子集；各数据子集中的网络数据包含的隐私数据的数据类型不同；确定各数据子集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；提取所述上下文字段的字段取值对应的语义信息；将提取出的所述语义信息作为样本特征构建训练样本，并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

Description

一种包含隐私数据的网络数据的处理方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种包含隐私数据的网络数据的处理方法及装置。

背景技术

在人工智能领域，机器学习是从海量的数据中发掘隐含的数据规律的一种常用的技术手段。通过将大量原始数据作为训练样本，来训练机器学习模型，可以高效的发掘出这些数据中隐含的数据规律，并基于发掘出的数据规律，来进行业务运营；例如，可以基于大量的用户交易数据进行机器学习，来训练风控模型，并利用风控模型来识别用户发起的交易是否具有风险。

而在实际应用中，在需要使用机器学习手段识别网络数据中可能包含的隐私数据的情况下，为了保障用户的隐私安全，这些可能包含隐私数据的网络数据，通常并不能直接作为训练特征，输入至机器学习模型进行训练。

发明内容

有鉴于此，本申请公开了一种包含隐私数据的网络数据的处理方法和装置。

根据本申请实施例的第一方面，公开了一种包含隐私数据的网络数据的处理方法，包括：

对网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据集包括多个数据子集；各数据子集中的网络数据包含的隐私数据的数据类型不同；

确定各数据子集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

提取所述上下文字段的字段取值对应的语义信息；

将提取出的所述语义信息作为样本特征构建训练样本，并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

根据本申请实施例的第二方面，公开了一种网络数据包含的隐私数据的识别方法，包括：

对待识别的网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据包含隐私数据；

确定所述网络数据集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定所述网络数据集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

提取所述上下文字段的字段取值对应的语义信息；

将提取出的所述语义信息作为样本特征构建预测样本，并将所述预测样本输入至用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型进行计算，并根据所述机器学习模型输出的计算结果，确定所述网络数据集中的网络数据包含的隐私数据的类型。

根据本申请实施例的第三方面，公开了一种包含隐私数据的网络数据的处理装置，包括：

结构化解析模块，用于对网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据包含隐私数据；所述网络数据集包括多个数据子集；各数据子集中的网络数据包含的隐私数据的数据类型不同；

上下文字段确定模块，用于确定各数据子集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

语义信息提取模块，用于提取所述上下文字段的字段取值对应的语义信息；

识别模型训练模块，用于将提取出的所述语义信息作为样本特征构建训练样本，并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

根据本申请实施例的第四方面，公开了一种网络数据包含的隐私数据的识别装置，包括：

结构化解析模块，用于对待识别的网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据包含隐私数据；

上下文字段确定模块，用于确定所述网络数据集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定所述网络数据集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

识别模型调用模块，用于将提取出的所述语义信息作为样本特征构建预测样本，并将所述预测样本输入至用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型进行计算，并根据所述机器学习模型输出的计算结果，确定所述网络数据集中的网络数据包含的隐私数据的类型。

以上技术方案中，一方面，由于提取的训练特征并非隐私数据本身，而是其上下文字段取值所对应的语义信息，因此可以避免隐私数据的泄露；另一方面，由于利用了网络数据被结构化解析后生成的树状结构，能够准确地提取到隐私数据的上下文信息，使得所提取的语义信息与隐私数据的关联度更高，最终可以提升所训练的机器学习模型的准确度。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书文本一同用于解释原理。

图1是本说明书所述包含隐私数据的网络数据的处理的情景示例图；

图2是本说明书示出的一种包含隐私数据的网络数据的处理方法的流程示意图；

图3是本说明书示出的一种网络数据的结构示例图；

图4是本说明书示出的一种对网络数据进行聚类的示意图；

图5是本说明书示出的一种网络数据包含的隐私数据的识别方法的流程示意图；

图6是本说明书示出的一种包含隐私数据的网络数据的处理装置的结构示意图；

图7是本说明书示出的一种网络数据包含的隐私数据的识别装置的结构示意图；

图8是本说明书示出的一种计算机设备的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在众多数据分析场景中，需要分析的网络数据很可能携带有用户的隐私数据，为了不使数据分析过程泄露用户的隐私数据，有必要对所需要分析的网络数据提前进行隐私数据的识别，以便针对性地进行数据脱敏处理。其中，对隐私数据的识别任务，可以通过调用经机器学习方法训练得到的、用于识别隐私数据的分类模型完成。

然而，要得到上述用于识别隐私数据的分类模型，亦需要使用大量隐私数据作为训练样本进行机器学习，以使得该模型发掘到包含隐私数据的网络数据隐藏的特性规律；显然，该训练过程中仍然存在隐私泄露的风险。

请参见图1，图1是本说明书包含隐私数据的网络数据的处理的情景示例图。

在相关技术中，取训练样本时，可以不直接采用可能导致隐私泄露的网络数据直接携带的内容，而是采集该网络数据的语义信息，然后根据该语义信息构建训练特征，将其输入到机器学习模型中进行训练，来避免隐私的泄露。

然而，在实际应用中，虽然上述方案可以保证隐私数据本身不会直接被输入到机器学习环境中，避免了隐私泄露，但由于在作为样本的网络数据中，所需要识别的隐私数据可能并非内容的主体，这使得所提取的语义信息可能包含大量的干扰信息，进而令构建的训练特征无法准确表达包含隐私数据的网络数据的特性，因而降低了训练得到的分类模型的准确度。

基于此，本说明书提出一种通过对包含隐私数据的网络数据进行结构化解析，并提取该网络数据所包含的隐私数据的存储路径，进而提取该隐私数据在其存储路径的上下文字段的取值对应的语义信息，以构建训练样本的针对包含隐私数据的网络数据的处理技术方案。

在实现时，对网络数据进行结构化解析后，可以生成该网络数据的数据结构的树状结构图，进而可以确定所包含的隐私数据在该树状结构图中的存储路径，根据该存储路径，找到该隐私数据的上下文字段，即可提取该上下文字段取值所对应的语义信息，进而可以根据该语义信息构建训练样本。

从训练角度而言，上述用于模型训练的网络数据根据所包含的隐私数据的数据类型，被划分为不同的数据子集，依照前述方法构建训练样本后，即可根据训练样本对应的网络数据所包含的隐私数据的数据类型进行有监督机器学习。

在以上技术方案中，一方面，由于提取的训练特征并非隐私数据本身，而是其上下文字段取值所对应的语义信息，因此可以避免隐私数据的泄露；另一方面，由于利用了网络数据被结构化解析后生成的树状结构，能够准确地提取到隐私数据的上下文信息，使得所提取的语义信息与隐私数据的关联度更高，最终可以提升所训练的机器学习模型的准确度。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图2，图2是本申请一实施例提供的一种包含隐私数据的网络数据的处理方法，该方法执行以下步骤：

S201，对网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据集包括多个数据子集；各数据子集中的网络数据包含的隐私数据的数据类型不同；

S202，确定各数据子集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

S203，提取所述上下文字段的字段取值对应的语义信息；

S204，将提取出的所述语义信息作为样本特征构建训练样本，并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

在本说明书中，上述用于训练的、被结构化解析的网络数据组成一个网络数据集，在该网络数据集中，又可以根据网络数据所包含的隐私数据的数据类型，定义若干数据子集；

例如，该网络数据集涉及身份证号和电子邮箱两种数据类型的隐私数据，那么可以将包含身份证号类型的隐私数据的网络数据归入对应于身份证号类型的数据子集，将包含电子邮箱类型的隐私数据的网络数据归入对应于电子邮箱类型的数据子集。

可以理解的是，各个数据子集并不一定是互斥的，而是可以存在重叠元素的；例如，某条网络数据中既存在电子邮箱类型的隐私数据，又存在身份证号类型的隐私数据，那么该条网络数据即可同时被归入对应于身份证号类型的数据子集，和对应于电子邮箱类型的数据子集。

亦可以理解的是，上述将网络数据归入某个数据子集的过程，既可以如上述例子，根据已标注的、对应于网络数据中包含的隐私数据的数据类型的标签进行人工分类，也可以由聚类算法自动完成，本说明书对此不进行具体限定。

在本说明书中，对于进行结构化解析的网络数据的具体形式，无需进行限定；具体而言，该网络数据既可以是xml、json、html等结构化的数据，也可以是用户评论、邮件正文等各类非结构化的数据。

在示出的一种实施方式中，上述网络数据即为包含隐私数据的非结构化数据。在此种情况下，要对其进行结构化解析，首先需要将其结构化，即，从非结构化状态的数据转换为结构化数据；例如，将非结构化的、形如“汪某某的电子邮件地址是aaa@bbb.com”的、以自然语言形式存在的一句话，转换为“汪某某->电子邮件->aaa@bbb.com”这类的结构化数据，具体转换的方式本领域技术人员可以参考相关技术，本说明书无需具体限定。

在本说明书中，上述网络数据经过结构化解析后，可以生成树状的结构图，该树状结构图可以指示该网络数据的数据结构，亦可以进一步根据该树状结构图，确定该网络数据所包含的隐私数据在该树状结构图中的存储路径。

请参见图3，图3展示了一种网络数据的数据结构，其结构呈现为树状，其构建过程即为上述结构化解析的过程；在图3的示例中，该树状结构以<alipay>为根节点向下生长，扩展出了<request>和<response>两个节点，而<request>节点又可以延伸得<service>节点和<url>节点；以此类推，即可根据结构化数据本身的内容，生成一棵完整的树。

继续以图3为例，假设<email>节点中存储的邮箱地址aaa@bbb.com即为需要识别的隐私数据，那么该数据在该树状结构图中的存储路径即为alipay->response->user->email。

如前所述，将网络数据归入某个数据子集的过程，可以由聚类算法自动完成。在示出的一种实施方式中，上述网络数据集所包括的网络数据，包含多种类型的隐私数据；其中，不同类型的隐私数据在对应的网络数据的树状结构图中对应不同的存储路径，不同的存储路径即可作为聚类属性，对该网络数据集中的网络数据进行聚类；聚类得到由若干网络数据构成的多个类簇，基于所得到的多个类簇，即可创建对应的数据子集，如此，即可以得到对应于所包含的隐私数据的不同数据类型的若干数据子集。

请参见图4，图4展示了根据网络数据所包含的隐私数据对应的存储路径，对网络数据进行聚类的过程。图4左侧为聚类前的状态，包含不同隐私数据存储路径的网络数据混杂在一起；经过聚类后即可转化为图4右侧的状态，包含着“A类路径”的网络数据和包含着“B类路径”的网络数据即可完成各自类别内的聚合。

可以理解的是，上述用于聚类的聚类属性不仅限于隐私数据在对应网络数据的树状结构图中的存储路径，还可以包括其他有助于聚合相似网络数据、剔除低相关的网络数据的聚类属性。

在示出的一种实施方式中，上述用于聚类的聚类属性还可以包括网络数据包含的API接口和/或网络数据包含的请求域名。使用此类网络参数进行聚类，有助于剔除个别虽然包括对应的隐私数据，但实际内容组成与其他类簇中的网络数据差距较大的网络数据。

在本说明书中，可以根据网络数据包含的隐私数据，在对应网络数据的树状结构图中的存储路径，来确定该隐私数据在该存储路径中的上下文字段；

例如，在图3所示的例子中，假设<email>为隐私数据，则根据其存储路径alipay->response->user->email即可获取其上下文字段<alipay>、<response>以及<user>，还可以获取该存储路径中与之同级的上下文字段<cert_no>和<city>。利用该方法确定上下文字段，可以将实际存储位置间隔较远、但逻辑上联系紧密的上下文字段快速提取出来(例如<alipay>与<email>的关系)，以便接下来对这部分逻辑上联系紧密的字段进行处理。

在本说明书中，可以提取上述上下文字段的字段取值对应的语义信息，以作为样本特征构建训练样本。具体使用何种方法提取语义信息，本领域技术人员可以参考相关技术，本申请无需具体限定。

在示出的一种实施方式中，可以提取上述上下文字段的字段取值中的关键字，也可以以提取上述上下文字段的字段取值中的关键字对应的关键词向量，又或者两者兼具。

在本说明书中，用于构建训练样本的样本特征还可以包括其他不会导致隐私泄露的特征，也可以利用结构化解析后所得到的网络数据包含的隐私数据的数据类型对应的存储路径，加速特征的提取速度。

在示出的一种实施方式中，用于构建所述训练样本的样本特征还可以包括：各数据子集中的网络数据包含的隐私数据内容的统计特征；为了提取该隐私数据内容的统计特征，可以根据前述流程获得的隐私数据的数据类型对应的存储路径，以快速定位、读取隐私数据；具体而言，可以指定各个数据子集为该统计的范围，提取到隐私数据后对其内容进行统计，即可得到各数据子集中的网络数据包含的隐私数据内容的统计特征。

可以理解的是，统计的项目可以因隐私数据内容本身的特性而定。例如，针对于金额统计类的隐私数据，统计其平均数和标准差能够较好地反映该统计范围内其数值分布特性；针对于次数统计类的隐私数据，统计其众数和中位数能够较好地反映该统计范围内次数的分布规律。

在示出的一种实施方式中，上述统计特征可以包括各数据子集中的网络数据包含的隐私数据的取值的下列特征中的任意一种或多种的组合：

平均数、中位数、众数、极差、标准差。

在示出的一种实施方式中，用于构建所述训练样本的样本特征还可以包括：各数据子集中的网络数据包含的隐私数据内容的正则特征；为了提取该隐私数据内容的正则特征，可以根据前述流程获得的隐私数据的数据类型对应的存储路径，以快速定位、读取隐私数据；具体而言，可以在每个数据子集的范围内，提取到隐私数据后将其与对应于所述隐私数据的数据类型的正则表达式进行配匹配，根据匹配的结果，即可得到各数据子集中的网络数据包含的隐私数据内容的正则特征；

例如，对于不同的数据子集，将其包括的网络数据中的隐私数据分别与对应于“身份证号”隐私数据类型的正则表达式进行匹配，该数据子集中匹配成功的总次数，即可作为该数据子集中的网络数据包含的隐私数据内容的、针对于“身份证号”的正则特征。

最后，在本说明书中，基于前述过程构建的训练样本，可以训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

上述内容即为本申请针对所述包含隐私数据的网络数据的处理方法的全部实施例；本说明书的实施例还提供了一种网络数据包含的隐私数据的识别方法，请参见图5，图5是该方法的一流程示意图，该方法包括以下步骤：

S501，对待识别的网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据包含隐私数据；

S502，确定所述网络数据集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定所述网络数据集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

S503，提取所述上下文字段的字段取值对应的语义信息；

S504，将提取出的所述语义信息作为样本特征构建预测样本，并将所述预测样本输入至用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型进行计算，并根据所述机器学习模型输出的计算结果，确定所述网络数据集中的网络数据包含的隐私数据的类型。

在本说明书中，待识别的网络数据集中的网络数据可以是是xml、json、html等结构化的数据，也可以是用户评论、邮件正文等各类非结构化的数据，本说明书对此无需进行限定。

在示出的一种实施方式中，上述网络数据即为包含隐私数据的非结构化数据。将其转为结构化数据的方式可参考前述实施例，此处不作赘述。

在本说明书中，对待识别的网络数据集中的网络数据进行结构化解析，并生成指示所述网络数据的数据结构的树状结构图的具体实现方式，与针对用于训练的网络数据集的处理方式相同，请参见以上实施例，此处不再赘述。

在本说明书中，对于待识别网络数据集中的隐私数据，特指仍需进一步识别、验证的隐私数据，此处的含义与前述模型训练阶段的隐私数据定义不完全相同。

仍以前述图3示例中的alipay->response->user->email这一存储路径为例，若在待识别的网络数据集中的网络数据中发现了此结构，并不能直接确定该结构对应的数据为email类型的隐私数据，而是作为数据类型无法确定的隐私数据进行后续的识别步骤。

在本说明书中，可以确定该待识别网络数据集中的网络数据包含的隐私数据，在该网络数据的树状结构图中的存储路径，并进一步确定该网络数据集中的网络数据包含的隐私数据在该存储路径中的上下文字段；在待识别网络数据集中确定所包含的网络数据中的隐私数据的上下文字段的过程，可以参考前述模型训练阶段的实施例，本处不作赘述。

在本说明书中，可以提取前述上下文字段的字段取值对应的语义信息。具体而言，在示出的一种实施方式中，可以提取前述上下文字段的字段取值中的关键词，也可以提取前述上下文字段的字段取值中的关键词对应的关键词向量，又或者两者皆可提取。

在本说明书中，构建预测样本的方式，可以是以提取出的语义信息作为样本特征，也可以在语义信息基础上引入其他特征作为样本特征，具体由用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型，在训练阶段所输入的样本特征决定；例如，训练阶段机器学习模型接受的是语义信息和统计信息相结合的样本特征，则在应用阶段也应以同样方式提取语义信息和统计信息相结合的样本特征。

在示出的一种实施方式中，用于构建所述预测样本的样本特征还可以包括：待识别的网络数据集中的网络数据包含的隐私数据内容的统计特征。获取该统计特征的方法可以参见前述训练阶段的实施例，本处不再赘述。

在示出的一种实施方式中，上述统计特征可以包括待识别网络数据集中的网络数据包含的隐私数据的取值的下列特征中的任意一种或多种的组合：

平均数、中位数、众数、极差、标准差。

在示出的一种实施方式中，用于构建所述预测样本的样本特征还可以包括：待识别的网络数据集中的网络数据包含的隐私数据内容的正则特征。获取该正则特征的方法可以参见前述训练阶段的实施例，本处不再赘述。

在本说明书中，构建完成预测样本后，可以将预测样本输入至用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型进行计算，该机器学习模型可以是经由前述实施例训练得来的，最终可以根据机器学习模型输出的计算结果，确定所述网络数据集中的网络数据包含的隐私数据的类型。

上述内容即为本说明书所公开的全部方法实施例。本说明书的实施例还提供了一种包含隐私数据的网络数据的处理装置，请参见图6，图6为该装置的一结构示意图，该装置包括：

结构化解析模块601，用于对网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据包含隐私数据；所述网络数据集包括多个数据子集；各数据子集中的网络数据包含的隐私数据的数据类型不同；

上下文字段确定模块602，用于确定各数据子集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定各数据子集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

语义信息提取模块603，用于提取所述上下文字段的字段取值对应的语义信息；

识别模型训练模块604，用于将提取出的所述语义信息作为样本特征构建训练样本，并基于所述训练样本训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

在本说明书中，上述网络数据可以是是xml、json、html等结构化的数据，也可以是用户评论、邮件正文等各类非结构化的数据，本说明书对此无需进行限定。

在示出的一种实施方式中，上述网络数据即为包含隐私数据的非结构化数据。本装置如何将其转为结构化数据可参考前述实施例，此处不作赘述。

在本说明书中，上述用于训练的、被结构化解析的网络数据组成一个网络数据集，在该网络数据集中，又可以根据网络数据所包含的隐私数据的数据类型，定义若干数据子集；上述将网络数据归入某个新定义的数据子集的过程，既可以如上述例子，根据已标注的、对应于网络数据中包含的隐私数据的数据类型的标签进行人工分类，也可以由聚类算法自动完成，本说明书对此不进行具体限定。

在示出的一种实施方式中，该网络数据集中的网络数据包含多种类型的隐私数据；其中，不同类型的隐私数据在该网络数据的树状结构图中对应不同的存储路径；

对应地，该装置还包括数据子集构建模块，用于基于预设的聚类属性对该网络数据集中的网络数据进行聚类，得到由若干网络数据构成的多个类簇；其中，该预设的聚类属性包括，该网络数据集中的网络数据包含的隐私数据，在该网络数据的树状结构图中的存储路径；

该数据子集构建模块还用于，基于构成各类簇的网络数据，分别创建对应的数据子集，得到该多个数据子集。

在示出的一种实施方式中，上述用于聚类的聚类属性还可以包括网络数据包含的API接口和/或网络数据包含的请求域名。

在本说明书中，上下文字段确定模块602确定隐私数据的在对应存储路径上的上下文字段后，语义信息提取模块603可以提取上述上下文字段的字段取值对应的语义信息，以作为样本特征供识别模型训练模块604构建训练样本。

在本说明书中，用于构建训练样本的样本特征还可以包括其他不会导致隐私泄露的特征。

在示出的一种实施方式中，用于构建所述训练样本的样本特征还可以包括：各数据子集中的网络数据包含的隐私数据内容的统计特征；所述装置还包括统计特征获取模块，用于根据各数据子集中的网络数据包含的隐私数据的数据类型对应的存储路径，从所述网络数据中提取隐私数据；还用于对提取到的隐私数据的内容进行统计，得到各数据子集中的网络数据包含的隐私数据内容的统计特征。

平均数、中位数、众数、极差、标准差。

在示出的一种实施方式中，用于构建所述训练样本的样本特征还可以包括：各数据子集中的网络数据包含的隐私数据内容的正则特征；所述装置还包括正则特征获取模块，用于根据各数据子集中的网络数据包含的隐私数据的数据类型对应的存储路径，从所述网络数据中提取隐私数据；还用于将对应于所述隐私数据的数据类型的正则表达式与所提取的隐私数据进行配匹配；

还用于根据所述匹配的结果，获得各数据子集中的网络数据包含的隐私数据内容的正则特征。

最后，在本说明书中，识别模型训练模块604完成构建训练样本后，可以基于此来训练用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型。

本说明书还提供一种网络数据包含的隐私数据的识别装置，请参见图7，图7是该装置的一结构示意图，该装置包括：

结构化解析模块701，用于对待识别的网络数据集中的网络数据进行结构化解析，生成指示所述网络数据的数据结构的树状结构图；其中，所述网络数据包含隐私数据；

上下文字段确定模块702，用于确定所述网络数据集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径，并确定所述网络数据集中的网络数据包含的隐私数据在所述存储路径中的上下文字段；

语义信息提取模块703，用于提取所述上下文字段的字段取值对应的语义信息；

识别模型调用模块704，用于将提取出的所述语义信息作为样本特征构建预测样本，并将所述预测样本输入至用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型进行计算，并根据所述机器学习模型输出的计算结果，确定所述网络数据集中的网络数据包含的隐私数据的类型。

在示出的一种实施方式中，上述网络数据即为包含隐私数据的非结构化数据。本装置将其转为结构化数据的方式可参考前述实施例，此处不作赘述。

在本说明书中，结构化解析模块701的具体实现方式，与针对用于训练的网络数据集的前述装置中的结构化解析模块601相同，请参见以上实施例，此处不再赘述。

仍以前述图3示例中的alipay->response->user->email这一存储路径为例，虽然在待识别的网络数据集中的网络数据中发现了此结构，但并不能直接确定该结构对应的数据为email类型的隐私数据，而应作为数据类型无法确定的隐私数据，可以由该识别装置的后续模块进行处理。

在本说明书中，结构化解析模块701可以确定该待识别网络数据集中的网络数据包含的隐私数据，在该网络数据的树状结构图中的存储路径，由上下文字段确定模块702进一步确定该网络数据集中的网络数据包含的隐私数据在该存储路径中的上下文字段；上述模块的具体实现细节，可以参考前述相关实施例，本处不作赘述。

在本说明书中，语义信息提取模块703可以提取前述上下文字段的字段取值对应的语义信息。具体而言，在示出的一种实施方式中，可以提取前述上下文字段的字段取值中的关键词，也可以提取前述上下文字段的字段取值中的关键词对应的关键词向量，又或者两者皆可提取。

在示出的一种实施方式中，用于构建所述预测样本的样本特征还可以包括：待识别的网络数据集中的网络数据包含的隐私数据内容的统计特征。用于获取该统计特征的统计特征获取单元的具体实现可以参见前述相关实施例，本处不再赘述。

平均数、中位数、众数、极差、标准差。

在示出的一种实施方式中，用于构建所述预测样本的样本特征还可以包括：待识别的网络数据集中的网络数据包含的隐私数据内容的正则特征。用于获取该正则特征的正则特征获取模块的具体实现方式可以参见前述相关实施例，本处不再赘述。

在本说明书中，识别模型调用模块704可以在构建完成预测样本后，将预测样本输入至用于识别网络数据集中的网络数据包含的隐私数据的类型的机器学习模型进行计算，该机器学习模型可以是经由前述实施例训练得来的，最终可以根据机器学习模型输出的计算结果，确定所述网络数据集中的网络数据包含的隐私数据的类型。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述的包含隐私数据的网络数据的处理方法。

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现前述的网络数据包含的隐私数据的识别方法。

其中，具体可以是在一台设备中同时实现前述的包含隐私数据的网络数据的处理方法和网络数据包含的隐私数据的识别方法，也可以是在不同设备中分别实现前述的包含隐私数据的网络数据的处理方法和网络数据包含的隐私数据的识别方法。

图8示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的包含隐私数据的网络数据的处理方法。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的网络数据包含的隐私数据的识别方法。

其中，具体可以是在一种计算机可读存储介质中同时存储可以实现前述的包含隐私数据的网络数据的处理方法的计算机程序和网络数据包含的隐私数据的识别方法的计算机程序，也可以是在不同计算机可读存储介质中分别存储可以实现前述的包含隐私数据的网络数据的处理方法的计算机程序和网络数据包含的隐私数据的识别方法的计算机程序。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分所述的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种包含隐私数据的网络数据的处理方法，包括：

提取所述上下文字段的字段取值对应的语义信息；

2.根据权利要求1所述的方法，所述网络数据为包含隐私数据的非结构化数据。

3.根据权利要求1所述的方法，所述网络数据集中的网络数据包含多种类型的隐私数据；其中，不同类型的隐私数据在所述网络数据的树状结构图中对应不同的存储路径；

所述方法还包括：

基于预设的聚类属性对所述网络数据集中的网络数据进行聚类，得到由若干网络数据构成的多个类簇；其中，所述预设的聚类属性包括，所述网络数据集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径；

基于构成各类簇的网络数据，分别创建对应的数据子集，得到所述多个数据子集。

4.根据权利要求3所述的方法，所述预设的聚类属性，还包括以下示出的一个或者多个的组合：

网络数据包含的API接口；

网络数据包含的请求域名。

5.根据权利要求1所述的方法，所述语义信息包括：

从所述上下文字段的字段取值中提取到的关键词；和/或

从所述上下文字段的字段取值中提取到的关键词对应的关键词向量。

6.根据权利要求3所述的方法，用于构建所述训练样本的样本特征还包括：各数据子集中的网络数据包含的隐私数据内容的统计特征；

所述方法还包括：

根据各数据子集中的网络数据包含的隐私数据的数据类型对应的存储路径，从所述网络数据中提取隐私数据；

对提取到的隐私数据的内容进行统计，得到各数据子集中的网络数据包含的隐私数据内容的统计特征。

7.根据权利要求6所述的方法，所述统计特征包括下列特征中至少一者：

各数据子集中的网络数据包含的隐私数据的取值的平均数；

各数据子集中的网络数据包含的隐私数据的取值的中位数；

各数据子集中的网络数据包含的隐私数据的取值的众数；

各数据子集中的网络数据包含的隐私数据的取值的极差；

各数据子集中的网络数据包含的隐私数据的取值的标准差。

8.根据权利要求3所述的方法，用于构建所述训练样本的样本特征还包括：各数据子集中的网络数据包含的隐私数据内容的正则特征；

所述方法还包括：

将对应于所述隐私数据的数据类型的正则表达式与所提取的隐私数据进行配匹配；

根据所述匹配的结果，获得各数据子集中的网络数据包含的隐私数据内容的正则特征。

9.一种网络数据包含的隐私数据的识别方法，包括：

提取所述上下文字段的字段取值对应的语义信息；

10.根据权利要求9所述的方法，所述网络数据为包含隐私数据的非结构化数据。

11.根据权利要求9所述的方法，所述语义信息包括：

从所述上下文字段的字段取值中提取到的关键词；和/或

12.根据权利要求9所述的方法，用于构建所述预测样本的样本特征还包括：各数据子集中的网络数据包含的隐私数据内容的统计特征；

所述方法还包括：

根据待识别的网络数据集中的网络数据包含的隐私数据的数据类型对应的存储路径，从所述网络数据中提取隐私数据；

对提取到的隐私数据的内容进行统计，得到待识别的网络数据集中的网络数据包含的隐私数据内容的统计特征。

13.根据权利要求12所述的方法，所述统计特征包括下列特征中至少一者：

待识别的网络数据集中的网络数据包含的隐私数据的取值的平均数；

待识别的网络数据集中的网络数据包含的隐私数据的取值的中位数；

待识别的网络数据集中的网络数据包含的隐私数据的取值的众数；

待识别的网络数据集中的网络数据包含的隐私数据的取值的极差；

待识别的网络数据集中的网络数据包含的隐私数据的取值的标准差。

14.根据权利要求9所述的方法，用于构建所述预测样本的样本特征还包括：待识别的网络数据集中的网络数据包含的隐私数据内容的正则特征；

所述方法还包括：

根据所述匹配的结果，获得待识别的网络数据集中的网络数据包含的隐私数据内容的正则特征。

15.一种包含隐私数据的网络数据的处理装置，包括：

16.根据权利要求15所述的装置，所述网络数据为包含隐私数据的非结构化数据。

17.根据权利要求15所述的装置，所述网络数据集中的网络数据包含多种类型的隐私数据；其中，不同类型的隐私数据在所述网络数据的树状结构图中对应不同的存储路径；

所述装置还包括：数据子集构建模块，

用于基于预设的聚类属性对所述网络数据集中的网络数据进行聚类，得到由若干网络数据构成的多个类簇；其中，所述预设的聚类属性包括，所述网络数据集中的网络数据包含的隐私数据，在所述网络数据的树状结构图中的存储路径；

还用于，基于构成各类簇的网络数据，分别创建对应的数据子集，得到所述多个数据子集。

18.根据权利要求17所述的装置，所述预设的聚类属性，还包括以下示出的一个或者多个的组合：

网络数据包含的API接口；

网络数据包含的请求域名。

19.根据权利要求15所述的装置，所述语义信息包括：

从所述上下文字段的字段取值中提取到的关键词；和/或

20.根据权利要求17所述的装置，用于构建所述训练样本的样本特征还包括：各数据子集中的网络数据包含的隐私数据内容的统计特征；

所述装置还包括：统计特征获取模块，

用于根据各数据子集中的网络数据包含的隐私数据的数据类型对应的存储路径，从所述网络数据中提取隐私数据；

还用于对提取到的隐私数据的内容进行统计，得到各数据子集中的网络数据包含的隐私数据内容的统计特征。

21.根据权利要求20所述的装置，所述统计特征包括下列特征中至少一者：

各数据子集中的网络数据包含的隐私数据的取值的平均数；

各数据子集中的网络数据包含的隐私数据的取值的中位数；

各数据子集中的网络数据包含的隐私数据的取值的众数；

各数据子集中的网络数据包含的隐私数据的取值的极差；

各数据子集中的网络数据包含的隐私数据的取值的标准差。

22.根据权利要求17所述的装置，用于构建所述训练样本的样本特征还包括：各数据子集中的网络数据包含的隐私数据内容的正则特征；

所述装置还包括：正则特征获取模块，

还用于将对应于所述隐私数据的数据类型的正则表达式与所提取的隐私数据进行配匹配；

23.一种网络数据包含的隐私数据的识别装置，包括：

24.根据权利要求23所述的装置，所述网络数据为包含隐私数据的非结构化数据。

25.根据权利要求23所述的装置，所述语义信息包括：

从所述上下文字段的字段取值中提取到的关键词；和/或

26.根据权利要求23所述的装置，用于构建所述预测样本的样本特征还包括：各数据子集中的网络数据包含的隐私数据内容的统计特征；

所述装置还包括：统计特征获取模块，

用于根据待识别的网络数据集中的网络数据包含的隐私数据的数据类型对应的存储路径，从所述网络数据中提取隐私数据；

还用于对提取到的隐私数据的内容进行统计，得到待识别的网络数据集中的网络数据包含的隐私数据内容的统计特征。

27.根据权利要求26所述的装置，所述统计特征包括下列特征中至少一者：

28.根据权利要求23所述的装置，用于构建所述预测样本的样本特征还包括：待识别的网络数据集中的网络数据包含的隐私数据内容的正则特征；

所述装置还包括：正则特征获取模块，

还用于根据所述匹配的结果，获得待识别的网络数据集中的网络数据包含的隐私数据内容的正则特征。

29.一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现权利要求1～8任一所述的方法。

30.一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行所述程序时实现权利要求9～14任一所述的方法。