CN110929285A

CN110929285A - 一种隐私数据的处理方法及装置

Info

Publication number: CN110929285A
Application number: CN201911260166.6A
Authority: CN
Inventors: 林博
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2020-03-27
Anticipated expiration: 2039-12-10
Also published as: CN110929285B

Abstract

本说明书公开了一种隐私数据的处理方法及装置，所述方法包括：对正则表达式进行价值评估计算，以得到所述正则表达式的价值评分；其中，所述正则表达式用于从隐私数据中提取正则特征；所述正则表达式的价值评分，与所述正则表达式包含的信息量正相关；将所述正则表达式与隐私数据集合中的隐私数据进行匹配，并获取所述正则表达式与所述隐私数据集合中的隐私数据匹配成功的次数；根据所述正则表达式的价值评分和所述匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征；其中，所述正则特征用于训练机器学习模型。应用本方案，可以令构建得到的正则特征能够更好地刻画隐私数据的特性。

Description

一种隐私数据的处理方法及装置

技术领域

本申请涉及人工智能领域，尤其涉及一种隐私数据的处理方法及装置。

背景技术

在人工智能领域，机器学习是从海量的数据中发掘隐含的数据规律的一种常用的技术手段。通过将大量原始数据作为训练样本，来训练机器学习模型，可以高效的发掘出这些数据中隐含的数据规律，并基于发掘出的数据规律，来进行业务运营；例如，可以基于大量的用户交易数据进行机器，来训练风控模型，并利用风控模型来识别用户发起的交易是否具有风险。

而在实际应用中，在用户的隐私数据参与机器学习模型训练的情况下，为了保障用户的隐私安全，这些隐私数据中所包含的数据特征，通常并不能直接作为训练特征，输入至机器学习模型进行训练。

发明内容

有鉴于此，本申请公开了一种隐私数据的处理方法及装置。

根据本申请实施例的第一方面，公开了一种隐私数据的处理方法，包括：

对正则表达式进行价值评估计算，以得到所述正则表达式的价值评分；其中，所述正则表达式用于从隐私数据中提取正则特征；所述正则表达式的价值评分，与所述正则表达式包含的信息量正相关；

将所述正则表达式与隐私数据集合中的隐私数据进行匹配，并获取所述正则表达式与所述隐私数据集合中的隐私数据匹配成功的次数；

根据所述正则表达式的价值评分和所述匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征；其中，所述正则特征用于训练机器学习模型。

根据本申请实施例的第二方面，公开了一种隐私数据的处理装置，包括：

价值评分获取模块，对正则表达式进行价值评估计算，以得到所述正则表达式的价值评分；其中，所述正则表达式用于从隐私数据中提取正则特征；所述正则表达式的价值评分，与所述正则表达式包含的信息量正相关；

匹配结果获取模块，用于将所述正则表达式与隐私数据集合中的隐私数据进行匹配，并获取所述正则表达式与所述隐私数据集合中的隐私数据匹配成功的次数；

正则特征构建模块，用于根据所述正则表达式的价值评分和所述匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征；其中，所述正则特征用于训练机器学习模型。

以上技术方案中，在基于正则表达式对隐私数据进行数据处理，从隐私数据中提取正则特征时，由于将正则表达式包含的信息量也作为参考因素之一，将与正则表达式包含的信息量正相关的价值评分，也作为计算参数，来计算与隐私数据集合中的隐私数据对应的正则特征，使得从隐私数据中提取出的正则特征能够更好地刻画隐私数据的特性。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书文本一同用于解释原理。

图1是本说明书示出的一种隐私数据的处理的情景示例图；

图2是本说明书示出的一种隐私数据的处理方法的流程示意图；

图3是本说明书示出的一种信息量的计算方法的示例图；

图4是本说明书示出的一种匹配能力评分的计算方法的示例图；

图5是本说明书示出的一种正则特征与正则表达式类的对应关系示例图；

图6是本说明书示出的一种正则表达式的拆分示例图；

图7是本说明书示出的一种正则特征值与正则表达式的对应关系示例图；

图8是本说明书示出的一种隐私数据的处理装置的结构示例图；

图9是本说明书示出的一种用于隐私数据的处理的电子设备的结构示例图。

具体实施方式

为了使本技术领域的人员更好地理解本说明书一个或多个实施例中的技术方案，下面将结合本说明书一个或多个实施例中的附图，对本说明书一个或多个实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是一部分实施例，而不是全部的实施例。基于本说明书一个或多个实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的系统和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在用户的隐私数据参与机器学习模型训练时，如果直接将这些隐私数据中所包含的数据特征作为样本特征，输入至机器学习模型中进行训练，就可能造成用户的隐私泄露的问题；

例如，以基于用户的历史交易订单数据，来训练用于识别用户的交易风险的风控模型(分类模型)为例，参与模型训练的用户的历史交易订单数据，通常是一些由若干字段构成的结构化数据，而如果将用户的历史交易订单数据中的这些结构化字段中携带的信息(比如历史交易订单数据中的交易金额、用户地址信息等等信息)直接作为训练特征参与模型训练，势必会导致用户的隐私泄露。

在实际应用中，虽然用户的隐私数据中直接携带的结构化字段中携带的信息，无法直接作为训练特征参与训练，但用户的隐私数据通常是由若干字符组成的字符串，而构成不同的隐私数据的字符串的字符组合规律，通常也会存在一定的差异；因此，构成隐私数据的字符串所反映出的字符组合规律，实际上可以作为训练特征来参与模型训练。

请参见图1，图1是本说明书示出的一种隐私数据的处理的情景示例图。

在相关技术中，通常可以利用正则表达式，对隐私数据进行数据处理，通过将正则表达式与这些隐私数据进行匹配，从中提取这些隐私数据所包含的正则特征，然后再将提取出的正则特征作为训练特征，输入至机器学习模型进行训练，来避免用户的隐私泄露。

其中，上述正则表达式，是用于从隐私数据中提取正则特征的一种工具。在实际应用中，可以基于构成隐私数据的字符串的字符组合规律，来编辑正则表达式；

例如，以训练有监督的分类模型为例，可以准备若干被标记了分类标签的隐私数据，而技术人员可以按照构成这些携带分类标签的隐私数据的字符串，实际所表现出的字符组合规律，来编辑正则表达式。

相应的，上述正则特征，具体可以包括，从正则表达式与隐私数据的匹配结果中采集到的，能够表现组成隐私数据的字符串之间的字符组合规律的特征值；

例如，在一种实施方式中，可以将正则表达式与隐私数据成功匹配的次数，作为正则特征来参与模型训练。隐私数据与正则表达式匹配成功的次数越多，说明该隐私数据与该正则表达式的契合度越高；也即，该隐私数据属于该正则表达式所对应的类别的概率也越高。

然而，在实际应用中，由于用于从隐私数据中提取正则特征的正则表达式通常可以包括多种，而正则表达式与隐私数据匹配成功次数，与该隐私数据属于该正则表达式所对应的类别的概率之间的关系，对于不同正则表达式而言存在差异。如果依照上述方法，根据多种正则表达式与隐私数据成功匹配的次数直接构建正则特征，该正则特征对于模型的输出结果的贡献度就会变得不确定，进而导致机器学习的效果变差。

以上述模型为有监督的分类模型为例，当隐私数据与多种正则表达式匹配成功的次数较相近时，实际上并不意味着该隐私数据属于该多种正则表达式分别所代表的分类类别的概率也会相当；而输入模型的正则特征对上述情况无法进行区分，这就会造成训练出的分类模型，无法对该隐私数据进行正确分类的问题；

例如，对于以下两个正则表达式，E1234与[A-Z][0-9][0-9][0-9][0-9]，前者对应A类别，后者对应B类别，假使某隐私数据的字符串与正则表达式E1234匹配成功98次，而与正则表达式[A-Z][0-9][0-9][0-9][0-9]匹配成功100次，由于正则表达式[A-Z][0-9][0-9][0-9][0-9]所表达的字符组合规律要比正则表达式E1234宽松很多，导致正则表达式[A-Z][0-9][0-9][0-9][0-9]匹配成功一次所带来的信息量，要远小于正则表达式E1234匹配成功一次所带来的信息量，所以，即使上述字段与B类别对应的正则表达式匹配成功次数略大，实际上，上述字段属于A类别的概率反而会更高。

基于此，本说明书提出一种，参考正则表达式所包含的信息量，对正则表达式进行价值评估，并根据价值评估得到的价值评分和正则表达式与隐私数据匹配成功的次数，来计算与隐私数据集合中的隐私数据对应的正则特征的隐私数据处理技术方案。

在实现时，可以对正则表达式进行价值评估计算，得到所述正则表达式的价值评分；其中，该价值评分与正则表达式包含的信息量正相关；

在为隐私数据构建与正则表达式对应的正则特征时，可以获取正则表达式与隐私数据匹配成功的次数，再根据正则表达式的价值评分和与隐私数据匹配成功的次数，来共同构建正则表达式对应的正则特征。

信息论指出，信息是用来消除随机不确定性的东西，信息量越大，对于不确定性的消除也就越强。在上述隐私数据的处理过程中，正则表达式包含的信息量越大，“与隐私数据匹配成功”这一事件所消除的不确定性就越多，即，该正则表达式对应的匹配结果，对于确定隐私数据所属的分类作出的贡献就越大。

在以上技术方案中，在基于正则表达式对隐私数据进行数据处理，从隐私数据中提取正则特征时，由于将正则表达式包含的信息量也作为参考因素之一，将与正则表达式包含的信息量正相关的价值评分，也作为计算参数，来计算与隐私数据集合中的隐私数据对应的正则特征，使得从隐私数据中提取出的正则特征能够更好地刻画隐私数据的特性；

进一步地，在将计算出该正则特征作为样本特征参与机器学习训练时，可以提升训练出的机器学习模型的训练效果。

例如，对于上述分别对应A、B类别的两个正则表达式E1234与[A-Z][0-9][0-9][0-9][0-9]而言，对两者分别进行价值评估，由于正则表达式E1234包含的信息量更多，因此得到的价值评分也更高；正则表达式[A-Z][0-9][0-9][0-9][0-9]包含的信息量更少，因而得到的价值评分也更低；在构建正则特征时，将匹配成功次数与价值评分结合，获得的正则特征受价值评分更高的正则表达式E1234的影响更大，因此能够更好地刻画隐私数据的特性，进而使得机器学习模型具有更好的训练效果。

下面通过具体实施例并结合具体的应用场景对本申请进行描述。

请参考图2，图2是本说明书示出的一种隐私数据的处理方法的流程示意图，所述方法执行以下步骤：

S201，对正则表达式进行价值评估计算，以得到所述正则表达式的价值评分；其中，所述正则表达式用于从隐私数据中提取正则特征；所述正则表达式的价值评分，与所述正则表达式包含的信息量正相关；

S202，将所述正则表达式与隐私数据集合中的隐私数据进行匹配，并获取所述正则表达式与所述隐私数据集合中的隐私数据匹配成功的次数；

S203，根据所述正则表达式的价值评分和所述匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征；其中，所述正则特征用于训练机器学习模型。

上述机器学习模型，可以包括任意类型的机器学习模型，在本说明书中不进行特别限定；

例如，在实际应用中，上述机器学习模型，具体可以是基于有监督的分类模型(比如，回归模型)；或者，上述机器学习模型，也可以是基于无监督的聚类模型。

在以下实施例中，将以上述机器学习模型为有监督的分类模型为例进行说明。需要强调的是，以上述机器学习模型为有监督的分类模型，仅为示例性的；在实际应用中，上述机器学习模型显然也可以是基于无监督的聚类模型，在本说明书中不再分别进行举例说明。

在本说明书中，仍然可以利用预设的正则表达式与参与模型训练的隐私数据进行匹配，从中提取这些隐私数据所包含的正则特征，然后再将提取出的正则特征作为训练特征，输入至机器学习模型进行训练。

在示出的一种实施方式中，上述预设的正则表达式，可以包括用于从隐私数据中提取正则特征的多类正则表达式；其中，每类正则表达式可以包括至少一个正则表达式；

其中，用于从参与分类模型训练的隐私数据中提取正则特征时所使用的正则表达式，通常与上述分类模型所需要识别的数据分类对应；

在实际应用中，对于与上述分类模型所需要识别的某一数据分类而言，可以获取隶属于该数据分类的隐私数据，然后基于构成该隐私数据的字符串的字符组合规律，来为该数据分类编辑对应的正则表达式。

例如，可以准备若干被标记了分类标签的隐私数据，而技术人员可以按照构成这些携带分类标签的隐私数据的字符串，实际所表现出的字符组合规律，来为该分类标签所指代的数据分类编辑对应的正则表达式。

举例而言，假设上述分类模型用于识别网络数据是否为通话记录；由于作为通话记录的隐私数据通常包括大量的手机号码，那么就可以利用这些手机号码所体现出的字符组合规律，来编辑与通话记录这个数据类别对应的正则表达式；

比如，与通话记录这个类别对应的正则表达式，可以为如下所示：

^1[358]\d{9}$

上述正则表达式中，^和$分别表示字符串的开始和结束；1[358]\d{9}表示的字符串规律是:以1为开头，第二位可以是3、5、8中任一数值，并且紧跟任意9位数字。

在另一个例子中，假设上述分类模型用于识别网络数据是否为邮件往来记录；由于作为邮件往来记录的隐私数据通常包括大量的邮件地址，那么就可以利用这些邮件地址所体现出的字符组合规律，来编辑与邮件往来记录这个数据类别对应的正则表达式；

比如，如果需要识别的分类为邮件往来记录，则与邮件往来记录这个类别对应的正则表达式，可以形如为如下所示：

^\w+@[a-z0-9]+\.[a-z]{2,4}$

上述正则表达式中，^和$分别表示字符串的开始和结束；\w+@[a-z0-9]+\.[a-z]{2,4}表示的字符串规律是:以长度至少为1且包括字母、数字和/或下划线的字符串为开始，中间有@符号，之后为长度至少为1且包括字母、数字的字符串，以及一个句点“.”并以2至4个英文字母为结尾。

其中，上述正则表达式的生成方式在本说明书中不进行特别限定；

例如，在实际应用中，技术人员可以按照构成隐私数据的字符串，实际所表现出的字符组合规律，来手动编辑正则表达式；也可以通过自动化正则算法来自动生成。

以下将结合具体的实施例，对如何参考正则表达式所包含的信息量，对正则表达式进行价值评估，以及如何基于正则表达式与隐私数据匹配成功次数和对正则表达式进行价值评估得到的价值评分，来计算与隐私数据对应的正则特征的具体过程进行详细描述。

在本说明书中，正则表达式的价值评分，可以与该正则表达式包含的信息量呈正相关关系；

其中，正则表达式包含的信息量，通常与正则表达式匹配成功这一事件所发生的概率有关，该概率越小，则匹配成功这一事件所消除的不确定性越大，即正则表达式包含的信息量越大；而匹配成功这一事件发生的概率则取决于该正则表达式所能覆盖的字符组合情况种类，正则表达式所能覆盖的字符组合情况种类越多，匹配成功这一事件发生的概率即越高。

在示出的一种实施方式中，正则表达式通常可以包含若干正则匹配单元；而对于正则表达式而言，其包含的信息量通常取决于各个正则匹配单元实际所包含的匹配字符的个数；因此，可以将上述匹配字符的个数作为计算参数，来计算该正则表达式包含的信息量。

例如，请参见图3，假设正则表达式为^5[0-9][A-Z]$；该正则表达式包含了三个正则匹配单元，分别为5、[0-9]、[A-Z]；三者包含的匹配字符的个数分别为1、10和26，则可以将以上三个数值作为计算参数，计算该正则表达式包含的信息量。

其中，正则表达式中的各个正则匹配单元所包含的匹配字符的个数，通常代表着能够与该正则匹配单元匹配成功的情况的个数；而与该正则表达式匹配成功的概率，理论上应与该正则表达式所包含的各正则匹配单元匹配成功的情况的个数的乘积成反比。

基于此，在示出的一种实施方式中，可以利用如下公式计算所述正则表达式包含的信息量：

其中，I_j表示所述信息量；n表示所述正则表达式所包含的正则匹配单元的个数，m与a₁表示正常数，x_i表示所述正则表达式中第i个正则匹配单元包含的匹配字符的个数。

其中，常数m与a₁的具体取值，在本说明书中不进行特别限定，在实际应用中，本领域技术人员可以基于实际情况进行设置。

在示出的一种实施方式中，由于上述正则表达式包含的信息量已经可以反应正则表达式匹配成功所带来的贡献，因此可以直接使用正则表达式所包含的信息量作为该正则表达式的价值评分。当然，在实际应用中，在使用正则表达式所包含的信息量作为该正则表达式的价值评分时，基于实际的需求，也可以对正则表达式所包含的信息量适当的进行数学变换，然后将数学变换后的信息量，作为正则表达式的价值评分；

例如，在实现时，假设要求价值评分是一个介于0-100之间的数值；而信息量的数值可能并不处于这个数值区间内；因此，在这种情况下，可以对信息量的数值执行一次数学变换，将其映射成一个介于0-100之间的数值。

在本说明书中，虽然上述正则表达式包含的信息量已经可以反应正则表达式匹配成功所带来的贡献，但直接使用正则表达式所包含的信息量作为该正则表达式的价值评分，在某些特定的应用场景下，可能利用该价值评分，并不能真实的反应正则表达式匹配成功所带来的贡献；

例如，假设有一个内容为^00000000000000000000$共连续20个0的正则表达式，由于其整体长度较长，且每一个正则匹配单元所包含的匹配字符数极少(仅有一个“0”)，按前述公式计算，可知其包含的信息量相对较多；如果直接使用正则表达式所包含的信息量作为该正则表达式的价值评分，则该正则表达式的价值评分会相对较高；然而，假设上述正则表达式用于匹配的隐私数据为某公司的流水账单；而在流水账单中，几乎不可能连续出现20个“0”；因此，在这种应用场景下，该正则表达式对于该隐私数据的匹配能力极差，该正则表达式的价值评分，与该正则表达式匹配成功所带来的贡献并不相匹配。

可见，在对正则表达式进行价值评估时，直接使用正则表达式所包含的信息量作为该正则表达式的价值评分，由于并没有参考正则表达式对隐私数据的匹配能力，在一些应用场景下，会存在正则表达式的价值评分，与该正则表达式匹配成功所带来的贡献并不相匹配的问题。

基于此，在对正则表达式进行价值评估时，除了可以参考正则表达式自身包含的信息量以外，还可以参考正则表达式对隐私数据的匹配能力。

其中，正则表达式对于隐私数据的匹配能力，具体也可以利用计算出的匹配能力评分来表示；而正则表达式对于隐私数据的匹配能力的计算方式，在本说明书中不进行特别限定；

例如，在实际应用中，可以利用正则表达式在预设的隐私数据集合中匹配成功的次数作为参数，来计算正则表达式对于隐私数据的匹配能力。当然，也可以存在其它的计算方式，在本说明书中不再进行一一列举。

在示出的一种实施方式中，可以将待评分的正则表达式与隐私数据集合进行匹配，以该正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数为参数，来计算该正则表达式对应于该隐私数据集合的匹配能力评分。

其中，以该正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数为参数，来计算该正则表达式对应于该隐私数据集合的匹配能力评分的计算方式，在本说明书中不进行限定。

请参见图4，在示出的一种实施方式中，可以直接将该正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数的比值，作为该正则表达式对应于该隐私数据集合的匹配能力评分。

例如，在一个例子中，假设隐私数据集合包含6组隐私数据，该正则表达式在该隐私数据集合中，匹配成功的次数为2，按照以上计算方式，可以计算得到该正则表达式的匹配能力评分为1/3。

当然，在实际应用中，除了直接将该正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数的比值，作为该正则表达式对应于该隐私数据集合的匹配能力评分以外，也可以对该比值进行适当的数学变换，来得到该正则表达式的匹配能力评分；

在示出的一种实施方式中，可以将正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数的比值的对数，作为该正则表达式的匹配能力评分。

其中，需要说明的是，出于方便计算的考虑，此处取对数的底数可以选择与上述信息量计算中所取的底数相同。当然，也可以不同，在本说明书中不进行特别限定。

在本说明书中，在参考正则表达式自身包含的信息量，和正则表达式对隐私数据的匹配能力评分，对正则表达式进行价值评估时，具体可以是将正则表达式自身包含的信息量和正则表达式对隐私数据的匹配能力评分作为计算参数，来计算该正则表达式的价值评分。

其中，将正则表达式自身包含的信息量和正则表达式对隐私数据的匹配能力评分作为计算参数，来计算该正则表达式的价值评分的具体计算方式，在本说明书中不进行特别限定；

在示出的一种实施方式中，可以对正则表达式包含的信息量，与该正则表达式对应于所述隐私数据集合的匹配能力评分，进行线性组合计算，来得到该正则表达式的价值评分。

其中，在对正则表达式包含的信息量，与该正则表达式对应于所述隐私数据集合的匹配能力评分，进行线性组合计算时所采用的计算参数，以及具体的线性组合方式，在本说明书中不进行特别限定。

与示出的一种实施方式中，可以通过如下公式计算所述正则表达式的价值评分：

其中，p_j表示所述正则表达式的价值评分，n表示所述正则表达式所包含的正则匹配单元个数，a₁与m为正常数，x_i表示所述正则表达式中第i个正则匹配单元对应的匹配字符的个数A_j表示所述正则表达式的所述匹配能力评分。

在本说明书中，当计算出正则表达式的价值评分后，可以进一步将正述正则表达式与上述隐私数据集合中的隐私数据进行匹配，并获取该正则表达式与该隐私数据集合中的隐私数据匹配成功的次数；然后，可以根据该述正则表达式的价值评分和上述匹配成功的次数，来计算与该隐私数据集合中的隐私数据对应的正则特征。

其中，正则表达式与隐私数据匹配成功次数，具体可以是直接将正则表达式与隐私数据进行匹配，并记录匹配成功的次数得到。

其中，与上述隐私数据集合中的隐私数据对应的正则特征，具体是指利用正则表达式与隐私数据集合中的隐私数据进行匹配，从隐私数据中提取到的正则特征。其中，需要说明的是，上述正则特征具体可以是正则特征值，也可以是由正则特征值组成的特征向量；

例如，在示出的一种实施方式中，与上述隐私数据集合中的隐私数据进行匹配的正则表达式，可以包括多类正则表达式；其中，每一类正则表达式，都可以包括至少一个正则表达式；在这种情况下，与上述隐私数据集合中的隐私数据对应的正则特征，则可以是各类正则表达式对应的正则特征值组成的特征向量。

例如，请参见图5，假设用于与隐私数据匹配的正则表达式包括a、b、c三类；而利用这三类正则表达式从隐私数据中提取到的正则特征分别为a、b、c三个正则特征值，则与该隐私数据对应的正则特征，可以是a、b、c三个正则特征值组成的特征向量。

在本说明书中，与上述隐私数据集合中的隐私数据进行匹配的多类正则表达式中的每一类正则表达式，都可以包含一个或多个正则表达式，共同用于匹配同种类型隐私数据的不同情况；

例如，上述与通话记录这个类别对应的正则表达式，可以是由多个正则表达式构成的一类正则表达式；除了可以包括形如^1[358]\d{9}$的，用于匹配手机号码的正则表达式以外，还可以包括形如0\d{2,3}-\d{7,8}的，用于匹配国内带区号的固定电话号码的正则表达式。

在示出的一种实施方式中，在一些正则表达式中，可能会包含一些与匹配次数相关的限定符；在这种情况下，对于包含限定符的正则表达式，还可以按照限定符，将正则表达式拆分为若干个子正则表达式。

例如，请参见图6，正则表达式^5[0-9]{1,3}$由于包含了{1,3}这一限定符，即可将其拆分为如图所示的三个子正则表达式。可以理解的是，按照限定符拆分后的各个子正则表达式，属于同一类正则表达式。

在本说明书中，与上述隐私数据集合中的隐私数据对应的正则特征，通常与正则表达式与隐私数据集合中的隐私数据匹配成功的次数，和该正则表达式的价值评分正相关；

基于此，在本说明书中，可以利用与正则表达式与隐私数据集合中的隐私数据匹配成功的次数和该正则表达式的价值评分，来计算出与上述隐私数据集合中的隐私数据对应的正则特征，从而为上述隐私数据构建出能够更好地刻画隐私数据的特性的正则特征。

当然，如前所述，当与上述隐私数据集合中的隐私数据进行匹配的正则表达式，包括多类正则表达式；并且，各类正则表达式包括至少一个正则表达式时，则对于每一类正则表达式，可以根据该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数，来计算出与上述隐私数据对应的正则特征。

例如，请参见图7，在示出的一种实施方式中，图7中示出的a类正则表达式从隐私数据中提取出的正则特征，具体可以是将该类正则表达式中的各个正则表达式的价值评分和各个正则表达式的与隐私数据匹配成功的次数作为计算参数，计算出的正则特征，进行求和后得到的正则特征值。

在示出的一种实施方式中，对于任意一类与隐私数据进行匹配的正则表达式而言，可以对该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数进行非线性组合计算，来计算出与隐私数据对应的正则特征。

其中，在对该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数进行非线性组合计算时，所采用的计算参数，以及具体的非线性组合方式，在本说明书中不进行特别限定；

在示出的一种实施方式中，可以根据以下公式，获取任意一类正则表达式从隐私数据中提取到的正则特征的特征值T：

其中，T为特征值，a₂、a₃、a₄均为正常数，n_i表示该类正则表达式中第i个正则表达式与隐私数据匹配成功的次数，p_i表示该类正则表达式中第i个正则表达式的价值评分，s表示该类正则表达式所包含正则表达式的个数。

需要说明的是，a₂、a₃、a₄的取值大小在本说明书中不进行特别限定；例如，在一个例子中，a₂和a₄的取值大小可以为自然常数e，a₃的取值可以为2。采用此种方案，在指数与对数之间进行转换运算时，可以简化运算；而a₃取2则是由于，当匹配概率的分布规律与n_i ²成正比时，在计算匹配分值时，乘以n_i ²可以改善在机器学习阶段聚类过程的效果。

请参见图8，图8是本说明书示出的一种隐私数据的处理装置的结构示例图，其中，所述装置包括：

价值评分获取模块901，对正则表达式进行价值评估计算，以得到所述正则表达式的价值评分；其中，所述正则表达式用于从隐私数据中提取正则特征；所述正则表达式的价值评分，与所述正则表达式包含的信息量正相关；

匹配结果获取模块902，用于将所述正则表达式与隐私数据集合中的隐私数据进行匹配，并获取所述正则表达式与所述隐私数据集合中的隐私数据匹配成功的次数；

正则特征构建模块903，用于根据所述正则表达式的价值评分和所述匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征；其中，所述正则特征用于训练机器学习模型。

在示出的一种实施方式中，该正则表达式包含若干正则匹配单元；价值评分获取模块901还用于：获取该各正则匹配单元包含的匹配字符的个数；将各正则匹配单元包含的匹配字符的个数作为计算参数进行计算，得到该正则表达式包含的信息量。

在示出的一种实施方式中，可以利用如下公式计算该正则表达式包含的信息量：

其中，I_j表示该信息量；n表示该正则表达式所包含的正则匹配单元的个数，m与a₁表示正常数，x_i表示该正则表达式中第i个正则匹配单元包含的匹配字符的个数。

在示出的一种实施方式中，该正则表达式的价值评分为该正则表达式包含的信息量。

在本说明书中，价值评分获取模块901还可以结合其他参数获取价值评分。

在示出的一种实施方式中，价值评分获取模块901，具体用于：

以该正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数为参数，计算该正则表达式对应于该隐私数据集合的匹配能力评分；

以该正则表达式对应于该隐私数据集合的匹配能力评分，和该正则表达式包含的信息量为参数，进一步计算该正则表达式的价值评分。

在示出的一种实施方式中，该匹配能力评分，为该正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数的比值的对数。

在示出的一种实施方式中，价值评分获取模块901，具体用于：对该正则表达式包含的信息量，与该正则表达式对应于该隐私数据集合的匹配能力评分进行线性组合计算，得到该正则表达式的价值评分。

在示出的一种实施方式中，具体可以通过如下公式计算该正则表达式的价值评分：

其中，p_j表示该正则表达式的价值评分，n表示该正则表达式所包含的正则匹配单元个数，a₁与m为正常数，x_i表示该正则表达式中第i个正则匹配单元对应的匹配字符的个数A_j表示该正则表达式的该匹配能力评分。

在本说明书中，所构建的正则特征，与该正则表达式与隐私数据匹配成功的次数；并，与该正则表达式的价值评分正相关。

在本说明书中，该正则表达式可以包括用于从隐私数据中提取正则特征的多类正则表达式；其中，每类正则表达式可以包括至少一个正则表达式；该正则特征为各类正则表达式对应的正则特征值组成的特征向量。

在示出的一种实施方式中，正则特征构建模块903，具体用于：对于每一类正则表达式，根据该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数，构建与该类正则表式对应的正则特征。

在示出的一种实施方式中，上述构建与该类正则表式对应的正则特征的过程，可以通过对该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数进行非线性组合计算完成。

在示出的一种实施方式中，可以根据以下公式，获取正则特征中对应于任意一类正则表达式的特征值T：

本说明书实施例还提供一种计算机设备，其至少包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其中，处理器执行该程序时实现前述的隐私数据的处理方法。

图9示出了本说明书实施例所提供的一种更为具体的计算设备硬件结构示意图，该设备可以包括：处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。

处理器1010可以采用通用的CPU(Central Processing Unit，中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit，ASIC)、或者一个或多个集成电路等方式实现，用于执行相关程序，以实现本说明书实施例所提供的技术方案。

存储器1020可以采用ROM(Read Only Memory，只读存储器)、RAM(Random AccessMemory，随机存取存储器)、静态存储设备，动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序，在通过软件或者固件来实现本说明书实施例所提供的技术方案时，相关的程序代码保存在存储器1020中，并由处理器1010来调用执行。

输入/输出接口1030用于连接输入/输出模块，以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出)，也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等，输出设备可以包括显示器、扬声器、振动器、指示灯等。

通信接口1040用于连接通信模块(图中未示出)，以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信，也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。

总线1050包括一通路，在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。

需要说明的是，尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050，但是在具体实施过程中，该设备还可以包括实现正常运行所必需的其他组件。此外，本领域的技术人员可以理解的是，上述设备中也可以仅包含实现本说明书实施例方案所必需的组件，而不必包含图中所示的全部组件。

本说明书实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现前述的隐私数据的处理方法。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

通过以上的实施方式的描述可知，本领域的技术人员可以清楚地了解到本说明书实施例可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解，本说明书实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本说明书实施例各个实施例或者实施例的某些部分该的方法。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置实施例而言，由于其基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中该作为分离部件说明的模块可以是或者也可以不是物理上分开的，在实施本说明书实施例方案时可以把各模块的功能在同一个或多个软件和/或硬件中实现。也可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上该仅是本说明书实施例的具体实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本说明书实施例原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本说明书实施例的保护范围。

Claims

1.一种隐私数据的处理方法，包括：

2.根据权利要求1所述的方法，所述正则表达式包含若干正则匹配单元；

所述方法还包括：

获取所述各正则匹配单元包含的匹配字符的个数；

将各正则匹配单元包含的匹配字符的个数作为计算参数进行计算，得到所述正则表达式包含的信息量。

3.根据权利要求2所述的方法，利用如下公式计算所述正则表达式包含的信息量：

4.根据权利要求2所述的方法，所述正则表达式的价值评分为所述正则表达式包含的信息量。

5.根据权利要求2所述的方法，对正则表达式进行价值评估计算，包括：

以所述正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数为参数，计算所述正则表达式对应于所述隐私数据集合的匹配能力评分；

以所述正则表达式对应于所述隐私数据集合的匹配能力评分，和所述正则表达式包含的信息量为参数，进一步计算所述正则表达式的价值评分。

6.根据权利要求5所述的方法，所述匹配能力评分，为所述正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数的比值的对数。

7.根据权利要求5所述的方法，对正则表达式进行价值评估计算，包括：

对所述正则表达式包含的信息量，与所述正则表达式对应于所述隐私数据集合的匹配能力评分进行线性组合计算，得到所述正则表达式的价值评分。

8.根据权利要求7所述的方法，通过如下公式计算所述正则表达式的价值评分：

其中，p_j表示所述正则表达式的价值评分，n表示所述正则表达式所包含的正则匹配单元个数，a₁与m为正常数，x_i表示所述正则表达式中第i个正则匹配单元对应的匹配字符的个数；A_j表示所述正则表达式的所述匹配能力评分。

9.根据权利要求1所述的方法，所述正则特征

与所述正则表达式与隐私数据匹配成功的次数正相关；且，

与所述正则表达式的价值评分正相关。

10.据权利要求9所述的方法，

所述正则表达式包括用于从隐私数据中提取正则特征的多类正则表达式；其中，每类正则表达式包括至少一个正则表达式；

所述正则特征为各类正则表达式对应的正则特征值组成的特征向量。

11.根据权利要求10所述的方法，

根据所述正则表达式的价值评分和所述匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征，包括：

对于每一类正则表达式，根据该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征。

12.根据权利要求11所述的方法，

所述根据该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数，计算与所述隐私数据集合中的隐私数据对应的正则特征，包括：

对该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数进行非线性组合计算，获取与所述隐私数据集合中的隐私数据对应的正则特征。

13.根据权利要求12所述的方法，

针对每一类正则表达式，根据以下公式，计算与隐私数据对应的正则特征的特征值T：

14.一种隐私数据的处理装置，包括：

15.根据权利要求14所述的装置，所述正则表达式包含若干正则匹配单元；

所述价值评分获取模块还用于：

获取所述各正则匹配单元包含的匹配字符的个数；

16.根据权利要求15所述的装置，利用如下公式计算所述正则表达式包含的信息量：

17.根据权利要求15所述的装置，所述正则表达式的价值评分为所述正则表达式包含的信息量。

18.根据权利要求15所述的装置，

所述价值评分获取模块，具体用于：

19.根据权利要求18所述的装置，所述匹配能力评分，为所述正则表达式在预设的隐私数据集合中匹配成功的次数，与预设的隐私数据集合包含的样本数的比值的对数。

20.根据权利要求18所述的装置，所述价值评分获取模块，具体用于：

21.根据权利要求20所述的装置，通过如下公式计算所述正则表达式的价值评分：

22.根据权利要求14所述的装置，所述正则特征

与所述正则表达式与隐私数据匹配成功的次数正相关；且，

与所述正则表达式的价值评分正相关。

23.据权利要求22所述的装置，

24.根据权利要求23所述的装置，

所述正则特征构建模块，具体用于：

25.根据权利要求24所述的装置，

所述正则特征构建模块，具体用于：

对于每一类正则表达式，对该类正则表达式包括的各个正则表达式的价值评分和该类正则表达式包括的各个正则表达式的与隐私数据匹配成功的次数进行非线性组合计算，获取与所述隐私数据集合中的隐私数据对应的正则特征。

26.根据权利要求25所述的装置，

27.一种电子设备，包括处理器、存储器和存储于所述存储器并可在所述处理器上运行的计算机程序；其中，所述处理器执行所述计算机程序时实现如权利要求1～13任一所述的方法。