CN110929111B

CN110929111B - 用于匹配私有数据的匹配模式自动生成方法、装置及设备

Info

Publication number: CN110929111B
Application number: CN201911131750.1A
Authority: CN
Inventors: 林博
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: Alipay Hangzhou Information Technology Co Ltd
Priority date: 2019-11-19
Filing date: 2019-11-19
Publication date: 2023-03-31
Anticipated expiration: 2039-11-19
Also published as: CN110929111A

Abstract

本说明书实施例提供一种用于匹配私有数据的匹配模式自动生成方法、装置及设备，在自动生成方法中，确定当前样本分组对应的匹配模式模板。将匹配模式模板中的当前占位符对应的数据位作为当前数据位。基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率，计算当前数据位对应的信息熵。基于信息熵，判断是否需要对当前样本分组进行分裂。若否，则基于多个字符，生成对应于当前数据位的子匹配模式。将当前占位符替换为子匹配模式，得到更新的匹配模式模板。若更新的匹配模式模板不包括占位符，则将其作为第一数据类型对应的最终匹配模式添加到匹配模式列表中。本说明书实施例得到的匹配模式可以用于私有数据的分类模型构建。

Description

用于匹配私有数据的匹配模式自动生成方法、装置及设备

技术领域

本说明书一个或多个实施例涉及计算机技术领域，尤其涉及一种用于匹配私有数据的匹配模式自动生成方法、装置及设备。

背景技术

随着大数据时代的发展，越来越多的个人私有数据需要被识别并保护。传统技术中，通常是通过人工编写规则来识别个人私有数据。然而，通过人工的方式来编写规则时，其成本比较高，且效率比较低。此外，由于个人私有数据通常不具有突出的特点，因此，基于人工的方式编写的规则，对个人私有数据进行识别时，识别准确性较低。

发明内容

本说明书一个或多个实施例描述了一种用于匹配私有数据的匹配模式自动生成方法、装置及设备，可以大大提升匹配模式的生成效率。

第一方面，提供了一种用于匹配私有数据的匹配模式自动生成方法，包括：

确定当前样本分组对应的匹配模式模板；所述当前样本分组包括对应于第一数据类型的至少一个样本数据，各个样本数据具有相同的数据位数；所述匹配模式模板包括至少一个占位符，其中，每个占位符与所述样本数据中的一个数据位相对应；

将所述匹配模式模板中的当前占位符对应的数据位作为当前数据位；基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率，计算当前数据位对应的信息熵；

基于所述信息熵，判断是否需要对当前样本分组进行分裂；

当不需要对当前样本分组进行分裂时，基于所述多个字符，生成对应于当前数据位的子匹配模式；

将所述匹配模式模板中对应于当前数据位的占位符替换为所述子匹配模式，得到更新的匹配模式模板；

若更新的匹配模式模板不包括占位符，则将该更新的匹配模式模板作为所述第一数据类型对应的最终匹配模式；

将所述最终匹配模式添加到所述第一数据类型对应的匹配模式列表中；所述匹配模式列表用于匹配对应于所述第一数据类型的私有数据。

第二方面，提供了一种私有数据的匹配方法，包括：

获取对应于同一未知类型的若干私有数据；

将所述若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与所述各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数；所述各已知类型各自对应的匹配模式列表通过上述第一方面所述的方法获取；

至少基于所述匹配成功次数，从所述各已知类型中确定出所述私有数据的数据类型。

第三方面，提供了一种用于匹配私有数据的匹配模式自动生成装置，包括：

确定单元，用于确定当前样本分组对应的匹配模式模板；所述当前样本分组包括对应于第一数据类型的至少一个样本数据，各个样本数据具有相同的数据位数；所述匹配模式模板包括至少一个占位符，其中，每个占位符与所述样本数据中的一个数据位相对应；

计算单元，用于将所述确定单元确定的所述匹配模式模板中的当前占位符对应的数据位作为当前数据位；基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率，计算当前数据位对应的信息熵；

判断单元，用于基于所述计算单元计算得到的所述信息熵，判断是否需要对当前样本分组进行分裂；

生成单元，用于当所述判断单元判断不需要对当前样本分组进行分裂时，基于所述多个字符，生成对应于当前数据位的子匹配模式；

替换单元，用于将所述确定单元确定的所述匹配模式模板中对应于当前数据位的占位符替换为所述生成单元生成的所述子匹配模式，得到更新的匹配模式模板；

所述确定单元，还用于若更新的匹配模式模板不包括占位符，则将该更新的匹配模式模板作为所述第一数据类型对应的最终匹配模式；

添加单元，用于将所述确定单元确定的所述最终匹配模式添加到所述第一数据类型对应的匹配模式列表中；所述匹配模式列表用于匹配对应于所述第一数据类型的私有数据。

第四方面，提供了一种私有数据的匹配装置，包括：

获取单元，用于获取对应于同一未知类型的若干私有数据；

匹配单元，用于将所述获取单元获取的所述若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与所述各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数；所述各已知类型各自对应的匹配模式列表通过上述第三方面所述的装置获取。

确定单元，用于至少基于所述匹配单元匹配得到的所述匹配成功次数，从所述各已知类型中确定出所述私有数据的数据类型。

第五方面，提供了一种用于匹配私有数据的匹配模式自动生成设备，包括：

存储器；

一个或多个处理器；以及

一个或多个程序，其中所述一个或多个程序存储在所述存储器中，并且被配置成由所述一个或多个处理器执行，所述程序被所述处理器执行时实现以下步骤：

基于所述信息熵，判断是否需要对当前样本分组进行分裂；

第六方面，提供了一种私有数据的匹配设备，包括：

存储器；

一个或多个处理器；以及

获取对应于同一未知类型的若干私有数据；

本说明书一个或多个实施例提供的用于匹配私有数据的匹配模式自动生成方法、装置及设备，可自动化生成用于匹配私有数据的匹配模式，由此可以大大提升匹配模式的生成效率以及准确性，进而可以有效而准确地对个人私有数据进行识别。

附图说明

为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图。

图1为本说明书提供的用于匹配私有数据的匹配模式自动生成方法应用场景示意图；

图2为本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成方法流程图；

图3为本说明书一个实施例提供的私有数据的匹配方法流程图；

图4为本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成装置示意图；

图5为本说明书一个实施例提供的私有数据的匹配装置示意图；

图6为本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成设备示意图。

具体实施方式

下面结合附图，对本说明书提供的方案进行描述。

在描述本说明书提供的方案之前，先对本方案的发明构思作以下说明。

首先，收集对应于某一数据类型的一批样本数据。这里的一批样本数据可以满足上述第一数据类型的数据分布。上述第一数据类型可以为以下任一种：身份证号类型、银行卡号类型、手机号类型、护照号类型、IP地址类型、唯一素材识别码(Unique MaterialIdentifier，UMID)类型、国际移动用户识别码(International Mobile SubscriberIdentity，IMSI)类型、交易流水号类型以及征信报告编号类型。以第一数据类型为身份证号类型为例来说，满足身份证号类型的分布可以是指收集的样本数据既包括中国公民的身份证号，还包括除中国外的其它国家(如，韩国)人民的身份证号。

对于上述一批样本数据，可以执行如下的数据清理操作：去除异常数据以及对中文字符进行统一编码(如，unicode编码)等等。之后，可以基于分隔符和数据位数，对该一批样本数据进行初始分组，得到若干初始样本分组。可以理解的是，划分到同一样本分组的各样本数据具有相同的数据位数。此外，还可以具有相同的分隔符数以及各分隔符的位置也可以相同。

在执行上述的分组之后，就可以基于各个样本分组，生成与第一数据类型对应的多个匹配模式。本说明书所述的匹配模式例如可以为正则表达式等。以某个样本分组为例来说，在基于该样本分组，生成上述匹配模式的过程中，可以先基于该样本分组中的样本数据的数据位数，生成对应的匹配模式模板。可以理解的是，初始时，该匹配模式模板可以包括样本数据的数据位数个占位符。其中，每个占位符与样本数据的一个数据位相对应。之后，对于匹配模式模板中的某个占位符，确定对应的数据位，并基于该样本分组内的各样本数据对应于该数据位的字符出现的概率，计算对应的信息熵。基于对应的信息熵来确定是否需要对当前样本分组进行分裂，如果不需要，可以基于各样本数据对应于该数据位的字符，生成与该数据位对应的子匹配模式。最后，将匹配模式模板中该数据位对应的占位符替换为上述子匹配模式，以实现匹配模式模板的更新。重复执行上述占位符替换为子匹配模式的步骤，直至所有的占位符都替换为子匹配模式，至此就得到了最终的匹配模式。

当然，在上述过程中，可能会存在需要对样本分组进行分裂的情况，若需要对某个样本分数进行分裂，则后续基于分裂后的各个子分组来生成与第一数据类型对应的匹配模式，具体过程后续说明，在此不复赘述。

可以理解的是，基于多个样本分组和/或子分组，最终可以生成对应于第一数据类型的多个匹配模式，该多个匹配模式可以构成匹配模式列表。在得到与多个数据类型(以下称多个已知类型)各自对应的匹配模式列表之后，对于某未知类型，可以获取对应于该未知类型的若干私有数据。将若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数。之后，可以基于该匹配成功次数，从多个已知类型中确定出上述若干私有数据的数据类型。

以上就是本说明书提供的发明构思，基于该发明构思就可以得到本方案，以下对本方案进行详细阐述。

图1为本说明书提供的用于匹配私有数据的匹配模式自动生成方法应用场景示意图。图1中，匹配模式生成系统可以针对多个已知类型(如，IMSI类型以及UMID类型等)分别生成各自对应的匹配模式列表，该匹配模式列表可以包括多个匹配模式(如，reg11等)。之后，可以从数据库的某个数据表中提取对应于某个字段的若干字段值。这里的若干字段值可以理解为是对应于同一未知类型的若干私有数据。最后，通过将若干字段值与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数。至少基于得到的匹配成功次数，可以从多个已知类型中确定出私有数据的数据类型。

图2为本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置，如，可以为图1中的匹配模式生成系统。如图2所示，所述方法具体可以包括：

步骤202，确定当前样本分组对应的匹配模式模板。

这里的当前样本分组可以为初始时划分得到的样本分组，也可以是由样本分组分裂得到的子分组。该当前样本分组中可以包括对应于第一数据类型的至少一个样本数据，各个样本数据具有相同的数据位数。上述第一数据类型可以为以下任一种：身份证号类型、银行卡号类型、手机号类型、护照号类型、IP地址类型、UMID类型、IMSI类型、交易流水号类型以及征信报告编号类型。以第一数据类型为身份证号类型为例来说，当前样本分组内的各个样本数据可以为若干中国公民的18位身份证号。

此外，上述匹配模式模板可以包括至少一个占位符，其中，每个占位符与样本数据中的一个数据位相对应。以上述各个样本数据为若干中国公民的18位身份证号为例来说，在当前样本分组为初始时划分得到的样本分组时，其对应的匹配模式模板可以包括18个占位符。且每个占位符与18位身份证号中的一个数据位相对应。

需要说明的是，本说明书所述的匹配模式的生成过程即为不断将匹配模式模板中的占位符替换为子匹配模式的过程。可以理解的是，由于每个占位符与一个数据位相对应，因此，替换后的每个子匹配模式与一个数据位相对应。具体地，最终生成的匹配模式中的各个子匹配模式用于匹配对应数据位上的字符。还以上述各个样本数据为若干中国公民的18位身份证号为例来说，最终生成的匹配模式可以包括18个子匹配模式。

步骤204，将匹配模式模板中的当前占位符对应的数据位作为当前数据位，基于当前样本分组中的各个样本数据对应于当前数据位的多个字符各自出现的概率，计算当前数据位对应的信息熵。

在一个示例中，当前占位符可以为首个占位符。以匹配模式模板具有5个数据位，且前两个数据位对应的子匹配模式已经确定为例来说，该匹配模式模板可为：4[0-9]{:Pos3:}{:Pos4:}{:Pos5:}，其中，“:PosN:”为占位符。在该例子中，首个占位符与第三个数据位相对应，因此，可以将第三个数据位作为当前数据位。

在一个示例中，当前数据位对应的信息熵可以通过如下公式计算：

其中，H为当前数据位对应的信息熵，n为当前样本分组中样本数据的个数，pi为样本数据i对应于当前数据位的字符出现的概率。这里的字符可以包括但限于数字、小写字母以及大写字母等等。

步骤206，基于信息熵，判断是否需要对当前样本分组进行分裂。

具体地，可以判断信息熵是否为第一数值(如，0)。若是，则不需要对当前样本分组进行分裂。若否，则判断信息熵是否大于预定阈值。若是，则不需要对当前样本分组进行分裂。若否，则需要对当前样本分组进行分裂。

以下对上述判断过程的原理进行说明：如果某个数据位对应的信息熵为0，说明当前样本分组内的各样本数据对应于该数据位的字符相同，则将该数据位的取值固定为该字符即可。因此，不需要对当前样本分组进行分裂。而如果某个数据位对应的信息熵大于预定阈值，说明该当前样本分组内的各样本数据对应于该数据位的字符分布比较随机(即没有固定取值)，则可以将该数据位的取值固定为包含该数据位上所有字符的字符集(如，最小字符集)。因此，不需要对当前样本分组进行分裂。举例来说，假如对应于该数据位的各个字符都是数字，则可以将该数据位固定为[0-9]。而假如对应于该数据位的各个字符除了数字还包括小写字母，则可以将该数据位固定为[0-9a-z]等等。而如果某个数据位对应的信息熵大于0且小于预定阈值，则因为既不能将当前数据位固定为固定取值，也不能将当前数据位确定为没有固定取值，因此，需要对当前样本分组进行分裂。

本说明书中，在生成匹配模式的过程中，如果某数据位对应的信息熵超出预定阈值，则将数据位固定为包含该数据位上所有字符的最小字符集。这样做可以结合人工经验，提升最终生成的匹配模式的区分度。

以下分别对不需要对当前样本分组分裂和需要对当前样本分组分裂分别进行说明。

步骤208，当不需要对当前样本分组进行分裂时，基于多个字符，生成对应于当前数据位的子匹配模式。

根据上文所述，这里可以分两种情况进行说明。具体地，若当前数据位对应的信息熵为第一数值，则确定当前样本分组内的各个样本数据对应于当前数据位的多个字符相同，并将该相同的字符作为当前数据位对应的子匹配模式。而若当前数据位对应的信息熵大于预定阈值，则将包含上述多个字符的字符集作为当前数据位对应的子匹配模式。

步骤210，将匹配模式模板中对应于当前数据位的占位符替换为子匹配模式，得到更新的匹配模式模板。

以匹配模式模板为：4[0-9]{:Pos3:}{:Pos4:}{:Pos5:}，且当前数据位为第三个数据位为例来说，如果是上述第一种情况，且该相同的字符为：8，那么更新的匹配模式模板可以为：4[0-9]8{:Pos4:}{:Pos5:}。而如果是上述第二种情况，且确定的字符集为：[0-9a-z]，那么更新的匹配模式模板可以为：4[0-9][0-9a-z]{:Pos4:}{:Pos5:}。

步骤212，若更新的匹配模式模板不包括占位符，则将该更新的匹配模式模板作为第一数据类型对应的最终匹配模式。

若更新的匹配模式模板不包括占位符，则说明对应于每个数据位对应的子匹配模式均已确定，从而就得到了最终匹配模式。而如果更新的匹配模式模板还包括占位符，则再次执行步骤202-步骤212；直至更新的匹配模式模板不包括占位符。

需要说明的是，当再次执行步骤202-步骤212时，当前样本分组对应的匹配模式模板为更新后的匹配模式模板。此外，由于更新的匹配模式模板中首个占位符被更新为下一个占位符，因此，当前数据位也会被更新，即当前数据位会被更新为下一个数据位。由此可以得到，当某个数据位对应的子匹配模式确定之后，就会依次确定下一个数据位对应的子匹配模式，以此类推，直至各个数据位对应的子匹配模式均被确定。

步骤214，将最终匹配模式添加到第一数据类型对应的匹配模式列表中。

该匹配模式列表用于匹配对应于第一数据类型的私有数据。

可以理解的是，该匹配模式列表中可以包括多个最终匹配模式，其中，每个最终匹配模式可以与一个样本分组(后续说明)相对应。

本方案可以生成对应于数据类型的多个匹配模式，而不仅仅是单一的匹配模式，这可以提升对于弱特征的抽取能力，进而可以提升分类的准确性。

需要说明的是，以上是对不需要对当前样本分组进行分裂时，最终匹配模式的生成过程的说明。以下对需要对当前样本分组进行分裂时，最终匹配模式的生成过程进行描述。首先，当需要对当前样本分组进行分裂时，基于多个字符的分布规律，将当前样本分组分裂为若干子分组。

在实际当中，子分组的个数通常不会超过阈值个数(如，3个)。举例来说，假设有10个字符，且该10个子符分别为：2,2,3,3,3,5,5,5,5,6。那么可以将当前样本分组中对应于字符2的样本数据分裂为一个子分组，将对应于字符3的样本数据分裂为另一个子分组，而将对应于字符5和6的样本数据划分为再一个子分组。

其次，将当前样本分组对应的匹配模式模板作为若干子分组中各个子分组各自对应的匹配模式模板。

以匹配模式模板为：4[0-9]{:Pos3:}{:Pos4:}{:Pos5:}为例来说，假设针对当前样本分组，得到3个子分组。那么该3个子分组各自对应的匹配模式模板也分别为：4[0-9]{:Pos3:}{:Pos4:}{:Pos5:}。

最后，将各个子分组依次作为当前样本分组，基于当前样本分组的匹配模式模板和组内各样本数据，确定第一数据类型对应的最终匹配模式，并将确定的最终匹配模式添加到匹配模式列表中。

这里，在分裂得到当前样本分组对应的各个子分组之后，针对每个子分组可以执行上述步骤202-步骤214。也即在对当前样本分组进行分裂之后，后续可以基于分裂后的各个子分组，确定第一数据类型对应的匹配模式，而可以不用再考虑分裂前的当前样本分组。

需要强调的是，在某个数据位对应的信息熵满足分裂条件(即，信息熵为0或者大于预定阈值)，而对当前样本分组进行分裂时，如果基于分裂后的某个子分组中的样本数据，计算得到的该数据位对应的信息熵仍然满足分裂条件则不再对该子分组进行分裂，而直接将该数据位对应的子匹配模式固定为预定通配符等。而对于除该数据位外的其它数据位，如果基于分裂后的某个子分组中的样本数据，计算得到的该其它数据位对应的信息熵如果满足分裂条件，则可以对该子分组继续进行分裂。也就是说，在本说明书中，某个数据位对应的分组个数不会超过上述阈值个数。由此，可以确保匹配模式的生成效率。

还需要说明的是，由于某数据位对应的信息熵满足分裂条件时，可能会对当前样本分组进行分裂，因此，对应于某个数据位的子匹配模式可以为多个，但不会超过预定个数。此外，本说明书确定的最终匹配模式的个数也可以为多个，其中，每个最终匹配模式可以与一个样本分组相对应。该对应的样本分组可以是指用于确定其中最后一个子匹配模式的样本分组。在一个示例中，可以基于该样本分组内的样本数据的样本数量，确定该最终匹配模式的权重值。

本说明书的方案除了可以生成对应于数据类型的多个匹配模式，还可以确定出对应于各个匹配模式的权重值，由此，可以更好地对私有数据进行匹配。

最后，对于匹配模式列表中的各最终匹配模式，还可以对其进行筛选和合并操作。具体地，如果匹配模式列表中的某个最终匹配模式的权重值小于阈值，则可以删除该最终匹配模式。此外，对于匹配模式列表中的若干匹配模式，若它们之间只有对应于同一数据位的某个子匹配模式不同，则可以针对该若干匹配模式进行合并。如，可以将不同的子匹配模式进行概括表达，之后将若干匹配模式合并为一个匹配模式。

综上，本说明书实施例提供的用于匹配私有数据的匹配模式自动生成方法(以下简称本方案)，通过自动化的方式生成各已知类型对应的匹配模式，可以大大提升匹配模式的生成效率，且还可以节约大量人力。其次，由于本方案是通过自动化的方式来生成匹配模式，从而采样的样本量可以很大，例如100W样本，相比于人工编写规则的方式，可以更全面地覆盖各种数据类型，且生成的匹配模式也可以更丰富。另外，本方案在生成匹配模式的过程中，可以直接提取样本数据的内容特征，从而对于一些自动生成名称类型的私有数据，也可以很好地进行分类。最后，本方案生成的匹配模式还可以与语义特征(字段名称和字段注释)相结合构建分类模型，在基于匹配模式构建分类模型时，可以使得构建的分类模型更准确，进而可以使得私有数据的分类更准确。

以上是对用于匹配私有数据的匹配模式自动生成方法的说明，以下对基于该匹配模式对私有数据的匹配过程进行说明。

图3为本说明书一个实施例提供的私有数据的匹配方法流程图。所述方法的执行主体可以为具有处理能力的设备：服务器或者系统或者装置，如，可以为图1中的匹配模式生成系统等。如图3所示，所述方法具体可以包括：

步骤302，获取对应于同一未知类型的若干私有数据。

这里，对应于同一未知类型的若干私有数据，可以是从数据库的某个数据表中提取的对应于某个字段的若干字段值。

步骤304，将若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数。

步骤306，至少基于匹配成功次数，从各已知类型中确定出私有数据的数据类型。

假设有两种数据类型：IMSI类型和UMID类型，且IMSI类型对应的匹配模式列表中有两个匹配模式：reg11和reg12，UMID类型对应的匹配模式列表中有三个匹配模式：reg21、reg22和reg23。此外，还假设私有数据的个数为10000个，且相应的匹配结果如表1所示。

表1

在上述例子中，可以直接选取匹配成功次数最多的数据类型作为该若干私有数据的数据类型。也即若干私有数据的数据类型为IMSI类型。因为3000+5000>300+200+600。

当然，也可以基于权重值以及匹配成功次数，共同确定私有数据的数据类型。具体地，可以基于与每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数，确定与每种数据类型对应的匹配比例。之后，对于任意的第一数据类型，若对应的第一比例接近于第一数据类型对应的匹配模式列表中的各匹配模式之间的权重值比例，则将私有数据的数据类型确定为该第一数据类型。

如，在上述例子中，与IMSI类型对应的匹配比例为：3000:5000＝3:5；而与UMID类型对应的匹配比例为：300：200：600＝3:2:6，那么，在reg11和reg12各自的权重值分别为：5和3，而reg21、reg22和reg23各自的权重值分别为：3、2和6时，由于与UMID类型对应的匹配比例(3:2:6)接近于相应的权重值比例(3:2:6)，因此，可以将UMID类型确定为私有数据的数据类型。

此外，也可以预先训练分类模型。之后，通过将上述匹配成功次数、字段名称以及字段注释输入到预先训练的分类模型，来得到私有数据的数据类型。

综上，本说明书实施例提供的私有数据的匹配方法，可以准确而有效地对未知类型的私有数据进行分类。

与上述用于匹配私有数据的匹配模式自动生成方法对应地，本说明书一个实施例还提供的一种用于匹配私有数据的匹配模式自动生成装置，如图4所示，该装置可以包括：

确定单元402，用于确定当前样本分组对应的匹配模式模板。该当前样本分组包括对应于第一数据类型的至少一个样本数据，各个样本数据具有相同的数据位数。该匹配模式模板包括至少一个占位符，其中，每个占位符与样本数据中的一个数据位相对应。

这里的第一数据类型可以包括以下任一种：身份证号类型、银行卡号类型、手机号类型、护照号类型、IP地址类型、唯一素材识别码UMID类型、国际移动用户识别码IMSI类型、交易流水号类型以及征信报告编号类型。

计算单元404，用于将确定单元402确定的匹配模式模板中的当前占位符对应的数据位作为当前数据位。基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率，计算当前数据位对应的信息熵。

判断单元406，用于基于计算单元404计算得到的信息熵，判断是否需要对当前样本分组进行分裂。

判断单元406具体可以用于：

判断信息熵是否为第一数值。

若是，则不需要对当前样本分组进行分裂。

若否，则判断信息熵是否大于预定阈值。若是，则不需要对当前样本分组进行分裂。若否，则需要对当前样本分组进行分裂。

生成单元408，用于当判断单元406判断不需要对当前样本分组进行分裂时，基于多个字符，生成对应于当前数据位的子匹配模式。

生成单元408具体可以用于：

若信息熵为第一数值，则确定多个字符相同，并将该相同的字符作为当前数据位对应的子匹配模式。

若信息熵大于预定阈值，则将包含多个字符的字符集作为当前数据位对应的子匹配模式。

替换单元410，用于将确定单元402确定的匹配模式模板中对应于当前数据位的占位符替换为生成单元408生成的子匹配模式，得到更新的匹配模式模板。

确定单元402，还用于若更新的匹配模式模板不包括占位符，则将该更新的匹配模式模板作为第一数据类型对应的最终匹配模式。

添加单元412，用于将确定单元402确定的最终匹配模式添加到第一数据类型对应的匹配模式列表中。该匹配模式列表用于匹配对应于第一数据类型的私有数据。

可选地，该装置还可以包括：

分裂单元(图中未示出)，用于当判断单元406判断需要对当前样本分组进行分裂时，基于多个字符的分布规律，将当前样本分组分裂为若干子分组。

确定单元402，用于将当前样本分组对应的匹配模式模板作为分裂单元分裂得到的若干子分组中各个子分组各自对应的匹配模式模板。

确定单元402，还用于将分裂单元分裂得到的各个子分组依次作为当前样本分组，基于当前样本分组的匹配模式模板和组内各样本数据，确定第一数据类型对应的最终匹配模式，并将确定的最终匹配模式添加到匹配模式列表中。

可选地，确定单元402，还用于确定对应于最终匹配模式中的最后一个子匹配模式的样本数量。以及基于样本数量，确定最终匹配模式的权重值。

本说明书上述实施例装置的各功能模块的功能，可以通过上述方法实施例的各步骤来实现，因此，本说明书一个实施例提供的装置的具体工作过程，在此不复赘述。

本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成装置，可以大大提升匹配模式的生成效率。

本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成装置可以为图1中匹配模式生成系统的一个模块或者单元。

与上述私有数据的匹配方法对应地，本说明书一个实施例还提供的一种私有数据的匹配装置，如图5所示，该装置可以包括：

获取单元502，用于获取对应于同一未知类型的若干私有数据。

匹配单元504，用于将获取单元502获取的若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数。各已知类型各自对应的匹配模式列表通过图4所示的装置获取。

确定单元506，用于至少基于匹配单元504匹配得到的匹配成功次数，从各已知类型中确定出私有数据的数据类型。

可选地，每种数据类型对应的匹配模式列表中各匹配模式具有对应的权重值。

确定单元506具体可以用于：

基于权重值以及匹配成功次数，确定私有数据的数据类型。

本说明书一个实施例提供的私有数据的匹配装置，可以准确而有效地对未知类型的私有数据进行分类。

本说明书一个实施例提供的私有数据的匹配装置可以为图1中匹配模式生成系统的一个模块或者单元。

与上述用于匹配私有数据的匹配模式自动生成方法对应地，本说明书一个实施例还提供的一种用于匹配私有数据的匹配模式自动生成设备，如图6所示，该设备可以包括：存储器602、一个或多个处理器604以及一个或多个程序。其中，该一个或多个程序存储在存储器602中，并且被配置成由一个或多个处理器604执行，该程序被处理器604执行时实现以下步骤：

确定当前样本分组对应的匹配模式模板。该当前样本分组包括对应于第一数据类型的至少一个样本数据，各个样本数据具有相同的数据位数。匹配模式模板包括至少一个占位符，其中，每个占位符与所述样本数据中的一个数据位相对应。

将匹配模式模板中的当前占位符对应的数据位作为当前数据位。基于当前样本分组内的各个样本数据对应于当前数据位的多个字符各自出现的概率，计算当前数据位对应的信息熵。

基于信息熵，判断是否需要对当前样本分组进行分裂。

当不需要对当前样本分组进行分裂时，基于多个字符，生成对应于当前数据位的子匹配模式。

将匹配模式模板中对应于当前数据位的占位符替换为子匹配模式，得到更新的匹配模式模板。

若更新的匹配模式模板不包括占位符，则将该更新的匹配模式模板作为第一数据类型对应的最终匹配模式。

将最终匹配模式添加到第一数据类型对应的匹配模式列表中，匹配模式列表用于匹配对应于第一数据类型的私有数据。

本说明书一个实施例提供的用于匹配私有数据的匹配模式自动生成设备，可以大大提升匹配模式的生成效率。

需要说明的是，图6示出的用于匹配私有数据的匹配模式自动生成设备同样适用于私有数据的匹配设备，即该私有数据的匹配设备可以包括：存储器602、一个或多个处理器604以及一个或多个程序。其中，该一个或多个程序存储在存储器602中，并且被配置成由一个或多个处理器604执行。所不同的是，上述程序被处理器604执行时实现以下步骤：

获取对应于同一未知类型的若干私有数据。

将若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数。各已知类型各自对应的匹配模式列表通过图2中的各方法步骤获取。

至少基于匹配成功次数，从各已知类型中确定出私有数据的数据类型。

本说明书一个实施例提供的私有数据的匹配设备，可以准确而有效地对未知类型的私有数据进行分类。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现，也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成，软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外，该ASIC可以位于服务器中。当然，处理器和存储介质也可以作为分立组件存在于服务器中。

本领域技术人员应该可以意识到，在上述一个或多个示例中，本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时，可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质，其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述的具体实施方式，对本说明书的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本说明书的具体实施方式而已，并不用于限定本说明书的保护范围，凡在本说明书的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本说明书的保护范围之内。

Claims

1.一种用于匹配私有数据的匹配模式自动生成方法，包括：

基于所述信息熵，判断是否需要对当前样本分组进行分裂；

2.根据权利要求1所述的方法，所述基于所述信息熵，判断是否需要对当前样本分组进行分裂，包括：

判断所述信息熵是否为第一数值；

若是，则不需要对当前样本分组进行分裂；

若否，则判断所述信息熵是否大于预定阈值；若是，则不需要对当前样本分组进行分裂；若否，则需要对当前样本分组进行分裂。

3.根据权利要求1或2所述的方法，还包括：

当需要对当前样本分组进行分裂时，基于所述多个字符的分布规律，将所述当前样本分组分裂为若干子分组；

将所述当前样本分组对应的匹配模式模板作为所述若干子分组中各个子分组各自对应的匹配模式模板；

将所述各个子分组依次作为当前样本分组，基于当前样本分组的匹配模式模板和组内各样本数据，确定所述第一数据类型对应的最终匹配模式，并将确定的最终匹配模式添加到所述匹配模式列表中。

4.根据权利要求1所述的方法，所述基于所述多个字符，生成对应于当前数据位的子匹配模式，包括：

若所述信息熵为第一数值，则确定所述多个字符相同，并将该相同的字符作为当前数据位对应的子匹配模式；

若所述信息熵大于预定阈值，则将包含所述多个字符的字符集作为当前数据位对应的子匹配模式。

5.根据权利要求1所述的方法，还包括：

确定对应于所述最终匹配模式中的最后一个子匹配模式的样本数量；

基于所述样本数量，确定所述最终匹配模式的权重值。

6.根据权利要求1所述的方法，所述第一数据类型包括以下任一种：身份证号类型、银行卡号类型、手机号类型、护照号类型、IP地址类型、唯一素材识别码UMID类型、国际移动用户识别码IMSI类型、交易流水号类型以及征信报告编号类型。

7.一种私有数据的匹配方法，包括：

获取对应于同一未知类型的若干私有数据；

将所述若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与所述各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数；所述各已知类型各自对应的匹配模式列表通过权利要求1-6中任一项所述的方法获取；

至少基于所述匹配成功次数，从所述各已知类型中确定出所述若干私有数据的数据类型。

8.根据权利要求7所述的方法，所述每种数据类型对应的匹配模式列表中各匹配模式具有对应的权重值；

所述至少基于所述匹配成功次数，确定所述私有数据的数据类型，包括：

基于所述权重值以及所述匹配成功次数，确定所述私有数据的数据类型。

9.一种用于匹配私有数据的匹配模式自动生成装置，包括：

10.根据权利要求9所述的装置，所述判断单元具体用于：

判断所述信息熵是否为第一数值；

若是，则不需要对当前样本分组进行分裂；

11.根据权利要求9或10所述的装置，还包括：

分裂单元，用于当所述判断单元判断需要对当前样本分组进行分裂时，基于所述多个字符的分布规律，将所述当前样本分组分裂为若干子分组；

所述确定单元，用于将所述当前样本分组对应的匹配模式模板作为所述分裂单元分裂得到的所述若干子分组中各个子分组各自对应的匹配模式模板；

所述确定单元，还用于将所述分裂单元分裂得到的所述各个子分组依次作为当前样本分组，基于当前样本分组的匹配模式模板和组内各样本数据，确定所述第一数据类型对应的最终匹配模式，并将确定的最终匹配模式添加到所述匹配模式列表中。

12.根据权利要求9所述的装置，所述生成单元具体用于：

13.根据权利要求9所述的装置，

所述确定单元，还用于确定对应于所述最终匹配模式中的最后一个子匹配模式的样本数量；以及基于所述样本数量，确定所述最终匹配模式的权重值。

14.根据权利要求9所述的装置，所述第一数据类型包括以下任一种：身份证号类型、银行卡号类型、手机号类型、护照号类型、IP地址类型、唯一素材识别码UMID类型、国际移动用户识别码IMSI类型、交易流水号类型以及征信报告编号类型。

15.一种私有数据的匹配装置，包括：

获取单元，用于获取对应于同一未知类型的若干私有数据；

匹配单元，用于将所述获取单元获取的所述若干私有数据与各已知类型各自对应的匹配模式列表中的各匹配模式进行匹配，得到与所述各已知类型中的每种数据类型对应的匹配模式列表中的各匹配模式的匹配成功次数；所述各已知类型各自对应的匹配模式列表通过权利要求9-14中任一项所述的装置获取；

确定单元，用于至少基于所述匹配单元匹配得到的所述匹配成功次数，从所述各已知类型中确定出所述若干私有数据的数据类型。

16.根据权利要求15所述的装置，所述每种数据类型对应的匹配模式列表中各匹配模式具有对应的权重值；

所述确定单元具体用于：

17.一种用于匹配私有数据的匹配模式自动生成设备，包括：

存储器；

一个或多个处理器；以及

基于所述信息熵，判断是否需要对当前样本分组进行分裂；

18.一种私有数据的匹配设备，包括：

存储器；

一个或多个处理器；以及

获取对应于同一未知类型的若干私有数据；