CN112968705B

CN112968705B - 一种号码分类方法、装置、电子设备及存储介质

Info

Publication number: CN112968705B
Application number: CN202110152300.1A
Authority: CN
Inventors: 周轶凡; 徐鹏飞
Original assignee: Hangzhou Dt Dream Technology Co Ltd
Current assignee: Hangzhou Dt Dream Technology Co Ltd
Priority date: 2021-02-03
Filing date: 2021-02-03
Publication date: 2022-05-31
Anticipated expiration: 2041-02-03
Also published as: CN112968705A

Abstract

本说明书提供一种号码分类方法、装置、电子设备及存储介质，其中，所述方法用于对号码集中相同长度的多个号码进行分类，包括：根据多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定各个数位中的混合数位；将混合数位组合为混合字段，并根据多个号码在混合字段上的各个取值的出现频率大小，对多个号码进行预分类；按照预分类的结果建立分类模型，根据分类模型对号码集中的号码进行分类预测，并将预测结果用于更新所述分类模型，循环上述模型预测以及模型更新的过程；根据最新分类模型对号码集中的号码进行分类预测，得到最终分类结果。本说明书实现了在生成规则未知的情况下，对具有不同生成规则但长度相同的号码的分类。

Description

一种号码分类方法、装置、电子设备及存储介质

技术领域

本说明书涉及计算机技术领域，尤其涉及一种号码分类方法、装置、电子设备及存储介质。

背景技术

数据分类一般是指通过聚类算法，将数据集中的数据进行分类，使得数据集被分割成不同的类或簇，并且簇内相似度尽可能大，簇间相似度尽可能小，号码分类属于数据分类的一种特例。

相关技术中，在生成规则未知的情况下，目前还没有有效的办法对号码集中不同生成规则的号码进行区分，例如当具有不同生成规则但号码长度相同的证件号码混合在一起时，由于事先并不知晓结构化文本的规则逻辑，同时也缺乏直接区分的明显特征，因此难以将具有不同生成规则的证件号码分别提取出来，从而无法进行后续的规则提取，在实际场景中，通常会将这部分混合的号码直接丢弃。

发明内容

为克服相关技术中存在的问题，本说明书提供了一种号码分类方法、装置、电子设备及存储介质。

根据本说明书实施例的第一方面，提供一种号码分类方法，所述方法用于对号码集中相同长度的多个号码进行分类，不同类别的号码采用的生成规则不同，所述生成规则用于定义相应类别的号码中业务码和顺序码所在的数位；所述方法包括：

根据所述多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位，所述多个号码中部分类别的号码所采用的生成规则将所述混合数位定义为业务码所在的数位、所述多个号码中其他号码所采用的生成规则将所述混合数位定义为顺序码所在的数位；

将所述混合数位组合为混合字段，并根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类；

按照所述预分类的结果建立分类模型，根据所述分类模型对所述号码集中的号码进行分类预测，并将预测结果用于更新所述分类模型，循环上述模型预测以及模型更新的过程，直至最新的预测结果与上一次的预测结果没有差别或达到预设的最大循环次数；

根据最新分类模型对所述号码集中的号码进行分类预测，得到最终分类结果。

可选的，所述根据所述多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位包括：

对于各个数位中任一数位上的所述取值频率分布，若存在全局的不均匀分布，以及局部非零的均匀分布，则确定所述任一数位为混合数位。

可选的，所述将所述混合数位组合为混合字段包括：

若存在相邻的混合数位，则将相邻的混合数位组合得到的组合字段确定为混合字段；

若不存在相邻的混合数位，则将所述混合数位确定为混合字段。

可选的，所述根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类包括：

统计所述多个号码在所述混合字段上的各个取值的出现频率；其中，出现频率大于预设阈值的取值为区别业务码，出现频率不大于所述预设阈值的取值为区别顺序码；

将所述多个号码中所述混合字段包含所述区别业务码的号码确定为第一规则号码，将所述多个号码中所述混合字段包含所述区别顺序码的号码确定为第二规则号码。

可选的，所述按照所述预分类的结果建立分类模型包括：

根据所述多个号码在所述混合字段上的各个取值的出现频率大小，估算所述预分类的结果中错误分类的号码数量；

根据估算的号码数量配置所述分类模型的初始参数。

可选的，所述混合字段的数量为多个；

所述根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类包括：按照预设选取规则从多个所述混合字段中选取一个，并根据所述多个号码在被选取的混合字段上各个取值的出现频率大小，对所述多个号码进行预分类；

所述预设选取规则包括：

若多个所述混合字段中存在长度最长的混合字段，则选取所述长度最长的混合字段，否则从中选取一个预设次序或随机次序的所述混合字段。

可选的，所述混合字段的数量为多个；

所述根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类包括：对于每个所述混合字段，均根据所述多个号码在该混合字段上的各个取值的出现频率大小，对所述多个号码各进行一次预分类；

所述按照所述预分类的结果建立分类模型，包括：针对每次预分类的结果，分别建立相应的分类模型；

所述根据最新分类模型对所述号码集中的号码进行分类预测，得到最终分类结果包括：分别通过每个所述最新分类模型对所述号码集中的号码进行分类预测，并根据得到的多组最终分类结果确定噪声号码，以及丢弃所述噪声号码后确定去噪后的分类结果。

可选的，所述号码集中的多个号码包含N种生成规则；

所述将所述混合数位组合为混合字段包括：将每个所述混合数位均确定为一个混合字段；

所述根据所述多组分类结果，确定噪声号码，丢弃所述噪声号码后确定去噪后的分类结果包括：将所述多组分类结果进行整合以获得多个逻辑类别组，根据所述多个逻辑类别组的各自所占比例确定包含N种类别的分类结果以及噪声号码，丢弃所述噪声号码后确定去噪后的包含N种类别的分类结果，其中N为不小于3的整数。

可选的，所述方法还包括：

根据最终分类结果，创建用于表征所述生成规则的正则表达式。

根据本说明书实施例的第二方面，提供一种号码分类装置，所述装置用于对号码集中相同长度的多个号码进行分类，不同类别的号码采用的生成规则不同，所述生成规则用于定义相应类别的号码中业务码和顺序码所在的数位；所述装置包括：

混合数位确定单元，用于根据所述多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位，所述多个号码中部分类别的号码所采用的生成规则将所述混合数位定义为业务码所在的数位、所述多个号码中其他号码所采用的生成规则将所述混合数位定义为顺序码所在的数位；

预分类单元，用于将所述混合数位组合为混合字段，并根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类；

分类模型训练单元，用于按照所述预分类的结果建立分类模型，根据所述分类模型对所述号码集中的号码进行分类预测，并将预测结果用于更新所述分类模型，循环上述模型预测以及模型更新的过程，直至最新的预测结果与上一次的预测结果没有差别或达到预设的最大循环次数；

分类预测单元，用于根据最新分类模型对所述号码集中的号码进行分类预测，得到最终分类结果。

根据本说明书实施例的第三方面，提供一种电子设备，包括：

处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为实现上述号码分类方法的步骤。

根据本说明书实施例的第四方面，提供一种计算机可读存储介质，其上储存有可执行指令；其中，该指令被处理器执行时，实现上述号码分类方法的步骤。

本说明书的实施例提供的技术方案可以包括以下有益效果：

在本说明书的实施例中，通过号码集中多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定混合数位，进一步确定混合字段，并根据所述多个号码的所述混合字段上各个取值的出现频率大小，对所述多个号码进行预分类，然后按照预分类结果建立分类模型，再通过对分类模型的循环迭代得到最新分类模型，根据最新分类模型完成数据集的分类预测，实现了在生成规则未知的情况下，对具有不同生成规则但长度相同的号码的分类。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本说明书的实施例，并与说明书一起用于解释本说明书的原理。

图1是本说明书根据一示例性实施例示出的一种号码分类方法的流程图。

图2是本说明书实施例中的一混合数位上的字符频数分布图。

图3是本说明书实施例中的一混合字段上的字符组合频数分布图。

图4是本说明书实施例中的一逻辑类别组示意图。

图5是本说明书实施例中的一号码集中的部分证件号码图。

图6是本说明书实施例中的一预分类结果图。

图7是本说明书实施例中的一分类模型的预测分类结果图。

图8是本说明书实施例中的一分类模型的训练过程图。

图9是本说明书实施例中的一最终分类结果图。

图10是本说明书实施例号码分类装置所在计算机设备的一种硬件结构图。

图11是本说明书根据一示例性实施例示出的一种号码分类装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

接下来对本说明书实施例进行详细说明。

如图1所示，图1是本说明书根据一示例性实施例示出的一种号码分类方法的流程图，该方法用于对号码集中相同长度的多个号码进行分类，不同类别的号码采用的生成规则不同，所述生成规则用于定义相应类别的号码中业务码和顺序码所在的数位；该方法包括以下步骤：

S101：根据多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位，所述多个号码中部分类别的号码所采用的生成规则将所述混合数位定义为业务码所在的数位、所述多个号码中其他号码所采用的生成规则将所述混合数位定义为顺序码所在的数位。

本说明书实施例中涉及的号码集，至少包含有两种未知生成规则的号码，且每种生成规则的号码数量足够多，数据质量较高，具有统计学意义，并且不同生成规则的号码之间数量比例没有过于悬殊，号码长度也是一致的，因此无法直接通过号码长度的差异将不同生成规则的号码区分开来。

本说明书实施例中涉及的生成规则，是指号码的构成规则，具体用于定义号码中业务码和顺序码所在的数位，以及业务码的枚举值，生成规则可以用正则表达式来表征，例如^(32|48)(11|22)\d{2}$表示该号码前4位均是业务码，而后两位为顺序码，其中，前两位的业务码字段的枚举值仅包含32与48，中间两位的业务码字段的枚举值仅包含11与22。业务码字段即业务码出现的字段，顺序码字段即顺序码出现的字段，对于一般的生成规则而言，业务码字段与顺序码字段均是绑定的，同一种生成规则的号码，其具有相同的业务码字段和顺序码字段，并且相同业务码字段上的枚举值也是相同的，在本说明书实施例中，号码集中不同类别的号码采用的生成规则不同，具体是指不同类别的号码其业务码字段和顺序码字段的位置不同。

本说明书实施例中涉及业务码是指某一位上可能出现的字符集合，或连续几位上可能出现的字符组合集合。业务码的枚举值即为上述可能出现的字符或字符组合集合中的元素，通常不会涵盖所有的取值情况，不同的枚举值的比例一般并不均匀，并且每个枚举值都具有一定业务含义，特别是多位组合时，由于往往是层级逻辑，所以业务码的枚举值和全排列时的枚举值相比相差很大，例如对于一个两位数的字段，理论上可以包含00至99共100种不同的枚举值，而当这个两位数的字段为业务码字段时，则可能只会包括11和22这两种作为业务码的枚举值；本说明书实施例中涉及的顺序码，一般没有特殊的业务含义，只是作为签发时候的流水号不断递增的填充码，所以对顺序码字段的枚举值进行统计后，其频率分布一般表现为低位分布完全均匀，高位分布可能表现为某个范围，但在范围内均匀分布，另外，校验码由于一般也是均匀分布的，所以在本说明书实施例中将校验码也认为是一种顺序码。举个例子，身份证号码中前6位数字表示地区代码，第7至14位表示生日日期，而最后一位则是校验码，其中，前6位就是典型的业务码，因为其对于全排列而言仅仅包括少量的枚举值，而第7至14位以及最后一位则是顺序码。

在本说明书实施例中，根据多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位包括的具体方法如下：

截取号码集中的所有号码其中任一数位的字符，获得对应于该数位的字符数据集，统计该字符数据集中每个字符的出现频率，以获得该字符数据集的取值频率分布情况，判断该频率分布是否存在全局的不均匀分布，以及局部非零的均匀分布，若存在则确定该数位为混合数位。例如图2所示的字符频数分布图，很显然符合上述的均匀性特征，由于频数分布图与频率分布图具有相同的均匀性特征，因此可以判断该数位为混合数位，而对于其他情况，例如若存在全局的不均匀分布以及部分取值的完全缺失，则可以判断该数位对于号码集中不同规则的号码而言，均属于业务码所在的数位，若存在全局的均匀分布，则可以判断该数位对于号码集中不同规则的号码而言，均属于顺序码所在的数位。之所以能够通过频率分布来判断得出上述结论，是由业务码与顺序码的统计特定决定的：由于业务码仅包含少量的枚举值，所以对于业务码所在的数位进行统计得到的分布往往属于不均匀分布，存在几个高频率的取值，并且通常存在部分取值的完全缺失；而顺序码则通常包含全排列的枚举值，所以对于顺序码所在的数位进行统计得到的分布往往属于均匀分布，并且也不会存在取值缺失的情况。因此通过上述分析可知，若存在不均匀分布，则证明存在部分类别的号码所采用的生成规则将该数位定义为业务码所在的数位，若存在局部非零的均匀分布，则可以保证一定存在部分号码所采用的生成规则将该数位定义为顺序码所在的数位，因此，当上述条件均满足时，就能够确定该数位为混合数位，即部分类别的号码所采用的生成规则将该数位定义为业务码所在的数位，同时，其他号码所采用的生成规则将该数位定义为顺序码所在的数位。

S102：将所述混合数位组合为混合字段，并根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类。

在本说明书实施例中，混合数位组合为混合字段的过程具体为：在确定完所有的混合数位后，可以检查是否存在相邻的混合数位，如果存在相邻的混合数位，则将相邻的混合数位进行组合得到组合字段，在多个混合数位连续相邻的情况下，将这些连续相邻的混合数位一起进行合并，将得到的组合字段确定为混合字段；如果不存在相邻的混合数位，则直接将所述混合数位确定为混合字段。或者，不检查是否存在相邻的混合数位，直接将每个混合数位确定为混合字段。

在本说明书实施例中，根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类的具体方法为：

统计所述多个号码在所述混合字段上的各个取值的出现频率，统计过程与前述的统计数位的取值频率分布类似；其中，出现频率大于预设阈值的取值为区别业务码，出现频率不大于所述预设阈值的取值为区别顺序码；将所述多个号码中所述混合字段包含所述区别业务码的号码确定为所述第一规则号码，将所述多个号码中所述混合字段包含所述区别顺序码的号码确定为所述第二规则号码。在实际操作中，可以在仅得到区别业务码的情况下就完成预分类，例如图3为某一混合字段上的字符组合频数分布图，其包含00至99共100种字符组合枚举值及其对应的出现频数，可以按照预设的固定频数阈值，或频数占总体样本的预设比例(即固定的频率阈值)，将大于频数阈值或频率阈值的字符组合的枚举值01和50确定为区别业务码，然后根据该区别业务码对号码集中的多个号码进行预分类，将混合字段包含01或50的号码确定为所述第一规则号码，而将其余号码直接确定为第二规则号码，即完成了对号码集中多个号码的预分类，由于频数分布图与频率分布图仅相差一个归一化的过程，两者具有相同的统计学含义并且可以相互转化，在实际操作中，当获得了各个取值的频数后就认为获得了各个取值的出现频率分布大小。同理，也可以在仅得到区别顺序码的情况下完成预分类，具体过程不再赘述。

S103：按照所述预分类的结果建立分类模型，根据所述分类模型对所述号码集中的号码进行分类预测，并将预测结果用于更新所述分类模型，循环上述模型预测以及模型更新的过程，直至最新的预测结果与上一次的预测结果没有差别或达到预设的最大循环次数。

由于在预分类过程中，会将混合字段包含业务码的所有号码均归为一类，因此必然会导致一部分本属于所采用的生成规则将该混合字段定义为顺序码字段的号码被错误地划归到所采用的生成规则将该混合字段定义为业务码字段的号码的类别，例如区别业务码为33的场合，有一部分将混合字段定义为顺务码字段的号码也可能在该混合字段上包含33的取值，而这一部分号码会被错误地分至与将该混合字段定义为业务码字段的号码同一类的号码，导致预分类的结果会高估将该混合字段定义为业务码字段的号码类型，低估将该混合字段定义为顺序码字段的号码类型，因此，有必要利用分类模型来对分类结果进一步地优化。

所述分类模型包括隐马尔可夫模型、决策树模型或深度学习模型。由于分类模型在建立时，使用了不完全正确的分类样本，因此根据预分类结果学习到的分类规律还略有偏差，所以可以对分类模型进行无监督地循环迭代：根据所述分类模型对所述号码集中的号码进行分类预测，并将预测结果用于更新所述分类模型，循环上述模型预测以及模型更新的过程，直至最新的预测结果与上一次的预测结果没有差别或达到预设的最大循环次数。

在分类模型的预测下，每次分类的结果会更趋向于正确分类结果，根据该结果继续训练分类模型，相当于分类模型所使用的训练集在被不断被优化和去噪，于是分类模型便在迭代更新过程中不断优化其学习到的分类规律，使其能够更加精准地完成号码的分类。

在本说明书实施例中，当所述分类模型为隐马尔可夫模型时，按照预分类的结果建立分类模型的具体过程如下：

根据预分类结果将所述号码集分成第一规则号码集以及第二规则号码集，根据所述第一规则号码集建立第一隐马尔可夫模型，根据所述第二规则号码集建立第二隐马尔可夫模型；

根据所述分类模型对号码集中的号码进行分类预测的具体过程如下：

对于所述号码库中的任一号码，根据所述第一隐马尔可夫模型计算得到该号码的第一观测概率，根据所述第二隐马尔可夫模型计算得到该号码的第二观测概率，若第一观测概率大于第二观测概率，则将该号码分类至下一轮的第一规则号码集，否则将该号码分类至下一轮的第二规则号码集。

S104：根据最新分类模型对所述号码集中的号码进行分类预测，得到最终分类结果。

在本说明书实施例中，号码集中可能会存在极少量的噪声号码，这些噪声号码可能是不具有生成规则的异常号码，也可能是虽然具有生成规则但数量过少的号码，与其他规则号码的号码数量相差过于悬殊导致分类模型无法将它们区分，从而也可以视为一种噪声号码。在本说明书实施例中，可以在根据最新分类模型对所述号码集中的号码进行分类预测，并通过预设的过滤阈值滤除噪声号码后，得到最终分类结果。例如当分类模型为二分类的深度学习模型时，该模型会对号码集中的每个号码输出一个在0到1之间的预测值，预测值接近0说明该号码应该被分至第一类，预测值接近1则说明该号码应该被分至第二类，而对于预测值在0.5附近的号码则难以判断其应该属于哪一类，此时可以通过设置过滤阈值将预测值在0.25至0.75之间的号码视为噪声号码，并将这些噪声号码丢弃，只保留预测值小于0.25的号码作为第一类，预测值大于0.75的号码作为第二类；当分类模型为隐马尔可夫模型时，该模型会对号码集中的每个号码输出两个预测值，通过对比两个预测值之间的大小关系，来决定号码应该被分至哪一类，但在一些情况下，可能会出现某一号码的两个预测值过于接近或均较小的情况，这时可以认为该号码为噪声号码，可以通过设置过滤阈值，将两个预测值的相对误差小于某一过滤阈值的号码，或者两个预测值均小于另一过滤阈值的号码丢弃，得到最终分类结果。

在本说明书实施例中，当获得了最新分类模型后，不仅可以对原号码集中的号码进行分类预测，也可以对其他的新输入的号码进行分类预测，得到所述新输入号码的分类结果。

在本说明书实施例中，通过号码集中多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定混合数位，进一步确定混合字段，并根据所述多个号码的所述混合字段上各个取值的出现频率大小，对所述多个号码进行预分类，然后按照预分类结果建立分类模型，再通过对分类模型的循环迭代得到最新分类模型，根据最新分类模型完成数据集的分类预测，实现了对具有不同生成规则但长度相同的号码的分类。

可选的，在按照所述预分类的结果建立分类模型时，可以根据所述多个号码在所述混合字段上的各个取值的出现频率大小，估算所述预分类的结果中错误分类的号码数量，并根据估算的号码数量配置所述分类模型的初始参数。由于预分类过程会不可避免地导致对一些号码的错误分类，而这些被错误分类的号码本就会对分类模型的分类效果造成不利影响，加之该错误分类的号码还导致了正负样本的数量与比例相较真实情况有一定偏差，因此在分类模型建立阶段会对分类模型造成误导，进一步加重对分类模型造成的不利影响，由于本说明书实施例涉及的分类模型仅为二分类模型，因此第一类规则号码对应于正样本，第二类规则号码对应于负样本。在本说明书实施例中，当获得了不同取值的频数时，则认为获得了不同取值的频率大小。可以根据号码集中多个号码在混合字段上的各个取值的出现频率大小，计算出作为顺序码的枚举值的平均频数，并认为实际将该混合字段定义为业务码字段的号码类型的数量等于作为业务码的枚举值的总频数，减去作为顺序码的枚举值的平均频数乘以该混合字段业务码的枚举值数量。例如图3所示的某一混合字段上的字符组合频数分布图，其包含01和50这2个业务码，这两个业务码相加的总频数为752，而除了这2个业务码，其余枚举值均为顺序码，计算出作为顺序码的枚举值的平均频数为11，则可以估算得到实际的正样本数为752-11×2＝730，而实际的负样本数为11×100＝1100，当然，也可以进一步计算得到正样本所占比例越为40％，负样本所在比例约为60％，根据该实际正负样本比例去配置分类模型的初始参数并进一步指导后续对分类模型迭代更新的过程。

在本说明书实施例中，由于能够事先估算得到被错误分类的号码数量，一方面可以获得较为准确的正负样本数量，从而更加精确地配置分类模型的初始参数，一定程度地减少因预分类错误造成的不利影响，另一方面由于已经知晓了错误分类的号码数量，而这相当于对分类结果中号码类别进行调换的目标数量也因此确定，所以可以根据该数量验证后续分类结果的正确性，并进一步指导后续对分类模型迭代更新的过程。

可选的，当所述混合字段的数量为多个时，按照预设选取规则从多个所述混合字段中选取一个，并根据所述多个号码在被选取的混合字段上各个取值的出现频率大小，对所述多个号码进行预分类；其中，预设选取规则包括：若多个所述混合字段中存在长度最长的混合字段，则选取所述长度最长的混合字段，否则从中选取一个预设次序或随机次序的所述混合字段，例如选取在号码最左端或最右端的混合字段。之所以选择长度最长的混合字段，是因为字段越长，其作为业务码的枚举值占全排列的枚举值的比例就更低，因此混合字段的不均匀性等统计特征会更加明显，这意味着在该混合字段得到的区别业务码的区分作用更强，因此首选长度最长的混合字段有利于帮助提升预分类的精度；另外，当不存在长度最长的混合字段时，可以优先选取号码最左端或最右端的混合字段，这是因为大多数号码的生成规则在设计时，一般会将两端的业务码字段设计成重要的业务字段，也因此这些字段的统计特征更具显著性，选择这些字段作为混合字段可以加强区别业务码的区分作用，提高预分类的精度。

在本说明书实施例中，当存在多个混合字段的情况时，可以根据预设选取规则选取其中一个作为后续的预分类依据，提高后续预分类的精度。

可选的，当混合字段的数量为多个时，还可以对于每个所述混合字段，均根据所述多个号码在该混合字段上的各个取值的出现频率大小，对所述多个号码各进行一次预分类，并针对每次预分类的结果，分别建立相应的分类模型，然后分别通过每个最新分类模型对号码集中的多个号码进行分类预测，并根据得到的多组最终分类结果确定噪声号码，以及丢弃所述噪声号码后确定去噪后的分类结果。具体而言，对于每个混合字段均进行一次预分类，同时建立一个二分类的分类模型，并分别对每个分类模型进行前述的更新迭代以获得多个最新的分类模型，根据每个分类模型都可以获得一个二分类的分类结果，根据这多个二分类的结果获得若干逻辑类别组，判断逻辑类别组中号码数量的比例大小，确定小于预设比例的逻辑类别组中的号码为噪声号码，丢弃掉这些噪声号码后，将其他每个逻辑类别组中的号码分别作为一个类别，确定最终的分类结果。

当存在M(M不小于2且为整数)个混合字段时，以所述号码集中的多个号码仅包含2种生成规则为例来说明上述获得若干逻辑类别组的过程。由于存在个M个混合字段，因此可以获得M个分类模型以及M组二分类结果，将M组二分类结果进行逻辑组合可以获得共2^M个逻辑类别组，如图4为当M等于2时不同阶段的逻辑类别组示意图，2个初始分类模型可以将号码集中的多个号码分成A、B、C、D四个逻辑类别组，在分类模型与分类结果迭代更新后，2个最新分类模型再次对号码集进行分类获得最终分类结果，由于号码集中的多个号码仅包含2种生成规则，因此两个二分类的分类结果会十分接近，均独立区分了两种不同的生成规则，反映于逻辑类别组B和D，而逻辑类别组A和C则属于2个二分类结果存在区分歧义的部分，应该将这两个逻辑类别组中的号码视为噪声号码进行丢弃。在实际操作中，可以将最终得到的2^M个逻辑类别组中号码数量小于预设数量，或号码数量占总号码数量的比例小于预设比例的逻辑类别组视为噪声号码类别组，将这些噪声号码类别组进行丢弃，仅保留剩下的2个逻辑类别组作为最终的分类结果，其中留下的每个逻辑类别组中的号码均属于同一类别，含有相同的生成规则。

在本说明书实施例中，能够通过多个混合字段得到多个分类模型和分类结果，整合多个分类结果从而确定和丢弃噪声号码，尽可能地排除分类结果中的噪声号码，提高号码分类的正确性。

可选的，在上述说明书实施例的基础上，当所述号码集中的多个号码包含N(N不小于3且为整数)种生成规则时，可以将每个所述混合数位均确定为一个混合字段，进一步得到多个分类模型二分类结果，将多个二分类结果进行逻辑组合可以获得多个逻辑类别组，然后将所述多组分类结果进行整合以获得多个逻辑类别组，根据所述多个逻辑类别组的各自所占比例确定包含N种类别的分类结果以及噪声号码，丢弃所述噪声号码后确定去噪后的包含N种类别的分类结果，其中N为不小于3的整数。具体而言，当所述号码集中的多个号码包含至少3种生成规则时，则在所述混合数位组合为混合字段时，将每个所述混合数位均确定为一个混合字段，此时，由于N种生成规则互不相同，因此确定得到的混合字段的数量不小于log₂N，因此能够获得至少log₂N个分类模型以及log₂N组二分类结果，然后将至少log₂N组二分类结果进行整合以获得至少N个逻辑类别组，根据信息论结论可知，log₂N组二分类结果最多可以区分N个不同的类别，因此将log₂N组二分类结果整合获得的至少N个逻辑类别组，一定分别包含了N种生成规则且完成了分类，只需要将其中的噪声号码类别组进行丢弃，即可确定去噪后的包含N种类别的分类结果，其中留下的每个逻辑类别组中的号码均属于同一类别，含有相同的生成规则，噪声号码类别组的确定过程与前述的方法一致，这里不再赘述。

在本说明书实施例中，当所述号码集中的多个号码包含N(N不小于3且为整数)种生成规则时，可以将每个所述混合数位均确定为一个混合字段，因此可以最终获得至少N个逻辑类别组以及其中的噪声号码类别组，在丢弃所述噪声号码后，确定去噪后的包含N种类别的分类结果。实现对号码集中具有2种以上生成规则的多个号码的分类。

可选的，在上述实施例的基础上，还可以根据最终分类结果，创建用于表征所述生成规则的正则表达式。由于分类结果中不同类别的号码实质体现了生成规则的不同，因此可以根据分类结果中相同类别号码结构上的共性确定对应于该类别生成规则的正则表达式，例如某类别得到的正则表达式为^(76|86)\d{4}$，则表示该类别的号码的生成规则为：前两位为业务码，业务码的枚举值为76和86，而后四位为顺序码。在本说明书实施例中，能够根据最终分类结果创建用于表征所述生成规则的正则表达式，进而确定号码集中多个号码原本未知的生成规则。

下面以两种生成规则的证件号码混合在一起的号码集为例，对本说明书的号码分类方案进行说明。如图5所示为号码集中的部分证件号码，逐位提取每个数位的频率分布，分析得到对于该号码集中的证件号码而言，前两位在两种生成规则下均被定义为业务码所在数位，末两位在两种生成规则下均被定义为顺序码所在数位，只有中间两位在一种生成规则下被定义为业务码所在数位而另一种生成规则下被定义为顺序码所在数位，也即中间的两个数位被确定为混合数位，由于这两个混合数位彼此相邻，因此这两个混合数位被合并成一个混合字段，重新统计该混合字段下的各个字符组合的频率大小，可以分析得到，11和22出现的频率明显高于其他组合，并且其他组合呈现局部的均匀分布特点，因此通过预设阈值将11和22确定为区别业务码，而其他的所有字符组合均确定成区别顺序码，从而将中间两位的字符组合为11和22的证件号码确定为第一规则号码，被存放在区别业务码号码集，其他字符组合的证件号码确定为第二规则号码，被存放在区别顺序码号码集，完成对号码集中的证件号码进行预分类，预分类结果如图6所示，其中左边为区别业务码号码集，右边为区别顺序码号码集，可以发现在预分类结果中，会有一部分本不属于混合字段被定义为顺序码字段的号码，被错误分至混合字段被定义为顺序码字段的号码类别；在完成了预分类以后，会根据区别业务码号码集训练得到一个隐马尔科夫模型A，根据区别顺序码号码集训练得到一个隐模型马尔科夫模型B，对于原号码集中的每一个证件号码均运行训练得到的隐马尔科夫模型A和B，分别得到两个观测概率，比较两个观测概率的大小，将该号码分至得处较大观测概率的隐马尔科夫模型所依赖的训练号码集中，这样可以完成对原号码集中所有证件号码的分类预测，得到新的分类结果，如图7所示，可以发现此时原本被错误分类的一部分证件号码会被分类至正确的号码集中。如图8所示，在完成第二次分类后，将分类结果又重新作为两个训练集，再次对隐马尔科夫模型A和B进行训练，得到更新后的隐马尔科夫模型A和B，反复迭代上述模型预测与更新的过程，直到本轮模型得到的分类结果与上一轮的分类结果没有差异或达到最大迭代次数时停止迭代过程，如图9所示，最终得到的分类结果将把原先错误分类的证件号码重新分至正确的号码集中。最后，可以根据最终的数据分类结果，简单处理过滤掉少量噪声数据后，为每个分类的证件号码创建一个用于表征其生成规则的正则表达式，在本说明书实施例中，最终生成的正则表达式是(^(32|48)(11|22)\d{2}$|^(76|86)\d{4}$)，表示第一类的证件号码的生成规则为前四位为业务码数位，前两位业务码的枚举值为32和48，中间两位业务码的枚举值为11和22，后两位为顺序码数位；第二类的证件号码的生成规则为前两位为业务码数位，前两位业务码的枚举值为76和86，后四位为顺序码数。

与前述方法的实施例相对应，本说明书还提供了装置、电子设备以及存储介质的实施例。

本说明书号码分类装置的实施例可以应用在计算机设备上，装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的号码分类装置，是通过其处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图10所示，为本说明书实施例号码分类装置所在计算机设备的一种硬件结构图，除了图10所示的处理器1010、内存1030、网络接口1020、以及非易失性存储器1040之外，通常根据该计算机设备的实际功能，还可以包括其他硬件，对此不再赘述。

如图11所示，图11是本说明书根据一示例性实施例示出的一种号码分类装置的框图，所述装置用于对号码集中相同长度的多个号码进行分类，不同类别的号码采用的生成规则不同，所述生成规则用于定义相应类别的号码中业务码和顺序码所在的数位；所述装置包括：

混合数位确定单元1101，用于根据所述多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位，所述多个号码中部分类别的号码所采用的生成规则将所述混合数位定义为业务码所在的数位、所述多个号码中其他号码所采用的生成规则将所述混合数位定义为顺序码所在的数位；

预分类单元1102，用于将所述混合数位组合为混合字段，并根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类；

分类模型训练单元1103，用于按照所述预分类的结果建立分类模型，根据所述分类模型对所述号码集中的号码进行分类预测，并将预测结果用于更新所述分类模型，循环上述模型预测以及模型更新的过程，直至最新的预测结果与上一次的预测结果没有差别或达到预设的最大循环次数；

分类预测单元1104，用于根据最新分类模型对所述号码集中的号码进行分类预测，得到最终分类结果。

在本说明书的实施例中，通过号码集中多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定混合数位，进一步确定混合字段，并根据所述多个号码的所述混合字段上各个取值的出现频率大小，对所述多个号码进行预分类，然后按照预分类结果建立分类模型，再通过对分类模型的循环迭代得到最新分类模型，根据最新分类模型完成数据集的分类预测，实现了对具有不同生成规则但长度相同的号码的分类。

相应的，本说明书还提供一种装置，所述装置包括有处理器；用于存储处理器可执行指令的存储器；其中，所述处理器被配置为实现上述全部方法实施例提供的号码分类方法的步骤。

相应的，本说明书还提供一种计算机可读存储介质，其上存储有可执行的指令；其中，该指令被处理器执行时，实现上述全部方法实施例提供的号码分类方法的步骤。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后，将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是，本说明书并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已，并不用以限制本说明书，凡在本说明书的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书保护的范围之内。

Claims

1.一种号码分类方法，其特征在于，所述方法用于对号码集中相同长度的多个号码进行分类，不同类别的号码采用的生成规则不同，所述生成规则用于定义相应类别的号码中业务码和顺序码所在的数位；所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述多个号码的各个数位分别对应的取值频率分布的均匀性特征，确定所述各个数位中的混合数位包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述混合数位组合为混合字段包括：

4.根据权利要求1所述的方法，其特征在于，所述根据所述多个号码在所述混合字段上的各个取值的出现频率大小，对所述多个号码进行预分类包括：

5.根据权利要求1所述的方法，其特征在于，所述按照所述预分类的结果建立分类模型包括：

根据估算的号码数量配置所述分类模型的初始参数。

6.根据权利要求1所述的方法，其特征在于，所述混合字段的数量为多个；

所述预设选取规则包括：

7.根据权利要求1所述的方法，其特征在于，所述混合字段的数量为多个；

8.根据权利要求7所述的方法，其特征在于，所述号码集中的多个号码包含N种生成规则；

所述根据所述多组最终分类结果，确定噪声号码，丢弃所述噪声号码后确定去噪后的分类结果包括：将所述多组最终分类结果进行整合以获得多个逻辑类别组，根据所述多个逻辑类别组的各自所占比例确定包含N种类别的分类结果以及噪声号码，丢弃所述噪声号码后确定去噪后的包含N种类别的分类结果，其中N为不小于3的整数。

9.根据权利要求1所述的方法，其特征在于，所述方法还包括：

10.一种号码分类装置，其特征在于，所述装置用于对号码集中相同长度的多个号码进行分类，不同类别的号码采用的生成规则不同，所述生成规则用于定义相应类别的号码中业务码和顺序码所在的数位；所述装置包括：

11.一种电子设备，包括有处理器；用于存储处理器可执行指令的存储器，其特征在于，所述处理器被配置为实现权利要求1-9中任一项所述方法的步骤。

12.一种计算机可读存储介质，其上存储有可执行的指令，其特征在于，该指令被处理器执行时，实现权利要求1-9中任一项所述方法的步骤。