CN111144430B

CN111144430B - 基于遗传算法的养卡号码识别方法及装置

Info

Publication number: CN111144430B
Application number: CN201811307497.6A
Authority: CN
Inventors: 张湛梅; 张晓川; 徐睿; 崔志顺
Original assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; China Mobile Group Guangdong Co Ltd
Priority date: 2018-11-05
Filing date: 2018-11-05
Publication date: 2023-08-01
Anticipated expiration: 2038-11-05
Also published as: CN111144430A

Abstract

本发明实施例提供一种基于遗传算法的养卡号码识别方法及装置，该方法包括获取目标用户号码的业务指标信息；基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。本发明实施例提供的基于遗传算法的养卡号码识别方法及装置，通过设置自调整的遗传算法方法对用户号码中的一证多户指标信息进行分析，从而更加精准得到养卡号码的判别概率，有效提升养卡号码识别的准确率和稳定性。

Description

基于遗传算法的养卡号码识别方法及装置

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种基于遗传算法的养卡号码识别方法及装置。

背景技术

社会渠道代理商为了赚取运营商的酬金，通过批量养卡制造销售假象的手段，从而套取运营商号码卡或终端的营销酬金，这种大批量的养卡行为增加了运营商经营成本，严重破坏了破坏市场秩序。

为了打击养卡行为，需要识别出养卡号码，现有的养卡识别模型主要从用户基本特征、消费特征和终端数据等建立决策树模型。具体步骤为：第一，确定分析相关指标，抽取历史疑似养卡号码和普通号码为正负样本；第二，建立决策树模型，得到预测养卡号码的规则，判断是否为疑似养卡号码。

然而，通过决策树模型对养卡号码进行识别，容易出现过拟合，而且养卡的行为特征变化快，使得决策树模型的泛化能力差，导致误判的情况，以至于识别养卡号码的概率较低。

发明内容

针对现有技术存在的问题，本发明实施例提供一种基于遗传算法的养卡号码识别方法及装置。

第一方面，本发明实施例提供一种基于遗传算法的养卡号码识别方法，包括：

获取目标用户号码的业务指标信息；

基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

第二方面，本发明实施例提供一种基于遗传算法的养卡号码识别装置，包括：

获取模块，用于获取目标用户号码的业务指标信息；

养卡号码识别模块，用于基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

第三方面，本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如第一方面所提供的方法的步骤。

第四方面，本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面所提供的方法的步骤。

本发明实施例提供的基于遗传算法的养卡号码识别方法及装置，通过设置自调整的遗传算法方法对用户号码中的一证多户指标信息进行分析，从而更加精准得到养卡号码的判别概率，有效提升养卡号码识别的准确率和稳定性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的基于遗传算法的养卡号码识别方法的流程示意图；

图2为本发明实施例提供的遗传算法的均匀交配过程示意图；

图3为本发明实施例提供的一证多户数量与养卡概率的关系示意图；

图4为本发明实施例提供的基于一证多户指标改进的变异过程示意图；

图5为本发明实施例提供的基于一证多户指标的变异函数模拟示意图；

图6为本发明实施例提供的基于遗传算法的养卡号码识别装置的结构示意图；

图7为本发明实施例提供的电子设备结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

传统的养卡号码识别模型主要用决策树算法来预测用户号码是否为养卡号码，然而，通过决策树算法进行养卡号码识别存在以下缺点：第一，通过决策树算法来识别，容易出现过拟合，而且养卡的行为特征变化快，使得基于决策树算法的养卡号码识别模型的泛化能力较差，导致误判的情况；第二，由于运营商的数据量极大，且有些业务指标是连续型指标，采用决策树算法来识别养卡号码，需要花费大量的运算时间；第三，通过对过往历史业务的分析，同个身份证的若开通多个号码，存在较高的养卡嫌疑，而现有技术中没有考虑“一证多户”指标的影响，导致养卡号码的识别率较低。

图1为本发明实施例提供的基于遗传算法的养卡号码识别方法的流程示意图，如图1所示，本发明实施例提供了一种基于遗传算法的养卡号码识别方法，包括：

步骤101，获取目标用户号码的业务指标信息；

步骤102，基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

在本发明实施例中，首先，通过步骤101，获取目标用户号码的业务指标信息。在对目标用户号码进行养卡号码识别之前，需要选取目标用户号码中的业务指标信息的类型，通过对用户号码的业务指标信息进行分类，根据分类后的各项业务指标信息中用户号码的使用行为，判断出用户号码是否存在养卡号码的嫌疑。在本发明实施例中，将一证多户指标作为必选的业务指标信息和其他指标进行分离，而其他指标可以根据运营商的实际情况进行选取包括用户级别情况指标、通话行为指标、消费特征指标、数据业务指标、交往圈指标和基站指标。

然后，通过步骤102，基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。在目标用户号码输入到遗传算法养卡号码识别模型之后，遗传算法养卡号码识别模型首先对业务指标信息进行染色体编码。随后，对完成染色体编码的各项指标构成的种群进行选择算子、交配算子和变异算子的遗传算法处理，其中，在进行变异算子的处理时，将一证多户指标与其它指标分离后分别进行变异，再将各自变异后的结果进行合并，形成最终完整的染色体，以供遗传算法养卡号码识别模型计算得到养卡号码的概率值。最后，判断养卡号码的概率值是否满足预设养卡号码识别阈值，若满足，则得到目标用户号码中的养卡号码。在本发明实施例中，将预设养卡号码识别阈值设置为0.5，若养卡号码的概率值大于等于0.5时，则用户号码识别为养卡号码；若养卡号码的概率值小于0.5时，则判断用户号码为非养卡号码。

本发明实施例提供的基于遗传算法的养卡号码识别方法，通过设置自调整的遗传算法方法对用户号码中的一证多户指标信息进行分析，从而更加精准得到养卡号码的判别概率，有效提升养卡号码识别的准确率和稳定性。

在上述实施例的基础上，在所述获取目标用户号码的业务指标信息之前，所述方法还包括：

根据样本用户号码中的样本业务指标信息，获取第一样本数据集；

对所述第一样本数据集进行遗传算法处理，得到第二样本数据集；

将所述第二样本数据集输入遗传算法养卡号码识别模型进行训练，获取所述训练后的遗传算法养卡号码识别模型。

在本发明实施例中，在构建遗传算法养卡号码识别模型之前，首先需要解决可行解的表示，即染色体编码。在本发明实施例中，通过浮点数编码方法对样本用户号码中的样本业务指标信息进行染色体编码，浮点数编码方法可以直接表示问题的实际值且定义长度较短，且不会影响遗传算法的性能，从而得到较精确的结果。然后再对个体编码施加选择、交配、变异运算，以此来优化问题的解，结合业务指标信息，最终得到的业务指标信息中各项指标权重都是(-1,1)之间的实数，从而根据各项指标权重得到养卡号码的养卡概率值，完成对遗传算法养卡识别模型的训练。需要说明的是，指标权重的正负值表示指标对养卡行有正面或负面的影响，从而更加精准地识别出养卡号码。

在上述实施例的基础上，所述根据样本用户号码中的样本业务指标信息，获取第一样本数据集，包括：

对所述样本用户号码中的所述样本业务指标信息进行染色体编码；

对染色体编码处理后的样本业务指标信息进行线性转换，得到所述第一样本数据集。

在本发明实施例中，由于各项指标间的数量级存在一定的差异，为了消除各项指标的量纲影响，在样本业务指标信息完成染色体编码处理之后，采用Min-Max标准的方法对各项指标分别进行线性转换，通过公式：

使各项指标转换后的结果归属在[0,1]区间内，其中，max为指标数据的最大值，min为指标数据的最小值，x为转换前的指标数据，x^*为转换后的指标数据。通过对染色体编码处理之后的样本业务指标信息进行线性转换，从而得到第一样本数据集。

本发明实施例通过对业务指标信息进行线性处理，使得计算时间复杂度降低，提高了养卡识别稳定性。

在上述实施例的基础上，所述根据样本用户号码中的样本业务指标信息，获取第一样本数据集，还包括：

将所述样本用户号码中养卡号码的样本业务指标信息标记为正样本数据，并将所述样本用户号码中普通号码的样本业务指标信息标记为负样本数据，对所述正样本数据和所述负样本数据进行染色体编码，获取所述第一样本数据集。

在本发明实施例中，在构建遗传算法养卡号码识别模型之前，根据选取的业务指标信息，还需要将将样本用户号码中的养卡号码的样本业务指标信息标记为正样本数据，同时将样本用户号码中的普通号码的样本业务指标信息标记为负样本数据，从而得到完整的样本数据集。在本发明实施例中，以正负样本数据的比例为1:10组成样本数据集，用于在后续对遗传算法养卡号码识别模型进行训练。

在上述实施例的基础上，所述对所述第一样本数据集进行遗传算法处理，包括：

根据所述遗传算法中的选择算子对所述第一样本数据集进行处理，得到第三样本数据集。

根据所述遗传算法中的交配算子对所述第三样本数据集进行处理，得到第四样本数据集。

对所述第四样本数据集中的一证多户指标和其他指标分别进行变异算子处理，得到变异处理后的一证多户指标权重和其他指标权重；

根据变异处理后的一证多户指标权重和其他指标权重得到所述第二样本数据集，以对所述遗传算法养卡号码识别模型进行训练。

在本发明实施例中，遗传算法养卡号码识别模型的目标函数公式为：

其中，p为养卡号码的概率值,W_i为第i个指标的权重值，即遗传操作中的基因，X_i为第i个指标,W_j为一证多户指标的权重值，X_j表示一证多户指标。根据遗传算法养卡号码识别模型得到的概率值p值越高，则用户号码为养卡号码的概率就越大，在本发明实施例中，通过判断养卡号码的概率值p是否满足预设养卡号码识别阈值，若满足，则得到目标用户号码中的养卡号码。例如，将预设养卡号码识别阈值设置为0.5，若养卡号码的概率值大于等于0.5时，则用户号码识别为养卡号码；若养卡号码的概率值小于0.5时，则判断用户号码为非养卡号码。

遗传算子是遗传算法的重要组成部分，是遗传算法进行进化，保证种群多样性的基础，包括选择算子、交配算子和变异算子。在样本数据集输入到遗传算法养卡号码识别模型进行选择算子之前，先初始化规模为N的群体，即对样本数据集作为染色体进行初始化处理，而样本数据集中每项指标则作为基因，其中染色体中每个基因的适应值采用随机数产生，并且取值范围在(-1,1)区间内。在计算每个基因的适应值之后，采用轮盘赌算法选择染色体，组成新的种群，即第三样本数据集，以供进行后续的交配和变异。

随后，对第三样本数据集进行交配算子处理，在本发明实施例中，采用均匀交配算子进行处理，能够在对原个体破坏程度较小的情况下产生较好的新个体，设置交配概率为P_c，按照概率P_c从选择算子处理后的种群中选择染色体进行交配，图2为本发明实施例提供的遗传算法的均匀交配过程示意图，如图2所示，在长度为L的染色体中，在两个相互配对的个体中，每个基因为都以相同的概率P_c进行交换，从而形成两个新个体，从而获得第四样本数据集。

在上述步骤之后，需要对变异算子进行选择，传统的变异算子是对染色体直接进行变异，例如，简单变异和均匀变异，步骤为：给定一个较小的变异概率值P_m，让每条染色体随机生成一个概率值，当染色体随机概率值低于P_m时，替换染色体的个体编码串中各个基因座上原有的基因值。图3为本发明实施例提供的一证多户数量与养卡概率的关系示意图，如图3所示，由于一证多户数量与养卡号码概率存在一定程度的正向关系，即一个证件开通的号码越多，则疑似养卡的概率越大，且增长幅度越来越大。因此，在本发明实施例中，在进行变异算子处理时，对于一证多户指标，通过皮尔生长曲线模型构建变异函数，公式为：

其中，W_j为变异前的一证多户指标权重，A为一个取值较大的常数，l表示第l次变异,通过变异函数使一证多户指标尽量按照正向递增的趋势变异；对于其他指标，采用(-1，1)内均匀分布的随机数进行均匀变异，图4为本发明实施例提供的基于一证多户指标改进的变异过程示意图，如图4所示，当一证多户指标和其他指标完成各自的变异过程后，得到变异之后的染色体，即第二样本数据集，以对所述遗传算法养卡号码识别模型进行训练。

图5为本发明实施例提供的基于一证多户指标的变异函数模拟示意图，如图5所示，取A＝2000，随机选取初始的W_j＝﹣0.33769对变异函数进行模拟，可以看出，随着迭代次数的增加，基因值呈现阻滞增长的趋势，因此，通过改进后的变异函数能够更好的描述一证多户指标与养卡号码概率之间的关系。

本发明实施例采用基因分类变异的方法，对遗传算法的变异算子进行改进，使得在对用户号码进行养卡识别时，能够快速适应养卡行为特征的快速变化，提高了泛化能力，同时，基于遗传算法的养卡号码识别模型降低了计算复杂程度，使得养卡号码识别效率提高，从而降低了运营商的运营成本。

在上述实施例的基础上，在所述根据变异处理后的一证多户指标权重和其他指标权重得到所述第二样本数据集，以对所述遗传算法养卡号码识别模型进行训练之后，所述方法包括：

根据所述第二样本数据集对所述遗传算法养卡号码识别模型训练的结果，得到养卡号码识别的适应度函数；

若所述适应度函数满足预设收敛条件，则得到样本指标权重的最优解；

根据所述样本指标权重的最优解得到样本用户号码的养卡概率值，从而得到样本养卡号码；

若所述适应度函数不满足预设收敛条件，则将所述第二样本数据集进行所述遗传算法处理，得到第五样本数据集，以对所述遗传算法养卡号码识别模型进行迭代，直到迭代后的适应度函数满足预设收敛条件。

对于遗传算法养卡号码识别模型，将普通号码和养卡号码区分出的分类效果越好，说明遗传算法养卡号码识别模型的识别准确率越高，因此，可以将分类效果作为传算法养卡号码识别模型的适应度值。由于养卡号码识别是一个二分类问题，在本发明实施例中，采用精确率P和召回率R来度量分类效果，精确率P和召回率R的公式分别为：

其中，TP为被模型正确预测的正样本数，FP为被模型错误预测为正样本的负样本数，FN为被模型错误预测为负样本的正样本数。为了更全面地衡量分类效果，将精确率P和召回率R合并为F₁度量，最终选取F₁度量作为适应度函数f(x)，公式为：

预设迭代次数为k,m为一个很大的数，对任意的ε>0，当适应度满足公式：

lim_k→m f_k-f_k-1＜ε；

则停止迭代，则得到的染色体的指标权重值为最优解，然后通过遗传算法养卡号码识别模型的目标函数计算样本指标权重的最优解，从而得到样本用户号码的养卡概率值，将样本用户号码的养卡概率值和预设养卡号码识别阈值进行对比，若满足预设养卡号码识别阈值，则将此样本用户号码标记为养卡号码。当适应度函数不满足预设收敛条件时，则将本次遗传算法得到的染色体重新进行上述实施例提供的遗传算法的处理，进行新一轮的迭代，直到迭代后的适应度函数满足预设收敛条件。

本发明实施例通过设置收敛条件控制迭代次数，有效降低了计算复杂程度，提高了养卡识别效率。

图6为本发明实施例提供的基于遗传算法的养卡号码识别装置的结构示意图，如图6所示，本发明实施例提供了一种基于遗传算法的养卡号码识别装置，所述装置包括：

获取模块601，用于获取目标用户号码的业务指标信息；

养卡号码识别模块602，用于基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

在本发明实施例中，获取模块601首先从数据库中抽取用户号码的相关数据，包括一证多户指标和其他指标，其他指标包括包括用户级别情况指标、通话行为指标、消费特征指标、数据业务指标、交往圈指标和基站指标；然后，养卡号码识别模块602根据改进的遗传算法，计算得到一证多户指标和其他指标的权重值，并且根据权重值得到养卡号码的概率值，最后，养卡号码识别模块602将养卡号码的概率值与预设养卡号码识别阈值进行对比，将满足预设养卡号码识别阈值的用户号码作为养卡号码，并通过显示单元进行输出显示。

本发明实施例提供的基于遗传算法的养卡号码识别装置，通过设置自调整的遗传算法方法对用户号码中的一证多户指标信息进行分析，从而更加精准得到养卡号码的判别概率，有效提升养卡号码识别的准确率和稳定性。

在上述实施例的基础上，所述装置还包括：处理模块、遗传算法模块和训练模块，其中，所述处理模块用于根据样本用户号码中的样本业务指标信息，获取第一样本数据集；所述遗传算法模块用于对所述第一样本数据集进行遗传算法处理，得到第二样本数据集；所述训练模块用于将所述第二样本数据集输入遗传算法养卡号码识别模型进行训练，获取所述训练后的遗传算法养卡号码识别模型。

在上述实施例的基础上，所述处理模块包括染色体编码单元和线性转换单元，其中，所述染色体编码单元用于对所述样本用户号码中的所述样本业务指标信息进行染色体编码；所述线性转换单元用于对染色体编码处理后的样本业务指标信息进行线性转换，得到所述第一样本数据集。

在上述实施例的基础上，所述装置还包括：选择算子模块、交配算子模块、变异算子模块和处理模块，其中，选择算子模块用于根据所述遗传算法中的选择算子对所述第一样本数据集进行处理，得到第三样本数据集；交配算子模块用于根据所述遗传算法中的交配算子对所述第三样本数据集进行处理，得到第四样本数据集；变异算子模块用于对所述第四样本数据集中的一证多户指标和其他指标分别进行变异算子处理，得到变异处理后的一证多户指标权重和其他指标权重；处理模块用于根据变异处理后的一证多户指标权重和其他指标权重得到所述第二样本数据集，以对所述遗传算法养卡号码识别模型进行训练。

本发明实施例提供的装置是用于执行上述各方法实施例的，具体流程和详细内容请参照上述实施例，此处不再赘述。

图7为本发明实施例提供的电子设备结构示意图，如图7所示，该电子设备可以包括：处理器(processor)701、通信接口(Communications Interface)702、存储器(memory)703和通信总线704，其中，处理器701，通信接口702，存储器703通过通信总线704完成相互间的通信。处理器701可以调用存储器703中的逻辑指令，以执行如下方法：获取目标用户号码的业务指标信息；基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

此外，上述的存储器703中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本发明实施例公开一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法实施例所提供的方法，例如包括：获取目标用户号码的业务指标信息；基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储服务器指令，该计算机指令使计算机执行上述实施例所提供的基于遗传算法的养卡号码识别方法，例如包括：获取目标用户号码的业务指标信息；基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于遗传算法的养卡号码识别方法，其特征在于，包括：

获取目标用户号码的业务指标信息；

基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码；

在所述获取目标用户号码的业务指标信息之前，所述方法还包括：

将所述第二样本数据集输入遗传算法养卡号码识别模型进行训练，获取所述训练后的遗传算法养卡号码识别模型；

所述对所述第一样本数据集进行遗传算法处理，包括：

根据所述遗传算法中的选择算子对所述第一样本数据集进行处理，得到第三样本数据集；

根据所述遗传算法中的交配算子对所述第三样本数据集进行处理，得到第四样本数据集；

2.根据权利要求1所述的方法，其特征在于，所述根据样本用户号码中的样本业务指标信息，获取第一样本数据集，包括：

对染色体编码处理后的样本业务指标信息进行线性转换，获取所述第一样本数据集。

3.根据权利要求2所述的方法，其特征在于，所述根据样本用户号码中的样本业务指标信息，获取第一样本数据集，还包括：

4.根据权利要求1所述的方法，其特征在于，在所述根据变异处理后的一证多户指标权重和其他指标权重得到所述第二样本数据集，以对所述遗传算法养卡号码识别模型进行训练之后，所述方法包括：

5.一种基于遗传算法的养卡号码识别装置，其特征在于，所述装置包括：

获取模块，用于获取目标用户号码的业务指标信息；

养卡号码识别模块，用于基于训练后的遗传算法养卡号码识别模型，对所述业务指标信息进行养卡号码识别，获取到目标养卡号码；

处理模块，用于根据样本用户号码中的样本业务指标信息，获取第一样本数据集；

遗传算法模块，用于对所述第一样本数据集进行遗传算法处理，得到第二样本数据集；

训练模块，用于将所述第二样本数据集输入遗传算法养卡号码识别模型进行训练，获取所述训练后的遗传算法养卡号码识别模型；

所述对所述第一样本数据集进行遗传算法处理，包括：

6.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述方法的步骤。

7.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。