CN114549026A

CN114549026A - 基于算法组件库分析的未知诈骗的识别方法及系统

Info

Publication number: CN114549026A
Application number: CN202210440913.XA
Authority: CN
Inventors: 马峰; 林建洪; 潘昊; 赵祥廷; 聂宜君
Original assignee: Zhejiang Ponshine Information Technology Co ltd
Current assignee: Zhejiang Ponshine Information Technology Co ltd
Priority date: 2022-04-26
Filing date: 2022-04-26
Publication date: 2022-05-27
Anticipated expiration: 2042-04-26
Also published as: CN114549026B

Abstract

本发明涉及基于算法组件库分析的未知诈骗识别方法及系统，方法包括：采集部分诈骗数据和部分正常数据，分别进行诈骗类和正常类的标注；通过算法组件库进行综合性能TopN算法推荐，之后进行AutoML建模以建立分类模型；利用分类模型对目标行业对应的全量数据进行初始标注；在标注完成的全量数据中取部分诈骗类样本和部分正常类样本，分别进行诈骗小类和正常小类的标注；通过算法组件库建立诈骗小类分类模型和正常小类分类模型，作为根节点模型，并对全量数据进行初始标注以预测样本类别；利用测试数据对根节点模型进行评估，若评估精度低于阈值则进行未知诈骗类别分析。本发明可自动进行模型选型，模型调优和模型的部署。

Description

基于算法组件库分析的未知诈骗的识别方法及系统

技术领域

本发明属于电信反诈及机器学习技术领域，具体涉及基于算法组件库分析的未知诈骗的识别方法及系统。

背景技术

随着通信及互联网企业的业务规模不断扩大，电信安全风险也在不断增加，电信诈骗趋于规模化、团体化、复杂化。由于各种新型的诈骗手段层出不穷，识别新型诈骗与未知诈骗成为较难攻克的难题。

针对目前算法组件库与人工智能的发展，如何动态更新研判模型，及时发现未知诈骗，减少损失，是当前亟需解决的难题。

发明内容

基于现有技术中存在的上述缺点和不足，本发明的目的是提供基于算法组件库分析的未知诈骗的识别方法及系统。

为了达到上述发明目的，本发明采用以下技术方案：

基于算法组件库分析的未知诈骗的识别方法，包括以下步骤：

S1、采集目标行业对应的全量数据中的部分诈骗数据和部分正常数据，分别进行诈骗类和正常类的标注；

S2、通过算法组件库进行目标行业内综合性能TopN算法推荐，之后进行AutoML建模以建立分类模型；其中，综合性能TopN算法为综合性能排名前N位的算法；

S3、利用分类模型对目标行业对应的全量数据进行初始标注，即诈骗类和正常类的标注；

S4、在标注完成的全量数据中取部分诈骗类样本和部分正常类样本，分别进行诈骗小类和正常小类的标注；

S5、通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型，作为根节点模型；

S6、利用根节点模型对全量数据进行初始标注以预测样本类别；

S7、利用测试数据对根节点模型进行评估，若评估精度低于阈值则进行未知诈骗类别分析；

S8、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和Isolation Forest离群点检测；

S9、对GMM聚类后的每一簇进行内聚度和耦合度的计算，之后根据内聚度和耦合度进行簇的合并，对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断，若是，则相应簇的样本为困难样本；若否，则对相应簇进行新类别分析，转至步骤S10；

S10、判断最大类别的占比是否小于设定阈值；若是，则进行混合新类别分析，并通过算法组件库建立下层分支模型；若否，则进行边缘新类别分析，并通过算法组件库建立下层分支模型；

S11、对下层分支模型进行性能测试，判断性能是否提升；若是，则保存模型树；

S12、循环上述步骤S8～S11，直至模型树的精度达到要求。

作为优选方案，所述步骤S2、步骤S5及步骤S10中相应的模型建立之后，还对算法组件库中相应的模型对应的算法的综合性能评分进行更新。

作为优选方案，所述算法的综合性能评分根据算法的泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分计算得到。

作为优选方案，所述泛化能力评分为：通过模型的类型计算r2-Score或accuracy作为分数；

鲁棒性评分为：通过模型的指标变化方差和训练超调之和为m，取所有算法中最小m为m₀，比值m₀/m作为分数；

拟合能力评分为：通过计算模型达到指定指标所花费的最小时间为p，取所有算法中最小p为p₀，比值p₀/p作为分数；

推理耗时评分为：通过模型推理的时间为q，取所有算法中的最小q为q₀，比值q₀/q作为分数；

训练耗时评分为：通过模型训练的每次trial合在一起的时间为s，取所有算法中最小s为s₀，s₀/s作为分数；

算法的综合性能评分为泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分的加权平均。

作为优选方案，所述算法组件库通过TPE、Random、Anneal、Evolution、BatchTuner、MetisTuner中的至少一个优化算法进行模型的自动选型和模型参数的自动调优。

作为优选方案，所述步骤S10中，混合新类别分析，包括：

将当前簇类别定义为混合未知新类别，取当前簇内超过一定数量的小类别对应的簇外样本，与混合未知新类别样本组合，通过算法组件库自动训练下层分支模型。

作为优选方案，所述步骤S10中，边缘新类别分析，包括：

判断当前簇内的样本数量是否在阈值范围内，若是，则进行离群点匹配；当匹配的离群点数量达到目标数量阈值时定义为边缘未知新类别，取当前簇内最大占比的类别，与边缘未知新类别样本组合，通过算法组件库自动训练下层分支模型。

作为优选方案，所述步骤S10中，还根据下层分支模型的信息增益进行模型的剪枝。

作为优选方案，所述步骤S12之后，还包括以下步骤：

S13、定期进行新样本类别确认，并按照新样本类别进行困难样本的数据标注，并优化根节点模型及其下层分支模型，对新类别数据进行研判，并对模型树进行剪枝。

本发明还提供基于算法组件库分析的未知诈骗的识别系统，应用如上任一方案所述的未知诈骗的识别方法，所述未知诈骗的识别系统包括：

标注模块，用于对目标行业对应的全量数据中的部分诈骗数据和部分正常数据分别进行诈骗类和正常类的标注；

算法组件库，包括评分模块、推荐模块和AutoML模块，评分模块用于对算法进行综合性能评分以进行综合性能排名，推荐模块用于进行目标行业内综合性能TopN算法推荐；AutoML模块用于根据推荐的算法进行AutoML建模以建立分类模型；

标注模块还用于利用分类模型对目标行业对应的全量数据进行初始标注，即诈骗类和正常类的标注；还用于在标注完成的全量数据中取部分诈骗类样本和部分正常类样本，分别进行诈骗小类和正常小类的标注；相应地，通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型，作为根节点模型，并利用根节点模型分别对全量数据进行初始标注以预测样本类别；

测试模块，用于利用测试数据对根节点模型进行评估，若评估精度低于阈值则进行未知诈骗类别分析；

GMM聚类分析模块，用于对测试数据、部分诈骗类样本、部分正常类样本进行GMM聚类分析；

Isolation Forest离群点检测模块，用于对测试数据、部分诈骗类样本、部分正常类样本进行Isolation Forest离群点检测；

新类别分析模块，用于对GMM聚类后的每一簇进行内聚度和耦合度的计算，之后根据内聚度和耦合度进行簇的合并，对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断，若是，则相应簇的样本为困难样本；若否，则对相应簇进行新类别分析；新类别分析过程中，判断最大类别的占比是否小于设定阈值；若是，则进行混合新类别分析，并通过算法组件库建立下层分支模型；若否，则进行边缘新类别分析，并通过算法组件库建立下层分支模型；

测试模块，还用于对下层分支模型进行性能测试，判断性能是否提升；若是，则保存模型树；还用于测试模型树的精度。

本发明与现有技术相比，有益效果是：

（1）本发明的算法组件库可以自动进行模型选型，模型调优和模型的部署，为模型的自动化训练做支撑；

（2）本发明采用聚类配合异常点检测进行新类别的定位与确认，并通过算法组件库进行新模型的训练；

本发明提出了模型树的电信诈骗研判模式，根据不同的电信诈骗领域和不同地区的数据，都可以自动生成提供不同的模型树，细化模型研判路径，增加模型的鲁棒性和泛化能力。

附图说明

图1是本发明实施例1的基于算法组件库分析的未知诈骗的识别方法的流程图；

图2是本发明实施例1的算法组件库的构架；

图3是本发明实施例1的算法组件库评分推荐机制图；

图4是本发明实施例1的簇合并以及样本分析流程图；

图5是本发明实施例1的两个簇相交的示意图；

图6是本发明实施例1的剪枝示意图；

图7是本发明实施例1的模型树的下层分支模型的生成流程图；

图8是本发明实施例1的模型树的管理构架图；

图9是本发明实施例2的基于算法组件库分析的未知诈骗的识别系统的构架图。

具体实施方式

为了更清楚地说明本发明实施例，下面将对照附图说明本发明的具体实施方式。显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图，并获得其他的实施方式。

实施例1：

如图1所示，本实施例的基于算法组件库分析的未知诈骗的识别方法，包括以下步骤：

S1、采集目标行业对应的全量数据（又称全量样本）中的部分诈骗数据和部分正常数据，分别进行诈骗类和正常类的标注；

S2、通过算法组件库进行目标行业内综合性能TopN算法推荐，之后进行AutoML建模以建立分类模型（又称大类模型）；其中，综合性能TopN算法为综合性能排名前N位的算法，即综合性能评分由高到低的前N位算法；

（1）算法组件库；

算法组件库为以微服务架构搭建的算法搭建平台，该平台将主流集成学习算法、传统线性非线性算法、深度学习相关算法，优化算法、时序算法等进行汇总并工程化实现。

算法组件库可通过TPE, Random, Anneal, Evolution, BatchTuner,MetisTuner等优化算法进行模型的自动选型和模型参数的自动调优。算法组件库支持自定义神经网络结构和主流网络结构的选择，自定义网络同样支持自动的选型和参数的自动调优，调整loss、优化器、初始学习率、迭代次数等参数，根据模型的训练，优化其网络结构的定义。

（2）在评估完模型，算法组件库还会对算法的泛用性、鲁棒性、精准度、训练耗时以及搜索参数选择做评分与微调，并计算综合性能评分。在模型训练时，通过TopN评分进行算法推荐，也可通过协同过滤来推荐有相同TopN算法的行业的TopN算法和有不同场景同一行业的其它算法。

如图2所示，在算法组件库进行AutoML之前，会进行对应行业对应场景的算法推荐，每个算法都会有自己对应的评分，包括：泛化能力、鲁棒性、拟合能力、推理耗时、训练耗时及综合性能评分。在一个建模任务到来时，算法组件库会进行协同过滤的推荐，推荐同行业同场景的TopN算法和同行业但不同场景的TOP1算法，随后进行AutoML建模。

（3）对于较为复杂，且需要长期运行的系统，算法组件库可以根据业务数据进行模型树的自动生长，并配合运营人员进行模型树的预剪枝和后剪枝，后续详细描述。

（4）AutoML指不需要人员手动进行模型的选型和参数的调节，自适应地选择合适的模型与参数进行训练。

S3、更新该分类模型的算法对应目标行业的泛化能力、鲁棒性、拟合能力、推理耗时、训练耗时及综合性能评分；

如图3所示，为评分推荐机制，具体地：

泛化能力评分为：通过模型的类型计算r2-Score或accuracy作为分数；

S4、利用分类模型对目标行业对应的全量数据进行初始标注，即诈骗类和正常类的标注，得到正常类样本和诈骗类样本；

S5、在标注完成的全量数据中取部分诈骗类样本和部分正常类样本，分别进行诈骗小类和正常小类的标注；

S6、通过算法组件库进行行业内综合性能TopN算法推荐，随后进行AutoML建模，分别自动建立初始诈骗小类分类模型（简称诈骗小类模型）和初始正常小类分类模型（简称正常小类模型），模型的建立过程具体可参考上述步骤S2；上述小类模型作为模型树的根节点模型；

S7、分别更新对应算法对应行业的泛化能力、鲁棒性、拟合能力、推理耗时、训练耗时及综合性能评分（可参考上述步骤S3）；

S8、利用根节点模型对全量数据进行初始标注，以预测样本类别；

S9、利用测试数据对当前根节点模型进行评估，若精度低于阈值则进行未知诈骗类别分析；

S10、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和Isolation Forest离群点检测；

其中，对于GMM聚类分析：

通过多个高斯模型来拟合数据的分布，从而得到数据的空间分布模型，对数据在距离和分布上进行聚类；

GMM的表达式为：

其中，GMM表达式中各参数的定义可以参考现有技术，在此不赘述。

对于Isolation Forest离群点检测，具体如下：

通过对样本集进行数据空间的切割，通过数据点被“孤立”所需要的最小切割次数进行离群点的检测，具体可以参考现有技术。

S11、如图4所示，对聚类后的每一簇进行分析，进行内聚度和耦合度计算，进行簇的合并，根据每类样本的最大占比簇确定原始类别簇；之后簇中内聚度低于阈值的部分定为困难样本（即Hard examples），对剩余簇进行新类别分析。

具体地，对于内聚度与耦合度：

在进行新类别检测时，期望新的类别簇能与主体簇保持低耦合，并期望其自身能保持高内聚。

耦合度通过计算两个簇的最小外切超球体的交并体积比（iou）：

；

。

其中，S₁为第一个簇的最小外切超球体的体积，S₂为第二个簇的最小外切超球体的体积，S_交为两者相交的部分体积，相交部分体积的计算：

如图5所示，以二维为例：计算相交部分只需计算两边扇形区域之和再减去两边的三角形即可，超球体即为球扇形和圆锥体的体积计算；

内聚度通过超球体内的数据中心点与其余各点的距离均值与样本数量的比值表示。

确定完原始类别的主簇后，若有簇的内聚度还是低于阈值，将该部分样本定为Hard examples，之后用于优化根节点模型。

S12、进行新类别分析，判断最大类别的占比是否小于设定阈值；若是，则进行混合新类别分析，并通过算法组件库建立下层分支模型；若否，则进行边缘新类别分析，并通过算法组件库建立下层分支模型；

具体地，混合新类别和边缘新类别分别对应不同的处理方式：

（I）混合新类别分析时，将当前簇类别定义为混合未知新类别，取当前簇内超过一定数量的小类别对应的簇外样本，与混合未知新类别样本组合，通过算法组件库，自动训练下层分支模型；

（II）边缘新类别分析时，判断当前簇内的样本数量是否在阈值范围内，若是，则进行离群点匹配；当匹配的离群点数量达到目标数量阈值时定义为边缘未知新类别，取当前簇内最大占比的类别，与边缘未知新类别样本组合，通过算法组件库自动训练下层分支模型；即若本簇内的样本数量大于阈值下限，小于阈值上限，进行离群点匹配，按照匹配结果决定是否进行边缘未知新类别的定义，取该簇最大比例类别，与边缘未知新类别样本组合在一起，然后通过算法组件库自动训练下层模型；

另外，在生成模型树之前，进行模型的预剪枝，主要从以下两个方面考虑：

（1）判断模型树下个分支的信息增益。对于增益较小甚至为负的分支进行剪枝；

（2）叶子节点样本数量较少的分支进行剪枝，保证模型的泛化能力。

如图6所示，模型1实现对类别A、类别B、类别C的分类，对于类别A的样本，进入模型2中，进行类别A与类别D的分类，因为信息增益较高，因此保留模型2分支；对于类别B的样本进入模型3中，进行类别B和类别E的分类，而因为其信息增益较低，则去除模型3分支。

本实施例的模型树的管理具体为：

一、同一场景可对应不同模型树的结构，性能优秀的模型树结构可以代表某一场景保留，且可被直接调用；

二、在模型树过于复杂时，可以采用以下方式解决：

1、模型树剪枝；

2、用AutoML里的自定义神经网络，自动拟合当前模型树的输入输出，将其优化为单个全连接神经网络，保留历史模型树版本；

三、每次新建下层分支模型时也可进行特征的降维升维分析，增加模型树的泛化能力和拟合能力。如图7所示，模型树下层分支模型生成流程，每次进行新类别分析后，在生成下层分支模型之前，可以进行数据特征的重新采样，根据每个分支模型的特点获取对应的特征，以此增加模型树的泛化能力与拟合能力。

S13、对下层分支模型进行性能测试，判断性能是否提升；若是，则保存模型树，并对算法组件库的算法进行打分排行及参数搜索空间的校正；

具体地，在模型树建立后，可以统计模型树中的算法评分，校正之前根节点模型的评分，并记录最优搜索空间，传入AutoML模块。

S14、重复上述步骤S9～S13，直至模型树达到精度要求；

本实施例的算法组件库还支持对模型树的管理，如图8所示，模型树中的每个模型，例如：模型1、模型2、模型3，都要通过算法组件库进行AutoML自动建模。算法调度中心会进行训练任务的控制以及模型数据一致性的管理；自动训练器会管理模型的训练优化过程；模型树管理优化中心则会进行模型树的分支生成、性能监控以及性能优化；模型池则会管理所有模型的部署方案生成与工程部署。

S15、定期进行新样本类别确认，并按照新样本类别进行Hard examples的数据标注，并优化根节点模型及其后的所有下层分支模型，对新类别数据进行研判，并对模型树进行后剪枝，具体地，后剪枝的过程包括：

（1）定期进行模型性能的评估，判断模型树的每个分支的信息增益。对于增益较小甚至为负的分支进行剪枝。

（2）对于叶子节点样本数量较少甚至为0和模型树深度较高的分支进行剪枝，保证模型的泛化能力。

S16、在模型树的精度达到要求时，根据模型树的数据源与类别，保留模型树结构与所有模型。

实施例2：

对应于实施例1的基于算法组件库分析的未知诈骗的识别方法，如图9所示，本实施例提供相应的基于算法组件库分析的未知诈骗的识别系统，包括标注模块、算法组件库、测试模块、GMM聚类分析模块、Isolation Forest离群点检测模块和新类别分析模块。

具体地，标注模块用于对目标行业对应的全量数据中的部分诈骗数据和部分正常数据分别进行诈骗类和正常类的标注；

本实施例的算法组件库，包括评分模块、推荐模块和AutoML模块，评分模块用于对算法进行综合性能评分以进行综合性能排名，具体的综合性能评分可以参考实施例1，在此不赘述。

推荐模块用于进行目标行业内综合性能TopN算法推荐；

AutoML模块用于根据推荐的算法进行AutoML建模以建立分类模型。

本实施例的标注模块还用于利用分类模型对目标行业对应的全量数据进行初始标注，即诈骗类和正常类的标注。

本实施例的标注模块还用于在标注完成的全量数据中取部分诈骗类样本和部分正常类样本，分别进行诈骗小类和正常小类的标注；相应地，通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型，作为根节点模型，并利用根节点模型分别对全量数据进行初始标注以预测样本类别；

本实施例的测试模块，用于利用测试数据对根节点模型进行评估，若评估精度低于阈值则进行未知诈骗类别分析；

本实施例的GMM聚类分析模块，用于对测试数据、部分诈骗类样本、部分正常类样本进行GMM聚类分析；

具体地，对于内聚度与耦合度：

；

。

以二维为例：计算相交部分只需计算两边扇形区域之和再减去两边的三角形即可，超球体即为球扇形和圆锥体的体积计算；

本实施例的测试模块，还用于对下层分支模型进行性能测试，判断性能是否提升；若是，则保存模型树。

本实施例的测试模块，还用于测试模型树的精度。即重复上述步骤S9～S13，直至模型树达到精度要求。

本实施例的未知诈骗的识别系统还包括定期检查模块，用于定期进行新样本类别确认，并按照新样本类别进行Hard examples的数据标注，并优化根节点模型及其后的所有下层分支模型，对新类别数据进行研判，并对模型树进行后剪枝，具体地，后剪枝的过程包括：

在模型树的精度达到要求时，根据模型树的数据源与类别，保留模型树结构与所有模型。

以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

Claims

1.基于算法组件库分析的未知诈骗的识别方法，其特征在于，包括以下步骤：

S8、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和IsolationForest离群点检测；

S12、循环上述步骤S8～S11，直至模型树的精度达到要求。

2.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述步骤S2、步骤S5及步骤S10中相应的模型建立之后，还对算法组件库中相应的模型对应的算法的综合性能评分进行更新。

3.根据权利要求2所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述算法的综合性能评分根据算法的泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分计算得到。

4.根据权利要求3所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述泛化能力评分为：通过模型的类型计算r2-Score或accuracy作为分数；

5.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述算法组件库通过TPE、Random、Anneal、Evolution、BatchTuner、MetisTuner中的至少一个优化算法进行模型的自动选型和模型参数的自动调优。

6.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述步骤S10中，混合新类别分析，包括：

7.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述步骤S10中，边缘新类别分析，包括：

8.根据权利要求6或7所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述步骤S10中，还根据下层分支模型的信息增益进行模型的剪枝。

9.根据权利要求6或7所述的基于算法组件库分析的未知诈骗的识别方法，其特征在于，所述步骤S12之后，还包括以下步骤：

10.基于算法组件库分析的未知诈骗的识别系统，应用如权利要求1-9任一项所述的未知诈骗的识别方法，其特征在于，所述未知诈骗的识别系统包括：