CN114549026B - 基于算法组件库分析的未知诈骗的识别方法及系统 - Google Patents

基于算法组件库分析的未知诈骗的识别方法及系统 Download PDF

Info

Publication number
CN114549026B
CN114549026B CN202210440913.XA CN202210440913A CN114549026B CN 114549026 B CN114549026 B CN 114549026B CN 202210440913 A CN202210440913 A CN 202210440913A CN 114549026 B CN114549026 B CN 114549026B
Authority
CN
China
Prior art keywords
model
fraud
samples
component library
algorithm
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210440913.XA
Other languages
English (en)
Other versions
CN114549026A (zh
Inventor
马峰
林建洪
潘昊
赵祥廷
聂宜君
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Ponshine Information Technology Co ltd
Original Assignee
Zhejiang Ponshine Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Ponshine Information Technology Co ltd filed Critical Zhejiang Ponshine Information Technology Co ltd
Priority to CN202210440913.XA priority Critical patent/CN114549026B/zh
Publication of CN114549026A publication Critical patent/CN114549026A/zh
Application granted granted Critical
Publication of CN114549026B publication Critical patent/CN114549026B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/26Government or public services
    • G06Q50/265Personal security, identity or safety

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Tourism & Hospitality (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • General Business, Economics & Management (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Educational Administration (AREA)
  • Computer Security & Cryptography (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于算法组件库分析的未知诈骗识别方法及系统,方法包括:采集部分诈骗数据和部分正常数据,分别进行诈骗类和正常类的标注;通过算法组件库进行综合性能TopN算法推荐,之后进行AutoML建模以建立分类模型;利用分类模型对目标行业对应的全量数据进行初始标注;在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;通过算法组件库建立诈骗小类分类模型和正常小类分类模型,作为根节点模型,并对全量数据进行初始标注以预测样本类别;利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析。本发明可自动进行模型选型,模型调优和模型的部署。

Description

基于算法组件库分析的未知诈骗的识别方法及系统
技术领域
本发明属于电信反诈及机器学习技术领域,具体涉及基于算法组件库分析的未知诈骗的识别方法及系统。
背景技术
随着通信及互联网企业的业务规模不断扩大,电信安全风险也在不断增加,电信诈骗趋于规模化、团体化、复杂化。由于各种新型的诈骗手段层出不穷,识别新型诈骗与未知诈骗成为较难攻克的难题。
针对目前算法组件库与人工智能的发展,如何动态更新研判模型,及时发现未知诈骗,减少损失,是当前亟需解决的难题。
发明内容
基于现有技术中存在的上述缺点和不足,本发明的目的是提供基于算法组件库分析的未知诈骗的识别方法及系统。
为了达到上述发明目的,本发明采用以下技术方案:
基于算法组件库分析的未知诈骗的识别方法,包括以下步骤:
S1、采集目标行业对应的全量数据中的部分诈骗数据和部分正常数据,分别进行诈骗类和正常类的标注;
S2、通过算法组件库进行目标行业内综合性能TopN算法推荐,之后进行AutoML建模以建立分类模型;其中,综合性能TopN算法为综合性能排名前N位的算法;
S3、利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注;
S4、在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;
S5、通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型,作为根节点模型;
S6、利用根节点模型对全量数据进行初始标注以预测样本类别;
S7、利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析;
S8、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和Isolation Forest离群点检测;
S9、对GMM聚类后的每一簇进行内聚度和耦合度的计算,之后根据内聚度和耦合度进行簇的合并,对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断,若是,则相应簇的样本为困难样本;若否,则对相应簇进行新类别分析,转至步骤S10;
S10、判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;
S11、对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树;
S12、循环上述步骤S8~S11,直至模型树的精度达到要求。
作为优选方案,所述步骤S2、步骤S5及步骤S10中相应的模型建立之后,还对算法组件库中相应的模型对应的算法的综合性能评分进行更新。
作为优选方案,所述算法的综合性能评分根据算法的泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分计算得到。
作为优选方案,所述泛化能力评分为:通过模型的类型计算r2-Score或accuracy作为分数;
鲁棒性评分为:通过模型的指标变化方差和训练超调之和为m,取所有算法中最小m为m0,比值m0/m作为分数;
拟合能力评分为:通过计算模型达到指定指标所花费的最小时间为p,取所有算法中最小p为p0,比值p0/p作为分数;
推理耗时评分为:通过模型推理的时间为q,取所有算法中的最小q为q0,比值q0/q作为分数;
训练耗时评分为:通过模型训练的每次trial合在一起的时间为s,取所有算法中最小s为s0,s0/s作为分数;
算法的综合性能评分为泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分的加权平均。
作为优选方案,所述算法组件库通过TPE、Random、Anneal、Evolution、BatchTuner、MetisTuner中的至少一个优化算法进行模型的自动选型和模型参数的自动调优。
作为优选方案,所述步骤S10中,混合新类别分析,包括:
将当前簇类别定义为混合未知新类别,取当前簇内超过一定数量的小类别对应的簇外样本,与混合未知新类别样本组合,通过算法组件库自动训练下层分支模型。
作为优选方案,所述步骤S10中,边缘新类别分析,包括:
判断当前簇内的样本数量是否在阈值范围内,若是,则进行离群点匹配; 当匹配的离群点数量达到目标数量阈值时定义为边缘未知新类别,取当前簇内最大占比的类别,与边缘未知新类别样本组合,通过算法组件库自动训练下层分支模型。
作为优选方案,所述步骤S10中,还根据下层分支模型的信息增益进行模型的剪枝。
作为优选方案,所述步骤S12之后,还包括以下步骤:
S13、定期进行新样本类别确认,并按照新样本类别进行困难样本的数据标注,并优化根节点模型及其下层分支模型,对新类别数据进行研判,并对模型树进行剪枝。
本发明还提供基于算法组件库分析的未知诈骗的识别系统,应用如上任一方案所述的未知诈骗的识别方法,所述未知诈骗的识别系统包括:
标注模块,用于对目标行业对应的全量数据中的部分诈骗数据和部分正常数据分别进行诈骗类和正常类的标注;
算法组件库,包括评分模块、推荐模块和AutoML模块,评分模块用于对算法进行综合性能评分以进行综合性能排名,推荐模块用于进行目标行业内综合性能TopN算法推荐;AutoML模块用于根据推荐的算法进行AutoML建模以建立分类模型;
标注模块还用于利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注;还用于在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;相应地,通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型,作为根节点模型,并利用根节点模型分别对全量数据进行初始标注以预测样本类别;
测试模块,用于利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析;
GMM聚类分析模块,用于对测试数据、部分诈骗类样本、部分正常类样本进行GMM聚类分析;
Isolation Forest离群点检测模块,用于对测试数据、部分诈骗类样本、部分正常类样本进行Isolation Forest离群点检测;
新类别分析模块,用于对GMM聚类后的每一簇进行内聚度和耦合度的计算,之后根据内聚度和耦合度进行簇的合并,对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断,若是,则相应簇的样本为困难样本;若否,则对相应簇进行新类别分析;新类别分析过程中,判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;
测试模块,还用于对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树;还用于测试模型树的精度。
本发明与现有技术相比,有益效果是:
(1)本发明的算法组件库可以自动进行模型选型,模型调优和模型的部署,为模型的自动化训练做支撑;
(2)本发明采用聚类配合异常点检测进行新类别的定位与确认,并通过算法组件库进行新模型的训练;
本发明提出了模型树的电信诈骗研判模式,根据不同的电信诈骗领域和不同地区的数据,都可以自动生成提供不同的模型树,细化模型研判路径,增加模型的鲁棒性和泛化能力。
附图说明
图1是本发明实施例1的基于算法组件库分析的未知诈骗的识别方法的流程图;
图2是本发明实施例1的算法组件库的构架;
图3是本发明实施例1的算法组件库评分推荐机制图;
图4是本发明实施例1的簇合并以及样本分析流程图;
图5是本发明实施例1的两个簇相交的示意图;
图6是本发明实施例1的剪枝示意图;
图7是本发明实施例1的模型树的下层分支模型的生成流程图;
图8是本发明实施例1的模型树的管理构架图;
图9是本发明实施例2的基于算法组件库分析的未知诈骗的识别系统的构架图。
具体实施方式
为了更清楚地说明本发明实施例,下面将对照附图说明本发明的具体实施方式。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。
实施例1:
如图1所示,本实施例的基于算法组件库分析的未知诈骗的识别方法,包括以下步骤:
S1、采集目标行业对应的全量数据(又称全量样本)中的部分诈骗数据和部分正常数据,分别进行诈骗类和正常类的标注;
S2、通过算法组件库进行目标行业内综合性能TopN算法推荐,之后进行AutoML建模以建立分类模型(又称大类模型);其中,综合性能TopN算法为综合性能排名前N位的算法,即综合性能评分由高到低的前N位算法;
(1)算法组件库;
算法组件库为以微服务架构搭建的算法搭建平台,该平台将主流集成学习算法、传统线性非线性算法、深度学习相关算法,优化算法、时序算法等进行汇总并工程化实现。
算法组件库可通过TPE, Random, Anneal, Evolution, BatchTuner,MetisTuner等优化算法进行模型的自动选型和模型参数的自动调优。算法组件库支持自定义神经网络结构和主流网络结构的选择,自定义网络同样支持自动的选型和参数的自动调优,调整loss、优化器、初始学习率、迭代次数等参数,根据模型的训练,优化其网络结构的定义。
(2)在评估完模型,算法组件库还会对算法的泛用性、鲁棒性、精准度、训练耗时以及搜索参数选择做评分与微调,并计算综合性能评分。在模型训练时,通过TopN评分进行算法推荐,也可通过协同过滤来推荐有相同TopN算法的行业的TopN算法和有不同场景同一行业的其它算法。
如图2所示,在算法组件库进行AutoML之前,会进行对应行业对应场景的算法推荐,每个算法都会有自己对应的评分,包括:泛化能力、鲁棒性、拟合能力、推理耗时、训练耗时及综合性能评分。在一个建模任务到来时,算法组件库会进行协同过滤的推荐,推荐同行业同场景的TopN算法和同行业但不同场景的TOP1算法,随后进行AutoML建模。
(3)对于较为复杂,且需要长期运行的系统,算法组件库可以根据业务数据进行模型树的自动生长,并配合运营人员进行模型树的预剪枝和后剪枝,后续详细描述。
(4)AutoML指不需要人员手动进行模型的选型和参数的调节,自适应地选择合适的模型与参数进行训练。
S3、更新该分类模型的算法对应目标行业的泛化能力、鲁棒性、拟合能力、推理耗时、训练耗时及综合性能评分;
如图3所示,为评分推荐机制,具体地:
泛化能力评分为:通过模型的类型计算r2-Score或accuracy作为分数;
鲁棒性评分为:通过模型的指标变化方差和训练超调之和为m,取所有算法中最小m为m0,比值m0/m作为分数;
拟合能力评分为:通过计算模型达到指定指标所花费的最小时间为p,取所有算法中最小p为p0,比值p0/p作为分数;
推理耗时评分为:通过模型推理的时间为q,取所有算法中的最小q为q0,比值q0/q作为分数;
训练耗时评分为:通过模型训练的每次trial合在一起的时间为s,取所有算法中最小s为s0,s0/s作为分数;
算法的综合性能评分为泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分的加权平均。
S4、利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注,得到正常类样本和诈骗类样本;
S5、在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;
S6、通过算法组件库进行行业内综合性能TopN算法推荐,随后进行AutoML建模,分别自动建立初始诈骗小类分类模型(简称诈骗小类模型)和初始正常小类分类模型(简称正常小类模型),模型的建立过程具体可参考上述步骤S2;上述小类模型作为模型树的根节点模型;
S7、分别更新对应算法对应行业的泛化能力、鲁棒性、拟合能力、推理耗时、训练耗时及综合性能评分(可参考上述步骤S3);
S8、利用根节点模型对全量数据进行初始标注,以预测样本类别;
S9、利用测试数据对当前根节点模型进行评估,若精度低于阈值则进行未知诈骗类别分析;
S10、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和Isolation Forest离群点检测;
其中,对于GMM聚类分析:
通过多个高斯模型来拟合数据的分布,从而得到数据的空间分布模型,对数据在距离和分布上进行聚类;
GMM的表达式为:
Figure 887380DEST_PATH_IMAGE001
其中,GMM表达式中各参数的定义可以参考现有技术,在此不赘述。
对于Isolation Forest离群点检测,具体如下:
通过对样本集进行数据空间的切割,通过数据点被“孤立”所需要的最小切割次数进行离群点的检测,具体可以参考现有技术。
S11、如图4所示,对聚类后的每一簇进行分析,进行内聚度和耦合度计算,进行簇的合并,根据每类样本的最大占比簇确定原始类别簇;之后簇中内聚度低于阈值的部分定为困难样本(即Hard examples),对剩余簇进行新类别分析。
具体地,对于内聚度与耦合度:
在进行新类别检测时,期望新的类别簇能与主体簇保持低耦合,并期望其自身能保持高内聚。
耦合度通过计算两个簇的最小外切超球体的交并体积比(iou):
Figure 951151DEST_PATH_IMAGE002
Figure 681210DEST_PATH_IMAGE003
其中,S1为第一个簇的最小外切超球体的体积,S2为第二个簇的最小外切超球体的体积,S为两者相交的部分体积,相交部分体积的计算:
如图5所示,以二维为例:计算相交部分只需计算两边扇形区域之和再减去两边的三角形即可,超球体即为球扇形和圆锥体的体积计算;
内聚度通过超球体内的数据中心点与其余各点的距离均值与样本数量的比值表示。
确定完原始类别的主簇后,若有簇的内聚度还是低于阈值,将该部分样本定为Hard examples,之后用于优化根节点模型。
S12、进行新类别分析,判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;
具体地,混合新类别和边缘新类别分别对应不同的处理方式:
(I)混合新类别分析时,将当前簇类别定义为混合未知新类别,取当前簇内超过一定数量的小类别对应的簇外样本,与混合未知新类别样本组合,通过算法组件库,自动训练下层分支模型;
(II)边缘新类别分析时,判断当前簇内的样本数量是否在阈值范围内,若是,则进行离群点匹配; 当匹配的离群点数量达到目标数量阈值时定义为边缘未知新类别,取当前簇内最大占比的类别,与边缘未知新类别样本组合,通过算法组件库自动训练下层分支模型;即若本簇内的样本数量大于阈值下限,小于阈值上限,进行离群点匹配,按照匹配结果决定是否进行边缘未知新类别的定义,取该簇最大比例类别,与边缘未知新类别样本组合在一起,然后通过算法组件库自动训练下层模型;
另外,在生成模型树之前,进行模型的预剪枝,主要从以下两个方面考虑:
(1)判断模型树下个分支的信息增益。对于增益较小甚至为负的分支进行剪枝;
(2)叶子节点样本数量较少的分支进行剪枝,保证模型的泛化能力。
如图6所示,模型1实现对类别A、类别B、类别C的分类,对于类别A的样本,进入模型2中,进行类别A与类别D的分类,因为信息增益较高,因此保留模型2分支;对于类别B的样本进入模型3中,进行类别B和类别E的分类,而因为其信息增益较低,则去除模型3分支。
本实施例的模型树的管理具体为:
一、同一场景可对应不同模型树的结构,性能优秀的模型树结构可以代表某一场景保留,且可被直接调用;
二、在模型树过于复杂时,可以采用以下方式解决:
1、模型树剪枝;
2、用AutoML里的自定义神经网络,自动拟合当前模型树的输入输出,将其优化为单个全连接神经网络,保留历史模型树版本;
三、每次新建下层分支模型时也可进行特征的降维升维分析,增加模型树的泛化能力和拟合能力。如图7所示,模型树下层分支模型生成流程,每次进行新类别分析后,在生成下层分支模型之前,可以进行数据特征的重新采样,根据每个分支模型的特点获取对应的特征,以此增加模型树的泛化能力与拟合能力。
S13、对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树,并对算法组件库的算法进行打分排行及参数搜索空间的校正;
具体地,在模型树建立后,可以统计模型树中的算法评分,校正之前根节点模型的评分,并记录最优搜索空间,传入AutoML模块。
S14、重复上述步骤S9~S13,直至模型树达到精度要求;
本实施例的算法组件库还支持对模型树的管理,如图8所示,模型树中的每个模型,例如:模型1、模型2、模型3,都要通过算法组件库进行AutoML自动建模。算法调度中心会进行训练任务的控制以及模型数据一致性的管理;自动训练器会管理模型的训练优化过程;模型树管理优化中心则会进行模型树的分支生成、性能监控以及性能优化;模型池则会管理所有模型的部署方案生成与工程部署。
S15、定期进行新样本类别确认,并按照新样本类别进行Hard examples的数据标注,并优化根节点模型及其后的所有下层分支模型,对新类别数据进行研判,并对模型树进行后剪枝,具体地,后剪枝的过程包括:
(1)定期进行模型性能的评估,判断模型树的每个分支的信息增益。对于增益较小甚至为负的分支进行剪枝。
(2)对于叶子节点样本数量较少甚至为0和模型树深度较高的分支进行剪枝,保证模型的泛化能力。
S16、在模型树的精度达到要求时,根据模型树的数据源与类别,保留模型树结构与所有模型。
实施例2:
对应于实施例1的基于算法组件库分析的未知诈骗的识别方法,如图9所示,本实施例提供相应的基于算法组件库分析的未知诈骗的识别系统,包括标注模块、算法组件库、测试模块、GMM聚类分析模块、Isolation Forest离群点检测模块和新类别分析模块。
具体地,标注模块用于对目标行业对应的全量数据中的部分诈骗数据和部分正常数据分别进行诈骗类和正常类的标注;
本实施例的算法组件库,包括评分模块、推荐模块和AutoML模块,评分模块用于对算法进行综合性能评分以进行综合性能排名,具体的综合性能评分可以参考实施例1,在此不赘述。
推荐模块用于进行目标行业内综合性能TopN算法推荐;
AutoML模块用于根据推荐的算法进行AutoML建模以建立分类模型。
本实施例的标注模块还用于利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注。
本实施例的标注模块还用于在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;相应地,通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型,作为根节点模型,并利用根节点模型分别对全量数据进行初始标注以预测样本类别;
本实施例的测试模块,用于利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析;
本实施例的GMM聚类分析模块,用于对测试数据、部分诈骗类样本、部分正常类样本进行GMM聚类分析;
Isolation Forest离群点检测模块,用于对测试数据、部分诈骗类样本、部分正常类样本进行Isolation Forest离群点检测;
新类别分析模块,用于对GMM聚类后的每一簇进行内聚度和耦合度的计算,之后根据内聚度和耦合度进行簇的合并,对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断,若是,则相应簇的样本为困难样本;若否,则对相应簇进行新类别分析;新类别分析过程中,判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;
具体地,对于内聚度与耦合度:
在进行新类别检测时,期望新的类别簇能与主体簇保持低耦合,并期望其自身能保持高内聚。
耦合度通过计算两个簇的最小外切超球体的交并体积比(iou):
Figure 631980DEST_PATH_IMAGE002
Figure 359764DEST_PATH_IMAGE003
其中,S1为第一个簇的最小外切超球体的体积,S2为第二个簇的最小外切超球体的体积,S为两者相交的部分体积,相交部分体积的计算:
以二维为例:计算相交部分只需计算两边扇形区域之和再减去两边的三角形即可,超球体即为球扇形和圆锥体的体积计算;
内聚度通过超球体内的数据中心点与其余各点的距离均值与样本数量的比值表示。
确定完原始类别的主簇后,若有簇的内聚度还是低于阈值,将该部分样本定为Hard examples,之后用于优化根节点模型。
本实施例的测试模块,还用于对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树。
本实施例的测试模块,还用于测试模型树的精度。即重复上述步骤S9~S13,直至模型树达到精度要求。
本实施例的算法组件库还支持对模型树的管理,如图8所示,模型树中的每个模型,例如:模型1、模型2、模型3,都要通过算法组件库进行AutoML自动建模。算法调度中心会进行训练任务的控制以及模型数据一致性的管理;自动训练器会管理模型的训练优化过程;模型树管理优化中心则会进行模型树的分支生成、性能监控以及性能优化;模型池则会管理所有模型的部署方案生成与工程部署。
本实施例的未知诈骗的识别系统还包括定期检查模块,用于定期进行新样本类别确认,并按照新样本类别进行Hard examples的数据标注,并优化根节点模型及其后的所有下层分支模型,对新类别数据进行研判,并对模型树进行后剪枝,具体地,后剪枝的过程包括:
(1)定期进行模型性能的评估,判断模型树的每个分支的信息增益。对于增益较小甚至为负的分支进行剪枝。
(2)对于叶子节点样本数量较少甚至为0和模型树深度较高的分支进行剪枝,保证模型的泛化能力。
在模型树的精度达到要求时,根据模型树的数据源与类别,保留模型树结构与所有模型。
以上所述仅是对本发明的优选实施例及原理进行了详细说明,对本领域的普通技术人员而言,依据本发明提供的思想,在具体实施方式上会有改变之处,而这些改变也应视为本发明的保护范围。

Claims (8)

1.基于算法组件库分析的未知诈骗的识别方法,其特征在于,包括以下步骤:
S1、采集目标行业对应的全量数据中的部分诈骗数据和部分正常数据,分别进行诈骗类和正常类的标注;
S2、通过算法组件库进行目标行业内综合性能TopN算法推荐,之后进行AutoML建模以建立分类模型;其中,综合性能TopN算法为综合性能排名前N位的算法;
S3、利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注;
S4、在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;
S5、通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型,作为根节点模型;
S6、利用根节点模型对全量数据进行初始标注以预测样本类别;
S7、利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析;
S8、对测试数据、部分诈骗类样本、部分正常类样本分别进行GMM聚类分析和IsolationForest离群点检测;
S9、对GMM聚类后的每一簇进行内聚度和耦合度的计算,之后根据内聚度和耦合度进行簇的合并,对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断,若是,则相应簇的样本为困难样本;若否,则对相应簇进行新类别分析,转至步骤S10;
S10、判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;
其中,混合新类别分析,包括:
将当前簇类别定义为混合未知新类别,取当前簇内超过一定数量的小类别对应的簇外样本,与混合未知新类别样本组合,通过算法组件库自动训练下层分支模型;
边缘新类别分析,包括:
判断当前簇内的样本数量是否在阈值范围内,若是,则进行离群点匹配; 当匹配的离群点数量达到目标数量阈值时定义为边缘未知新类别,取当前簇内最大占比的类别,与边缘未知新类别样本组合,通过算法组件库自动训练下层分支模型;
S11、对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树;
S12、循环上述步骤S8~S11,直至模型树的精度达到要求。
2.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述步骤S2、步骤S5及步骤S10中相应的模型建立之后,还对算法组件库中相应的模型对应的算法的综合性能评分进行更新。
3.根据权利要求2所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述算法的综合性能评分根据算法的泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分计算得到。
4.根据权利要求3所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述泛化能力评分为:通过模型的类型计算r2-Score或accuracy作为分数;
鲁棒性评分为:通过模型的指标变化方差和训练超调之和为m,取所有算法中最小m为m0,比值m0/m作为分数;
拟合能力评分为:通过计算模型达到指定指标所花费的最小时间为p,取所有算法中最小p为p0,比值p0/p作为分数;
推理耗时评分为:通过模型推理的时间为q,取所有算法中的最小q为q0,比值q0/q作为分数;
训练耗时评分为:通过模型训练的每次trial合在一起的时间为s,取所有算法中最小s为s0,s0/s作为分数;
算法的综合性能评分为泛化能力评分、鲁棒性评分、拟合能力评分、推理耗时评分和训练耗时评分的加权平均。
5.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述算法组件库通过TPE、Random、Anneal、Evolution、BatchTuner、MetisTuner中的至少一个优化算法进行模型的自动选型和模型参数的自动调优。
6.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述步骤S10中,还根据下层分支模型的信息增益进行模型的剪枝。
7.根据权利要求1所述的基于算法组件库分析的未知诈骗的识别方法,其特征在于,所述步骤S12之后,还包括以下步骤:
S13、定期进行新样本类别确认,并按照新样本类别进行困难样本的数据标注,并优化根节点模型及其下层分支模型,对新类别数据进行研判,并对模型树进行剪枝。
8.基于算法组件库分析的未知诈骗的识别系统,应用如权利要求1-7任一项所述的未知诈骗的识别方法,其特征在于,所述未知诈骗的识别系统包括:
标注模块,用于对目标行业对应的全量数据中的部分诈骗数据和部分正常数据分别进行诈骗类和正常类的标注;
算法组件库,包括评分模块、推荐模块和AutoML模块,评分模块用于对算法进行综合性能评分以进行综合性能排名,推荐模块用于进行目标行业内综合性能TopN算法推荐;AutoML模块用于根据推荐的算法进行AutoML建模以建立分类模型;
标注模块还用于利用分类模型对目标行业对应的全量数据进行初始标注,即诈骗类和正常类的标注;还用于在标注完成的全量数据中取部分诈骗类样本和部分正常类样本,分别进行诈骗小类和正常小类的标注;相应地,通过算法组件库分别建立初始诈骗小类分类模型和初始正常小类分类模型,作为根节点模型,并利用根节点模型分别对全量数据进行初始标注以预测样本类别;
测试模块,用于利用测试数据对根节点模型进行评估,若评估精度低于阈值则进行未知诈骗类别分析;
GMM聚类分析模块,用于对测试数据、部分诈骗类样本、部分正常类样本进行GMM聚类分析;
Isolation Forest离群点检测模块,用于对测试数据、部分诈骗类样本、部分正常类样本进行Isolation Forest离群点检测;
新类别分析模块,用于对GMM聚类后的每一簇进行内聚度和耦合度的计算,之后根据内聚度和耦合度进行簇的合并,对合并后的各个簇根据每类样本的最大占比簇确定原始类别簇并对其余簇分别进行内聚度是否低于阈值的判断,若是,则相应簇的样本为困难样本;若否,则对相应簇进行新类别分析;新类别分析过程中,判断最大类别的占比是否小于设定阈值;若是,则进行混合新类别分析,并通过算法组件库建立下层分支模型;若否,则进行边缘新类别分析,并通过算法组件库建立下层分支模型;其中,混合新类别分析包括:将当前簇类别定义为混合未知新类别,取当前簇内超过一定数量的小类别对应的簇外样本,与混合未知新类别样本组合,通过算法组件库自动训练下层分支模型;边缘新类别分析包括:判断当前簇内的样本数量是否在阈值范围内,若是,则进行离群点匹配;当匹配的离群点数量达到目标数量阈值时定义为边缘未知新类别,取当前簇内最大占比的类别,与边缘未知新类别样本组合,通过算法组件库自动训练下层分支模型;
测试模块,还用于对下层分支模型进行性能测试,判断性能是否提升;若是,则保存模型树;还用于测试模型树的精度。
CN202210440913.XA 2022-04-26 2022-04-26 基于算法组件库分析的未知诈骗的识别方法及系统 Active CN114549026B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210440913.XA CN114549026B (zh) 2022-04-26 2022-04-26 基于算法组件库分析的未知诈骗的识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210440913.XA CN114549026B (zh) 2022-04-26 2022-04-26 基于算法组件库分析的未知诈骗的识别方法及系统

Publications (2)

Publication Number Publication Date
CN114549026A CN114549026A (zh) 2022-05-27
CN114549026B true CN114549026B (zh) 2022-07-19

Family

ID=81667046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210440913.XA Active CN114549026B (zh) 2022-04-26 2022-04-26 基于算法组件库分析的未知诈骗的识别方法及系统

Country Status (1)

Country Link
CN (1) CN114549026B (zh)

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015527660A (ja) * 2012-07-24 2015-09-17 デロイッテ・ディベロップメント・エルエルシー フロード検出システム方法および装置
CN108038413A (zh) * 2017-11-02 2018-05-15 平安科技(深圳)有限公司 欺诈可能性分析方法、装置及存储介质
CN109447180A (zh) * 2018-11-14 2019-03-08 山东省通信管理局 一种基于大数据和机器学习的电信诈骗上当人发现方法
CN109918511B (zh) * 2019-01-29 2021-06-08 华融融通(北京)科技有限公司 一种基于bfs和lpa的知识图谱反欺诈特征提取方法
CN113129028A (zh) * 2020-01-10 2021-07-16 联洋国融(北京)科技有限公司 一种基于时序神经网络模型的欺诈用户检测系统
EP3866087A1 (en) * 2020-02-12 2021-08-18 KBC Groep NV Method, use thereoff, computer program product and system for fraud detection
CN111833175A (zh) * 2020-06-03 2020-10-27 百维金科(上海)信息科技有限公司 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN112001788B (zh) * 2020-08-21 2024-02-09 东北大学 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
CN112036497A (zh) * 2020-09-02 2020-12-04 中国平安财产保险股份有限公司 欺诈案件识别模型的训练方法、装置和计算机设备
CN112506983A (zh) * 2020-09-18 2021-03-16 上海欣方智能系统有限公司 一种基于大数据支撑的反欺诈方法
CN112463923B (zh) * 2020-11-25 2023-04-28 平安科技(深圳)有限公司 用户欺诈行为检测方法、装置、设备及存储介质
CN112464058B (zh) * 2020-11-30 2024-08-20 上海欣方智能系统有限公司 一种基于XGBoost算法的电信互联网诈骗识别方法
CN112560921A (zh) * 2020-12-10 2021-03-26 百维金科(上海)信息科技有限公司 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法
CN112950231A (zh) * 2021-03-19 2021-06-11 广州瀚信通信科技股份有限公司 一种基于XGBoost算法的异常用户识别方法、设备及计算机可读存储介质
CN113344589B (zh) * 2021-05-12 2022-10-21 兰州理工大学 一种基于vaegmm模型的发电企业串谋行为的智能识别方法
CN113344562B (zh) * 2021-08-09 2021-11-02 四川大学 基于深度神经网络的以太坊钓鱼诈骗账户检测方法与装置
CN114140246A (zh) * 2021-12-07 2022-03-04 中国工商银行股份有限公司 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN114205462A (zh) * 2021-12-14 2022-03-18 王晨 一种诈骗电话识别方法、装置、系统及计算机存储介质
CN114066490B (zh) * 2022-01-17 2022-04-29 浙江鹏信信息科技股份有限公司 一种GoIP诈骗窝点的识别方法、系统及计算机可读存储介质

Also Published As

Publication number Publication date
CN114549026A (zh) 2022-05-27

Similar Documents

Publication Publication Date Title
CN111563706A (zh) 一种基于lstm网络的多变量物流货运量预测方法
CN115829120A (zh) 基于机器学习方法的水质预测预警系统
Salehi et al. A novel method to extend SAW for decision-making problems with interval data
CN113435707B (zh) 基于深度学习和计权型多因子评价的测土配方施肥方法
CN117610435B (zh) 土木建筑施工混合材料自动配比方法及系统
García‐Hernández et al. Facility layout design using a multi‐objective interactive genetic algorithm to support the DM
CN109472088A (zh) 一种页岩气调产井生产压力动态预测方法
CN117787569B (zh) 一种智能辅助评标方法及系统
CN111461466A (zh) 基于lstm时间序列的供暖户阀调节方法、系统及设备
CN117669895A (zh) 公路工程环境影响评估系统
CN117952009A (zh) 一种智能产线可试验数字孪生体建模方法
CN117892887A (zh) 基于大数据的土地利用优化系统
CN109087146A (zh) 影院票房收入的预测方法及系统
CN110751176A (zh) 一种基于决策树算法的湖泊水质预测方法
CN114219370B (zh) 一种基于社交网络的河流水质多维影响因素权重分析方法
CN106845696B (zh) 一种智能优化水资源配置方法
CN116307927A (zh) 一种基于人流预测的生活圈规划合理性评估方法及系统
CN114548494A (zh) 一种可视化造价数据预测智能分析系统
CN117952286A (zh) 一种智能道路施工计划调整系统
CN114549026B (zh) 基于算法组件库分析的未知诈骗的识别方法及系统
CN112767126A (zh) 基于大数据的抵押物评级方法和装置
Noor et al. Prediction map of rainfall classification using random forest and inverse distance weighted (IDW)
CN111369124A (zh) 一种基于自生成全局特征和注意力的图像美学预测方法
CN116167254A (zh) 基于城市大数据的多维城市仿真推演方法和系统
CN113934780A (zh) 一种基于数据中台的资产管理系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant