CN112200272B - 业务分类方法及装置 - Google Patents

业务分类方法及装置 Download PDF

Info

Publication number
CN112200272B
CN112200272B CN202011413056.1A CN202011413056A CN112200272B CN 112200272 B CN112200272 B CN 112200272B CN 202011413056 A CN202011413056 A CN 202011413056A CN 112200272 B CN112200272 B CN 112200272B
Authority
CN
China
Prior art keywords
feature
feature set
characteristic
model
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011413056.1A
Other languages
English (en)
Other versions
CN112200272A (zh
Inventor
顾凌云
谢旻旗
段湾
乔韵如
王震宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai IceKredit Inc
Original Assignee
Shanghai IceKredit Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai IceKredit Inc filed Critical Shanghai IceKredit Inc
Priority to CN202011413056.1A priority Critical patent/CN112200272B/zh
Publication of CN112200272A publication Critical patent/CN112200272A/zh
Application granted granted Critical
Publication of CN112200272B publication Critical patent/CN112200272B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供一种业务分类方法及装置,通过对未进入业务分类模型的特征进行进一步的特征衍生,从而通过筛选获得具有新的含义且更利于模型计算的衍生特征集合,从而进一步挖掘衍生特征的数据价值,为业务分类模型补充数据维度和属性信息,提高业务分类模型的实际分类效果及稳定性。

Description

业务分类方法及装置
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种业务分类方法及装置。
背景技术
在常规的风控业务场景中,根据特征的数据属性和来源,通常将衍生方法分为两类。
第一类、基于用户的固有性质和特点数据,可以直接解析衍生出可用于量化描述或分类的特征,例如根据身份、教育、工作等申请表信息,可直接解析出年龄、性别、籍贯所在地、运营商类别、毕业学校类型、工作年限、工作属性等衍生特征;
第二类、基于用户属性、行为或者信用评分数据(例如,人行数据、合法授权的运营商详单数据、历史借贷行为数据等),结合实际业务逻辑,进行数学变换、特征交叉与组合、分箱等计算,衍生得到新的特征,例如根据运营商详单数据,可依据时间或空间的角度衍生计算出各种统计量作为特征,也可结合时间、空间、属性等维度进行交叉或组合计算衍生得到新的特征。
然而,发明人研究发现,现有特征衍生方法,由于在结合时间、空间、属性等维度的基础上,使用了数学变换、交叉与组合、分箱等衍生方法,导致最终获得的备选特征数量较多,数据信息分散在众多备选特征中。但受限于实际业务分类模型构建过程中对特征显著性、共线性和增益程度的要求,很多具有较好趋势或业务含义的特征难以入选模型,这使得最终业务分类模型在使用的数据维度和信息上有所损失,最终影响业务分类模型的实际分类效果及稳定性。
发明内容
基于现有设计的不足,本申请提供一种业务分类方法及装置,通过对未进入业务分类模型的特征进行进一步的特征衍生,从而通过筛选获得具有新的含义且更利于模型计算的衍生特征集合,从而进一步挖掘衍生特征的数据价值,为业务分类模型补充数据维度和属性信息,提高业务分类模型的实际分类效果及稳定性。
根据本申请的第一方面,提供一种业务分类方法,应用于服务器,所述方法包括:
对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合,其中,所述建模样本集包括训练样本集和测试样本集,所述第一特征集合包括所述训练样本集对应的第一训练特征集合;
对所述训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入所述第一业务分类模型的第二特征集合和未进入所述第一业务分类模型的第三特征集合;
筛选出所述第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对所述第一备选特征集进行模型拟合,输出所述机器学习模型的概率值,作为第一衍生特征集合;
根据所述第三特征集合对所述建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合;
根据所述第一衍生特征集合和所述第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
在第一方面的一种可能的实施方式中,所述对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合的步骤,包括:
根据所述建模样本集的各维度数据的属性和来源,对所述建模样本集的各维度数据进行特征工程处理,获得第一特征集合,其中,所述特征工程处理包括解析衍生处理、数学变换处理、特征交叉与组合处理、分箱衍生处理中的一种或者多种的组合。
在第一方面的一种可能的实施方式中,所述对所述训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入所述第一业务分类模型的第二特征集合和未进入所述第一业务分类模型的第三特征集合的步骤,包括:
计算所述训练样本集对应的第一训练特征集合中每个训练特征的重要性程度,并选择重要性程度大于预设阈值的训练特征作为进入所述第一业务分类模型的第二特征集合,将重要性程度不大于预设阈值的训练特征作为未进入所述第一业务分类模型的第三特征集合;
根据所述第二特征集合进行模型构建,获得AUC数值和KS数值最高的第一业务分类模型。
在第一方面的一种可能的实施方式中,所述筛选出所述第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对所述第一备选特征集进行模型拟合,输出所述机器学习模型的概率值,作为第一衍生特征集合的步骤,包括:
对所述第三特征集合进行特征性能评估分析,获得所述第三特征集合的特征性能评估值,并将特征性能评估值大于预设评估值的特征确定为备选特征;
对所述第三特征集合进行业务逻辑分析,选择满足以下至少一种条件的特征作为备选特征:特征取值与业务统计率的关系,呈现单调递增或单调递减的趋势,且所述单调递增或单调递减的趋势的幅度满足预设幅度条件的特征、特征取值与业务统计率的关系在特征取值的不同分箱上的业务统计率差异大于预设差异的特征、被预先定义为对正标签和负标签具有区分效果的特征;
将选择的所有备选特征构建为第一备选特征集,并使用不同的机器学习模型对第一备选特征集进行拟合,获得不同的机器学习模型对输出的概率值,作为所述第一衍生特征集合。
在第一方面的一种可能的实施方式中,所述根据所述第三特征集合对所述建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合的步骤,包括:
对所述第三特征集合进行特征性能评估分析,获得所述第三特征集合的特征性能评估值,并将特征性能评估值小于预设评估值的特征确定为剔除特征;
对所述第三特征集合进行业务逻辑分析,选择特征取值与业务统计率的关系与预设业务逻辑相反的特征作为剔除特征;
从所述第三特征集合中剔除所有选择的剔除特征,得到第二备选特征集;
使用所述第二备选特征集,对所述训练样本集进行K-means聚类分析,根据预先选定的聚类数量确定聚类质心,分别计算所述训练样本集各训练样本到每个质心之间的距离信息,并将所述距离信息确定为所述第二衍生特征集合,其中,所述距离信息包括欧式距离、曼哈顿距离、切比雪夫距离、余弦距离、标准化欧式距离中的一种。
在第一方面的一种可能的实施方式中,所述根据所述第一衍生特征集合和所述第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类的步骤,包括:
整合所述第一衍生特征集合和所述第二衍生特征集合,得到第四特征集合;
基于所述第二特征集合和所述第四特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
根据本申请的第二方面,提供一种业务分类装置,应用于服务器,所述装置包括:
特征衍生模块,用于对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合,其中,所述建模样本集包括训练样本集和测试样本集,所述第一特征集合包括所述训练样本集对应的第一训练特征集合;
构建模块,用于对所述训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入所述第一业务分类模型的第二特征集合和未进入所述第一业务分类模型的第三特征集合;
筛选模块,用于筛选出所述第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对所述第一备选特征集进行模型拟合,输出所述机器学习模型的概率值,作为第一衍生特征集合;
确定模块,用于根据所述第三特征集合对所述建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合。
业务分类模块,用于根据所述第一衍生特征集合和所述第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
基于上述任一方面,本申请通过对未进入业务分类模型的特征进行进一步的特征衍生,从而通过筛选获得具有新的含义且更利于模型计算的衍生特征集合,从而进一步挖掘衍生特征的数据价值,为业务分类模型补充数据维度和属性信息,提高业务分类模型的实际分类效果及稳定性。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例所提供的业务分类方法的流程示意图;
图2示出了本申请实施例所提供的业务分类装置的功能模块示意图;
图3示出了本申请实施例所提供的用于执行上述的业务分类方法的服务器的组件结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,应当理解,本申请中附图仅起到说明和描述的目的,并不用于限定本申请的保护范围。另外,应当理解,示意性的附图并未按实物比例绘制。本申请中使用的流程图示出了根据本申请实施例的一些实施例实现的操作。应该理解,流程图的操作可以不按顺序实现,没有逻辑的上下文关系的步骤可以反转顺序或者同时实施。此外,本领域技术人员在本申请内容的指引下,可以向流程图添加一个或多个其它操作,也可以从流程图中移除一个或多个操作。
请参阅图1,图1示出了本申请实施例提供的业务分类方法的流程示意图,应当理解,在其它实施例中,本实施例的业务分类方法其中部分步骤的顺序可以根据实际需要相互交换,或者其中的部分步骤也可以省略或删除。该业务分类方法的详细步骤介绍如下。
步骤S110,对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合,其中,建模样本集包括训练样本集和测试样本集,第一特征集合包括训练样本集对应的第一训练特征集合。
步骤S120,对训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入第一业务分类模型的第二特征集合和未进入第一业务分类模型的第三特征集合。
步骤S130,筛选出第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对第一备选特征集进行模型拟合,输出机器学习模型的概率值,作为第一衍生特征集合。
步骤S140,根据第三特征集合对建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合。
步骤S150,根据第一衍生特征集合和第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
基于上述步骤,本实施例通过对未进入业务分类模型的特征进行进一步的特征衍生,从而通过筛选获得具有新的含义且更利于模型计算的衍生特征集合,从而进一步挖掘衍生特征的数据价值,为业务分类模型补充数据维度和属性信息,提高业务分类模型的实际分类效果及稳定性。
在一种可能的实施方式中,针对步骤S110而言,可以根据建模样本集的各维度数据的属性和来源,对建模样本集的各维度数据进行特征工程处理,获得第一特征集合。
其中,作为一些可能的示例,特征工程处理包括解析衍生处理、数学变换处理、特征交叉与组合处理、分箱衍生处理中的一种或者多种的组合。
在一种可能的实施方式中,针对步骤S120而言,可以计算训练样本集对应的第一训练特征集合中每个训练特征的重要性程度,并选择重要性程度大于预设阈值的训练特征作为进入第一业务分类模型的第二特征集合,同时将重要性程度不大于预设阈值的训练特征作为未进入第一业务分类模型的第三特征集合。例如,每个训练特征的重要性程度可以参考IV(Information Value)值、变量重要性等指标进行确定。例如,IV值越大,则表示不同业务对象(例如信贷申请客户)在该变量上的分布差异就越大,也就是该变量的区分能力就越好。
由此,可以根据第二特征集合进行模型构建,获得AUC数值和KS数值最高的第一业务分类模型。
其中,AUC(Area Under Curve)被定义为ROC曲线下与坐标轴围成的面积,AUC越接近1.0,模型真实性越高。其中,ROC曲线全称为受试者工作特征曲线(receiver operatingcharacteristic curve),是根据一系列不同的二分类方式(分界值或决定阈),以真阳性率(TPR)为纵坐标,假阳性率(FPR)为横坐标绘制的曲线。
其中,KS为max(abs(TPR-FPR))。True Positive Rate(真阳性率 , TPR),TPR =TP /(TP + FN),正样本预测结果数 / 正样本实际数。False Positive Rate (假阳性率,FPR),FPR = FP /(FP + TN),被预测为正的负样本结果数 /负样本实际数。
在一种可能的实施方式中,针对步骤S130而言,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S131,对第三特征集合进行特征性能评估分析,获得第三特征集合的特征性能评估值,并将特征性能评估值大于预设评估值(例如0.2)的特征确定为备选特征。
子步骤S132,对第三特征集合进行业务逻辑分析,选择满足以下至少一种条件的特征作为备选特征:
特征取值与业务统计率的关系,呈现单调递增或单调递减的趋势,且单调递增或单调递减的趋势的幅度满足预设幅度条件的特征、特征取值与业务统计率的关系在特征取值的不同分箱上的业务统计率差异大于预设差异的特征(例如不同分箱上的逾期率相差2倍及以上)、被预先定义为对正标签和负标签具有区分效果的特征。
子步骤S133,将选择的所有备选特征构建为第一备选特征集,并使用不同的机器学习模型对第一备选特征集进行拟合,获得不同的机器学习模型对输出的概率值,作为第一衍生特征集合。
例如,可以分别使用随机森林树模型、XGBOOST模型、LGBM模型、GBDT模型对第一备选特征集进行拟合,拟合过程可使用特征选择方法进行入模特征调整,最终收集不同的机器学习模型对输出的概率值,作为衍生特征集合。
在一种可能的实施方式中,针对步骤S140而言,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S141,对第三特征集合进行特征性能评估分析,获得第三特征集合的特征性能评估值,并将特征性能评估值小于预设评估值(例如0.2)的特征确定为剔除特征。
子步骤S142,对第三特征集合进行业务逻辑分析,选择特征取值与业务统计率的关系与预设业务逻辑相反的特征作为剔除特征。例如:特征“近1个月借贷机构数量”在实际业务逻辑中与逾期率的关系应该是近1个月借贷机构数量越多,逾期率越高,如果随着特征“近1个月借贷机构数量”取值的增加,对应训练样本逾期率越低,即为与实际的预设业务逻辑相反。
子步骤S143,从第三特征集合中剔除所有选择的剔除特征,得到第二备选特征集。
子步骤S144,使用第二备选特征集,对训练样本集进行K-means聚类分析,根据预先选定的聚类数量确定聚类质心,分别计算训练样本集各训练样本到每个质心之间的距离信息,并将距离信息确定为第二衍生特征集合。
其中,作为一些可能的示例,距离信息包括欧式距离、曼哈顿距离、切比雪夫距离、余弦距离、标准化欧式距离中的一种。
在一种可能的实施方式中,针对步骤S150而言,可以通过以下示例性的子步骤来实现,详细描述如下。
子步骤S151,整合第一衍生特征集合和第二衍生特征集合,得到第四特征集合。
子步骤S152,基于第二特征集合和第四特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
本实施例中,通过整合上述步骤中的第一衍生特征集合和第二衍生特征集合,获得使用本申请实施例进一步衍生得到的第四特征集合,第四特征集合可用于与原进入所述第一业务分类模型的第二特征集合合并构建新的第二业务分类模型。
由于本申请实施例提供的业务分类方法对特征数据信息进行了创新性的整合及加工处理,能够更充分地挖掘数据的信息和对模型效果的增益价值,补充原业务分类模型在使用数据维度和信息上的损失,提高各维度数据的利用效率,增加业务分类模型的效果和稳定性。
基于同一发明构思,请参阅图2,示出了本申请实施例提供的业务分类装置110的功能模块示意图,本实施例可以根据上述方法实施例对业务分类装置110进行功能模块的划分。例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本申请实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。比如,在采用对应各个功能划分各个功能模块的情况下,图2示出的业务分类装置110只是一种装置示意图。其中,业务分类装置110可以包括特征衍生模块111、构建模块112、筛选模块113、确定模块114以及业务分类模块115,下面分别对该业务分类装置110的各个功能模块的功能进行详细阐述。
特征衍生模块111,用于对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合,其中,建模样本集包括训练样本集和测试样本集,第一特征集合包括训练样本集对应的第一训练特征集合。可以理解,该特征衍生模块111可以用于执行上述步骤S110,关于该特征衍生模块111的详细实施方式可以参照上述对步骤S110有关的内容。
构建模块112,用于对训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入第一业务分类模型的第二特征集合和未进入第一业务分类模型的第三特征集合。可以理解,该构建模块112可以用于执行上述步骤S120,关于该构建模块112的详细实施方式可以参照上述对步骤S120有关的内容。
筛选模块113,用于筛选出第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对第一备选特征集进行模型拟合,输出机器学习模型的概率值,作为第一衍生特征集合。可以理解,该筛选模块113可以用于执行上述步骤S130,关于该筛选模块113的详细实施方式可以参照上述对步骤S130有关的内容。
确定模块114,用于根据第三特征集合对建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合。可以理解,该确定模块114可以用于执行上述步骤S140,关于该确定模块114的详细实施方式可以参照上述对步骤S140有关的内容。
业务分类模块115,用于根据第一衍生特征集合和第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。可以理解,该业务分类模块115可以用于执行上述步骤S150,关于该业务分类模块115的详细实施方式可以参照上述对步骤S150有关的内容。
在一种可能的实施方式中,特征衍生模块111具体用于:
根据建模样本集的各维度数据的属性和来源,对建模样本集的各维度数据进行特征工程处理,获得第一特征集合,其中,特征工程处理包括解析衍生处理、数学变换处理、特征交叉与组合处理、分箱衍生处理中的一种或者多种的组合。
在一种可能的实施方式中,构建模块112具体用于:
计算训练样本集对应的第一训练特征集合中每个训练特征的重要性程度,并选择重要性程度大于预设阈值的训练特征作为进入第一业务分类模型的第二特征集合,将重要性程度不大于预设阈值的训练特征作为未进入第一业务分类模型的第三特征集合。
根据第二特征集合进行模型构建,获得AUC数值和KS数值最高的第一业务分类模型。
在一种可能的实施方式中,筛选模块113具体用于:
对第三特征集合进行特征性能评估分析,获得第三特征集合的特征性能评估值,并将特征性能评估值大于预设评估值的特征确定为备选特征。
对第三特征集合进行业务逻辑分析,选择满足以下至少一种条件的特征作为备选特征:特征取值与业务统计率的关系,呈现单调递增或单调递减的趋势,且单调递增或单调递减的趋势的幅度满足预设幅度条件的特征、特征取值与业务统计率的关系在特征取值的不同分箱上的业务统计率差异大于预设差异的特征、被预先定义为对正标签和负标签具有区分效果的特征。
将选择的所有备选特征构建为第一备选特征集,并使用不同的机器学习模型对第一备选特征集进行拟合,获得不同的机器学习模型对输出的概率值,作为第一衍生特征集合。
在一种可能的实施方式中,确定模块114具体用于:
对第三特征集合进行特征性能评估分析,获得第三特征集合的特征性能评估值,并将特征性能评估值小于预设评估值的特征确定为剔除特征。
对第三特征集合进行业务逻辑分析,选择特征取值与业务统计率的关系与预设业务逻辑相反的特征作为剔除特征。
从第三特征集合中剔除所有选择的剔除特征,得到第二备选特征集。
使用第二备选特征集,对训练样本集进行K-means聚类分析,根据预先选定的聚类数量确定聚类质心,分别计算训练样本集各训练样本到每个质心之间的距离信息,并将距离信息确定为第二衍生特征集合,其中,距离信息包括欧式距离、曼哈顿距离、切比雪夫距离、余弦距离、标准化欧式距离中的一种。
在一种可能的实施方式中,业务分类模块115具体用于:
整合第一衍生特征集合和第二衍生特征集合,得到第四特征集合。
基于第二特征集合和第四特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
基于同一发明构思,请参阅图3,示出了本申请实施例提供的用于执行上述业务分类方法的服务器100的结构示意框图,该服务器100可以包括业务分类装置110、机器可读存储介质120和处理器130。
本实施例中,机器可读存储介质120与处理器130均位于服务器100中且二者分离设置。然而,应当理解的是,机器可读存储介质120也可以是独立于服务器100之外,且可以由处理器130通过总线接口来访问。可替换地,机器可读存储介质120也可以集成到处理器130中,例如,可以是高速缓存和/或通用寄存器。
业务分类装置110可以包括存储在机器可读存储介质120的软件功能模块(例如图2中所示的特征衍生模块111、构建模块112、筛选模块113、确定模块114以及业务分类模块115),当处理器130执行业务分类装置110中的软件功能模块时,以实现前述方法实施例提供的业务分类方法。
由于本申请实施例提供的服务器100是上述服务器100执行的方法实施例的另一种实现形式,且服务器100可用于执行上述方法实施例提供的业务分类方法,因此其所能获得的技术效果可参考上述方法实施例,在此不再赘述。
以上所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。通常在附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,在附图中提供的本申请的实施例的详细描述并非旨在限制本申请的保护范围,而仅仅是表示本申请的选定实施例。因此,本申请的保护范围应以权利要求的保护范围为准。此外,基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下可获得的所有其它实施例,都应属于本申请保护的范围。

Claims (8)

1.一种业务分类方法,其特征在于,应用于服务器,所述方法包括:
对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合,其中,所述建模样本集包括训练样本集和测试样本集,所述第一特征集合包括所述训练样本集对应的第一训练特征集合;
对所述训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入所述第一业务分类模型的第二特征集合和未进入所述第一业务分类模型的第三特征集合;
筛选出所述第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对所述第一备选特征集进行模型拟合,输出所述机器学习模型的概率值,作为第一衍生特征集合;
根据所述第三特征集合对所述建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合;
根据所述第一衍生特征集合和所述第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类,所述筛选出所述第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对所述第一备选特征集进行模型拟合,输出所述机器学习模型的概率值,作为第一衍生特征集合的步骤,包括:
对所述第三特征集合进行特征性能评估分析,获得所述第三特征集合的特征性能评估值,并将特征性能评估值大于预设评估值的特征确定为备选特征;
对所述第三特征集合进行业务逻辑分析,选择满足以下至少一种条件的特征作为备选特征:特征取值与业务统计率的关系,呈现单调递增或单调递减的趋势,且所述单调递增或单调递减的趋势的幅度满足预设幅度条件的特征、特征取值与业务统计率的关系在特征取值的不同分箱上的业务统计率差异大于预设差异的特征、被预先定义为对正标签和负标签具有区分效果的特征;
将选择的所有备选特征构建为第一备选特征集,并使用不同的机器学习模型对第一备选特征集进行拟合,获得不同的机器学习模型对输出的概率值,作为所述第一衍生特征集合。
2.根据权利要求1所述的业务分类方法,其特征在于,所述对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合的步骤,包括:
根据所述建模样本集的各维度数据的属性和来源,对所述建模样本集的各维度数据进行特征工程处理,获得第一特征集合,其中,所述特征工程处理包括解析衍生处理、数学变换处理、特征交叉与组合处理、分箱衍生处理中的一种或者多种的组合。
3.根据权利要求1所述的业务分类方法,其特征在于,所述对所述训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入所述第一业务分类模型的第二特征集合和未进入所述第一业务分类模型的第三特征集合的步骤,包括:
计算所述训练样本集对应的第一训练特征集合中每个训练特征的重要性程度,并选择重要性程度大于预设阈值的训练特征作为进入所述第一业务分类模型的第二特征集合,将重要性程度不大于预设阈值的训练特征作为未进入所述第一业务分类模型的第三特征集合;
根据所述第二特征集合进行模型构建,获得AUC数值和KS数值最高的第一业务分类模型。
4.根据权利要求1所述的业务分类方法,其特征在于,所述根据所述第三特征集合对所述建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合的步骤,包括:
对所述第三特征集合进行特征性能评估分析,获得所述第三特征集合的特征性能评估值,并将特征性能评估值小于预设评估值的特征确定为剔除特征;
对所述第三特征集合进行业务逻辑分析,选择特征取值与业务统计率的关系与预设业务逻辑相反的特征作为剔除特征;
从所述第三特征集合中剔除所有选择的剔除特征,得到第二备选特征集;
使用所述第二备选特征集,对所述训练样本集进行K-means聚类分析,根据预先选定的聚类数量确定聚类质心,分别计算所述训练样本集各训练样本到每个质心之间的距离信息,并将所述距离信息确定为所述第二衍生特征集合,其中,所述距离信息包括欧式距离、曼哈顿距离、切比雪夫距离、余弦距离、标准化欧式距离中的一种。
5.根据权利要求1所述的业务分类方法,其特征在于,所述根据所述第一衍生特征集合和所述第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类的步骤,包括:
整合所述第一衍生特征集合和所述第二衍生特征集合,得到第四特征集合;
基于所述第二特征集合和所述第四特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类。
6.一种业务分类装置,其特征在于,应用于服务器,所述装置包括:
特征衍生模块,用于对收集到的风控业务场景下的建模样本集的各维度数据进行特征衍生操作,获得第一特征集合,其中,所述建模样本集包括训练样本集和测试样本集,所述第一特征集合包括所述训练样本集对应的第一训练特征集合;
构建模块,用于对所述训练样本集对应的第一训练特征集合进行特征选择和模型构建,获得满足预设条件的第一业务分类模型,以及进入所述第一业务分类模型的第二特征集合和未进入所述第一业务分类模型的第三特征集合;
筛选模块,用于筛选出所述第三特征集合中特征性能评估值大于预设评估值,并且匹配预设区分规则的第一备选特征集,使用机器学习模型对所述第一备选特征集进行模型拟合,输出所述机器学习模型的概率值,作为第一衍生特征集合;
确定模块,用于根据所述第三特征集合对所述建模样本集进行聚类分析,根据聚类分析结果确定第二衍生特征集合;
业务分类模块,用于根据所述第一衍生特征集合和所述第二衍生特征集合进行模型构建,获得第二业务分类模型,用于对输入的待分类样本进行业务分类,所述筛选模块具体用于:
对所述第三特征集合进行特征性能评估分析,获得所述第三特征集合的特征性能评估值,并将特征性能评估值大于预设评估值的特征确定为备选特征;
对所述第三特征集合进行业务逻辑分析,选择满足以下至少一种条件的特征作为备选特征:特征取值与业务统计率的关系,呈现单调递增或单调递减的趋势,且所述单调递增或单调递减的趋势的幅度满足预设幅度条件的特征、特征取值与业务统计率的关系在特征取值的不同分箱上的业务统计率差异大于预设差异的特征、被预先定义为对正标签和负标签具有区分效果的特征;
将选择的所有备选特征构建为第一备选特征集,并使用不同的机器学习模型对第一备选特征集进行拟合,获得不同的机器学习模型对输出的概率值,作为所述第一衍生特征集合。
7.根据权利要求6所述的业务分类装置,其特征在于,所述特征衍生模块具体用于:
根据所述建模样本集的各维度数据的属性和来源,对所述建模样本集的各维度数据进行特征工程处理,获得第一特征集合,其中,所述特征工程处理包括解析衍生处理、数学变换处理、特征交叉与组合处理、分箱衍生处理中的一种或者多种的组合。
8.根据权利要求6所述的业务分类装置,其特征在于,所述构建模块具体用于:
计算所述训练样本集对应的第一训练特征集合中每个训练特征的重要性程度,并选择重要性程度大于预设阈值的训练特征作为进入所述第一业务分类模型的第二特征集合,将重要性程度不大于预设阈值的训练特征作为未进入所述第一业务分类模型的第三特征集合;
根据所述第二特征集合进行模型构建,获得AUC数值和KS数值最高的第一业务分类模型。
CN202011413056.1A 2020-12-07 2020-12-07 业务分类方法及装置 Active CN112200272B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011413056.1A CN112200272B (zh) 2020-12-07 2020-12-07 业务分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011413056.1A CN112200272B (zh) 2020-12-07 2020-12-07 业务分类方法及装置

Publications (2)

Publication Number Publication Date
CN112200272A CN112200272A (zh) 2021-01-08
CN112200272B true CN112200272B (zh) 2021-02-23

Family

ID=74033660

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011413056.1A Active CN112200272B (zh) 2020-12-07 2020-12-07 业务分类方法及装置

Country Status (1)

Country Link
CN (1) CN112200272B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115378880B (zh) * 2022-08-16 2023-08-22 平安科技(深圳)有限公司 流量分类方法、装置、计算机设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107040397B (zh) * 2016-02-03 2020-12-11 腾讯科技(深圳)有限公司 一种业务参数获取方法及装置
US20200286625A1 (en) * 2017-07-25 2020-09-10 Insilico Medicine Ip Limited Biological data signatures of aging and methods of determining a biological aging clock
CN109886349B (zh) * 2019-02-28 2019-11-19 成都新希望金融信息有限公司 一种基于多模型融合的用户分类方法
CN112037009A (zh) * 2020-08-06 2020-12-04 百维金科(上海)信息科技有限公司 一种基于随机森林算法的消费信贷场景的风险评估方法
CN111950937B (zh) * 2020-09-01 2023-12-01 上海海事大学 一种基于融合时空轨迹的重点人员风险评估方法

Also Published As

Publication number Publication date
CN112200272A (zh) 2021-01-08

Similar Documents

Publication Publication Date Title
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
WO2021164232A1 (zh) 用户识别方法、装置、设备及存储介质
CN112200392B (zh) 业务预测方法及装置
CN112417176B (zh) 基于图特征的企业间隐性关联关系挖掘方法、设备及介质
EP3726441A1 (en) Company bankruptcy prediction system and operating method therefor
CN112200272B (zh) 业务分类方法及装置
CN113052577A (zh) 一种区块链数字货币虚拟地址的类别推测方法及系统
CN112308148A (zh) 缺陷类别识别、孪生神经网络训练方法、装置及存储介质
CN112256881B (zh) 用户信息分类方法及装置
CN117197591B (zh) 一种基于机器学习的数据分类方法
CN116415020A (zh) 一种图像检索的方法、装置、电子设备及存储介质
CN106980878B (zh) 三维模型几何风格的确定方法及装置
CN113158777A (zh) 质量评分方法、质量评分模型的训练方法及相关装置
CN110222981B (zh) 一种基于参数二次选取的储层分类评价方法
CN115223022B (zh) 一种图像处理方法、装置、存储介质及设备
CN111274123A (zh) 基于软件基因的安全防护软件测试集自动生成方法、架构
CN115310606A (zh) 基于数据集敏感属性重构的深度学习模型去偏方法及装置
CN113011503B (zh) 一种电子设备的数据取证方法、存储介质及终端
KR102446398B1 (ko) 건물 정보 모델의 건물 형상 단순화 시스템 및 방법
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN114140246A (zh) 模型训练方法、欺诈交易识别方法、装置和计算机设备
CN114398942A (zh) 一种基于集成的个人所得税异常检测方法及装置
US11244443B2 (en) Examination apparatus, examination method, recording medium storing an examination program, learning apparatus, learning method, and recording medium storing a learning program
CN112085526A (zh) 基于用户群的信息匹配方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant