CN113537510A - 基于不均衡数据集的机器学习模型数据处理方法及装置 - Google Patents

基于不均衡数据集的机器学习模型数据处理方法及装置 Download PDF

Info

Publication number
CN113537510A
CN113537510A CN202110789028.8A CN202110789028A CN113537510A CN 113537510 A CN113537510 A CN 113537510A CN 202110789028 A CN202110789028 A CN 202110789028A CN 113537510 A CN113537510 A CN 113537510A
Authority
CN
China
Prior art keywords
recall rate
data set
machine learning
determining
learning model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110789028.8A
Other languages
English (en)
Inventor
李策
朱丹
王若冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Industrial and Commercial Bank of China Ltd ICBC
Original Assignee
Industrial and Commercial Bank of China Ltd ICBC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Industrial and Commercial Bank of China Ltd ICBC filed Critical Industrial and Commercial Bank of China Ltd ICBC
Priority to CN202110789028.8A priority Critical patent/CN113537510A/zh
Publication of CN113537510A publication Critical patent/CN113537510A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Strategic Management (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Educational Administration (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Medical Informatics (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Stored Programmes (AREA)

Abstract

本申请实施例提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,涉及人工智能领域,也可用于金融领域,方法包括:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级;本申请能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。

Description

基于不均衡数据集的机器学习模型数据处理方法及装置
技术领域
本申请涉及人工智能领域,也可用于金融领域,具体涉及一种基于不均衡数据集的机器学习模型数据处理方法及装置。
背景技术
随着人工智能、大数据技术的发展与普及,机器学习模型在精准营销、反欺诈等方面表现出了一定的优势,在银行业中的应用也越来越广泛。
通常情况下,银行业在使用机器学习技术进行建模的过程中,根据不同的业务问题,其使用的数据的分布、质量都有所差异,建模选取的数据处理、建模方法也不同,需要根据不同的情况,选取相应的评价指标来衡量所建立的机器学习模型的性能及稳定性。
对于银行业最常见的二分类问题,常见的评价方法是基于混淆矩阵开展的,混淆矩阵主要包括四个指标,具体定义如下:
TP=True Positive=真阳性
FP=False Positive=假阳性
FN=False Negative=假阴性
TN=True Negative=真阴性
除此之外,常用的评价指标,如准确率、精确率、召回率、F1值等都是基于混淆矩阵定义的,这些指标也是银行业常用二分类模型的评价指标。
发明人考虑到银行业常用的建模数据中,数据正负样本不平衡的问题十分普遍且严重,数据正负样本比例的不同将会对评价指标产生影响。例如在客户违约预测问题中,发生违约的客户常常只占全量客户非常小的比例,又如在智慧营销问题中,待营销的高价值客户,也只占全量客户的一小部分。这会对模型的评价工作造成较大的影响,具体而言,有如下问题:
1、在正负样本比例不平衡的情况下,部分评价指标(如准确率)可能会虚高。
2、在正负样本比例不平衡的情况下,部分评价指标(如F1值)在测试数据的正负样本比例发生变化时会表现出较大的变化。
3、大部分评价指标都会受数据正负样本比例影响,缺少在正负样本比例发生变化时不受影响的评价方法。
发明内容
针对现有技术中的问题,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
为了解决上述问题中的至少一个,本申请提供以下技术方案:
第一方面,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法,包括:
对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
进一步地,还包括:
根据预设时间标注确定样本数据中的训练数据集和测试数据集。
进一步地,所述根据所述预测结果确定对应的召回率,包括:
根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
进一步地,所述根据所述召回率,确定平均召回率和召回率波动系数,包括:
根据所有所述召回率的均值确定对应的平均召回率;
对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
第二方面,本申请提供一种基于不均衡数据集的机器学习模型数据处理装置,包括:
数据采集模块,用于对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
模型预测模块,用于根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
稳定性判定模块,用于根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
进一步地,还包括:
测试集区分采集单元,用于根据预设时间标注确定样本数据中的训练数据集和测试数据集。
进一步地,所述模型预测模块包括:
召回率确定单元,用于根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
进一步地,所述稳定性判定模块包括:
平均召回率确定单元,用于根据所有所述召回率的均值确定对应的平均召回率;
召回率波动系数确定单元,用于对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
第三方面,本申请提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述的基于不均衡数据集的机器学习模型数据处理方法的步骤。
第四方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现所述的基于不均衡数据集的机器学习模型数据处理方法的步骤。
由上述技术方案可知,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中的基于不均衡数据集的机器学习模型数据处理方法的流程示意图之一;
图2为本申请实施例中的基于不均衡数据集的机器学习模型数据处理方法的流程示意图之二;
图3为本申请实施例中的基于不均衡数据集的机器学习模型数据处理装置的结构图之一;
图4为本申请实施例中的基于不均衡数据集的机器学习模型数据处理装置的结构图之二;
图5为本申请实施例中的基于不均衡数据集的机器学习模型数据处理装置的结构图之三;
图6为本申请实施例中的电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中常用的建模数据中,数据正负样本不平衡的问题十分普遍且严重,数据正负样本比例的不同将会对评价指标产生影响的问题,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法及装置,通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,挑选优质模型减少模型在部署上线后发生衰减的风险。
为了能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,挑选优质模型减少模型在部署上线后发生衰减的风险,本申请提供一种基于不均衡数据集的机器学习模型数据处理方法的实施例,参见图1,所述基于不均衡数据集的机器学习模型数据处理方法具体包含有如下内容:
步骤S101:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集。
可选的,本申请可以划分数据集为训练数据集Dtrain、测试数据集Dtest。由于建模数据出于安全性考虑和数据体量的原因,通常用于建模的训练集只为全量数据的一部分,或者采用全量的黑样本,对其他样本进行采样。本申请所指的测试数据是指剩下的全部数据。
步骤S102:根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率。
可选的,根据业务需求,使用上述训练数据集和验证数据集建立机器学习模型,使用建立的机器学习模型分别在测试数据集(Dtest1、Dtest2、Dtest3......)上做预测,得到预测结果(pred1、pred2、pred3......),并计算每个测试数据集上的召回率。
步骤S103:根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
可选的,根据所述召回率计算平均召回率和召回率的标准差,其中,召回率只与关注的类别有关,而与正负样本的比例无关,使用召回率作为评价指标能够克服正负样本不平衡造成的指标不稳定的问题。
可选的,本申请可以采用多次采样计算平均召回率及召回率标准差的方式,由此能够克服单次采样产生的随机性的问题,训练良好的模型在各个测试数据集上应当是有稳定的、符合业务标准的召回率值。而训练较差、过拟合的模型在不同的数据集上表现差异较大,召回率会有较高的波动,且召回率值不符合业务要求。
可以理解的是,召回率的平均值反映模型在这一组测试集上召回率的平均大小,可认为是模型在不均衡数据集上的分类性能的体现,该值越大,模型性能越强。召回率的变异系数可以反映模型这一组测试集上召回率的离散程度且消除了量纲的影响,方便不同模型之间进行比较,可认为是模型在不均衡数据集上的稳定性的体现,该值越小,模型稳定性越强。
可选的,通过上述得到的召回率、平均召回率以及召回率波动系数的具体数值,可以确定所述机器学习模型的稳定性等级和性能等级,例如分别与对应的阈值进行数值比较,确定对应的稳定性等级,也可利用上述三个具体数值中的至少一种结合任一现有技术确定稳定性等级,本申请对此不作具体限定。
从上述描述可知,本申请实施例提供的基于不均衡数据集的机器学习模型数据处理方法,能够通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
为了能够使数据集数据分布尽量保持与生产上的真实数据一致,在本申请的基于不均衡数据集的机器学习模型数据处理方法的一实施例中,还可以具体包含如下内容:
根据预设时间标注确定样本数据中的训练数据集和测试数据集。
具体的,对测试数据集Dtest多次采样,产生多个测试集(Dtest1、Dtest2、Dtest3......)。在采样中区分训练数据集和测试数据集的不同采样方式,确保训练数据集与测试数据集没有交叉,具体的,可以使用时间标注作为区分,使用某时点前的数据作为训练数据集,某时点后的数据作为测试数据集,采样时都在某时点后的数据上做随机采样。
同时,为了使样本分布尽量保持与生产上的真实数据一致,对于训练数据集可以采用分层采样方式,对于系列子测试数据集可以采用随机采样的方式。保证采样的数据集间的差异只有随机误差。
为了能够准确确定预测结果的召回率,在本申请的基于不均衡数据集的机器学习模型数据处理方法的一实施例中,上述步骤S102还可以具体包含如下内容:
根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
具体的,使用建立的机器学习模型分别在测试数据集(Dtest1、Dtest2、Dtest3......)上做预测,得到预测结果(pred1、pred2、pred3......)。
然后,计算每个测试数据集上的召回率,进而计算平均召回率和召回率的标准差(即召回率波动系数)以及召回率的波动系数(即变异系数)。具体的召回率的计算公式为:
Recall=TP/(TP+FN)
其中,TP是真实为真,预测为真的个数;FN为真实为真,预测为假的个数。结合预测结果(pred1、pred2、pred3......)和真实标签(label1、label2、label3......)能够计算出TP和FN,进而计算出召回率。
为了能够准确确定预测结果的平均召回率和召回率波动系数,在本申请的基于不均衡数据集的机器学习模型数据处理方法的一实施例中,参见图2,上述步骤S103还可以具体包含如下内容:
步骤S201:根据所有所述召回率的均值确定对应的平均召回率。
步骤S202:对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
具体的平均召回率的计算公式为:
Figure BDA0003160150120000071
具体的召回率的标准差(即召回率波动系数)的计算公式为:
Figure BDA0003160150120000072
具体的召回率的变异系数(即召回率的波动系数)的计算公式为:
Figure BDA0003160150120000073
可以理解的是,召回率的平均值反映模型在这一组测试集上召回率的平均大小,可认为是模型在不均衡数据集上的分类性能的体现,该值越大,模型性能越强。召回率的变异系数可以反映模型这一组测试集上召回率的波动程度且消除了量纲的影响,方便不同模型之间进行比较,可认为是模型在不均衡数据集上的稳定性的体现,该值越小,模型稳定性越强。
也可以将Recall_avg与Recall_C.V结合起来,即得到针对银行业不均衡数据集的综合评价指标。
Figure BDA0003160150120000081
该指标越大则说明模型的稳定性及性能越好,同时可以根据用户需求,调节权重系数,其中α越大表示越看重模型的稳定性,β越大表示越看重模型的性能,
以智能风控领域常见的违约预测模型为例,通常银行业违约预测模型所使用的数据集中,真正违约的黑样本只占全量样本的极少部分,是典型的正负样本不均衡的数据集。在此数据集上使用本发明设计的机器学习模型评价方法,能够提供有效、稳健的模型评价。
为了能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险,本申请提供一种用于实现所述基于不均衡数据集的机器学习模型数据处理方法的全部或部分内容的基于不均衡数据集的机器学习模型数据处理装置的实施例,参见图3,所述基于不均衡数据集的机器学习模型数据处理装置具体包含有如下内容:
数据采集模块10,用于对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集。
模型预测模块20,用于根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率。
稳定性判定模块30,用于根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
从上述描述可知,本申请实施例提供的基于不均衡数据集的机器学习模型数据处理装置,能够通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,挑选优质模型减少模型在部署上线后发生衰减的风险。
为了能够使数据集数据分布尽量保持与生产上的真实数据一致,在本申请的基于不均衡数据集的机器学习模型数据处理装置的一实施例中,还具体包含有如下内容:
测试集区分采集单元,用于根据预设时间标注确定样本数据中的训练数据集和测试数据集。
为了能够准确确定预测结果的召回率,在本申请的基于不均衡数据集的机器学习模型数据处理装置的一实施例中,参见图4,所述模型预测模块20包括:
召回率确定单元21,用于根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
为了能够准确确定预测结果的平均召回率和召回率波动系数,在本申请的基于不均衡数据集的机器学习模型数据处理装置的一实施例中,参见图5,所述稳定性判定模块30包括:
平均召回率确定单元31,用于根据所有所述召回率的均值确定对应的平均召回率。
召回率波动系数确定单元32,用于对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
为了更进一步说明本方案,本申请还提供一种应用上述基于不均衡数据集的机器学习模型数据处理装置实现基于不均衡数据集的机器学习模型数据处理方法的具体应用实例,具体包含有如下内容:
步骤1:划分数据集为训练验证集Dtrain、测试集Dtest。由于银行业建模数据出于安全性考虑和数据体量的原因,通常用于建模的训练集只为全量数据的一部分,或者采用全量的黑样本,对其他样本进行采样。本方案所致的测试数据是指剩下的全部数据。
步骤2:根据业务需求,使用训练集、验证集建立机器学习模型。
步骤3:数据采样。对测试集Dtest多次采样,产生多个测试集(Dtest1、Dtest2、Dtest3......)。在采样中应当注意以下几点:
①注意区分训练集和测试集的方式,确保测试集与训练集没有交叉。如使用时间标注作为区分,使用某时点前的数据作为训练集,某时点后的数据作为测试集,采样时都在某时点后的数据上做随机采样。
②注意采样技术的选择,使得测试集的样本分布尽量保持与生产上的真实数据一致。常见的采样技术包括简单随机采样、系统采样、分层采样等。
③每次采样采取相同的规则,使得采样的数据集间的差异只有随机误差。
步骤4:使用建立的机器学习模型分别在测试数据集(Dtest1、Dtest2、Dtest3......)上做预测,得到预测结果(pred1、pred2、pred3......)。
步骤5:计算每个测试数据集上的召回率,进而计算平均召回率和召回率的标准差及召回率的变异系数。
召回率的计算公式为:
Recall=TP/(TP+FN)
其中,TP是真实为真,预测为真的个数;FN为真实为真,预测为假的个数。结合预测结果(pred1、pred2、pred3......)和真实标签(label1、label2、label3......)能够计算出TP和FN,进而计算出召回率。
平均召回率的计算公式为:
Figure BDA0003160150120000101
召回率的标准差的计算公式为:
Figure BDA0003160150120000102
召回率的变异系数计算公式为:
Figure BDA0003160150120000103
可以理解的是,召回率的平均值反映模型在这一组测试集上召回率的平均大小,可认为是模型在不均衡数据集上的分类性能的体现,该值越大,模型性能越强。召回率的变异系数可以反映模型这一组测试集上召回率的波动程度且消除了量纲的影响,方便不同模型之间进行比较,可认为是模型在不均衡数据集上的稳定性的体现,该值越小,模型稳定性越强。
也可以将Recall_avg与Recall_C.V结合起来,即得到针对银行业不均衡数据集的综合评价指标。
Figure BDA0003160150120000104
该指标越大则说明模型的稳定性及性能越好,同时可以根据用户需求,调节权重系数,其中α越大表示越看重模型的稳定性,β越大表示越看重模型的性能,
以智能风控领域常见的违约预测模型为例,通常银行业违约预测模型所使用的数据集中,真正违约的黑样本只占全量样本的极少部分,是典型的正负样本不均衡的数据集。在此数据集上使用本发明设计的机器学习模型评价方法,能够提供有效、稳健的模型评价。
从召回率的计算公式中可以看出,召回率只与关注的类别有关,而与正负样本的比例无关,使用召回率作为评价指标能够克服正负样本不平衡造成的指标不稳定的问题。采用多次采样计算平均召回率及召回率标准差的方式,能够克服单次采样产生的随机性的问题,训练良好的模型在各个测试数据集上应当是有稳定的、符合业务标准的召回率值。而训练较差、过拟合的模型在不同的数据集上表现差异较大,召回率会有较高的波动,且召回率值不符合业务要求。
以智能风控领域常见的违约预测模型为例,通常银行业违约预测模型所使用的数据集中,真正违约的黑样本只占全量样本的极少部分,是典型的正负样本不均衡的数据集。在此数据集上使用本发明设计的机器学习模型评价方法,能够提供有效、稳健的模型评价。
从硬件层面来说,为了能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险,本申请提供一种用于实现所述基于不均衡数据集的机器学习模型数据处理方法中的全部或部分内容的电子设备的实施例,所述电子设备具体包含有如下内容:
处理器(processor)、存储器(memory)、通信接口(Communications Interface)和总线;其中,所述处理器、存储器、通信接口通过所述总线完成相互间的通信;所述通信接口用于实现基于不均衡数据集的机器学习模型数据处理装置与核心业务系统、用户终端以及相关数据库等相关设备之间的信息传输;该逻辑控制器可以是台式计算机、平板电脑及移动终端等,本实施例不限于此。在本实施例中,该逻辑控制器可以参照实施例中的基于不均衡数据集的机器学习模型数据处理方法的实施例,以及基于不均衡数据集的机器学习模型数据处理装置的实施例进行实施,其内容被合并于此,重复之处不再赘述。
可以理解的是,所述用户终端可以包括智能手机、平板电子设备、网络机顶盒、便携式计算机、台式电脑、个人数字助理(PDA)、车载设备、智能穿戴设备等。其中,所述智能穿戴设备可以包括智能眼镜、智能手表、智能手环等。
在实际应用中,基于不均衡数据集的机器学习模型数据处理方法的部分可以在如上述内容所述的电子设备侧执行,也可以所有的操作都在所述客户端设备中完成。具体可以根据所述客户端设备的处理能力,以及用户使用场景的限制等进行选择。本申请对此不作限定。若所有的操作都在所述客户端设备中完成,所述客户端设备还可以包括处理器。
上述的客户端设备可以具有通信模块(即通信单元),可以与远程的服务器进行通信连接,实现与所述服务器的数据传输。所述服务器可以包括任务调度中心一侧的服务器,其他的实施场景中也可以包括中间平台的服务器,例如与任务调度中心服务器有通信链接的第三方服务器平台的服务器。所述的服务器可以包括单台计算机设备,也可以包括多个服务器组成的服务器集群,或者分布式装置的服务器结构。
图6为本申请实施例的电子设备9600的系统构成的示意框图。如图6所示,该电子设备9600可以包括中央处理器9100和存储器9140;存储器9140耦合到中央处理器9100。值得注意的是,该图6是示例性的;还可以使用其他类型的结构,来补充或代替该结构,以实现电信功能或其他功能。
一实施例中,基于不均衡数据集的机器学习模型数据处理方法功能可以被集成到中央处理器9100中。其中,中央处理器9100可以被配置为进行如下控制:
步骤S101:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集。
步骤S102:根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率。
步骤S103:根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
从上述描述可知,本申请实施例提供的电子设备,通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
在另一个实施方式中,基于不均衡数据集的机器学习模型数据处理装置可以与中央处理器9100分开配置,例如可以将基于不均衡数据集的机器学习模型数据处理装置配置为与中央处理器9100连接的芯片,通过中央处理器的控制来实现基于不均衡数据集的机器学习模型数据处理方法功能。
如图6所示,该电子设备9600还可以包括:通信模块9110、输入单元9120、音频处理器9130、显示器9160、电源9170。值得注意的是,电子设备9600也并不是必须要包括图6中所示的所有部件;此外,电子设备9600还可以包括图6中没有示出的部件,可以参考现有技术。
如图6所示,中央处理器9100有时也称为控制器或操作控件,可以包括微处理器或其他处理器装置和/或逻辑装置,该中央处理器9100接收输入并控制电子设备9600的各个部件的操作。
其中,存储器9140,例如可以是缓存器、闪存、硬驱、可移动介质、易失性存储器、非易失性存储器或其它合适装置中的一种或更多种。可储存上述与失败有关的信息,此外还可存储执行有关信息的程序。并且中央处理器9100可执行该存储器9140存储的该程序,以实现信息存储或处理等。
输入单元9120向中央处理器9100提供输入。该输入单元9120例如为按键或触摸输入装置。电源9170用于向电子设备9600提供电力。显示器9160用于进行图像和文字等显示对象的显示。该显示器例如可为LCD显示器,但并不限于此。
该存储器9140可以是固态存储器,例如,只读存储器(ROM)、随机存取存储器(RAM)、SIM卡等。还可以是这样的存储器,其即使在断电时也保存信息,可被选择性地擦除且设有更多数据,该存储器的示例有时被称为EPROM等。存储器9140还可以是某种其它类型的装置。存储器9140包括缓冲存储器9141(有时被称为缓冲器)。存储器9140可以包括应用/功能存储部9142,该应用/功能存储部9142用于存储应用程序和功能程序或用于通过中央处理器9100执行电子设备9600的操作的流程。
存储器9140还可以包括数据存储部9143,该数据存储部9143用于存储数据,例如联系人、数字数据、图片、声音和/或任何其他由电子设备使用的数据。存储器9140的驱动程序存储部9144可以包括电子设备的用于通信功能和/或用于执行电子设备的其他功能(如消息传送应用、通讯录应用等)的各种驱动程序。
通信模块9110即为经由天线9111发送和接收信号的发送机/接收机9110。通信模块(发送机/接收机)9110耦合到中央处理器9100,以提供输入信号和接收输出信号,这可以和常规移动通信终端的情况相同。
基于不同的通信技术,在同一电子设备中,可以设置有多个通信模块9110,如蜂窝网络模块、蓝牙模块和/或无线局域网模块等。通信模块(发送机/接收机)9110还经由音频处理器9130耦合到扬声器9131和麦克风9132,以经由扬声器9131提供音频输出,并接收来自麦克风9132的音频输入,从而实现通常的电信功能。音频处理器9130可以包括任何合适的缓冲器、解码器、放大器等。另外,音频处理器9130还耦合到中央处理器9100,从而使得可以通过麦克风9132能够在本机上录音,且使得可以通过扬声器9131来播放本机上存储的声音。
本申请的实施例还提供能够实现上述实施例中的执行主体为服务器或客户端的基于不均衡数据集的机器学习模型数据处理方法中全部步骤的一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述实施例中的执行主体为服务器或客户端的基于不均衡数据集的机器学习模型数据处理方法的全部步骤,例如,所述处理器执行所述计算机程序时实现下述步骤:
步骤S101:对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集。
步骤S102:根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率。
步骤S103:根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
从上述描述可知,本申请实施例提供的计算机可读存储介质,通过召回率不受正负样本比例影响的特点,在测试数据正负样本不平衡时也能起到验证效果,克服了传统方法受测试集正负样本比例影响造成的指标不稳定问题,能够准确对基于不均衡数据集构建的机器学习模型进行性能和稳定性评价,减少模型在部署上线后发生衰减的风险。
本领域内的技术人员应明白,本发明的实施例可提供为方法、装置、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(装置)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
本发明中应用了具体实施例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于不均衡数据集的机器学习模型数据处理方法,其特征在于,所述方法包括:
对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
2.根据权利要求1所述的基于不均衡数据集的机器学习模型数据处理方法,其特征在于,还包括:
根据预设时间标注确定样本数据中的训练数据集和测试数据集。
3.根据权利要求1所述的基于不均衡数据集的机器学习模型数据处理方法,其特征在于,所述根据所述预测结果确定对应的召回率,包括:
根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
4.根据权利要求1所述的基于不均衡数据集的机器学习模型数据处理方法,其特征在于,所述根据所述召回率,确定平均召回率和召回率波动系数,包括:
根据所有所述召回率的均值确定对应的平均召回率;
对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
5.一种基于不均衡数据集的机器学习模型数据处理装置,其特征在于,包括:
数据采集模块,用于对样本数据进行分层采样,得到训练数据集和测试数据集,对所述测试训练集样本数据进行随机采样,得到对应的系列子测试集;
模型预测模块,用于根据所述训练数据集训练机器学习模型,并对所述系列子测试集进行机器学习模型的预测,得到预测结果,并根据所述预测结果确定对应的召回率;
稳定性判定模块,用于根据所述召回率,确定平均召回率和召回率波动系数,并根据所述平均召回率和召回率波动系数,确定所述机器学习模型的稳定性等级和性能等级。
6.根据权利要求5所述的基于不均衡数据集的机器学习模型数据处理装置,其特征在于,还包括:
测试集区分采集单元,用于根据预设时间标注确定样本数据中的训练数据集和测试数据集。
7.根据权利要求5所述的基于不均衡数据集的机器学习模型数据处理装置,其特征在于,所述模型预测模块包括:
召回率确定单元,用于根据所述测试数据集中预测结果为真且具有真实标签的测试数据数量在所述测试数据集中的占比,确定对应的召回率。
8.根据权利要求5所述的基于不均衡数据集的机器学习模型数据处理装置,其特征在于,所述稳定性判定模块包括:
平均召回率确定单元,用于根据所有所述召回率的均值确定对应的平均召回率;
召回率波动系数确定单元,用于对各所述召回率与所述平均召回率的差值进行数据处理,确定对应的召回率波动系数,并根据所述召回率波动系数的值确定对应的召回率波动系数。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1至4任一项所述的基于不均衡数据集的机器学习模型数据处理方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至4任一项所述的基于不均衡数据集的机器学习模型数据处理方法的步骤。
CN202110789028.8A 2021-07-13 2021-07-13 基于不均衡数据集的机器学习模型数据处理方法及装置 Pending CN113537510A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110789028.8A CN113537510A (zh) 2021-07-13 2021-07-13 基于不均衡数据集的机器学习模型数据处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110789028.8A CN113537510A (zh) 2021-07-13 2021-07-13 基于不均衡数据集的机器学习模型数据处理方法及装置

Publications (1)

Publication Number Publication Date
CN113537510A true CN113537510A (zh) 2021-10-22

Family

ID=78098789

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110789028.8A Pending CN113537510A (zh) 2021-07-13 2021-07-13 基于不均衡数据集的机器学习模型数据处理方法及装置

Country Status (1)

Country Link
CN (1) CN113537510A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003724A (zh) * 2021-12-30 2022-02-01 北京云迹科技有限公司 一种样本筛选方法、装置及电子设备
CN114443506A (zh) * 2022-04-07 2022-05-06 浙江大学 一种用于测试人工智能模型的方法及装置
CN114841474A (zh) * 2022-07-01 2022-08-02 南京匠拓电力科技有限公司 适用于智能水电气采控终端的数据处理方法及系统
CN116956200A (zh) * 2023-09-19 2023-10-27 山东辉瑞管业有限公司 基于机器学习的灌溉管生产实时检测系统

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114003724A (zh) * 2021-12-30 2022-02-01 北京云迹科技有限公司 一种样本筛选方法、装置及电子设备
CN114443506A (zh) * 2022-04-07 2022-05-06 浙江大学 一种用于测试人工智能模型的方法及装置
CN114443506B (zh) * 2022-04-07 2022-06-10 浙江大学 一种用于测试人工智能模型的方法及装置
CN114841474A (zh) * 2022-07-01 2022-08-02 南京匠拓电力科技有限公司 适用于智能水电气采控终端的数据处理方法及系统
CN116956200A (zh) * 2023-09-19 2023-10-27 山东辉瑞管业有限公司 基于机器学习的灌溉管生产实时检测系统
CN116956200B (zh) * 2023-09-19 2023-11-24 山东辉瑞管业有限公司 基于机器学习的灌溉管生产实时检测系统

Similar Documents

Publication Publication Date Title
CN113537510A (zh) 基于不均衡数据集的机器学习模型数据处理方法及装置
CN111861569A (zh) 产品信息推荐方法及装置
CN109976998B (zh) 一种软件缺陷预测方法、装置和电子设备
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
CN108985489B (zh) 一种风险预测方法、风险预测装置和终端设备
CN103703825A (zh) 以应用为基础在终端上输出估计的QoE的方法
CN111275491A (zh) 一种数据处理方法及装置
CN115130065B (zh) 供应端特征信息处理方法、装置、设备和计算机可读介质
CN111882140A (zh) 风险评测方法、模型训练方法、装置、设备及存储介质
CN110866698A (zh) 用于评定服务提供方的服务分值的装置
CN112784112A (zh) 报文校验方法及装置
CN112882934B (zh) 基于缺陷增长的测试分析方法及系统
CN113850669A (zh) 用户分群方法、装置、计算机设备及计算机可读存储介质
CN110544166A (zh) 样本生成方法、装置及存储介质
CN107025227A (zh) 用户对产品的熟悉度的确定、信息筛选、处理方法及装置
CN112163861B (zh) 交易风险要素特征提取方法及装置
CN114971017A (zh) 银行交易数据的处理方法及装置
CN112764957A (zh) 应用故障定界方法及装置
CN112035324A (zh) 批量作业执行情况监控方法及装置
CN113077251A (zh) 一种预付费交易场景下的异常行为监测方法及装置
CN117951547B (zh) 基于人工智能的招投标数据处理方法及装置
CN111932018B (zh) 银行业务绩效贡献信息预测方法及装置
CN115729832A (zh) 系统台账维护及指标验证的方法和装置
CN112766698A (zh) 应用业务压力确定方法及装置
CN114529907A (zh) 图像文字识别信息处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination