CN116167454A - 智能化的二分类模型训练方法及装置 - Google Patents

智能化的二分类模型训练方法及装置 Download PDF

Info

Publication number
CN116167454A
CN116167454A CN202211686438.0A CN202211686438A CN116167454A CN 116167454 A CN116167454 A CN 116167454A CN 202211686438 A CN202211686438 A CN 202211686438A CN 116167454 A CN116167454 A CN 116167454A
Authority
CN
China
Prior art keywords
model
data
training
training data
recommended
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211686438.0A
Other languages
English (en)
Inventor
翟俊洁
谈锦
何敏
丁雨
杨俊�
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Construction Bank Corp Sichuan Branch
Original Assignee
China Construction Bank Corp Sichuan Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Construction Bank Corp Sichuan Branch filed Critical China Construction Bank Corp Sichuan Branch
Priority to CN202211686438.0A priority Critical patent/CN116167454A/zh
Publication of CN116167454A publication Critical patent/CN116167454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本公开提供了一种智能化的二分类模型训练方法及装置,涉及机器学习领域。具体步骤为:获取初始数据,对所述初始数据进行预处理以获取训练数据;对所述训练数据进行采样,生成多个训练数据子集;获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;根据所述推荐特征对进行模型训练,获取多个候选二分类模型;根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。本公开通过自动对初始数据进行处理,筛选的到推荐特征并训练模型,实现了对二分类模型的自动化训练,避免人工处理的低效率,提高了数据处理的效率。

Description

智能化的二分类模型训练方法及装置
技术领域
本公开涉及机器学习领域,尤其涉及一种智能化的二分类模型训练方法及装置。
背景技术
相关技术中,为了更精准为客户提供个性化产品服务,基于机器学习算法的精准营销在银行业快速兴起。在国内商业银行利用机器学习开展精准营销的实践中,主要以建立二分类算法为主,建立二分类模型需要涉及到数据清洗、特征选择、模型训练和评分、异常数据监测等,需要人工来进行研发和调试,这样做的效率较低。
发明内容
本公开提供一种智能化的二分类模型训练方法及装置,以至少解决相关技术中效率较低的问题。本公开的技术方案如下:
根据本公开实施例的第一方面,提供一种智能化的二分类模型训练方法,其特征在于,包括:
获取初始数据,对所述初始数据进行预处理以获取训练数据;
对所述训练数据进行采样,生成多个训练数据子集;
获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;
根据所述推荐特征对进行模型训练,获取多个候选二分类模型;
根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;
将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。
可选的,所述初始数据中包括客户理财购买标识表和客户特征标签表,其中,所述客户理财购买标识表中包含客户ID和理财购买标识,所述客户特征标签表中包含客户ID和多个客户特征。
可选的,所述对所述初始数据进行预处理以获取训练数据的步骤具体包括:
读取所述客户理财购买标识表对应的客户ID和所述客户特征标签表对应的客户ID,将同一客户ID对应的所述客户理财购买标识表和所述客户特征标签表相关联,以生成目标表,并将所述目标表作为所述训练数据。
可选的,所述对所述训练数据进行采样,生成多个训练数据子集的步骤具体包括:
根据目标正样本抽样比例从所述训练数据中抽取多个目标表以组成所述训练数据子集,其中,所述训练数据中理财购买标识为1的样本为正样本,理财购买标识为0的样本为负样本;
根据连续变量缺失阈值,对所述训练数据子集中的连续变量缺失数据进行填补,其中,所述连续变量缺失阈值包括:连续型变量缺失率上限、连续型变量新建缺失标志缺失率上限和连续型变量新建缺失标志缺失率下限;
根据离散变量缺失阈值,对所述训练数据子集中的离散变量缺失数据进行填补,其中,所述离散变量缺失阈值包括离散型变量取值水平上限。
可选的,所述根据所述推荐特征对进行模型训练,获取多个候选二分类模型的步骤具体包括:
将所述目标表中的所述推荐特征输入所述候选二分类模型中,获取客户ID对应的预测理财购买标识;
根据客户ID对应的所述预测理财购买标识和标签预测理财购买标识计算损失函数,以所述损失函数收敛为目标调整所述候选二分类模型中的参数。
可选的,所述根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型的步骤具体包括:
计算所述候选二分类模型的特征曲线对应的曲线下面积AUC指数,并获取所述候选二分类模型的洛伦兹KS曲线;
根据所述AUC指数和所述KS曲线生成所述模型评分;
将所述模型评分最大的模型作为所述推荐二分类模型。
根据本公开实施例的第二方面,提供一种智能化的二分类模型训练装置,其特征在于,包括:
数据读取模块,用于获取初始数据,对所述初始数据进行预处理以获取训练数据;
采样模块,用于对所述训练数据进行采样,生成多个训练数据子集;
特征评分模块,用于获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;
训练模块,用于根据所述推荐特征对进行模型训练,获取多个候选二分类模型;
模型评分模块,用于根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;
预测模块,将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。
根据本公开实施例的第三方面,提供一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如第一方面中任一项所述的方法。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如第一方面中任一项所述的方法。
根据本公开实施例的第五方面,提供一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据第一方面中任一项所述的方法。
本公开的实施例提供的技术方案至少带来以下有益效果:
本公开通过自动对初始数据进行处理,筛选的到推荐特征并训练模型,实现了对二分类模型的自动化训练,避免人工处理的低效率,提高了数据处理的效率。
当前开源的AUTO-ML更侧重于计算机视觉、自然语言处理等非结构化数据建模领域,本方法建立了适用于商业银行精准营销的二分类模型的智能化流程,实现从宽表+目标变量到模型的一键式服务,大大降低建模的门槛。
本方法在模型训练前进行了多次小样本抽样,通过汇总计算多个子样本稽核特征预测能力得分,实现训练前的特征筛选,有效提高模型的训练速度和模型的泛化能力。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理,并不构成对本公开的不当限定。
图1是根据一示例性实施例示出的一种智能化的二分类模型训练方法的流程图。
图2是根据一示例性实施例示出的一种智能化的二分类模型训练方法的流程图。
图3是根据一示例性实施例示出的一种智能化的二分类模型训练方法的流程图。
图4是根据一示例性实施例示出的一种目标表合成示意图。
图5是根据一示例性实施例示出的一种模型训练示意图。
图6是根据一示例性实施例示出的一种特征变量筛选示意图。
图7是根据一示例性实施例示出的一种智能化的二分类模型训练装置的框图。
图8是根据一示例性实施例示出的一种装置的框图。
图9是根据一示例性实施例示出的一种装置的框图。
具体实施方式
为了使本领域普通人员更好地理解本公开的技术方案,下面将结合附图,对本公开实施例中的技术方案进行清楚、完整地描述。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的本公开的一些方面相一致的装置和方法的例子。
需要说明的是,本公开所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等),均为经用户授权或者经过各方充分授权的信息。
商业银行在进行营销活动时通常面对两个问题:“如何把特定的产品营销给合适的客户?”以及“如何给特定的客户推荐合适的产品?”,由此引申出了以产品为主的精准营销和以客户为主的精准营销这两种营销模式。而不管是哪种模式,准确把握客户购买产品的意愿从而实现双向匹配都是非常重要的课题。近年来,基于机器学习算法的精准营销在银行业快速兴起,在国内商业银行利用机器学习开展精准营销的实践中,主要以建立二分类算法为主,通过对历史数据中客户与产品间的交互记录(购买为1,未购买为0)和特征数据进行建模,挖掘客户或产品的特征对最终购买决策的影响关系,预测客户对某个产品的购买概率,以此为依据判断客户是否会购买该产品,进而制定个性化、差异化的营销策略。
建立二分类模型需要涉及到数据清洗、特征选择、模型训练和评分、异常数据处理等,需要人工来进行研发和调试,而银行由于数据库几经迁移、数据源不清晰、客户信息填写不规范、跨部门间数据不一致等种种问题,导致对银行数据进行清洗和特征选择的工作量非常之大。且由于监管、安全等方面的考虑,银行对数据中异常值的处理也十分重视和谨慎。因此,基于银行在使用二分类模型进行精准营销时面临的以上难题和痛点,本发明提出一种适用于构建银行精准营销的智能化二分类算法及系统,支持自动化的训练数据的抽样、数据清洗、模型训练和模型评分,并对异常数据进行监测,输出模型报告、异常数据监测报告,为商业银行提供一键式的二分类模型构建体验。
自动机器学习是一个新兴的领域,自动化的建模过程使得建模更加容易,并且每个人都更容易掌握。Auto-sklearn是一个具有代表性的自动机器学习工具,可为新的数据集自动搜索学习算法,并优化超参数。
当前开源的AUTO-ML侧重网络架构和自动搜索,本方法则基于商业银行应用实践在数据预处理、特征初选和脏数据处理上提供了解决策略,并形成自动化的运行体系,提高了建立二分类机器学习模型的效率。
当前开源的AUTO-ML更多用于计算机视觉、自然语言处理等非结构化数据建模领域,且偏重于网络架构和参数搜索的自动化,对于商业银行精准营销模型的场景并不太适用。
商业银行在利用机器学习建立精准营销模型时,数据分析工作者需要完成数据清洗、数据特征的选择、模型训练和模型评估等多个环节的工作。鉴于此,本方法基于数据清洗、特征选择、模型训练和预测、模型监测的建模步骤提供了一套智能化的二分类模型构建方式。
图1是根据一示例性实施例示出的一种智能化的二分类模型训练方法的流程图,如图1所示,所述方法包括以下步骤。
步骤101,获取初始数据,对所述初始数据进行预处理以获取训练数据。
本实施例中,首先自动进行数据的采集,并自动将各个数据表根据客户ID进行关联,以生成所述训练数据。后续对客户购买意愿的预测均基于这里获取的训练数据,通过自动化地生成训练数据,可以提高数据处理的效率。
步骤102,对所述训练数据进行采样,生成多个训练数据子集;
步骤103,获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;
本实施例中,训练数据中包含多种特征,由于硬件运算能力有限,无法考虑到所有的特征进行预测,需要从中筛选出较为重要的特征,根据这些特征来进行预测工作。在特征重要度评估的过程中,首先需要将对所述训练数据进行多次小样本采样,以获取多个训练数据子集,并对各个训练数据子集中的数据进行填补的工作,避免数据缺失导致评估出现误差。
然后即可应用多个算法对训练数据子集进行特征重要度评分,并进行汇总,依据汇总分值完成特征的初次筛选,以确定推荐特征。
步骤104,根据所述推荐特征对进行模型训练,获取多个候选二分类模型;
本实施例中,确定初步特征后,模型训练环节根据模型算法池内的算法,利用训练数据中的初步特征进行候选二分类模型的训练,并根据模型评估设定的评价指标对新训练的候选二分类模型和已存在的冠军模型(如有)进行对比,确定新的冠军模型;
步骤105,根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;
模型评估环节设定评价指标和重要特征呈现个数、评估图分箱个数,输出新老模型的评估结果。
步骤106,将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。
模型预测环节需指定数据来源,数据名称和预测结果中需保留的特征字段,输出文件或数据集至数据库。
可选的,所述初始数据中包括客户理财购买标识表和客户特征标签表,其中,所述客户理财购买标识表中包含客户ID和理财购买标识,所述客户特征标签表中包含客户ID和多个客户特征。
Figure BDA0004021219810000061
表1
本实施例中涉及的表结构如表1所示,本申请的主要目标是用训练出的模型根据客户特征来进行预测,获取理财购买标识的预测结果,也即预测客户是否会购买该理财产品。表1给出了本算法涉及的表(客户理财购买标识表、客户特征标签表1、…、客户特征标签表n)以及这些表各自的表结构,目标表是基于这些表进行关联和合并后得到的。
可选的,所述对所述初始数据进行预处理以获取训练数据的步骤具体包括:
读取所述客户理财购买标识表对应的客户ID和所述客户特征标签表对应的客户ID,将同一客户ID对应的所述客户理财购买标识表和所述客户特征标签表相关联,以生成目标表,并将所述目标表作为所述训练数据。
Figure BDA0004021219810000071
表2
表2为训练数据读取所需字段,如表2所示,在读取数据时,需要输入左边一列的字段,以读取对应的数据,右边一列为对字段的具体解释。
图4是根据一示例性实施例示出的一种目标表合成示意图。如图4所示,本实施例中,特征标签表中呈现的特征都是与cust_id对应的。在每个特征标签表中,对于每个cust_id,都拥有表里的所有特征,并在这些特征下有相应的特征值。然后会以cust_id为关联字段,将各个特征标签表和客户理财购买标识表进行关联,就得到了以cust_id为标识字段的目标表。
在实际操作时,通过输入客户理财购买标识表名称、客户ID字段、理财购买标识字段、各标签表名称、单次关联允许关联表个数和输出的目标表名称,系统自动将客户理财购买标识表分别与特征表进行关联,直到将客户特征合成至目标表,从而生成训练数据集和评分数据集。
图2是根据一示例性实施例示出的一种智能化的二分类模型训练方法的流程图,如图2所示,图1中的步骤102具体包括以下步骤。
步骤201,根据目标正样本抽样比例从所述训练数据中抽取多个目标表以组成所述训练数据子集,其中,所述训练数据中理财购买标识为1的样本为正样本,理财购买标识为0的样本为负样本。
在二分类算法中,一般将有交易的样本定义为正样本。因此,本实施例中将客户ID对应的理财购买标识为1的样本定义为正样本,为0的样本定义为负样本。
步骤202,根据连续变量缺失阈值,对所述训练数据子集中的连续变量缺失数据进行填补,其中,所述连续变量缺失阈值包括:连续型变量缺失率上限、连续型变量新建缺失标志缺失率上限和连续型变量新建缺失标志缺失率下限;
步骤203,根据离散变量缺失阈值,对所述训练数据子集中的离散变量缺失数据进行填补,其中,所述离散变量缺失阈值包括离散型变量取值水平上限。
Figure BDA0004021219810000081
表3
表3为数据预处理所用参数,如表3所示,对于每个训练数据子集,为了可以让模型在训练过程中更好地学习到正负样本的特征,更加准确地区分正负样本,需要保证其中的正负样本保持一定的比例,表3右侧一列为一种可能的实施例中推荐的参数的数值。每个训练数据子集中正负样本抽样比例需要达到1:9。抽样时每个样本都包含所有的特征,得到的训练数据子集中也包含所有的特征。
客户特征标签表中的特征数据可以分为连续变量和离散变量两大类,对于特征数据中连续型变量,如果其缺失率大于0.9,则确定需要进行补充,对于缺失的数据,可以利用中位数、均值、常数来进行补充,以使新建缺失标志缺失率在0.001至0.99之间。
可选的,步骤103获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征的过程具体利用随机森林来计算特征重要度评分。随机森林是以决策树为基学习器的集成学习算法。随机森林非常简单,易于实现,计算开销也很小。
随机森林的算法可以用如下几个步骤概括:
用有抽样放回的方法(bootstrap)从样本集中选取n个样本作为一个训练集;
用抽样得到的样本集生成一棵决策树。在生成的每一个结点;
随机不重复地选择d个特征;
利用这d个特征分别对样本集进行划分,找到最佳的划分特征(可用基尼系数、增益率或者信息增益判别);
重复步骤1到步骤2共k次,k即为随机森林中决策树的个数。
用训练得到的随机森林对测试样本进行预测,并用票选法决定预测的结果。
现实情况下,一个数据集中往往有成百上前个特征,如何在其中选择比结果影响最大的那几个特征,以此来缩减建立模型时的特征数是我们比较关心的问题。这样的方法其实很多,比如主成分分析,lasso等等。不过,这里我们要介绍的是用随机森林来对进行特征筛选。
用随机森林进行特征重要性评估的思想其实很简单,就是看看每个特征在随机森林中的每颗树上做了多大的贡献,然后取个平均值,最后比一比特征之间的贡献大小。
通常可以用基尼指数(Gini index)或者袋外数据(OOB)错误率作为评价指标(也即特征重要度评分)来衡量特征重要度。
图3是根据一示例性实施例示出的一种智能化的二分类模型训练方法的流程图,如图3所示,图1中的步骤104包括以下步骤。
步骤301,将所述目标表中的所述推荐特征输入所述候选二分类模型中,获取客户ID对应的预测理财购买标识;
步骤302,根据客户ID对应的所述预测理财购买标识和标签预测理财购买标识计算损失函数,以所述损失函数收敛为目标调整所述候选二分类模型中的参数。
本实施例中,为了筛选出预测最准确的模型,需要利用推荐特征训练多个候选二分类模型,客户ID对应的标签预测理财购买标识即为训练数据的标签,利用预测理财购买标识和标签预测理财购买标识计算损失函数,以所述损失函数收敛为目标调整所述候选二分类模型中的参数,即完成了对候选二分类模型的训练。
模型评估显示的重要变量个数: 默认为20
评价指标设定: KS、AUC
ROC/KS评估图分箱个数: 默认为10
表4
表4为模型评估中所用参数,如表4所示,所述推荐特征数量为20个,利用ROC对应的AUC指数和KS曲线来对候选二分类模型进行评估。
可选的,图1中的步骤105所述根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型的步骤具体包括:
步骤401,计算所述候选二分类模型的特征曲线对应的曲线下面积AUC指数,并获取所述候选二分类模型的洛伦兹KS曲线;
步骤402,根据所述AUC指数和所述KS曲线生成所述模型评分;
步骤403,将所述模型评分最大的模型作为所述推荐二分类模型。
本实施例中,对于候选二分类模型预测效果的评价可以利用AUC和KS曲线来进行。
Accuracy指正确率,反映模型对好坏样本的区分能力。在信贷风控中,坏样本分数分布和好样本分布之间的区别越大,则模型对好坏样本的区分能力越强。AUC、Gini、KS等指标常用来衡量模型的区分能力。在介绍AUC(Area Under Curve)前,我们先来介绍一下混淆矩阵(Confusion Matrix)和ROC曲线。
Figure BDA0004021219810000101
表5
表5为混淆矩阵示意表,如表5所示,其中:
TP(True Positive):将正类预测为正类数,真实为0,预测也为0
FN(False Negative):将正类预测为负类数,真实为0,预测为1
FP(False Positive):将负类预测为正类数,真实为1,预测为0
TN(True Negative):将负类预测为负类数,真实为1,预测也为1
假阳性率(False Positive Rate):在所有的负样本中,分类器预测错误(把负样本预测为正样本)的比例,即:
Figure BDA0004021219810000111
真阳性率(True Positive Rate):在所有的正样本中,分类器预测正确的比例(等于Recall):
Figure BDA0004021219810000112
ROC曲线为FPR与TPR之间的关系曲线,其中x轴为FPR,y轴为TPR。这个组合以FPR对TPR,即是以代价(costs)对收益(benefits),显然收益越高,代价越低,模型的性能就越好。
AUC值为ROC曲线与坐标轴围成的区域面积。显然,AUC越大,则模型分类效果越好。其取值说明如下:
1.AUC=1,是完美分类器。
2.0.5<AUC<1,优于随机猜测,有预测价值。
3.AUC=0.5,跟随机猜测一样,没有预测价值。
4.AUC<0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
通过改变不同的阈值1.0→0,得到一系列的混淆矩阵,进而得到一系列的TPR和FPR,绘制出ROC曲线。
KS统计量是信用评分和其他很多学科中常见的统计量,在金融风控领域中,常用于衡量模型对正负样本的区分度。通常来说,值越大,模型区分正负样本的能力越强,一般0.3以上,说明模型的效果比较好。其定义如下:
KS=max|TPR-FPR|
KS曲线与ROC曲线相似,ROC是以FPR作为横坐标,TPR作为纵坐标,通过改变不同阈值,从而得到ROC曲线。而在KS曲线中,则是以阈值作为横坐标,以FPR和TPR作为纵坐标,KS曲线则为TPR-FPR,KS曲线的最大值通常为KS值。
当阈值减小时,TPR和FPR会同时减小,当阈值增大时,TPR和FPR会同时增大。而在实际工作中,我们希望TPR更大一些,FPR更小一些,即TPR-FPR越大越好。
图5是根据一示例性实施例示出的一种模型训练示意图。如图5所示,本实施例设计了端到端的从训练数据读获取、数据预处理、特征变量初选、模型训练、模型评估、模型预测的全流程自动化建模。
训练数据读取环节,需要指定训练数据源来自文件还是数据库、数据集名称、目标变量、ID变量和无需读取的字段;数据预处理环节可自行设置预处理参数或直接采用基于历史经验确定的默认策略;特征变量筛选环节对预处理后的训练数据集进行多次小样本抽样,并分别应用多个算法进行特征重要度评分,并进行汇总,依据汇总分值完成特征的初次筛选;模型训练环节根据模型算法池内的算法进行训练,并根据模型评估设定的评价指标对新训练的模型和已存在的冠军模型(如有)进行对比,确定新的冠军模型;模型评估环节设定评价指标和重要特征呈现个数、评估图分箱个数,输出新老模型的评估结果;模型预测环节需指定数据来源,数据名称和预测结果中需保留的特征字段,输出文件或数据集至数据库。
图6是根据一示例性实施例示出的一种特征变量筛选示意图。如图6所示,首先对训练数据集合进行抽样,抽样的依据为表3中的参数,获取多个训练数据集合(也即上述训练数据子集)。将多个训练数据集合数据多个及其学习算法计算特征重要度,以获取多个特征重要度评分,并然后对特征重要度评分进行汇总,依据汇总分值完成特征的初次筛选。
图7是根据一示例性实施例示出的一种智能化的二分类模型训练装置的框图。参照图7,该装置700包括:
数据读取模块710,用于获取初始数据,对所述初始数据进行预处理以获取训练数据;
采样模块720,用于对所述训练数据进行采样,生成多个训练数据子集;
特征评分模块730,用于获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;
训练模块740,用于根据所述推荐特征对进行模型训练,获取多个候选二分类模型;
模型评分模块750,用于根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;
预测模块760,将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图8是根据一示例性实施例示出的一种装置800的框图。例如,装置800可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图8,装置800可以包括以下一个或多个组件:处理组件802,存储器804,电力组件806,多媒体组件808,音频组件810,输入/输出(I/O)的接口812,传感器组件814,以及通信组件816。
处理组件802通常控制装置800的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件802可以包括一个或多个处理器820来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件802可以包括一个或多个模块,便于处理组件802和其他组件之间的交互。例如,处理组件802可以包括多媒体模块,以方便多媒体组件808和处理组件802之间的交互。
存储器804被配置为存储各种类型的数据以支持在设备800的操作。这些数据的示例包括用于在装置800上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器804可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电源组件806为装置800的各种组件提供电力。电源组件806可以包括电源管理系统,一个或多个电源,及其他与为装置800生成、管理和分配电力相关联的组件。
多媒体组件808包括在所述装置800和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件808包括一个前置摄像头和/或后置摄像头。当设备800处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件810被配置为输出和/或输入音频信号。例如,音频组件810包括一个麦克风(MIC),当装置800处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器804或经由通信组件816发送。在一些实施例中,音频组件810还包括一个扬声器,用于输出音频信号。
I/O接口812为处理组件802和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件814包括一个或多个传感器,用于为装置800提供各个方面的状态评估。例如,传感器组件814可以检测到设备800的打开/关闭状态,组件的相对定位,例如所述组件为装置800的显示器和小键盘,传感器组件814还可以检测装置800或装置800一个组件的位置改变,用户与装置800接触的存在或不存在,装置800方位或加速/减速和装置800的温度变化。传感器组件814可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件814还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件814还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件816被配置为便于装置800和其他设备之间有线或无线方式的通信。装置800可以接入基于通信标准的无线网络,如WiFi,运营商网络(如2G、3G、4G或5G),或它们的组合。在一个示例性实施例中,通信组件816经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件816还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置800可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。
在示例性实施例中,还提供了一种包括指令的存储介质,例如包括指令的存储器804,上述指令可由装置800的处理器820执行以完成上述方法。可选地,存储介质可以是非临时性计算机可读存储介质,例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
图9是根据一示例性实施例示出的一种装置900的框图。例如,装置900可以被提供为一服务器。参照图9,装置900包括处理组件922,其进一步包括一个或多个处理器,以及由存储器932所代表的存储器资源,用于存储可由处理组件922的执行的指令,例如应用程序。存储器932中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件922被配置为执行指令,以执行上述方法。
装置900还可以包括一个电源组件926被配置为执行装置900的电源管理,一个有线或无线网络接口950被配置为将装置900连接到网络,和一个输入输出(I/O)接口958。装置900可以操作基于存储在存储器932的操作系统,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM或类似。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (10)

1.一种智能化的二分类模型训练方法,其特征在于,包括:
获取初始数据,对所述初始数据进行预处理以获取训练数据;
对所述训练数据进行采样,生成多个训练数据子集;
获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;
根据所述推荐特征对进行模型训练,获取多个候选二分类模型;
根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;
将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。
2.根据权利要求1所述的方法,其特征在于,所述初始数据中包括客户理财购买标识表和客户特征标签表,其中,所述客户理财购买标识表中包含客户ID和理财购买标识,所述客户特征标签表中包含客户ID和多个客户特征。
3.根据权利要求2所述的方法,其特征在于,所述对所述初始数据进行预处理以获取训练数据的步骤具体包括:
读取所述客户理财购买标识表对应的客户ID和所述客户特征标签表对应的客户ID,将同一客户ID对应的所述客户理财购买标识表和所述客户特征标签表相关联,以生成目标表,并将所述目标表作为所述训练数据。
4.根据权利要求2所述的方法,其特征在于,所述对所述训练数据进行采样,生成多个训练数据子集的步骤具体包括:
根据目标正样本抽样比例从所述训练数据中抽取多个目标表以组成所述训练数据子集,其中,所述训练数据中理财购买标识为1的样本为正样本,理财购买标识为0的样本为负样本;
根据连续变量缺失阈值,对所述训练数据子集中的连续变量缺失数据进行填补,其中,所述连续变量缺失阈值包括:连续型变量缺失率上限、连续型变量新建缺失标志缺失率上限和连续型变量新建缺失标志缺失率下限;
根据离散变量缺失阈值,对所述训练数据子集中的离散变量缺失数据进行填补,其中,所述离散变量缺失阈值包括离散型变量取值水平上限。
5.根据权利要求4所述的方法,其特征在于,所述根据所述推荐特征对进行模型训练,获取多个候选二分类模型的步骤具体包括:
将所述目标表中的所述推荐特征输入所述候选二分类模型中,获取客户ID对应的预测理财购买标识;
根据客户ID对应的所述预测理财购买标识和标签预测理财购买标识计算损失函数,以所述损失函数收敛为目标调整所述候选二分类模型中的参数。
6.根据权利要求1所述的方法,其特征在于,所述根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型的步骤具体包括:
计算所述候选二分类模型的特征曲线对应的曲线下面积AUC指数,并获取所述候选二分类模型的洛伦兹KS曲线;
根据所述AUC指数和所述KS曲线生成所述模型评分;
将所述模型评分最大的模型作为所述推荐二分类模型。
7.一种智能化的二分类模型训练装置,其特征在于,包括:
数据读取模块,用于获取初始数据,对所述初始数据进行预处理以获取训练数据;
采样模块,用于对所述训练数据进行采样,生成多个训练数据子集;
特征评分模块,用于获取所述训练数据子集中各个特征的重要度评分,并根据所述重要度评分确定推荐特征;
训练模块,用于根据所述推荐特征对进行模型训练,获取多个候选二分类模型;
模型评分模块,用于根据预设的模型评估方法获取所述候选二分类模型的模型评分,以确定推荐二分类模型;
预测模块,将待预测数据输入所述推荐二分类模型中,以生成模型预测结果。
8.一种电子设备,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为执行所述指令,以实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,当所述存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN202211686438.0A 2022-12-27 2022-12-27 智能化的二分类模型训练方法及装置 Pending CN116167454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211686438.0A CN116167454A (zh) 2022-12-27 2022-12-27 智能化的二分类模型训练方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211686438.0A CN116167454A (zh) 2022-12-27 2022-12-27 智能化的二分类模型训练方法及装置

Publications (1)

Publication Number Publication Date
CN116167454A true CN116167454A (zh) 2023-05-26

Family

ID=86410449

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211686438.0A Pending CN116167454A (zh) 2022-12-27 2022-12-27 智能化的二分类模型训练方法及装置

Country Status (1)

Country Link
CN (1) CN116167454A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821724A (zh) * 2023-08-22 2023-09-29 腾讯科技(深圳)有限公司 多媒体处理网络生成方法、多媒体处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116821724A (zh) * 2023-08-22 2023-09-29 腾讯科技(深圳)有限公司 多媒体处理网络生成方法、多媒体处理方法及装置
CN116821724B (zh) * 2023-08-22 2023-12-12 腾讯科技(深圳)有限公司 多媒体处理网络生成方法、多媒体处理方法及装置

Similar Documents

Publication Publication Date Title
CN108256555A (zh) 图像内容识别方法、装置及终端
JP6869347B2 (ja) リスク制御イベント自動処理の方法および装置
CN110717509B (zh) 基于树分裂算法的数据样本分析方法及装置
CN111428032B (zh) 内容质量评价方法及装置、电子设备、存储介质
CN111861488A (zh) 机器学习模型对比方法及装置
CN116167454A (zh) 智能化的二分类模型训练方法及装置
CN110288468B (zh) 数据特征挖掘方法、装置、电子设备及存储介质
CN115909127A (zh) 异常视频识别模型的训练方法、异常视频识别方法和装置
CN111814538A (zh) 目标对象的类别识别方法、装置、电子设备及存储介质
CN112884040B (zh) 训练样本数据的优化方法、系统、存储介质及电子设备
CN116030370A (zh) 基于多目标追踪的行为识别方法、装置及电子设备
CN113779257A (zh) 文本分类模型的解析方法、装置、设备、介质及产品
CN112783779A (zh) 测试用例的生成方法、装置、电子设备和存储介质
CN112070094B (zh) 训练数据的筛选方法、装置、电子设备及存储介质
CN113656637B (zh) 视频推荐方法、装置、电子设备及存储介质
CN114153954A (zh) 测试用例推荐方法、装置、电子设备及存储介质
CN113590605A (zh) 数据处理方法、装置、电子设备及存储介质
CN114462742A (zh) 风险提示方法、装置、设备及计算机存储介质
CN112529699A (zh) 企业授信模型的构建方法、装置、设备及可读存储介质
KR20200031020A (ko) 수사지원정보 제공 방법 및 장치
CN112734568B (zh) 信用评分卡模型构建方法、装置、设备及可读存储介质
CN117252822B (zh) 缺陷检测网络的构建及缺陷检测方法、装置和设备
CN114338587B (zh) 一种多媒体数据处理方法、装置、电子设备及存储介质
CN117093446A (zh) 基于性能测试的监控指标确定方法、装置及电子设备
CN117349334A (zh) 数据处理方法、装置、电子设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination