CN111476296A - 样本生成方法、分类模型训练方法、识别方法及对应装置 - Google Patents

样本生成方法、分类模型训练方法、识别方法及对应装置 Download PDF

Info

Publication number
CN111476296A
CN111476296A CN202010263850.6A CN202010263850A CN111476296A CN 111476296 A CN111476296 A CN 111476296A CN 202010263850 A CN202010263850 A CN 202010263850A CN 111476296 A CN111476296 A CN 111476296A
Authority
CN
China
Prior art keywords
preset
data
target
feature
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010263850.6A
Other languages
English (en)
Inventor
郭灿
徐庶
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Du Xiaoman Technology Beijing Co Ltd
Original Assignee
Shanghai Youyang New Media Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Youyang New Media Information Technology Co ltd filed Critical Shanghai Youyang New Media Information Technology Co ltd
Priority to CN202010263850.6A priority Critical patent/CN111476296A/zh
Publication of CN111476296A publication Critical patent/CN111476296A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种样本生成方法、分类模型训练方法、识别方法及对应装置,在生成分类模型的样本时,首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征,以进一步减少分类模型训练的数据处理量,并基于目标特征以及目标特征在预设训练集和预设验证集中对应的目标数据,生成分类模型。因此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。

Description

样本生成方法、分类模型训练方法、识别方法及对应装置
技术领域
本发明涉及机器学习技术领域,更具体的说,涉及一种样本生成方法、 分类模型训练方法、识别方法及对应装置。
背景技术
现有技术在对分类模型进行训练时,需要分类模型算法工程师对获取的 原始数据集进行人工切分,得到训练集和验证集;然后由人工对训练集进行 模型特征筛选和模型参数调整。
因此,现有分类模型的训练方法需要耗费大量的人力和时间,导致分类 模型的训练效率低。
发明内容
有鉴于此,本发明公开一种样本生成方法、分类模型训练方法、识别方 法及对应装置,以实现基于特征指标和特征信息价值对预设训练集中的数据 特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数据处理量, 并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型 训练的数据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处 理量小,从而大大节省了人力和时间,提高了分类模型的训练效率。
一种样本生成方法,包括:
获取预设训练集中每个数据特征的特征指标和特征信息价值;
基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设 训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定每个所述基础特征的特征贡献度;
从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为 目标样本中的目标特征。
可选的,所述预设训练集为对样本数据集按照预设切分策略得到,所述 样本数据集中的每个数据包括:时间标签和数据特征;
按照所述预设切分策略得到所述预设训练集的过程包括:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得 到目标样本数据集;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随 机拆分,将拆分结果作为所述预设训练集。
可选的,所述确定每个所述基础特征的特征贡献度,具体包括:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据 以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡 献度,其中,所述第一预设训练模型包含有贡献度属性。
一种分类模型训练方法,包括:
将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二 预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采 用上述所述的样本生成方法得到的目标特征。
可选的,还包括:
将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型, 得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和 评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所 述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进 行排序得到的。
一种识别方法,包括:
获取待识别数据;
调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为上 述所述的分类模型训练方法生成的模型;
获取对所述待识别数据的识别结果。
一种样本生成装置,包括:
特征获取单元,用于获取预设训练集中每个数据特征的特征指标和特征 信息价值;
基础特征筛选单元,用于基于所述特征指标和所述特征信息价值,按照 预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集 的多个基础特征;
确定单元,用于确定每个所述基础特征的特征贡献度;
目标特征筛选单元,用于从多个所述基础特征中筛选出满足预设特征贡 献度条件的基础特征作为目标样本中的目标特征。
可选的,还包括:
切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;
所述切分单元具体用于:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得 到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特 征;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随 机拆分,将拆分结果作为所述预设训练集。
可选的,所述确定单元具体用于:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据 以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡 献度,其中,所述第一预设训练模型包含有贡献度属性。
一种分类模型训练装置,包括:
模型生成单元,用于将目标特征在预设训练集和预设验证集中对应的目 标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所 述目标数据包括:采用上述所述的样本生成装置得到的目标特征。
可选的,还包括:
评估单元,用于将所述目标特征在预设测试集中对应的测试数据输入至 所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括: 模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位 置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标 签按照时序进行排序得到的。
一种识别装置,包括:
数据获取单元,用于获取待识别数据;
模型调用单元,用于调用预设分类模型对所述待识别数据进行处理,所 述预设分类模型为上述所述的分类模型训练装置生成的模型;
识别单元,用于获取对所述待识别数据的识别结果。
从上述的技术方案可知,本发明公开了一种样本生成方法、分类模型训 练方法、识别方法及对应装置,在生成分类模型的样本时,基于预设训练集 中每个数据特征的特征指标和特征信息价值,对预设训练集的数据特征进行 初步筛选,得到预设训练集的多个基础特征,然后基于每个基础特征的特征 贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的基础特征作为 目标样本中的目标特征,从而基于目标特征以及目标特征在预设训练集和预 设验证集中对应的目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初步筛选得到多 个基础特征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献 度对多个基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因 此,本发明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省 了人力和时间,提高了分类模型的训练效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实 施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面 描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不 付出创造性劳动的前提下,还可以根据公开的附图获得其他的附图。
图1为本发明实施例公开的一种样本生成方法流程图;
图2为本发明实施例公开的一种识别方法流程图;
图3为本发明实施例公开的一种样本生成装置的结构示意图;
图4为本发明实施例公开的一种识别装置的结构示意图。
具体实施方式
在对分类模型进行训练时,面对采用人工训练分类模型需要耗费大量的 人力和时间的问题,在进行数据特征筛选时,有人提出了依赖模型本身的单 一特征进行数据特征筛选的方法,例如,VAR(Variance,方差阈值)方法, 具体为:统计样本的方差,将方差超过VAR的样本进行剔除,得到用于分类 模型训练的样本。由于很多样本不一定符合正太分布,因此VAR方法容易影 响样本质量,导致训练得到的分类模型不准确。再例如,SVM(SupportVector Machine,特征向量机)方法,具体为:基于空间距离,将空间划分为两个区 间,以分割位置为基准,从近到远进行样本筛选,得到用于分类模型训练的 样本。由于样本通常存在很多缺失值,因此容易对空间距离的判断造成影响, 所以采用SVM方法得到的样本并不准确。再例如,PCA(Principal Component Analysis,主成分分析)方法,通过映射将样本点进行空间交换,并从映射后 的特征维度中,选择差异较大的特征维度对应的样本进行分类模型的训练。 由于样本特征降维后,失去了原始特征,因此,容易对分类模型的训练精度造成影响。
面对采用人工训练分类模型需要耗费大量的人力和时间的问题,以及基 于模型本身的单一特征进行样本筛选存在的种种问题,本发明公开一种样本 生成方法、分类模型训练方法、识别方法及对应装置,以实现基于特征指标 和特征信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特 征,以减少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个 基础特征进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发 明不仅实现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和 时间,提高了分类模型的训练效率。
另外,本发明还有效避免了基于模型本身的单一特征进行样本筛选存在 的种种问题。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而 不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做 出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例公开了一种样本生成方法、分类模型训练方法、识别方法 及对应装置,在生成分类模型的样本时,基于预设训练集中每个数据特征的 特征指标和特征信息价值,对预设训练集的数据特征进行初步筛选,得到预 设训练集的多个基础特征,然后基于每个基础特征的特征贡献度,从多个基 础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标 特征,从而基于目标特征以及目标特征在预设训练集和预设验证集中对应的 目标数据,生成分类模型。由此可以看出,本发明首先基于特征指标和特征 信息价值对预设训练集中的数据特征进行初步筛选得到多个基础特征,以减 少分类模型训练时的数据处理量,并进一步基于特征贡献度对多个基础特征 进行筛选,以进一步减少分类模型训练的数据处理量,因此,本发明不仅实 现了数据的自动筛选,而且数据处理量小,从而大大节省了人力和时间,提 高了分类模型的训练效率。
参见图1,本发明一实施例公开的一种样本生成方法流程图,该方法包括 步骤:
步骤S101、获取预设训练集中每个数据特征的特征指标和特征信息价值;
需要说明的是,预设训练集为对样本数据集按照预设切分策略得到,所 述样本数据集中的每个数据包括:时间标签和数据特征。
其中,按照预设切分策略得到预设训练集的过程可以包括:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得 到目标样本数据集;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随 机拆分,将拆分结果作为所述预设训练集。
具体的,根据样本数据集中各个数据的时间标签,将各个数据按照时序 进行排序,得到目标样本数据集。为提高训练集中各个数据的准确性,在实 际应用中,可以将时间最近数据集和时间最远数据集作为测试集,该测试集 不参与模型训练,仅模拟真实环境数据,以评估分类模型线上真实效果和衰 减程度。目标样本数据集中除测试集以外的样本数据集,也即位于预设位置 的样本数据集,用于进行分类模型训练。本实施例将位于预设位置的样本数 据集按照预设比例随机拆分为训练集和验证集,此处拆分得到的训练集也即预设训练集,拆分得到的验证集也即后续的预设验证集。。
其中,预设比例的取值依据实际需要而定,本发明在此不做限定。
需要说明的是,在实际应用中,测试集并不局限于时间最近数据集和时 间最远数据集。另外,在实际应用中,还可以根据预先设定的训练集包含的 数据数量,对位于预设位置的样本数据集进行拆分,其中,训练集包含的数 据数量可以根据实际需要自行配置调节。
举例说明,假设样本数据集中包含2019年07月到2019年10月的数据,则 可以将2019年07月的数据和2019年10月的数据作为测试集,将2019年08月的 数据和2019年9月的数据作为位于预设位置的样本数据集,通过对2019年08月 的数据和2019年9月的数据按照预设比例随机拆分,得到预设训练集和预设验 证集。
还需要说明的是,当样本数据集中包含的数据量非常大,比如,百万级 以上,则还可以配置切分数据集的数据上下限。
本实施例中,数据特征的特征指标可以包括:覆盖率、平均值、方差、 类型和变化率等。其中,变化率是指对训练集各个时间段的数据特征的统计 数据再进行计算,以判断特征是否稳定。
特征信息价值指的是:通过计算数据特征的WOE(Weight of Evidence, 证据权重),根据WOE的数值来评估该数据特征的IV(Information Value,信 息价值)。
其中,特征信息价值的具体计算过程可参见现有成熟方案,此处不再赘 述。
步骤S102、基于所述特征指标和所述特征信息价值,按照预设筛选规则 对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特 征;
其中,预设筛选规则可以根据实际经验来确定。比如,特征信息价值的 经验阈值为0.01,特征指标中覆盖率的经验阈值为10%,则可以将特征信息 价值不小于0.01,覆盖率不小于10%的数据特征作为筛选得到的基础特征。
步骤S103、确定每个所述基础特征的特征贡献度;
具体的,采用第一预设训练模型对所述基础特征在所述预设训练集中对 应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征 的特征贡献度。
其中,第一预设训练模型包含有贡献度属性,第一预设训练模型比如, 随机森林、决策树、GBDT(Gradient Boosting Decision Tree,梯度提升迭代决 策树)、XGBoost等。
步骤S104、从多个所述基础特征中筛选出满足预设特征贡献度条件的基 础特征作为目标样本中的目标特征。
在实际应用中,在确定每个基础特征的特征贡献度后,可以建立一个贡 献度文件,该贡献度文件中的各个基础特征按照特征贡献度由大到小排序。
选取贡献度文件中特征贡献度排名前预设数量的基础特征作为目标样本 中的目标特征,比如,将特征贡献度排名前100的基础特征作为目标样本中 的目标特征。
综上可知,本发明公开的样本生成方法,在生成分类模型的样本时,基 于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的 数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基 础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的 基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预 设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出, 本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初 步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步 基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数 据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小, 从而大大节省了人力和时间,提高了分类模型的训练效率。
为进一步优化上述实施例,本发明还公开了一种分类模型训练方法,该 方法包括:
将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二 预设训练模型进行模型调参,生成分类模型。
其中,目标特征为采用图1所示实施例得到的目标特征。
预设训练集和预设验证集的确定过程,可参见样本生成方法对应部分, 此处不再赘述。
综上可知,本发明公开的分类模型训练方法,在生成分类模型的样本时, 基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集 的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个 基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件 的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在 预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出, 本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初 步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步 基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数 据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小, 从而大大节省了人力和时间,提高了分类模型的训练效率。
本发明在得到分类模型后,还会进一步对分类模型的准确性、衰减情况 等进行验证。
因此,为进一步优化上述实施例,分类模型训练方法还可以包括:
将目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到 所述预设测试集的评估结果。
其中,本实施例中的预设测试集为目标样本数据集中位于预设位置的数 据,目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序 进行排序得到的。
在实际应用中,在将样本数据集中的各个数据,基于时间标签按照时序 进行排序得到目标样本数据集后,可以将时间最近数据集和时间最远数据集 作为本实施例中的预设测试集。举例说明,假设样本数据集中包含2019年07 月到2019年10月的数据,则可以将2019年07月的数据和2019年10月的 数据作为预设测试集。
本实施例中,对预设测试集的评估结果可以包括:模型概率分和评估指 标,其中,评估指标可以包括:KS(Kolmogorov-Smimov)检验、AUC(Area under the ROC curve,ROC曲线下的面积)、F1-score、准确率、 PSI(PopulationStability Index,群体稳定性指数)等。
与上述方法实施例相对应,本发明还公开了一种识别方法。
参见图2,本发明一实施例公开的一种识别方法流程图,该方法包括步骤:
步骤S201、获取待识别数据;
步骤S202、调用预设分类模型对所述待识别数据进行处理;
其中,本实施例中的预设分类模型也即上述实施例中生成的分类模型。
步骤S203、获取对所述待识别数据的识别结果。
为便于理解采用分类模型的识别方法,本实施例提供了一个分类模型的 应用场景,如下:
为降低信贷风险和损失,银行会对逾期用户进行催收。目前主要采用分 类模型对逾期用户进行还款概率预测,区分还款概率高中低的用户,并针对 性的进行催收。比如,预测还款概率高的用户可以采用短信或者语音提醒, 预测还款概率低的用户可以进行一定的施压和重点催收。
综上可知,本发明公开的识别方法,获取待识别数据,调用预设分类模 型对待识别数据进行处理,得到对待识别数据的识别结果,在生成预设分类 模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值, 对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征, 然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特 征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以 及目标特征在预设训练集和预设验证集中对应的目标数据,生成预设分类模 型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集 中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数 据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减 少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选, 而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效 率。
与上述方法实施例相对应,本发明还公开了一种样本生成装置。
参见图3,本发明一实施例公开的一种样本生成装置的结构示意图,该装 置包括:
特征获取单元301,用于获取预设训练集中每个数据特征的特征指标和特 征信息价值;
需要说明的是,预设训练集为对样本数据集按照预设切分策略得到,所 述样本数据集中的每个数据包括:时间标签和数据特征。
因此,样本生成装置还可以包括:
切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;
所述切分单元具体用于:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得 到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特 征;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随 机拆分,将拆分结果作为所述预设训练集。
具体的,根据样本数据集中各个数据的时间标签,将各个数据按照时序 进行排序,得到目标样本数据集。为提高训练集中各个数据的准确性,在实 际应用中,可以将时间最近数据集和时间最远数据集作为测试集,该测试集 不参与模型训练,仅模拟真实环境数据,以评估分类模型线上真实效果和衰 减程度。目标样本数据集中除测试集以外的样本数据集,也即位于预设位置 的样本数据集,用于进行分类模型训练。本实施例将位于预设位置的样本数 据集按照预设比例随机拆分为训练集和验证集,此处拆分得到的训练集也即预设训练集,拆分得到的验证集也即后续的预设验证集。。
其中,预设比例的取值依据实际需要而定,本发明在此不做限定。
需要说明的是,在实际应用中,测试集并不局限于时间最近数据集和时 间最远数据集。另外,在实际应用中,还可以根据预先设定的训练集包含的 数据数量,对位于预设位置的样本数据集进行拆分,其中,训练集包含的数 据数量可以根据实际需要自行配置调节。
还需要说明的是,当样本数据集中包含的数据量非常大,比如,百万级 以上,则还可以配置切分数据集的数据上下限。
本实施例中,数据特征的特征指标可以包括:覆盖率、平均值、方差、 类型和变化率等。其中,变化率是指对训练集各个时间段的数据特征的统计 数据再进行计算,以判断特征是否稳定。
特征信息价值指的是:通过计算数据特征的WOE(Weight of Evidence, 证据权重),根据WOE的数值来评估该数据特征的IV(Information Value,信 息价值)。
其中,特征信息价值的具体计算过程可参见现有成熟方案,此处不再赘 述。
基础特征筛选单元302,用于基于所述特征指标和所述特征信息价值,按 照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练 集的多个基础特征;
其中,预设筛选规则可以根据实际经验来确定。比如,特征信息价值的 经验阈值为0.01,特征指标中覆盖率的经验阈值为10%,则可以将特征信息 价值不小于0.01,覆盖率不小于10%的数据特征作为筛选得到的基础特征。
确定单元303,用于确定每个所述基础特征的特征贡献度;
其中,确定单元303具体可以用于:采用第一预设训练模型对所述基础 特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训 练,得到每个所述基础特征的特征贡献度。
其中,第一预设训练模型包含有贡献度属性,第一预设训练模型比如, 随机森林、决策树、GBDT(Gradient Boosting Decision Tree,梯度提升迭代决 策树)、XGBoost等。
目标特征筛选单元304,用于从多个所述基础特征中筛选出满足预设特征 贡献度条件的基础特征作为目标样本中的目标特征。
在实际应用中,在确定每个基础特征的特征贡献度后,可以建立一个贡 献度文件,该贡献度文件中的各个基础特征按照特征贡献度由大到小排序。
选取贡献度文件中特征贡献度排名前预设数量的基础特征作为目标样本 中的目标特征,比如,将特征贡献度排名前100的基础特征作为目标样本中 的目标特征。
综上可知,本发明公开的样本生成装置,在生成分类模型的样本时,基 于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集的 数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个基 础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件的 基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在预 设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出, 本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初 步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步 基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数 据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小, 从而大大节省了人力和时间,提高了分类模型的训练效率。
为进一步优化上述实施例,本发明还公开了一种分类模型训练装置,该 装置包括:
模型生成单元,用于将目标特征在预设训练集和预设验证集中对应的目 标数据,输入至第二预设训练模型进行模型调参,生成分类模型。
其中,目标特征为采用图3所示实施例得到的目标特征。
预设训练集和预设验证集的确定过程,可参见样本生成方法对应部分, 此处不再赘述。
综上可知,本发明公开的分类模型训练装置,在生成分类模型的样本时, 基于预设训练集中每个数据特征的特征指标和特征信息价值,对预设训练集 的数据特征进行初步筛选,得到预设训练集的多个基础特征,然后基于每个 基础特征的特征贡献度,从多个基础特征中筛选出满足预设特征贡献度条件 的基础特征作为目标样本中的目标特征,从而基于目标特征以及目标特征在 预设训练集和预设验证集中对应的目标数据,生成分类模型。由此可以看出, 本发明首先基于特征指标和特征信息价值对预设训练集中的数据特征进行初 步筛选得到多个基础特征,以减少分类模型训练时的数据处理量,并进一步 基于特征贡献度对多个基础特征进行筛选,以进一步减少分类模型训练的数 据处理量,因此,本发明不仅实现了数据的自动筛选,而且数据处理量小, 从而大大节省了人力和时间,提高了分类模型的训练效率。
本发明在得到分类模型后,还会进一步对分类模型的准确性、衰减情况 等进行验证。
因此,为进一步优化上述实施例,分类模型训练装置还可以包括:
评估单元,用于将所述目标特征在预设测试集中对应的测试数据输入至 所述分类模型,得到所述预设测试集的评估结果。
其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为: 目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据 集中的各个数据,基于时间标签按照时序进行排序得到的。
在实际应用中,在将样本数据集中的各个数据,基于时间标签按照时序 进行排序得到目标样本数据集后,可以将时间最近数据集和时间最远数据集 作为本实施例中的预设测试集。举例说明,假设样本数据集中包含2019年07 月到2019年10月的数据,则可以将2019年07月的数据和2019年10月的 数据作为预设测试集。
本实施例中,对预设测试集的评估结果可以包括:模型概率分和评估指 标,其中,评估指标可以包括:KS(Kolmogorov-Smirnov)检验、AUC(Area under the ROC curve,ROC曲线下的面积)、F1-score、准确率、 PSI(PopulationStability Index,群体稳定性指数)等。
与上述装置实施例相对应,本发明还公开了一种识别装置。
参见图4,本发明一实施例公开的一种识别装置的结构示意图,该装置包 括:
数据获取单元401,用于获取待识别数据;
模型调用单元402,用于调用预设分类模型对所述待识别数据进行处理, 其中,本实施例中的预设分类模型也即上述实施例中生成的分类模型。
识别单元403,用于获取对所述待识别数据的识别结果。
为便于理解采用分类模型的识别装置,本实施例提供了一个分类模型的 应用场景,如下:
为降低信贷风险和损失,银行会对逾期用户进行催收。目前主要采用分 类模型对逾期用户进行还款概率预测,区分还款概率高中低的用户,并针对 性的进行催收。比如,预测还款概率高的用户可以采用短信或者语音提醒, 预测还款概率低的用户可以进行一定的施压和重点催收。
综上可知,本发明公开的识别装置,获取待识别数据,调用预设分类模 型对待识别数据进行处理,得到对待识别数据的识别结果,在生成预设分类 模型的样本时,基于预设训练集中每个数据特征的特征指标和特征信息价值, 对预设训练集的数据特征进行初步筛选,得到预设训练集的多个基础特征, 然后基于每个基础特征的特征贡献度,从多个基础特征中筛选出满足预设特 征贡献度条件的基础特征作为目标样本中的目标特征,从而基于目标特征以 及目标特征在预设训练集和预设验证集中对应的目标数据,生成预设分类模 型。由此可以看出,本发明首先基于特征指标和特征信息价值对预设训练集 中的数据特征进行初步筛选得到多个基础特征,以减少分类模型训练时的数 据处理量,并进一步基于特征贡献度对多个基础特征进行筛选,以进一步减 少分类模型训练的数据处理量,因此,本发明不仅实现了数据的自动筛选, 而且数据处理量小,从而大大节省了人力和时间,提高了分类模型的训练效 率。
需要说明的是,装置实施例中各组成部分的工作原理,请参见方法实施 例对应部分,此处不再赘述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语 仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求 或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术 语″包括″、″包含″或者其任何其他变体意在涵盖非排他性的包含,从而 使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且 还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或 者设备所固有的要素。在没有更多限制的情况下,由语句″包括一个......″限 定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在 另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都 是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用 本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易 见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下, 在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例, 而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种样本生成方法,其特征在于,包括:
获取预设训练集中每个数据特征的特征指标和特征信息价值;
基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定每个所述基础特征的特征贡献度;
从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。
2.根据权利要求1所述的样本生成方法,其特征在于,所述预设训练集为对样本数据集按照预设切分策略得到,所述样本数据集中的每个数据包括:时间标签和数据特征;
按照所述预设切分策略得到所述预设训练集的过程包括:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。
3.根据权利要求1所述的样本生成方法,其特征在于,所述确定每个所述基础特征的特征贡献度,具体包括:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。
4.一种分类模型训练方法,其特征在于,包括:
将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用权利要求1~3任意一项所述的样本生成方法得到的目标特征。
5.根据权利要求4所述的分类模型训练方法,其特征在于,还包括:
将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。
6.一种识别方法,其特征在于,包括:
获取待识别数据;
调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为如权利要求4或5所述的分类模型训练方法生成的模型;
获取对所述待识别数据的识别结果。
7.一种样本生成装置,其特征在于,包括:
特征获取单元,用于获取预设训练集中每个数据特征的特征指标和特征信息价值;
基础特征筛选单元,用于基于所述特征指标和所述特征信息价值,按照预设筛选规则对所述预设训练集的数据特征进行筛选,得到所述预设训练集的多个基础特征;
确定单元,用于确定每个所述基础特征的特征贡献度;
目标特征筛选单元,用于从多个所述基础特征中筛选出满足预设特征贡献度条件的基础特征作为目标样本中的目标特征。
8.根据权利要求7所述的样本生成装置,其特征在于,还包括:
切分单元,用于对样本数据集按照预设切分策略得到所述预设训练集;
所述切分单元具体用于:
将所述样本数据集中的各个数据,基于时间标签按照时序进行排序,得到目标样本数据集,所述样本数据集中的每个数据包括:时间标签和数据特征;
将所述目标样本数据集中位于预设位置的样本数据集,按照预设比例随机拆分,将拆分结果作为所述预设训练集。
9.根据权利要求7所述的样本生成装置,其特征在于,所述确定单元具体用于:
采用第一预设训练模型对所述基础特征在所述预设训练集中对应的数据以及在预设验证集中对应的数据进行训练,得到每个所述基础特征的特征贡献度,其中,所述第一预设训练模型包含有贡献度属性。
10.一种分类模型训练装置,其特征在于,包括:
模型生成单元,用于将目标特征在预设训练集和预设验证集中对应的目标数据,输入至第二预设训练模型进行模型调参,生成分类模型,其中,所述目标数据包括:采用权利要求7~9任意一项所述的样本生成装置得到的目标特征。
11.根据权利要求10所述的分类模型训练装置,其特征在于,还包括:
评估单元,用于将所述目标特征在预设测试集中对应的测试数据输入至所述分类模型,得到所述预设测试集的评估结果,其中,所述评估结果包括:模型概率分和评估指标,所述预设测试集为:目标样本数据集中位于预设位置的数据,所述目标样本数据集为:样本数据集中的各个数据,基于时间标签按照时序进行排序得到的。
12.一种识别装置,其特征在于,包括:
数据获取单元,用于获取待识别数据;
模型调用单元,用于调用预设分类模型对所述待识别数据进行处理,所述预设分类模型为如权利要求10或11所述的分类模型训练装置生成的模型;
识别单元,用于获取对所述待识别数据的识别结果。
CN202010263850.6A 2020-04-07 2020-04-07 样本生成方法、分类模型训练方法、识别方法及对应装置 Pending CN111476296A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010263850.6A CN111476296A (zh) 2020-04-07 2020-04-07 样本生成方法、分类模型训练方法、识别方法及对应装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010263850.6A CN111476296A (zh) 2020-04-07 2020-04-07 样本生成方法、分类模型训练方法、识别方法及对应装置

Publications (1)

Publication Number Publication Date
CN111476296A true CN111476296A (zh) 2020-07-31

Family

ID=71750101

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010263850.6A Pending CN111476296A (zh) 2020-04-07 2020-04-07 样本生成方法、分类模型训练方法、识别方法及对应装置

Country Status (1)

Country Link
CN (1) CN111476296A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111899092A (zh) * 2020-08-28 2020-11-06 上海冰鉴信息科技有限公司 基于二道模型的业务数据筛选方法及装置
CN111950644A (zh) * 2020-08-18 2020-11-17 东软睿驰汽车技术(沈阳)有限公司 模型的训练样本选择方法、装置及计算机设备
CN112163617A (zh) * 2020-09-25 2021-01-01 深圳市傲天科技股份有限公司 无标签数值类型特征分类方法、装置、设备及可读存储介质
CN112329813A (zh) * 2020-09-29 2021-02-05 中南大学 一种能耗预测用特征提取方法及系统
CN112348094A (zh) * 2020-11-10 2021-02-09 上海优扬新媒信息技术有限公司 数据处理方法及装置
CN112651458A (zh) * 2020-12-31 2021-04-13 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN115358348A (zh) * 2022-10-19 2022-11-18 成都数之联科技股份有限公司 一种车辆直通率影响特征确定方法、装置、设备及介质

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111950644A (zh) * 2020-08-18 2020-11-17 东软睿驰汽车技术(沈阳)有限公司 模型的训练样本选择方法、装置及计算机设备
CN111950644B (zh) * 2020-08-18 2024-03-26 东软睿驰汽车技术(沈阳)有限公司 模型的训练样本选择方法、装置及计算机设备
CN111899092A (zh) * 2020-08-28 2020-11-06 上海冰鉴信息科技有限公司 基于二道模型的业务数据筛选方法及装置
CN112163617A (zh) * 2020-09-25 2021-01-01 深圳市傲天科技股份有限公司 无标签数值类型特征分类方法、装置、设备及可读存储介质
CN112329813A (zh) * 2020-09-29 2021-02-05 中南大学 一种能耗预测用特征提取方法及系统
CN112348094A (zh) * 2020-11-10 2021-02-09 上海优扬新媒信息技术有限公司 数据处理方法及装置
CN112651458A (zh) * 2020-12-31 2021-04-13 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN112651458B (zh) * 2020-12-31 2024-04-02 深圳云天励飞技术股份有限公司 分类模型的训练方法、装置、电子设备及存储介质
CN115358348A (zh) * 2022-10-19 2022-11-18 成都数之联科技股份有限公司 一种车辆直通率影响特征确定方法、装置、设备及介质

Similar Documents

Publication Publication Date Title
CN111476296A (zh) 样本生成方法、分类模型训练方法、识别方法及对应装置
CN108932585B (zh) 一种商户运营管理方法及其设备、存储介质、电子设备
CN105069470A (zh) 分类模型训练方法及装置
CN106557747B (zh) 识别保险单号码的方法及装置
TW201734837A (zh) 一種多重抽樣模型訓練方法及裝置
RU2013156373A (ru) Прогнозирование и обработка транзакций на основе частоты
CN105718490A (zh) 一种用于更新分类模型的方法及装置
CN110610193A (zh) 标注数据的处理方法及装置
CN107633257B (zh) 数据质量评估方法及装置、计算机可读存储介质、终端
WO2020024456A1 (zh) 一种量化交易预测方法、装置及设备
CN104581748B (zh) 一种在无线通信网络中识别场景的方法和装置
CN111626767B (zh) 资源数据的发放方法、装置及设备
CN111369006B (zh) 召回模型的生成方法及装置
CN114782123A (zh) 一种信用评估方法及系统
CN107330709B (zh) 确定目标对象的方法及装置
CN107862599B (zh) 银行风险数据处理方法、装置、计算机设备和存储介质
CN113988459A (zh) 一种基于电力营销数据的中小企业成长性评估方法及系统
CN109977977B (zh) 一种识别潜在用户的方法及对应装置
CN110728582B (zh) 信息处理的方法、装置、存储介质和处理器
CN117132383A (zh) 一种信贷数据处理方法、装置、设备及可读存储介质
CN115423600B (zh) 数据筛选方法、装置、介质及电子设备
CN115953080A (zh) 工程师服务等级确定方法、设备和存储介质
CN111160929A (zh) 一种客户类型的确定方法及装置
CN112541010A (zh) 一种基于逻辑回归的用户性别预测方法
CN113407827A (zh) 基于用户价值分类的信息推荐方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant after: Chongqing duxiaoman Youyang Technology Co.,Ltd.

Address before: 201800 room j1328, 3 / F, building 8, 55 Huiyuan Road, Jiading District, Shanghai

Applicant before: SHANGHAI YOUYANG NEW MEDIA INFORMATION TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20211224

Address after: 100193 Room 606, 6 / F, building 4, West District, courtyard 10, northwest Wangdong Road, Haidian District, Beijing

Applicant after: Du Xiaoman Technology (Beijing) Co.,Ltd.

Address before: 401121 b7-7-2, Yuxing Plaza, No.5 Huangyang Road, Yubei District, Chongqing

Applicant before: Chongqing duxiaoman Youyang Technology Co.,Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20200731