CN112101572A - 模型优化方法、装置、设备和介质 - Google Patents
模型优化方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN112101572A CN112101572A CN202011027373.XA CN202011027373A CN112101572A CN 112101572 A CN112101572 A CN 112101572A CN 202011027373 A CN202011027373 A CN 202011027373A CN 112101572 A CN112101572 A CN 112101572A
- Authority
- CN
- China
- Prior art keywords
- sample data
- model
- training
- data set
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 67
- 238000005457 optimization Methods 0.000 title claims abstract description 38
- 238000012549 training Methods 0.000 claims abstract description 104
- 238000003745 diagnosis Methods 0.000 claims abstract description 54
- 238000012216 screening Methods 0.000 claims abstract description 51
- 238000012360 testing method Methods 0.000 claims abstract description 35
- 238000012795 verification Methods 0.000 claims abstract description 19
- 238000012545 processing Methods 0.000 claims abstract description 17
- 230000011218 segmentation Effects 0.000 claims description 32
- 230000015654 memory Effects 0.000 claims description 18
- 230000008569 process Effects 0.000 claims description 15
- 238000010200 validation analysis Methods 0.000 claims description 14
- 238000003860 storage Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 8
- 238000009826 distribution Methods 0.000 claims description 6
- 230000002596 correlated effect Effects 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 12
- 230000000694 effects Effects 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 238000004891 communication Methods 0.000 description 4
- 238000001914 filtration Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013473 artificial intelligence Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 101100493820 Caenorhabditis elegans best-1 gene Proteins 0.000 description 1
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000032683 aging Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 229910052802 copper Inorganic materials 0.000 description 1
- 239000010949 copper Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
Abstract
本公开提供一种模型优化方法、装置、计算设备和介质,本公开涉及计算机技术领域,更具体地,可应用于云计算、云平台等领域。模型优化方法包括:对样本数据进行处理以生成样本数据集,样本数据集包括训练集,验证集和测试集;对样本数据集的特征进行筛选以生成筛选样本数据集;基于筛选样本数据集对模型进行训练;其中,还包括:对样本数据、样本数据集和/或筛选样本数据集进行诊断以生成数据诊断结果,基于模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;基于数据诊断结果和/或模型诊断结果优化样本数据集或筛选样本数据集。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及模型优化方法、装置、设备和介质。
背景技术
目前,机器学习作为实现人工智能的一种手段,由于建模过程繁琐、人工智能人才匮乏、算法设计周期长以及系统实施维护困难,导致机器学习的应用并不广泛。
一种推广机器学习的方式是使用AutoML。AutoML可以帮助那些只有有限机器学习知识的企业构建高品质的自定义模型。将训练数据集传入后,AutoML会自动形成训练模型,这样即使不具备机器学习方面深入的专业知识也可以进行机器学习方面的工作。
然而,由于AutoML是将各个过程的方法进行选择、组合、优化,所以存在如下问题:可能的组合方式太多,所以搜索空间巨大,组合方式太多,而且每一个组合都需要从头做数据预处理、特征处理、模型训练等操作,所以函数计算代价巨大。且现有的解决方案如AutoML只覆盖了特征筛选、模型训练环节,而不能全流程地完成整个建模任务,不方便进行单环节调试,对效果的诊断不够系统和全面,以及不能直接进行干预优化。
发明内容
根据本公开的一个方面,提供一种模型优化方法,其中,包括:对样本数据进行处理以生成样本数据集,样本数据集包括训练集,验证集和测试集;对样本数据集的特征进行筛选以生成筛选样本数据集;基于筛选样本数据集对模型进行训练;其中,还包括:对样本数据、样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,基于模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;基于所述数据诊断结果和/或所述模型诊断结果优化所述样本数据集或所述筛选样本数据集。
根据本公开的另一个方面,提供一种模型优化装置,包括:处理模块,被配置成用于对样本数据进行处理以生成样本数据集,样本数据集包括训练集,验证集和测试集;筛选模块,被配置成用于对样本数据集的特征进行筛选以生成筛选样本数据集;训练模块,被配置成用于基于筛选样本数据集对模型进行训练;其中,还包括:诊断模块,被配置成用于对样本数据、样本数据集和/或筛选样本数据集进行诊断以生成数据诊断结果,基于模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;优化模块,被配置成用于基于数据诊断结果和/或所述模型诊断结果优化样本数据集或筛选样本数据集。
根据本公开的另一个方面,提供一种计算设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机程序指令,所述计算机程序指令当在所述处理器上执行时促使所述处理器执行本公开中所述的方法。
根据本公开的另一个方面,提供一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令当在处理器上执行时促使所述处理器执行本公开中所述的方法。
本公开提供的模型优化方法、装置、设备和介质,能够通过提升建模能力,进而对用户进行准确分类。
附图说明
附图示例性地示出了实施例并且构成说明书的一部分,与说明书的文字描述一起用于讲解实施例的示例性实施方式。所示出的实施例仅出于例示的目的,并不限制权利要求的范围。在所有附图中,相同的附图标记指代类似但不一定相同的要素。
图1示出了根据本公开的一个实施例的模型优化方法的流程图;
图2示出了根据本公开的一个实施例的模型优化方法的数据流动关系示意图;
图3示出了根据本公开的一个实施例的模型训练的训练过程曲线图;
图4示出了根据本公开的一个实施例的模型的SHAP图;
图5示出了根据本公开的一个实施例的模型优化装置的结构示意图;以及
图6示出了能够应用于本公开实施例的示例性计算设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本申请将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本申请的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本申请的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本公开的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
图1示出了根据本公开的一个实施例的模型优化方法100的流程图。如图1所示,一种模型优化方法100,包括:
步骤101,对样本数据进行处理以生成样本数据集,所述样本数据集包括训练集,验证集和测试集;
为了降低模型在现实场景中的泛化误差,将样本数据处理生成训练集、验证集和测试集。我们可以在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上进行测试,测试集上的误差作为泛化误差的近似,以测试或模拟模型在现实场景中的表现。
步骤102,对所述样本数据集的特征进行筛选以生成筛选样本数据集;
基于预设的标准或方法对样本数据集中样本的特征进行筛选以得到筛选后的样本数据集,此时,所得到的筛选样本数据集符合特定的需求,为了后续模型训练提供数据源。
步骤103,基于所述筛选样本数据集对模型进行训练;
基于前一步骤得到的筛选样本数据集对模型进行训练得到模型的相关表现。
其中,还包括:
步骤104,对所述样本数据、所述样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,基于所述模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;
可以对接收到的样本数据、步骤101中生成的样本数据集、步骤102生成的筛选样本数据集中的至少一个进行数据诊断,该数据诊断步骤可以在模型训练之前进行,也可以在模型训练后进行,并产生数据诊断结果。
在模型训练之后,可以基于模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果。
步骤105,基于所述数据诊断结果和/或所述模型诊断结果优化所述样本数据集或所述筛选样本数据集。
可以单独基于数据诊断结果对样本数据集或筛选数据集进行优化,也可以单独基于模型诊断结果对样本数据集或所述筛选样本数据集进行优化,再或者结合数据诊断结果和模型诊断结果对样本数据集或所述筛选样本数据集进行优化。
通过数据诊断和/或模型诊断,可以对样本数据处理的全环节进行干预,因而能够通过提升建模能力,进而对用户进行准确分类。
图2示出了根据本公开的一个实施例的模型优化方法的数据流动关系示意图。如图2所示,在步骤101中,对样本数据进行处理以生成样本数据集,包括:接收样本数据206和切分样本数据207,基于切分规则对所述样本数据进行切分。根据本公开的一些实施方式,其中,所述切分样本数据的方式包括原切分、随机切分或基于时间(OOT,out of time)切分;所述原切分是指定的切分方法,所述随机切分是随机将样本数据切分,所述OOT切分是按时间顺序将样本数据切分。
示例性地,切分方式由实际场景的特点确定,具体地可由客户决定或根据业务场景进行区分。其中,原切分一般是指提交任务的时候,线上平台上页面已经指定的切分方法,随机切分是随机将数据切分,例如将数据随机切分为三部分:训练集70%,验证集20%和测试集10%,OOT(Out of Time)切分是指按时间将数据分成训练、验证集和测试集。
通过精细化处理数据,能够提升样本数据质量,便于模型寻优。并且通过设置不同的数据切分方式,使得模型可以适用于复杂的应用场景。
根据本公开的一些实施方式,在步骤101中,还包括:步骤208在接收样本数据后,对所述样本数据去除重复数据、去除标签冲突的数据或去除噪声数据。
示例性地,对样本数据进行数据清洗、统一格式等处理,例如:去除重复数据、去除标签冲突的数据、去除噪声数据、数据的特征缩放(标准化或者归一化)等等。
通过对样本数据进行上述预处理,能够提升数据质量。
继续参考图2,根据本公开的一些实施方式,在步骤102中,根据黑白名单、特征覆盖率筛选或信息量(iv,information value)筛选,对所述样本数据集的特征进行筛选以生成筛选样本数据集,其中,所述特征覆盖率是指根据特征在样本上的覆盖率,按照覆盖率从高到低选取第一数量的特征,或者选择覆盖率超过覆盖率阈值的特征,iv筛选是根据每个特征对于特征区分度的贡献,选取对特征区分度的贡献超过特征区分度阈值的特征,其中,所述特征区分度由以下公式确定:max(特征覆盖差异,特征权重差异),表明选取特征覆盖差异和特征权重差异中最大的一个值为特征区分度,特征覆盖差异=|(conv1-conv2)*2/(conv1+conv2)|,其中,conv1=存在该特征的正样本数/正样本数,conv2=存在该特征的负样本数/负样本数,特征权重差异=|(wei1-wei2)*2/(wei1+wei2)|,其中,wei1=正样本的该特征权重之和/正样本数,wei2=负样本的该特征权重之和/负样本数,所述权重值从所述模型中读取。
使用特征覆盖率或信息量进行特征筛选以生成筛选样本数据集,能够提升特征筛选的有效率。
特征筛选后,继续参考图2,根据本公开的一些实施方式,在步骤103中,基于所述筛选样本数据集对模型进行训练,包括:对所述模型进行多轮训练并生成训练结果数据。
示例性地,支持多轮AutoML对参数自动寻优,可以基于预先指定的参数最小值、最大值和步长进行多轮寻优。例如进行30轮寻优,然后从30轮中选取最好的1轮模型。
示例性地,在步骤103中,采用神经网络实现模型的多轮训练,对于该神经网络,输入为筛选样本数据集,输出为训练结果数据,其中,根据本公开的一些实施方式,训练结果数据包括:训练过程曲线、特征贡献或打分区间特征。
图3示出了根据本公开的一个实施例的训练过程曲线图。如图3所示,对于训练过程曲线,横坐标是样本数据迭代的次数,纵轴是样本数据集的指标,例如AUC,AUC(AreaUnder Curve)被定义为ROC曲线下的面积。我们往往使用AUC值作为模型的评价标准。ROC曲线的横坐标是伪阳性率(也叫假正类率,False Positive Rate),纵坐标是真阳性率(真正类率,True Positive Rate)。从AUC可以判断分类器(预测模型)优劣的标准:AUC=1,是完美分类器。AUC=[0.85,0.95],效果很好,AUC=[0.7,0.85],效果一般AUC=[0.5,0.7],效果较低,但用于预测股票已经很不错了,AUC=0.5,跟随机猜测一样(例:丢铜板),模型没有预测价值。AUC<0.5,比随机猜测还差;但只要总是反预测而行,就优于随机猜测。
特征贡献是指模型训练过程中统计到的贡献超过贡献阈值的特征。其代表了合作博弈中个体的边缘收益。例如,通过计算在合作中个体的贡献来确定该个体的重要程度。计算方法是计算组合中包含某个特征的收益,减去该组合不包含这个特征时的收益,即可得到该特征在这种组合中的贡献度,再计算所有组合,加权平均,得到该特征的整体贡献度。
图4示出了根据本公开的一个实施例的模型的SHAP图。根据SHAP图可以可视化的得到特征贡献。
图中每个点代表一个样本点。好的特征应该是将样本分散开的特征。
通过SHAP图获取特征贡献后,能够明确模型中的那些特征最重要,因而能够用于模型诊断,并且,还可以用于解释特定案例,比如对于个别案例,通过SHAP图可以得知是哪个特征造成效果的好与不好。
根据图2所示出的信息,其中,关注社会资讯、关注生活、高学历、热爱体育的倾向于好用户,而无车、学历较低、求职创业、爱玩游戏的倾向于坏用户。
示例性地,还可以根据打分区间特征是指对于测试集进行打分,在不同打分区间上所获取特征的丰富度。
基于训练曲线、特征贡献和/或打分区间特征是否符合预期,对模型进行诊断。基本多角度评价标准,可以准确的找到影响模型的因素,并进一步优化模型。
继续参考图2,根据本公开的一些实施方式,数据诊断步骤104对样本数据、所述样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,包括:读取所述样本数据、所述样本数据集和/或所述筛选样本数据集;计算样本冲突、特征丰富度、特征漂移、特征区分度、时效性、稳定性或数据集分布一致性进行数据诊断以生成数据诊断结果,其中,样本冲突是指对于一个样本,被同时评价正样本和负样本,则该样本发生冲突,数据诊断结果为无效样本,特征丰富度是指有效特征的数量,特征漂移是指不同窗口间的特征丰富度变化的程度,时效性是指特征与时间的相关程度,稳定性是指样本或特征随时间的稳定程度,数据集分布一致性是指基于正样本占比或人群基本属性在训练集,验证集和测试集中是否一致。
其中,样本数据和样本数据集来自步骤101的输出,筛选样本数据集来自步骤102的输出,多角度对多环节的数据进行筛选,提升数据有效性。
继续参考图2,根据本公开的一些实施方式,基于所述模型诊断结果优化所述样本数据集或筛选样本数据集。
示例性地,根据模型诊断结果中训练曲线,如果发现测试集与验证集的变化不一致,则认为模型训练不充分,需要对样本数据集或筛选样本数据集进一步优化。因此,能够打通多环节,可以基于模型诊断结果调整数据处理环节,也可以调整特征筛选环节进而调整模型训练环节。
根据本公开的一些实施方式,还包括:基于优化后的所述样本数据集或所述筛选样本数据集进行模型训练并生成优化后的训练结果数据。
如果根据模型诊断结果,判断需要对步骤101样本数据集的划分方法进行优化调整,那么在对样本数据集优化后,继续执行步骤102和步骤103,并再次输出优化后的训练结果数据,并再次进行模型诊断步骤105以产生模型诊断结果。如果根据模型诊断结果,判断需要对步骤102的筛选样本数据集进行优化调整,那么在对筛选样本数据集优化后,继续执行步骤103,并再次输出优化后的训练结果数据,并再次进行模型诊断步骤105以产生模型诊断结果。
由此,可以对模型进行充分调试,丰富了模型库。
示例性地,根据模型诊断结果,判断数据切分方式不合理,则改变步骤207的切分方式,新的切分方式可以采用预设的切分方式,或由预设的规则确定,例如,改变切分比例,把训练集、验证集和测试集按照0.5、0.2和0.3的比例切分。
为了便于理解,本公开示例性地描述如下一个模型优化方法的执行过程。
利用改一个基本模型,首先获得该基本模型的参数输出:训练集AUC:0.8165,KS:0.4657,验证集AUC:0.635,KS:0.2005,测试集AUC:0.6066,KS:0.1579。
其中,KS(Kolmogorov-Smirnov)值衡量的是好坏样本累计分部之间的差值。好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。
对上述模型的样本数据进行数据诊断,提示特征字典是旧版本,覆盖度特征不够全。考虑用最新的特征字典从明文特征重新ID化,对样本数据进行优化调整,在不改变模型参数的情况下,再次得到模型输出为:训练集AUC:0.8096,KS:0.4591,验证集AUC:0.6535,KS:0.2284,测试集AUC:0.6017,KS:0.1581。
比较两次模型的输出,发现验证集的AUC有所提升,训练集AUC略微下降,表明其过拟合有轻微一致,而测试集上的表现则变化不大。
根据该结果,在不变化模型参数的情况下,对数据筛选步骤进行优化,再次得到模型输出为:训练集AUC:0.7626,KS:0.3778,验证集AUC:0.6508,KS:0.2329,测试集AUC:0.598,KS:0.1464。
再次比较本次模型的输出与前次模型的输出,发现训练集上的过拟合有所抑制、且验证集上的效果变好,但测试集并没有大的变化。
再次进行数据诊断,发现可能是测试集与(训练集+验证集)的数据差异较大。首先需要确认验证集和训练集的数据是在时间上是同分布的切分方式,还是OOT切分方式。如果训练集的数据是随机且用户分布差异大的话,那么验证集也要改成OOT参与训练过程。
例如,如果数据诊断发现测试集是OOT切分的,而验证集与训练集在时间上同分布,且正样本占比随时间漂移严重。那么需要重新切分,计算比例后,按训练集、验证集、测试集:0.5、0.2、0.3的比例进行切分。
重新切分后,按原来的参数建模,得到输出:训练集AUC:0.8109,KS:0.4568,验证集AUC:0.617,KS:0.1736,测试集AUC:0.6192,KS:0.1753。
由以上参数可知,验证集和测试集的效果非常接近,代表后续调验证集的效果也将与测试集的趋势一致,测试集的AUC和KS都提高了约1.7个百分点。
在上述数据诊断的过程中,往往以AUC参数为依据,在其他的实施方式中,也可以以KS参数作为模型选择的依据。
在数据诊断的过程中,还可以考虑如下因素,例如,由于这里正样本占比随时间的漂移较严重,故优先考虑过滤时效性强的因子。挑选其中时效性强的特征类型,将id加入filter.blacklist,并以此依据来筛选样本数据集。则实际筛掉了包含娱乐八卦、关注电视剧、关注影片、关注综艺节目的细粒度特征。仅保留了娱乐八卦、关注电视剧、关注影片、关注综艺节目这几个汇总性特征。
去时效性特征后效果为:训练集AUC:0.7813,KS:0.4124,验证集AUC:0.6029,KS:0.1828,测试集AUC:0.6186,KS:0.1872。测试集AUC提升0.7个百分点,测试集KS提升0.5个百分点。
接下来,进行模型诊断,首先可以通过观察模型训练结果数据中的模型训练曲线,选取合适的模型,例如,如图3所示的训练曲线,可以看出训练集曲线301的训练较为充分,测试集曲线303和验证集曲线302的变化一致。
结合图4中的SHAP图,其中关注社会资讯、关注生活、高学历、热爱体育的倾向于好用户,而无车、学历较低、求职创业、爱玩游戏的倾向于坏用户,这种头部特征符合预期。则可以认为在该数据集上所构建的模型较为合适。
如果根据模型训练结果数据进行模型诊断后,发现并未达到上述要求,反而发现样本特征漂移严重,那么将指导验证集数据也使用OOT切分方式,或者过滤或整合时效性较强的因子等等来干预模型,从而实现模型的优化。
图5示出了根据本公开的一个实施例的模型优化装置的结构示意图。
如图5所示,提供一种模型优化装置500,包括:
处理模块510,被配置成用于对样本数据进行处理以生成样本数据集,所述样本数据集包括训练集,验证集和测试集;
筛选模块520,被配置成用于对所述样本数据集的特征进行筛选以生成筛选样本数据集;
训练模块530,被配置成用于基于所述筛选样本数据集对模型进行训练;
其中,还包括:
诊断模块540,被配置成用于对所述样本数据、所述样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,基于所述模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;
优化模块550,被配置成用于基于所述数据诊断结果和/或所述模型诊断结果优化所述样本数据集或所述筛选样本数据集。
基于上述模型优化装置,通过数据诊断和/或模型诊断,可以对样本数据处理的全环节进行干预,因而能够通过提升建模能力,进而对用户进行准确分类。
根据本公开的实施例,本公开还提供了一种计算设备600和一种可读存储介质。
如图6所示,示出能够应用于本公开实施例的示例性计算设备的结构框图。
计算设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图6所示,该计算设备600包括:一个或多个处理器601、存储器602,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在计算设备内耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个计算设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图6中以一个处理器601为例。
存储器602即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的确定身份验证的方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的确定身份验证的方法。
存储器602作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的确定身份验证的方法对应的程序指令/模块(例如,附图5所示的处理模块510,筛选模块520,训练模块530和诊断模块540,优化模块550)。处理器601通过运行存储在存储器602中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的身份验证方法。
存储器602可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据用以实现确定身份验证的方法的计算设备的使用所创建的数据等。此外,存储器602可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器602可选包括相对于处理器601远程设置的存储器,这些远程存储器可以通过网络连接至用以实现确定身份验证的方法的计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
用以实现确定身份验证的方法的计算设备600还可以包括:输入装置603和输出装置604。处理器601、存储器602、输入装置603和输出装置604可以通过总线或者其他方式连接,图6中以通过总线连接为例。
输入装置603可接收输入的数字或字符信息,以及产生与用以实现确定身份验证的方法的计算设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置604可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以为分布式系统的服务器,或者是结合了区块链的服务器。服务器也可以是云服务器,或者是带人工智能技术的智能云计算服务器或智能云主机。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。
Claims (19)
1.一种模型优化方法,其中,包括:
对样本数据进行处理以生成样本数据集,所述样本数据集包括训练集,验证集和测试集;
对所述样本数据集的特征进行筛选以生成筛选样本数据集;
基于所述筛选样本数据集对模型进行训练;
其中,还包括:
对所述样本数据、所述样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,基于所述模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;
基于所述数据诊断结果和/或所述模型诊断结果优化所述样本数据集或所述筛选样本数据集。
2.如权利要求1所述的方法,还包括:
基于优化后的所述样本数据集或所述筛选样本数据集进行模型训练并生成优化后的训练结果数据。
3.如权利要求2所述的方法,其中,
基于所述优化后的训练结果数据对模型的性能进行诊断以产生模型诊断结果。
4.如权利要求1所述的方法,其中,
所述对样本数据进行处理以生成样本数据集,包括:接收样本数据和切分样本数据,基于切分规则对所述样本数据进行切分。
5.如权利要求4所述的方法,还包括:
在接收样本数据后,对所述样本数据去除重复数据、去除标签冲突的数据或去除噪声数据。
6.如权利要求4所述的方法,其中,
所述切分样本数据的方式包括原切分、随机切分或基于时间切分;
所述原切分是指定的切分方法,所述随机切分是随机将样本数据切分,所述基于时间切分是按时间顺序将样本数据切分。
7.如权利要求5或6所述的方法,其中,
根据黑白名单、特征覆盖率筛选或信息量筛选,对所述样本数据集的特征进行筛选以生成筛选样本数据集,其中,
所述特征覆盖率是指根据特征在样本上的覆盖率,按照覆盖率从高到低选取第一数量的特征,或者选择覆盖率超过覆盖率阈值的特征,
信息量筛选是根据每个特征对于特征区分度的贡献,选取对特征区分度的贡献超过特征区分度阈值的特征,其中,所述特征区分度由以下公式确定:
max(特征覆盖差异,特征权重差异),表明选取特征覆盖差异和特征权重差异中最大的一个值为特征区分度,
特征覆盖差异=|(conv1-conv2)*2/(conv1+conv2)|,
其中,conv1=存在该特征的正样本数/正样本数,conv2=存在该特征的负样本数/负样本数,
特征权重差异=|(wei1-wei2)*2/(wei1+wei2)|,
其中,wei1=正样本的该特征权重之和/正样本数,wei2=负样本的该特征权重之和/负样本数,所述权重的值从所述模型中读取。
8.如权利要求1至6任一项所述的方法,其中,
所述基于所述筛选样本数据集对模型进行训练,包括:对所述模型进行多轮训练并生成训练结果数据。
9.如权利要求1所述的方法,其中,
所述数据诊断步骤对所述样本数据、所述样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,包括:
读取所述样本数据、所述样本数据集和/或所述筛选样本数据集;
计算样本冲突、特征丰富度、特征漂移、特征区分度、时效性、稳定性或数据集分布一致性进行数据诊断以生成数据诊断结果,其中,
样本冲突是指对于一个样本,被同时评价正样本和负样本,则该样本发生冲突,数据诊断结果为无效样本,
特征丰富度是指有效特征的数量,
特征漂移是指不同窗口间的特征丰富度变化的程度,
时效性是指特征与时间的相关程度,
稳定性是指样本或特征随时间的稳定程度,
数据集分布一致性是指基于正样本占比或人群基本属性在训练集,验证集和测试集中是否一致。
10.如权利要求8所述的方法,其中,
所述训练结果数据包括:训练过程曲线、特征贡献或打分区间特征,
对于训练过程曲线,横坐标是样本数据迭代的次数,纵轴是样本数据集的指标,
特征贡献是指模型训练过程中统计到的贡献超过贡献阈值的特征,
打分区间特征是指对于测试集进行打分,在不同打分区间上所获取特征的丰富度,
基于训练曲线、特征贡献和/或打分区间特征是否符合预期,对模型进行诊断。
11.如权利要求10所述的方法,其中,
基于所述模型诊断结果优化所述样本数据集或筛选样本数据集。
12.一种模型优化装置,包括:
处理模块,被配置成用于对样本数据进行处理以生成样本数据集,所述样本数据集包括训练集,验证集和测试集;
筛选模块,被配置成用于对所述样本数据集的特征进行筛选以生成筛选样本数据集;
训练模块,被配置成用于基于所述筛选样本数据集对模型进行训练;
其中,还包括:
诊断模块,被配置成用于对所述样本数据、所述样本数据集和/或所述筛选样本数据集进行诊断以生成数据诊断结果,基于所述模型训练的训练结果数据对模型的性能进行诊断以产生模型诊断结果;
优化模块,被配置成用于基于所述数据诊断结果和/或所述模型诊断结果优化所述样本数据集或所述筛选样本数据集。
13.如权利要求12所述的装置,其中,
所述训练模块还被配置成用于基于优化后的所述样本数据集或所述筛选样本数据集进行模型训练并生成优化后的训练结果数据。
14.如权利要求13所述的装置,其中,
所述诊断模块还被配置成用于基于所述优化后的训练结果数据对模型的性能进行诊断以产生模型诊断结果。
15.如权利要求12所述的装置,其中,
所述处理模块被配置成用于接收样本数据和切分样本数据,基于切分规则对所述样本数据进行切分。
16.如权利要求12至15中任一项所述的装置,其中,
所述训练模块被配置成用于对所述模型进行多轮训练并生成训练结果数据。
17.如权利要求16所述的装置,其中,
所述优化模块被配置成用于基于所述模型诊断结果优化所述样本数据集或筛选样本数据集。
18.一种计算设备,包括存储器和处理器,所述存储器被配置成在其上存储计算机程序指令,所述计算机程序指令当在所述处理器上执行时促使所述处理器执行权利要求1-11中任一项所述的方法。
19.一种计算机可读存储介质,其上存储计算机程序指令,所述计算机程序指令当在处理器上执行时促使所述处理器执行权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027373.XA CN112101572A (zh) | 2020-09-25 | 2020-09-25 | 模型优化方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011027373.XA CN112101572A (zh) | 2020-09-25 | 2020-09-25 | 模型优化方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112101572A true CN112101572A (zh) | 2020-12-18 |
Family
ID=73756278
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011027373.XA Pending CN112101572A (zh) | 2020-09-25 | 2020-09-25 | 模型优化方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112101572A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508202A (zh) * | 2021-02-07 | 2021-03-16 | 北京淇瑀信息科技有限公司 | 一种调整模型稳定性的方法、装置及电子设备 |
CN112860303A (zh) * | 2021-02-07 | 2021-05-28 | 济南大学 | 一种模型增量更新的方法及系统 |
CN113325771A (zh) * | 2021-05-28 | 2021-08-31 | 深圳市数存科技有限公司 | 一种设备故障后的数据安全保存系统及方法 |
CN116861587A (zh) * | 2023-07-06 | 2023-10-10 | 小米汽车科技有限公司 | 车轮优化方法、装置、电子设备及可读存储介质 |
-
2020
- 2020-09-25 CN CN202011027373.XA patent/CN112101572A/zh active Pending
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112508202A (zh) * | 2021-02-07 | 2021-03-16 | 北京淇瑀信息科技有限公司 | 一种调整模型稳定性的方法、装置及电子设备 |
CN112860303A (zh) * | 2021-02-07 | 2021-05-28 | 济南大学 | 一种模型增量更新的方法及系统 |
CN112860303B (zh) * | 2021-02-07 | 2023-07-04 | 济南大学 | 一种模型增量更新的方法及系统 |
CN113325771A (zh) * | 2021-05-28 | 2021-08-31 | 深圳市数存科技有限公司 | 一种设备故障后的数据安全保存系统及方法 |
CN113325771B (zh) * | 2021-05-28 | 2023-02-10 | 深圳市数存科技有限公司 | 一种设备故障后的数据安全保存系统及方法 |
CN116861587A (zh) * | 2023-07-06 | 2023-10-10 | 小米汽车科技有限公司 | 车轮优化方法、装置、电子设备及可读存储介质 |
CN116861587B (zh) * | 2023-07-06 | 2024-03-12 | 小米汽车科技有限公司 | 车轮优化方法、装置、电子设备及可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112101572A (zh) | 模型优化方法、装置、设备和介质 | |
CN110019074B (zh) | 访问路径的分析方法、装置、设备及介质 | |
CN105488539B (zh) | 分类模型的生成方法及装置、系统容量的预估方法及装置 | |
CN112365876B (zh) | 语音合成模型的训练方法、装置、设备以及存储介质 | |
US11182447B2 (en) | Customized display of emotionally filtered social media content | |
US8775338B2 (en) | Computer-implemented systems and methods for constructing a reduced input space utilizing the rejected variable space | |
JP6898561B2 (ja) | 機械学習プログラム、機械学習方法、および機械学習装置 | |
CN111401722A (zh) | 智能决策方法和智能决策系统 | |
CN112508126A (zh) | 深度学习模型训练方法、装置、电子设备及可读存储介质 | |
CN112380392A (zh) | 用于分类视频的方法、装置、电子设备及可读存储介质 | |
CN116561542B (zh) | 模型的优化训练系统、方法以及相关装置 | |
CN112380131A (zh) | 模块测试方法、装置及电子设备 | |
CN111460384A (zh) | 策略的评估方法、装置和设备 | |
CN114241350A (zh) | 视频编码测试序列确定方法、相关装置及计算机程序产品 | |
WO2021111540A1 (ja) | 評価方法、評価プログラム、および情報処理装置 | |
CN109743286A (zh) | 一种基于图卷积神经网络的ip类型标记方法及设备 | |
US20170004401A1 (en) | Artificial intuition | |
CN114638234A (zh) | 应用于线上业务办理的大数据挖掘方法及系统 | |
CN109087146A (zh) | 影院票房收入的预测方法及系统 | |
CN112486784A (zh) | 诊断和优化数据分析系统的方法、设备和介质 | |
US20200327477A1 (en) | System and method for analyzing media for talent discovery | |
CN115546218B (zh) | 置信度阈值确定方法和装置、电子设备和存储介质 | |
CN114510980A (zh) | 模型特征获取方法及装置、电子设备、存储介质 | |
CN114697127B (zh) | 一种基于云计算的业务会话风险处理方法及服务器 | |
US20240152818A1 (en) | Methods for mitigation of algorithmic bias discrimination, proxy discrimination and disparate impact |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20201218 |
|
WD01 | Invention patent application deemed withdrawn after publication |