CN113762579A - 一种模型训练方法、装置、计算机存储介质及设备 - Google Patents

一种模型训练方法、装置、计算机存储介质及设备 Download PDF

Info

Publication number
CN113762579A
CN113762579A CN202110018592.XA CN202110018592A CN113762579A CN 113762579 A CN113762579 A CN 113762579A CN 202110018592 A CN202110018592 A CN 202110018592A CN 113762579 A CN113762579 A CN 113762579A
Authority
CN
China
Prior art keywords
sample data
model
training
data
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110018592.XA
Other languages
English (en)
Inventor
张琦
孙中伟
姬艳鑫
潘城城
刘永平
李静晓
黄一珉
张新
曹雨晨
张钧皓
张少洋
苏凯贤
刘鸿儒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Original Assignee
Beijing Jingdong Century Trading Co Ltd
Beijing Wodong Tianjun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jingdong Century Trading Co Ltd, Beijing Wodong Tianjun Information Technology Co Ltd filed Critical Beijing Jingdong Century Trading Co Ltd
Priority to CN202110018592.XA priority Critical patent/CN113762579A/zh
Publication of CN113762579A publication Critical patent/CN113762579A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06393Score-carding, benchmarking or key performance indicator [KPI] analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • G06Q30/0271Personalized advertisement

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Finance (AREA)
  • Operations Research (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Educational Administration (AREA)
  • Software Systems (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请实施例提供了一种模型训练方法、装置、计算机存储介质及设备,该方法包括:获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;将所述至少两个训练模型进行模型融合,得到目标模型。这样,通过采用难易比例不同的至少两个样本数据集,实现了样本数据的分层采样,从而能够提升最终得到的目标模型的预测效果;而且,利用至少两个样本数据集分别进行模型训练,然后通过模型融合获得目标模型,还提高了目标模型的泛化能力。

Description

一种模型训练方法、装置、计算机存储介质及设备
技术领域
本申请涉及机器学习技术领域,尤其涉及一种模型训练方法、装置、计算机存储介质及设备。
背景技术
目前,在利用机器学习解决预测或排序问题时,需要利用样本数据对神经网络模型进行训练,然后利用训练后的神经网络模型解决实际问题。然而,在相关技术中,样本数据是通过随机采样得到的,不同的样本数据并不会进行区分对待,所以神经网络模型很容易过拟合和欠拟合,导致训练后的神经网络模型的预测效果不好。
发明内容
本申请提供了一种模型训练方法、装置、计算机存储介质及设备,通过分层采样和模型融合来得到目标模型,从而可以提高目标模型的预测准确性和泛化能力。
本申请的技术方案是这样实现的:
第一方面,本申请实施例提供了一种模型训练方法,该方法包括:
获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;
通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;
将所述至少两个训练模型进行模型融合,得到目标模型。
第二方面,本申请实施例提供了一种模型训练装置,该模型训练装置包括获取单元、训练单元和融合单元,其中,
获取单元,配置为获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;
训练单元,配置为通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;
融合单元,配置为将所述至少两个训练模型进行模型融合,得到目标模型。
第三方面,本申请实施例提供了一种模型训练装置,该模型训练装置包括存储器和处理器;其中,
所述存储器,用于存储能够在所述处理器上运行的计算机程序;
所述处理器,用于在运行所述计算机程序时,执行如第一方面所述方法的步骤。
第四方面,本申请实施例提供了一种计算机存储介质,该计算机存储介质存储有模型训练程序,该模型训练程序被至少一个处理器执行时实现如第一方面所述方法的步骤。
第五方面,本申请实施例提供一种模型训练设备,该模型训练设备至少包括如第二方面或第三方面所述的模型训练装置。
本申请实施例提供了一种模型训练方法、装置、计算机存储介质及设备,获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;将所述至少两个训练模型进行模型融合,得到目标模型。这样,通过采用难易比例不同的至少两个样本数据集,实现了样本数据的分层采样,从而提升最终得到的目标模型的预测效果;而且,利用至少两个样本数据集分别进行模型训练,然后通过模型融合获得目标模型,还提高了目标模型的泛化能力。
附图说明
图1为本申请实施例提供的一种相似人群扩展模型的工作流程示意图;
图2为本申请实施例提供的一种模型训练方法的流程示意图;
图3为本申请实施例提供的另一种模型训练方法的流程示意图;
图4为本申请实施例提供的又一种模型训练方法的流程示意图;
图5为本申请实施例提供的一种模型训练方法的工作过程示意图;
图6为本申请实施例提供的另一种模型训练方法的工作过程示意图;
图7为本申请实施例提供的一种模型训练装置的组成结构示意图;
图8为本申请实施例提供的另一种模型训练装置的组成结构示意图
图9为本申请实施例提供的一种模型训练装置的硬件结构示意图;
图10为本申请实施例提供的另一种模型训练设备的组成结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅仅用于解释相关申请,而非对该申请的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关申请相关的部分。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
需要指出,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本申请实施例能够以除了在这里图示或描述的以外的顺序实施。
相似人群扩展(Look-alike)模型是一种流行的受众拓展(Audience Extension)技术,具体来说,受众扩展的技术是指:基于种子用户,利用Look-alike模型找到更多拥有潜在关联性的相似人群。Look-alike模型可以应用在广告领域,其核心思想是针对某个商品(item),先根据历史行为圈定一部分种子用户,然后通过Look-alike模型寻找与种子用户相似的人群,为他们推荐该商品。
Look-alike模型可用于不同场景的精准营销,帮助客户获取目标人群,例如教育,金融,汽车等。参见图1,其示出了本申请实施例提供的一种相似人群扩展模型的工作流程示意图。如图1所示,Look-alike模型的工作过程可以分为用户关联、样本采样、用户特征提取、模型训练和模型预测,具体包括以下步骤:
S101:获取客户提供的特定场景下的正样本和负样本。
需要说明的是,获取客户提供的正样本和负样本。一般来说,正样本人是真正发生预设转化行为(例如购买行为)的目标人群,负样本人群则为未发生预设期望行为(例如没有购买、没有点击等)的用户。
S102:与本公司进行用户关联,过滤冷用户。
需要说明的是,根据客户提供的特定场景下的正样本和负样本,与本公司内部的用户群体进行关联,过滤掉那些不属于本公司内部的用户群体的冷用户,冷用户是指包含在客户所提供的正样本和负样本中,且在本公司没有任何记录的用户。
具体关联方式可以为利用手机识别码(pin)进行撞库等;之后,根据关联结果,在本公司内部的用户群体中确定出种子人群和负样本人群。
S103:确定种子人群。
需要说明的是,根据前述的用户关联结果,将与正样本关联的用户作为种子人群(或称为正样本人群),将与负样本关联的用户作为负样本人群。
S104:筛选本公司用户群体。
需要说明的是,如果负样本人群较少,也可以对本公司内部的用户群体进行筛选,将既不是客户公司提供的正样本,也不是客户公司提供的负样本的用户加入负样本人群。
S105:确定负样本人群。
在这里,步骤S102和步骤S104可以并行执行,两者的执行顺序不分先后。具体地,在步骤S102之后,可以确定出正样本,进而确定出种子人群。在步骤S102和S104之后,可以确定出负样本,进而确定出负样本人群。
也就是说,根据用户关联的结果和筛选本公司用户群体的结果,确定负样本人群。这样,通过用户关联和筛选,最终得到了正样本人群和负样本人群。
S106:用户特征提取。
需要说明的是,根据某公司的用户特征数据,能够对种子人群和负样本人群进行特征提取,得到正样本群体和负样本群体中每一用户的用户特征,例如,所提取的用户特征可以是用户画像和用户行为。
S107:利用预设模型训练模块对所提取的特征进行模型训练。
需要说明的是,利用预设模型训练模块(如Look-alike模型)对所提取的特征进行模型训练,即根据正样本人群和负样本人群的用户特征对Look-alike模型进行训练。
S108:获取待预测人群。
需要说明的是,获取客户公司提供的待预测人群的用户数据,或者其他途径得到的待预测人群的用户数据,以备后续进行预测。
S109:模型预测,输出人群包。
需要说明的是,利用训练后的Look-alike模型对待预测人群进行预测和排序,并根据客户的需求输出对目标商品存在高需求的人群包。
在相关技术中,对于Look-alike模型,传统的数据采样处理方案存在一定的局限性,比如数据采样过程中一般进行随机采样,对样本不区分对待,导致模型很容易过拟合和欠拟合,影响最终效果;在数据采样优化中,一般采用去除噪声样本数据或强化典型正负样本的作用,忽略其他数据分布,这样虽然可以在实验条件下提高模型的准确率,但是实际应用环境中,反而偏离了实际数据分布,使模型的实际应用泛化性能不佳。除此之外,对于某些结构较为简单的神经网络模型(例如相似人群扩展模型),一般为单模型,在小数据集上过拟合的风险很大,以上原因都导致训练后的神经网络模型的预测效果不好。
本申请实施例提供了一种模型训练方法,该方法的基本思想为:获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;将所述至少两个训练模型进行模型融合,得到目标模型。这样,通过采用数据难易比例不同的至少两个样本数据集,实现了样本数据的分层采样,从而提升最终得到的目标模型的预测效果;而且,不利用至少两个样本数据集分别进行模型训练,然后通过模型融合获得目标模型,会过于强化典型正负样本的作用,充分利用样本数据,还提高了目标模型的泛化能力;另外,通过训练至少两个模型进行融合,还能够避免单模型过拟合的问题。
下面将结合附图对本申请各实施例进行详细说明。
在本申请的一实施例中,参见图2,其示出了本申请实施例提供的一种模型训练方法的流程示意图。如图2所示,该方法可以包括:
S201:获取至少两个样本数据集。
需要说明的是,本申请实施例提供了一种模型训练方法,可以应用于排序类模型,特别是Look-alike模型。除此之外,该模型训练方法的思想也可以扩展于姿态识别类模型、安全检测类型以及其他领域的模型。
需要说明的是,模型训练过程是指利用大量的样本数据来确定预设模型的多种参数,以使得训练好的模型能够对新数据进行计算,得到新数据的预测结果。在相关技术方案中,对所有的样本数据都是一视同仁的,但是,这样模型训练的效果并不好。在模型训练过程中,有些样本数据对预设模型来说很容易学习(即预设模型能够容易的提取到该样本数据的特征),这部分样本数据可以称之为简单样本(easy sample);而另外一些数据对预设模型来说则很难学习(即预设模型无法容易的提取到该样本数据的特征),这部分样本数据可以称之为困难样本(hard sample);介于easy sample和hard sample之间的样本可以称之为常规样本(medium sample)。因此,为了在模型训练过程中区分easy sample、hardsample和medium sample,本申请实施例对于每个样本数据引入了“训练难度类别”这一参数。也就是说,训练难度类别用于指示对所述样本数据进行训练时的难易程度。
基于这样的思想,在本申请实施例中,需要获取至少两个样本数据集,样本数据集的具体数量可以根据实际应用场景进行确定。除此之外,至少两个样本数据集各自包括的样本数据中难易比例不同,难易比例是指不同训练难度类别下样本数据的数量比值。例如,训练难度类别包括类别A、类别B,至少两个样本数据集包括样本数据集1和样本数据集2,样本数据集1中包括100个类别为A的样本数据和200个类别为B的样本数据,此时样本数据集1的数据难易比例为100:200;样本数据集2中包括200个类别的样本数据和100个类别为B的样本数据,此时样本数据集2的数据难易比例为200:100。
也就是说,对于样本数据集来说,其中所包含的样本数据来自不同训练难度类别(或称为不同层级),从而实现了样本数据的分层采样,避免对所有样本数据一视同仁,从而提高了模型训练的效果。
进一步地,在一些实施例中,对于至少两个样本数据集的获取,如图3所示,该步骤可以包括S301~S303。具体如下所示:
S301:获取多个样本数据,计算所述多个样本数据各自的数据评分;
需要说明的是,由于至少两个样本数据集各自包含数据的难易比例不同,所以需要根据样本数据的难易程度来进行采样,从而构成至少两个样本数据集。
具体的,首先,根据原始的多个样本数据,计算多个样本数据的数据评分,数据评分代表了该样本数据在训练时的难易程度;其次,根据每个样本数据的数据评分,确定样本数据所属的训练难度类别;最后,根据样本数据所属的训练难度类别,进行数据分层采样,从而得到数据难易比例不同的至少两个样本数据集。
也就是说,样本数据的数据评分用来指示样本数据在训练时的难易程度,从而可以确定样本数据所述的训练类别,所以可以确定出至少两个难易比例不同的样本数据集。
进一步地,在一些实施例中,所述计算所述多个样本数据各自的数据评分,可以包括:
将所述多个样本数据进行分组,得到N个待计算数据集;其中,N为大于或等于2的整数;
从所述N个待计算数据集中,确定第一待计算数据集和第二待计算数据集;其中,所述第一待计算数据集是指所述N个待计算数据集的任意一个待计算数据集,所述第二待计算数据集包括所述N个待计算数据集中除第一待计算数据集之外的所有待计算数据集;
利用所述第二待计算数据集对所述预设评分模型进行训练,得到目标评分模型;
利用所述第一待计算数据集对所述目标评分模型进行模型测试,确定所述第一待计算数据集中每一样本数据各自的数据评分;
在确定出所述N个待计算数据集中每一样本数据各自的数据。
需要说明的是,为了确定样本数据的数据评分,本申请实施例将所有的样本数据进行分组,得到N个待计算数据集。在这里,N为大于或等于2的整数,具体的取值可以根据实际使用场景确定,例如N可以取值为10、20,本申请实施例以N=10进行后续说明。另外,样本数据的分组过程可以随机进行,但是最好保证每个待计算数据集中正负样本的比例近似,即所有的待计算数据集中正负样本的比例均为同一数值(如3:7)。
在获得N个待计算数据集之后,确定多个样本数据各自的数据评分可以包括以下步骤:
(1)在N个待计算数据集中,将其中一个待计算数据集确定为第一待计算数据集,其余的待计算数据集确定为第二待计算数据集;
(2)利用第二待计算数据集中的样本数据对预设评分模型进行训练,得到目标评分模型;
(3)利用第一待计算数据集中的样本数据对目标评分模型进行模型测试,并根据测试结果确定所述第一待计算数据集中每一样本数据各自的数据评分。
具体的,模型测试是指利用目标评分模型对第一待计算数据集中的样本数据进行计算,输出该样本数据的预测值。之后,通过该样本数据的预测值和样本数据的真实标签值进行比较,来确定该样本数据的数据评分。在这里,真实标签值用于指示该样本数据为正样本还是负样本。
在N个待计算数据集中,依次将每一待计算数据确定为第一待计算数据集,然后通过前述步骤(1)-(3)来确定第一待计算数据集中每一样本数据各自的数据评分,从而能够确定N个待计算数据集中每一样本数据各自的数据评分。
需要说明的是,所述目标评分模型可以包括M个目标评分子模型。所述利用所述第二待计算数据集对所述预设评分模型进行训练,得到目标评分模型,可以包括:
将所述第二待计算数据集进行分组,得到M个待计算数据子集;其中,M为大于或等于1的整数;
利用所述M个待计算数据子集对所述预设评分模型进行训练,得到所述M个目标评分子模型。
需要说明的是,为了提高数据评分的准确性,目标评分模型可以包括M个目标评分子模型。M为大于或等于1的整数,M的具体取值可以根据实际应用场景进行确定,例如M可以取值为10、20。
当目标评分模型包括M个目标评分子模型时,需要将第二待计算数据集进行分组,得到M个训练数据子集,这M个训练数据子集分别对预设评分模型进行训练,从而获得M个目标评分子模型。
以M取值为10为例,将第二待计算数据集分组为训练数据子集1、训练数据子集2……训练数据子集10。之后,利用训练数据子集1对预设评分模型进行训练,得到目标评分子模型1;利用训练数据子集2对预设评分模型进行训练,得到目标评分子模型2……利用训练数据子集1对预设评分模型进行训练,得到目标评分子模型10。最终,目标评分子模型1、目标评分子模型2……目标评分子模型10也就构成了目标评分模型。类似的,M个训练数据子集中的正负样本数据比例最好近似。
这样,通过将第二待计算数据集进行分组,从而训练获得M个目标评分子模型,之后,利用M个目标评分子模型对第一待计算数据集中的样本数据进行测试,以确定第一待计算数据集中样本数据的数据评分。
进一步地,在一些实施例中,所述利用所述第一待计算数据集对所述目标评分模型进行模型测试,确定所述第一待计算数据集中每一样本数据各自的数据评分,可以包括:
将待测试样本数据输入到所述M个目标评分模型中,输出M个模型测试结果;其中,所述待测试样本数据是指所述第一待计算数据集中的任意一个样本数据;
基于所述M个模型测试结果,确定所述待测试样本数据的数据评分。
需要说明的是,将待测试样本数据作为输入值输入到M个目标评分子模型中,得到M个模型测试结果。在这里,待测试样本数据是指第一待计算数据集中任意一个样本数据。之后,根据M个模型测试结果,确定待测试样本数据的数据评分。
进一步地,所述基于所述M个模型测试结果,确定所述待测试样本数据的数据评分,可以包括:
从所述M个模型测试结果中确定最大值、最小值、中位值、平均值和标准差,以及确定所述待测试样本数据的真实标签值;
计算所述平均值与所述真实标签值之间的差值绝对值,得到第一差值;
计算所述中位值与所述真实标签值之间的差值绝对值,得到第二差值;
计算所述最大值和所述最小值之间的差值,得到第三差值;
对所述第一差值、所述第二差值、所述第三差值和所述标准差进行加权求和计算,得到所述待测试样本数据的数据评分。
需要说明的是,对于待测试样本数据而言,其模型测试结果和真实标签值之间的差距越小,说明该条待测试样本数据越容易学习(相当于待测试样本数据在模型训练时比较容易)。因此计算待测试样本数据的数据评分可以包括以下步骤:
(1)针对待测试样本数据,计算M个模型测试结果中的最大值(max)、最小值(min)、中位值(median)、平均值(avg)和标准差(std);另外,获取待测试样本数据的真实标签值(label)。在这里,真实标签值用于指示待测试样本数据属于正样本数据还是负样本数据。
(2)计算平均值(avg)和真实标签值(label)的差值绝对值,记为第一差值;计算中位值(median)和真实标签值(label)的差值绝对值,记为第二差值;计算最大值(max)和所述最小值(min)的差值,记为第三差值。
(3)将第一差值、第二差值、第三差值和标准差(std)分别进行加权求和,最终得到待测试样本数据的数据评分。在这里,第一差值、第二差值、第三差值和标准差各自的权值是根据实际应用场景预设确定好的,本申请实施例在此不做限定。
由于模型测试结果和真实标签值之间的差距越小,说明该条样本数据越容易学习,所以数据评分越小,说明该条样本数据容易学习,而数据评分越大,说明该样本数据不容易学习。
这样,通过上述处理步骤,确定了每个样本数据的数据评分。
S302:基于所述多个样本数据各自的数据评分,确定所述多个样本数据所属的训练难度类别。
需要说明的是,根据样本数据的数据评分,可以进一步确定样本数据各自的训练难度类别。在这里,样本数据的数据评分越高,该样本数据的训练难度越大,而数据评分和训练难度类别的具体对应规则可以根据实际使用环境进行确定,本申请实施例在此不做具体限定。
在一种具体的实施例中,所述训练难度类别分为三类,分别为简单类别、常规类别和困难类别。所述基于所述多个样本数据各自的数据评分,确定所述多个样本数据各自的训练难度类别,可以包括:
确定第一评分阈值和第二评分阈值;其中,所述第一评分阈值小于所述第二评分阈值;
若其中一个样本数据的数据评分小于所述第一评分阈值,则确定所述其中一个样本数据的训练难度类别为所述简单类别;
若其中一个样本数据的数据评分大于或等于所述第一评分阈值,且小于所述第二评分阈值,则确定所述其中一个样本数据的训练难度类别为所述常规类别;
若其中一个样本数据的数据评分大于或等于所述第二评分阈值,则确定所述其中一个样本数据的训练难度类别为所述困难类别。
需要说明的是,利用第一评分阈值和第二评分阈值,可以将样本数据划分为简单类别、常规类别和困难类别。
具体的,若样本数据的数据评分小于第一评分阈值,则确定该样本数据的训练难度类别为简单类别;若样本数据的数据评分大于或等于第一评分阈值,但是小于第二评分阈值,则确定该样本数据的训练难度类别为常规类别;若样本数据的数据评分大于或等于第二评分阈值,则确定该样本数据的训练难度类别为困难类别。
在这里,第一评分阈值和第二评分阈值是根据实际应用场景预设的。例如,可以将所有样本数据的数据评分从小到大排序,在排序后的数据评分中,将处于30%位置的数据评分确定为第一评分阈值,将处于70%位置的数据评分确定为第二评分阈值。这样,可以方便的将所有样本数据按照比例分为简单类别(30%)、常规类别(50%)和困难(30%)等级,也就是将样本数据进行分层。
这样,获取了样本数据以及样本数据各自的训练难度类别,从而根据样本数据各自的训练难度类别进行后续训练。
S303:基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层采样,确定所述至少两个样本数据集。
需要说明的是,在相关技术中,无论样本数据的训练难易与否,所有的样本数据在训练时的地位是相同的,这导致了模型训练时的效果不好。因此,在本申请实施例中,根据样本数据的训练难度类别,分层采样构成所述至少两个样本数据集,这样不同样本数据集的数据难易比例不同,能够针对样本数据的特点进行后续训练。
这样,通过分层采样从多个样本数据中确定至少两个样本数据集,通过分层采样的方式对样本数据进行了优化,从而提高模型训练的效果。
S202:通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型。
需要说明的是,根据前述得到的至少两个样本数据集,分别对至少两个预设模型进行训练,从而对应的得到两个训练模型。在这里,样本数据集的数量和预设模型的数量是一一对应的,一个样本数据集用于训练一个预设模型。另外,至少两个预设模型可以均是相同架构的模型,也可以是不同架构的模型,本申请实施例在此不做限定。
S203:将所述至少两个训练模型进行模型融合,得到目标模型。
需要说明的是,将至少两个训练模型进行模型融合,得到目标模型。在这里,模型融合的方法可以参照已有的模型融合方法,例如平均融合、加权后平均融合、有监督的模型融合(如blending、stacking)等。
还需要说明的是,本申请实施例可以利用任意数量的训练模型进行融合的,在一种具体的实施例中,可以确定2个不同的样本数据集,训练2个不同的训练模型,融合得到目标模型。
在这种情况下,所述至少两个样本数据集包括第一样本数据集和第二样本数据集;所述基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层采样,确定所述至少两个样本数据集,可以包括:
对所述简单样本数据集、所述常规样本数据集和所述困难样本数据集进行采样,将采样得到的第一预设比例值的所述简单样本数据集、第二预设比例值的所述常规样本数据集和第三预设比例值的所述困难样本数据集确定为所述第一样本数据集,将采样得到的第四预设比例值的所述简单样本数据集、第五预设比例值的常规样本数据集和第六比例值的困难样本数据集确定为所述第二样本数据集;
其中,所述简单样本数据集包括所述多个样本数据中所有训练难度类别为简单类别的样本数据,所述常规样本数据集包括所述多个样本数据中所有训练难度类别为常规类别的样本数据,所述困难样本数据集包括所述多个样本数据中所有训练难度类别为困难类别的样本数据。
需要说明的是,首先,将多个样本数据分为简单样本数据集、常规样本数据集和困难样本数据集。具体的,简单样本数据集包括多个样本数据中所有训练难度类别为简单类别的样本数据,常规样本数据集包括多个样本数据中所有训练难度类别为常规类别的样本数据,困难样本数据集包括多个样本数据中所有训练难度类别为困难类别的样本数据。这一过程其实是样本分层的过程,后续分别从简单样本数据集、常规样本数据集和困难样本数据集取出一定比例的样本数据来组成至少两个样本数据集,从而实现了分层采样
其次,对简单样本数据集、常规样本数据集和困难样本数据集进行采用,将第一预设比例值的所述简单样本数据集、第二预设比例值的常规样本数据集和第三预设比例值的困难样本数据集确定为所述第一样本数据集;将第四预设比例值的简单样本数据集、第五预设比例值的常规样本数据集和第六预设比例值的困难样本数据集确定为所述第二样本数据集。
第一预设比例值、第二预设比例值、第三预设比例值、第四预设比例值、第五预设比例值和第六预设比例值可以根据实际应用场景确定。在一种具体的实施例中,所述第一预设比例值为100%,所述第二预设比例值为80%,所述第三预设比例值为20%,所述第四预设比例值为20%,所述第五预设比例值为80%,所述第六预设比例值为100%。此时,第一样本数据集包括所有的简单样本数据、80%的常规样本数据和20%的困难样本数据;第二样本数据集包括20%的简单样本数据、80%的常规样本数据和所有的困难样本数据。
还需要说明的是,为了进一步贯彻分层采样的思想,在取样时可以对具体的样本数据集(简单样本数据集/常规样本数据集/困难样本数据集)再次分为多个层次,在每一层次采样一定比例的样本数据,这多个层次各自的采样比例相加为该样本数据集的预设比例值。
例如,当需要采样80%的常规数据集时,将常规数据集按照数据评分大小分为三个层次,在第一层次中采样24%的数据,在第二层次中采样32%的数据,在第三层次中采样24%的数据;当需要采样20%的困难数据集时,将困难数据集按照数据评分大小分为三个层次,在第一层次中采样6%的数据,在第二层次中采样8%的数据,在第三层次中采样6%的数据。
这样,对于第一样本数据集和第二样本数据集,第一样本数据集更偏重于简单样本数据,第二样本数据集更偏重于困难样本数据,
当至少两个样本数据集包括第一样本数据集和第二样本数据集时,相应地,所述至少两个预设模型可以包括第一预设模型和第二预设模型,所述至少两个训练模型可以包括第一训练模型和第二训练模型;所述通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型,可以包括:
利用所述第一样本数据集对所述第一预设模型进行训练,得到所述第一训练模型;
利用所述第二样本数据集对所述第二预设模型进行训练,得到所述第二训练模型。
需要说明的是,利用第一样本数据集对第一预设模型进行训练,得到第一训练模型,利用第二样本数据集对第二预设模型进行训练,得到第二训练模型。在这里,第一预设模型、第二预设模型和前述的预设评分模型,可以是同样架构的模型,也可以互不相同,本申请实施例不做限定。
还需要说明的是,在这种情况下,第一训练模型更侧重于对简单样本数据进行特征提取,第二训练模型更侧重于对困难样本数据进行特征提取。相应地,所述将所述至少两个训练模型进行模型融合,得到目标模型,可以包括:
将所述第一训练模型确定为基准模型,将所述第二训练模型确定为待融合模型;
基于预设融合算法将所述待融合模型和所述基准模型进行融合,得到所述目标模型。
需要说明的是,根据前述内容,第一训练模型更侧重于easy sample的特征,而第二训练模型更侧重于hard sample的特征,因此可以将第一训练模型作为基准模型,将第二训练模型作为待融合模型,然后按照预设融合算法(如blending算法、stacking算法)将待融合模型和基准模型进行融合。
这样,目标模型由第一训练模型和第二训练模型融合而来,能够更好的融合简单样本数据的特征和困难样本数据的特征,从而提高模型的预测效果和泛化能力。
除此之外,也可以根据5个样本数据集确定5个不同的训练数据集,从而训练得到5个不同的训练模型,然后将5个不同的训练模型进行模型融合,得到最后的目标模型,本申请对于样本数据集的数量不做限制。
进一步地,在一些实施例中,该方法还包括:
获取多个待预测用户各自的用户数据;
将所述多个待预测用户各自的用户数据输入到目标模型中,得到所述多个待预测用户各自的预测值;
基于所述多个待预测用户各自的预测值,将所述多个待预测用户进行排序,根据排序结果从所述多个待预测用户中确定至少一个目标用户。
需要说明的是,以目标模型为Look-alike模型为例,该模型用于寻找与种子人群相似的目标用户,此时,在根据样本数据训练得到目标模型之后,利用目标模型对多个待预测用户的用户数据进行分别计算,得到多个待预测用户各自的预测值;将多个待预测用户按照各自的预测值进行从大到小进行排序,将排序中的前K个待预测用户确定为目标用户,从而确定出与种子人群相似的目标用户,以便于后续对目标用户进行商品推荐,K为正整数,且K的取值根据实际应用场景确定。
一般来说,相关技术更倾向于通过更细致的数据预处理、更多的特征挖掘、更复杂的模型结构以及更多的模型融合来提升Look-alike模型的效果。更细致的数据预处理一般过程是通过更加细致的探索性数据分析(Exploratory Data Analysis,EDA)进行数据预处理,处理好样本数据中的缺少测量值和异常问题,然后结合数据分析得到的一些结论可以进行更多的特征工程,这样虽然可以一定程度的提升模型效果,但是往往需要花费非常多的时间和精力,最后的代码逻辑可能会特别复杂,特征变多也会增加很多的计算量。除此之外,更复杂的模型结构和更多的模型融合是通过模型堆叠来暴力提升整体效果,这样无形中会增加很多不必要的计算量,反而降低了模型的性能。在本申请实施例中,从样本角度出发,从样本数据的角度进行优化,能够更好的提高模型的预测效果和泛化能力。
综上所述,在真实的目标人群扩展业务场景中,客户提供的样本质量往往参差不齐,不同质量的样本能够贡献的信息量也有较大的差异。在相关技术方案中,对所有的样本都是一视同仁的,这样训练的模型往往效果不能达到最优。本申请实施例从采样优化和模型分层训练融合的角度出发,提高模型系统整体的效果。在这里,本申请实施例中是对所有的样本都进行了分层,但是在实际业务场景中,绝大部分样本均为负样本,所以也可以称为为负样本分层采样优化。因此,本申请实施例包含以下两点:(1)根据负样本分层采样优化策略,提升模型的效果;(2)通过多模型分层训练和融合策略,提高模型泛化性。
本申请实施例提供了一种模型训练方法,通获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;将所述至少两个训练模型进行模型融合,得到目标模型。这样,通过采用难易比例不同的至少两个样本数据集,实现了样本数据的分层采样,从而提升最终得到的目标模型的预测效果;而且,利用至少两个样本数据集分别进行模型训练,然后通过模型融合获得目标模型,还提高了目标模型的泛化能力。
在本申请的另一实施例中,参见图4,其示出了本申请实施例提供的又一种模型训练方法的流程示意图。如图4所示,该方法可以包括:
S401:确定样本数据的训练难度类别。
需要说明的是,在相关技术中,一般会将模型优化的重心放在特征工程和模型堆叠上,比如会去挖掘更多的特征,用更复杂的模型,或者用多个模型进行多层融合,以提升最后的模型效果。本申请实施例聚焦于样本层面和基于采样优化的模型分层训练优化策略,可以在避免模型过于复杂的前提下更好的提升模型的效果。
具体的,在模型训练的过程中,有些样本数据对模型来说很容易学习,即训练好的模型很容易对这些样本数据进行准确的预测,这部分样本数据称之为easy sample(相当于样本数据的训练难度类别为简单);但是,有些样本对模型来说就可能比较困难,即训练好的模型并不能对这些样本数据进行准确的预测,这部分样本数据称之为hard sample(相当于样本数据的训练难度类别为常规);介于easy sample和hard sample之间的样本数据称之为medium sample(相当于样本数据的训练难度类别为困难)。除此之外,还有两个极端情况是:如果一些样本混入了标签信息,对模型来说就像是“偷看到了正确答案”,这样的样本模型会很容易“学习”但是没有任何意义,称之为easy bad sample。与之相对,另外一种情况是,样本数据的特征完全是随机信号的样本,对模型来说学不到任何有益的信息,这样的样本数据称之为hard bad sample。对于easy bad sample,如果无法解决标签泄露的问题,这些样本会影响到模型的训练效果,需要将这部分样本丢弃。对于hard bad sample,需要通过更多的探索性数据分析和特征挖掘,将他们变成可用的样本,否则对于模型来说,这些样本毫无区分度,都是随机噪音。对于easy bad sample和hard bad sample,最好能够在数据预处理的步骤中进行辨别与处理,暂且认为本申请实施例中的样本数据不包含这两种情况。
模型训练的最终目的是要在真实的业务场景中可以起到精确的预测作用。所以在模型训练阶段,需要模型对真实业务场景中的样本进行充分的学习,如果我们在训练阶段对不同难易层级的样本一视同仁,模型很容易“偷懒”,只对easy sample进行学习,这样训练得到的模型很容易对这样的easy sample进行较为准确的预测,但在真实的场景中,存在medium sample和hard sample,模型很可能就表现不佳。业界通常的做法是,通过堆叠特征和模型融合来提升模型的整体效果,这在一定程度上可以解决问题,但也难免会增加很多的计算量。本申请实施例从样本角度进行优化,可以有效得提升模型效果,也可以进一步与特征和模型优化结合,得到更好的效果。
基于这样的思想,本申请实施例具体的做法可以分为两个步骤:不同层级的样本定义、分层采样组合和模型训练与融合。
因此,对于用于模型训练的样本数据,需要确定样本数据的训练难度类别(也可称之为难易等级),训练难度类别代表了样本数据在模型训练过程中的难易程度,同时也代表了样本数据在模型训练过程中的信息贡献,也代表了训练好的模型对于该样本数据进行预测时的准确性。具体的,训练难度类别包括简单、常规和困难三个类别,所以样本数据可以分为easy sample、medium sample和hard sample三个类别。
需要说明的是,本申请实施例通过两个嵌套10折的建模方案得到样本数据的数据评分,之后根据数据评分确定样本数据的训练难度类别。
首先,利用两个嵌套10折的建模方案得到样本数据的数据评分。参见图5,其示出了本申请实施例提供的一种模型训练方法的工作过程示意图。如图5所示,确定数据评分的模型分为外层十折交叉验证模型和内层十折交叉验证模型。
对于为外层十折交叉验证模型,首先将原始的样本数据集(或称为训练集),随机分成了10份(每份中的正负样本比例近似);其次,依次在这10份(十折)上选取其中1折作为测试集(相当于前述的第一待计算数据集),剩余9折作为训练集(相当于前述的第二待计算数据集),;之后,利用训练集对预设评分模型进行训练,将训练好的模型(即目标评分模型)在测试集中进行模型预测;最后,对于测试集中的待测试样本数据,根据该待测试样本数据的真实标签值和模型预设值便可以得到该待测试样本数据的数据评分(二分类模型,打分数值分布在0~1之间)。这样,依次将十折中的每一折作为测试集,从而得到每一个样本数据所对应的模型打分。
具体的,在利用9折的训练集对预设模型进行训练时,采用内层十折交叉验证模型。具体的,将训练集(即外层的9折)再进行一个内层10折的样本划分(随机分层,每一折正负样本比例接近),每折样本单独作为训练集对预设模型进行训练,这样会对应得到10个训练好的目标评分子模型;将每一个目标评分子模型在对应的测试集(即外层的1折)测试,即测试集中的每个样本数据都会进行10次预测,从而就可以得到测试集中每条样本数据对应的10个数据评分,最终得到预测矩阵Pm×n,其中m表示样本数据的数量,n表示每个样本数据的数据评分,这里是10,也可以调高这个数值使得结果更加可靠,但代价是计算量增加。
示例性地,如图5所示,将样本数据集随机分为外层十折,将第一折~第九折作为训练集(train),第十折(test-10-pred)作为测试集。以第十折作为测试集为例,在利用训练集(train)进行训练时,将训练集(train)再次分为内层十折,每次取用其中一折作为单独的训练集对预设模型进行训练,得到十个训练好的预设模型,然后利用这十个训练好的预设模型分别对测试集10(test-10-pred)进行测试,分别得到10个数据评分,即为测试集10分数1-10(pred-1~pred-10)。按照以上遍历所有样本数据,每个样本数据都会得到各自对应的10个数据评分,从而构成了预测矩阵Pm×n
在得到预测矩阵Pm×n之后,根据预测矩阵Pm×n,对其中一个样本数据对应的数据评分[pi1…pin],i∈[1,m],计算一些统计指标:均值avg、中位数median、标准差std、最大值max和最小值min,然后按照式(1)计算出每条样本数据的数据评分S:
S=α·|label-avg|+β·|label-median|+γ·std+δ·(max-min)…………(1)
其中,α、β、γ和δ为超参数,label为该样本数据的真实标签值,可以根据不同的实验进行调整。
在这里,对于样本数据,其数据评分S的数值越小表示该样本数据对模型来说越容易学习。这样做的原因是,如果该条样本的真实标签值(label)和预测值的均值(avg)、中位数(median)的差值越大,表明模型预测出现的偏差越大,说明模型对该样本数据学习的不够好,所以在后期模型训练时候应该加大这部分的样本权重。如果预测值的标准差(std)和最大值最小值的差值(max-min)越大,表明采样不同样本数据对模型的预测结果影响越大。
在实践中发现,不同的业务场景下,影响样本定义的主要指标会不一样,因此根据超参数α,β,γ,δ动态调整权重。例如,在一些业务场景中的取值:α=0.35,β=0.15,γ=0.35,δ=0.15,或者α=0.25,β=0.25,γ=0.15,δ=0.35。
最后,计算所有样本的评分S的30%分位数(P1)和70%分位数(P2),然后按照以下规则定义样本数据的训练难度类别:如果样本数据的S小于P1,记为easy sample;如果样本数据的S大于或等于P1,且小于P2,记为medium sample如果样本数据的S大于或等于P2,记为hard sample,具体如式(2)所示。
Figure BDA0002887893910000211
这样,通过以上计算,确定了样本数据的训练难度类别。
S402:根据样本数据的训练难度类别,对样本数据进行分层采样,得到第一样本数据集和第二样本数据集。
需要说明的是,在确定样本数据的训练难度类别之后,可以根据样本数据的训练难度类别进行样本分层采样。参见图6,其示出了本申请实施例提供的另一种模型训练方法的工作过程示意图。如图6所示,首先采样全部的easy sample,80%的medium sample和20%的hard sample(采样比例可以调整,且通过分位值进行采样)构成第一样本数据集,然后采样全部的hard sample,80%的medium sample和20%的easy sample构成第二样本数据集。
如图6所示,对于常规数据集,将其按照每个样本数据的数据评分再次分为三个层级,然后依次区每个层级的24%、32%和24%,从而得到80%的medium sample。对于困难数据集,将其按照每个样本数据的数据评分再次分为三个层级,然后依次区每个层级的6%、8%和6%,从而得到20%的hardsample。对于简单数据集,将其按照每个样本数据的数据评分再次分为三个层级,然后依次区每个层级的6%、8%和6%,从而得到20%的easysample。
这样,能够更好的实现分层采样优化,从而提高目标模型的预测效果。
S403:利用第一样本数据集和第二样本数据集进行模型训练和模型融合,得到目标模型。
需要说明的是,如图6所示,利用第一样本数据集进行模型训练,能够得到一个基准的训练模型Y1(相当于前述的第一训练模型),这个模型对于easy sample、mediumsample会得到较为充分的训练,保证预测结果不会出现大的偏差。另外,利用第二样本数据集进行模型训练,能够得到一个更加关注hard sample的训练模型Y2(相当于前述的第二训练模型)。
在获得训练模型Y1和训练模型Y2之后,采用有监督的模型融合技术,如blending和stacking模型融合技术,对训练模型Y1和训练模型Y2进行融合,得到最后的结果。在这里,采用有监督的融合效果会更好,简单的加权平均融合结果偏差略大,但同样优于已有的模型训练方法。在一种具体的实施例中,可以采用原始的样本数据集作为模型融合过程中的监督,也可以采用另外收集的样本数据集进行模型融合。
除此之外,为了进一步提升优化效果,可以进行更多不同比例的采样和模型融合,这里仅仅作为示意,一般情况下,训练这两个模型就可以达到较好的效果。
综上所述,在相关技术中,对于数据采样处理方法的优化主要还是集中于特征选择、数据平衡、采样典型样本以及随机采样等方面,很多都还局限于实验室条件下的采样分类效果优化,对于实际应用的系统来说,数据的分布与最终预测目标结果的相关性更为复杂,传统Look-alike预测问题中的数据采样处理方法应用于实际系统中时,并不一定能达到最优的结果。
本申请实施例希望保护的技术关键点是,基于样本分层采样优化,模型分层训练的Look-alike模型方案。在真实业务场景中,样本数据的质量参差不齐,能够贡献的信息量也有较大的差异。相关技术中的模型训练方式对所有的样本一视同仁,这样训练的模型往往效果不能达到最优。本模型通过两个嵌套的十折交叉验证进行模型训练,通过不同的样本组合得到每个样本的10个预测结果,通过对这个预测结果的统计分析,计算指标S用于定位样本的等级,根据这个指标后续进行分层采样模型的训练和融合,得到目标模型,然后利用目标模型进行业务问题的预测结果,能够提高预测效果。
本申请实施例提供了一种模型训练方法,通过本实施例对前述实施例的详细阐述,从中可以看出,通过采用难易比例不同的至少两个样本数据集,实现了样本数据的分层采样,从而提升最终得到的目标模型的预测效果;而且,利用至少两个样本数据集分别进行模型训练,然后通过模型融合获得目标模型,还提高了目标模型的泛化能力。
在本申请的又一实施例中,参见图7,其示出了本申请实施例提供的一种模型训练装置50的组成结构示意图。如图7所示,该模型训练装置50包括获取单元501、训练单元502和融合单元503,其中,
获取单元501,配置为获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;
训练单元502,配置为通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;
融合单元503,配置为将所述至少两个训练模型进行模型融合,得到目标模型。
在一些实施例中,获取单元501,具体配置为获取多个样本数据,计算所述多个样本数据各自的数据评分;基于所述多个样本数据各自的数据评分,确定所述多个样本数据所属的训练难度类别;基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层采样,确定所述至少两个样本数据集。
在一些实施例中,获取单元501,还配置为将所述多个样本数据进行分组,得到N个待计算数据集;其中,N为大于或等于2的整数;从所述N个待计算数据集中,确定第一待计算数据集和第二待计算数据集;其中,所述第一待计算数据集是指所述N个待计算数据集的任意一个待计算数据集,所述第二待计算数据集包括所述N个待计算数据集中除第一待计算数据集之外的所有待计算数据集;利用所述第二待计算数据集对所述预设评分模型进行训练,得到目标评分模型;利用所述第一待计算数据集对所述目标评分模型进行模型测试,确定所述第一待计算数据集中每一样本数据各自的数据评分;在确定出所述N个待计算数据集中每一样本数据各自的数据评分后,得到所述多个样本数据各自的数据评分。
在一些实施例中,所述目标评分模型包括M个目标评分子模型;获取单元501,还配置为将所述第二待计算数据集进行分组,得到M个待计算数据子集;其中,M为大于或等于1的整数;利用所述M个待计算数据子集对所述预设评分模型进行训练,得到所述M个目标评分子模型。
在一些实施例中,获取单元501,还配置为将待测试样本数据输入到所述M个目标评分模型中,输出M个模型测试结果;其中,所述待测试样本数据是指所述第一待计算数据集中的任意一个样本数据;基于所述M个模型测试结果,确定所述待测试样本数据的数据评分。
在一些实施例中,获取单元501,还配置为从所述M个模型测试结果中确定最大值、最小值、中位值、平均值和标准差,以及确定所述待测试样本数据的真实标签值;计算所述平均值与所述真实标签值之间的差值绝对值,得到第一差值;计算所述中位值与所述真实标签值之间的差值绝对值,得到第二差值;计算所述最大值和所述最小值之间的差值,得到第三差值;对所述第一差值、所述第二差值、所述第三差值和所述标准差进行加权求和计算,得到所述待测试样本数据的数据评分。
在一些实施例中,所述训练难度类别包括简单类别、常规类别和困难类别;获取单元501,还配置为确定第一评分阈值和第二评分阈值;其中,所述第一评分阈值小于所述第二评分阈值;若其中一个样本数据的数据评分小于所述第一评分阈值,则确定所述其中一个样本数据的训练难度类别为所述简单类别;若其中一个样本数据的数据评分大于或等于所述第一评分阈值,且小于所述第二评分阈值,则确定所述其中一个样本数据的训练难度类别为所述常规类别;若其中一个样本数据的数据评分大于或等于所述第二评分阈值,则确定所述其中一个样本数据的训练难度类别为所述困难类别。
在一些实施例中,所述至少两个样本数据集包括第一样本数据集和第二样本数据集;获取单元501,还配置为基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层,得到简单样本数据集、常规样本数据集和困难样本数据集;对所述简单样本数据集、所述常规样本数据集和所述困难样本数据集进行采样,将采样得到的第一预设比例值的所述简单样本数据集、第二预设比例值的所述常规样本数据集和第三预设比例值的所述困难样本数据集确定为所述第一样本数据集,将采样得到的第四预设比例值的所述简单样本数据集、第五预设比例值的常规样本数据集和第六比例值的困难样本数据集确定为所述第二样本数据集;其中,所述简单样本数据集包括所述多个样本数据中所有训练难度类别为简单类别的样本数据,所述常规样本数据集包括所述多个样本数据中所有训练难度类别为常规类别的样本数据,所述困难样本数据集包括所述多个样本数据中所有训练难度类别为困难类别的样本数据。
在一些实施例中,所述第一预设比例值为100%,所述第二预设比例值为80%,所述第三预设比例值为20%,所述第四预设比例值为20%,所述第五预设比例值为80%,所述第六预设比例值为100%。
在一些实施例中,所述至少两个预设模型包括第一预设模型和第二预设模型,所述至少两个训练模型包括第一训练模型和第二训练模型;训练单元502,具体配置为利用所述第一样本数据集对所述第一预设模型进行训练,得到所述第一训练模型;利用所述第二样本数据集对所述第二预设模型进行训练,得到所述第二训练模型。
在一些实施例中,融合单元503,具体配置为将所述第一训练模型确定为基准模型,将所述第二训练模型确定为待融合模型;基于预设融合算法将所述待融合模型和所述基准模型进行融合,得到所述目标模型。
在一些实施例中,如图8所示,该模型训练装置50还包括预测单元504,配置为获取多个待预测用户各自的用户数据;将所述多个待预测用户各自的用户数据输入到所述目标模型中,得到所述多个待预测用户各自的预测值;将所述多个待预测用户按照所述多个待预测用户各自的预测值进行排序,根据排序结果从所述多个待预测用户中确定至少一个目标用户。
可以理解地,在本实施例中,“单元”可以是部分电路、部分处理器、部分程序或软件等等,当然也可以是模块,还可以是非模块化的。而且在本实施例中的各组成部分可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。
所述集成的单元如果以软件功能模块的形式实现并非作为独立的产品进行销售或使用时,可以存储在一个计算机可读取存储介质中,基于这样的理解,本实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或processor(处理器)执行本实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
因此,本实施例提供了一种计算机存储介质,该计算机存储介质存储有模型训练程序,所述模型训练程序被至少一个处理器执行时实现前述实施例中任一项所述的方法的步骤。
基于上述的一种模型训练装置50的组成以及计算机存储介质,参见图9,其示出了本申请实施例提供的一种模型训练装置50的具体硬件结构示意图。如图9所示,所述模型训练装置50可以包括:通信接口601、存储器602和处理器603;各个组件通过总线设备604耦合在一起。可理解,总线设备604用于实现这些组件之间的连接通信。总线设备604除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图9中将各种总线都标为总线设备604。其中,通信接口601,用于在与其他外部网元之间进行收发信息过程中,信号的接收和发送;
存储器602,用于存储能够在处理器603上运行的计算机程序;
处理器603,用于在运行所述计算机程序时,执行:
获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;
通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;
将所述至少两个训练模型进行模型融合,得到目标模型。
可以理解,本申请实施例中的存储器602可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data RateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步链动态随机存取存储器(Synchronous link DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本申请描述的设备和方法的存储器602旨在包括但不限于这些和任意其它适合类型的存储器。
而处理器603可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器603中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器603可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(APPlication Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器602,处理器603读取存储器602中的信息,结合其硬件完成上述方法的步骤。
可以理解的是,本申请描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(APPlication Specific Integrated Circuits,ASIC)、数字信号处理器(Digital SignalProcessing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(ProgrammableLogic Device,PLD)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
对于软件实现,可通过执行本申请所述功能的模块(例如过程、函数等)来实现本申请所述的技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
可选地,作为另一个实施例,处理器603还配置为在运行所述计算机程序时,执行前述实施例中任一项所述的方法的步骤。
基于上述模型训练装置50的组成以及硬件结构示意图。参见图10,其示出了本申请实施例提供的一种模型训练设备70的组成结构示意图。如图10所示,该模型训练设备70至少包括前述实施例中任一项所述的模型训练装置50。
对于模型训练设备70而言,通过采用难易比例不同的至少两个样本数据集,实现了样本数据的分层采样,从而提升最终得到的目标模型的预测效果;而且,利用至少两个样本数据集分别进行模型训练,然后通过模型融合获得目标模型,还提高了目标模型的泛化能力。
以上所述,仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。
需要说明的是,在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
本申请所提供的几个方法实施例中所揭露的方法,在不冲突的情况下可以任意组合,得到新的方法实施例。
本申请所提供的几个产品实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的产品实施例。
本申请所提供的几个方法或设备实施例中所揭露的特征,在不冲突的情况下可以任意组合,得到新的方法实施例或设备实施例。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

Claims (16)

1.一种模型训练方法,其特征在于,所述方法包括:
获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;
通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;
将所述至少两个训练模型进行模型融合,得到目标模型。
2.根据权利要求1所述的模型训练方法,其特征在于,所述获取至少两个样本数据集,包括:
获取多个样本数据,计算所述多个样本数据各自的数据评分;
基于所述多个样本数据各自的数据评分,确定所述多个样本数据所属的训练难度类别;
基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层采样,确定所述至少两个样本数据集。
3.根据权利要求2所述的模型训练方法,其特征在于,所述计算所述多个样本数据各自的数据评分,包括:
将所述多个样本数据进行分组,得到N个待计算数据集;其中,N为大于或等于2的整数;
从所述N个待计算数据集中,确定第一待计算数据集和第二待计算数据集;其中,所述第一待计算数据集是指所述N个待计算数据集的任意一个待计算数据集,所述第二待计算数据集包括所述N个待计算数据集中除第一待计算数据集之外的所有待计算数据集;
利用所述第二待计算数据集对所述预设评分模型进行训练,得到目标评分模型;
利用所述第一待计算数据集对所述目标评分模型进行模型测试,确定所述第一待计算数据集中每一样本数据各自的数据评分;
在确定出所述N个待计算数据集中每一样本数据各自的数据评分后,得到所述多个样本数据各自的数据评分。
4.根据权利要求3所述的模型训练方法,其特征在于,所述目标评分模型包括M个目标评分子模型;所述利用所述第二待计算数据集对所述预设评分模型进行训练,得到目标评分模型,包括:
将所述第二待计算数据集进行分组,得到M个待计算数据子集;其中,M为大于或等于1的整数;
利用所述M个待计算数据子集对所述预设评分模型进行训练,得到所述M个目标评分子模型。
5.根据权利要求4所述的模型训练方法,其特征在于,所述利用所述第一待计算数据集对所述目标评分模型进行模型测试,确定所述第一待计算数据集中每一样本数据各自的数据评分,包括:
将待测试样本数据输入到所述M个目标评分模型中,输出M个模型测试结果;其中,所述待测试样本数据是指所述第一待计算数据集中的任意一个样本数据;
基于所述M个模型测试结果,确定所述待测试样本数据的数据评分。
6.根据权利要求5所述的模型训练方法,其特征在于,所述基于所述M个模型测试结果,确定所述待测试样本数据的数据评分,包括:
从所述M个模型测试结果中确定最大值、最小值、中位值、平均值和标准差,以及确定所述待测试样本数据的真实标签值;
计算所述平均值与所述真实标签值之间的差值绝对值,得到第一差值;
计算所述中位值与所述真实标签值之间的差值绝对值,得到第二差值;
计算所述最大值和所述最小值之间的差值,得到第三差值;
对所述第一差值、所述第二差值、所述第三差值和所述标准差进行加权求和计算,得到所述待测试样本数据的数据评分。
7.根据权利要求6所述的模型训练方法,其特征在于,所述训练难度类别包括简单类别、常规类别和困难类别;所述基于所述多个样本数据各自的数据评分,确定所述多个样本数据各自的训练难度类别,包括:
确定第一评分阈值和第二评分阈值;其中,所述第一评分阈值小于所述第二评分阈值;
若其中一个样本数据的数据评分小于所述第一评分阈值,则确定所述其中一个样本数据的训练难度类别为所述简单类别;
若其中一个样本数据的数据评分大于或等于所述第一评分阈值,且小于所述第二评分阈值,则确定所述其中一个样本数据的训练难度类别为所述常规类别;
若其中一个样本数据的数据评分大于或等于所述第二评分阈值,则确定所述其中一个样本数据的训练难度类别为所述困难类别。
8.根据权利要求7所述的模型训练方法,其特征在于,所述至少两个样本数据集包括第一样本数据集和第二样本数据集;所述基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层采样,确定所述至少两个样本数据集,包括:
基于所述多个样本数据所属的训练难度类别对所述多个样本数据进行分层,得到简单样本数据集、常规样本数据集和困难样本数据集;
对所述简单样本数据集、所述常规样本数据集和所述困难样本数据集进行采样,将采样得到的第一预设比例值的所述简单样本数据集、第二预设比例值的所述常规样本数据集和第三预设比例值的所述困难样本数据集确定为所述第一样本数据集,将采样得到的第四预设比例值的所述简单样本数据集、第五预设比例值的常规样本数据集和第六比例值的困难样本数据集确定为所述第二样本数据集;
其中,所述简单样本数据集包括所述多个样本数据中所有训练难度类别为简单类别的样本数据,所述常规样本数据集包括所述多个样本数据中所有训练难度类别为常规类别的样本数据,所述困难样本数据集包括所述多个样本数据中所有训练难度类别为困难类别的样本数据。
9.根据权利要求8所述的模型训练方法,其特征在于,所述第一预设比例值为100%,所述第二预设比例值为80%,所述第三预设比例值为20%,所述第四预设比例值为20%,所述第五预设比例值为80%,所述第六预设比例值为100%。
10.根据权利要求8所述的模型训练方法,其特征在于,所述至少两个预设模型包括第一预设模型和第二预设模型,所述至少两个训练模型包括第一训练模型和第二训练模型;
所述通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型,包括:
利用所述第一样本数据集对所述第一预设模型进行训练,得到所述第一训练模型;
利用所述第二样本数据集对所述第二预设模型进行训练,得到所述第二训练模型。
11.根据权利要求9所述的模型训练方法,其特征在于,所述将所述至少两个训练模型进行模型融合,得到目标模型,包括:
将所述第一训练模型确定为基准模型,将所述第二训练模型确定为待融合模型;
基于预设融合算法将所述待融合模型和所述基准模型进行融合,得到所述目标模型。
12.根据权利要求1-11任一项所述的模型训练方法,其特征在于,所述方法还包括:
获取多个待预测用户各自的用户数据;
将所述多个待预测用户各自的用户数据输入到所述目标模型中,得到所述多个待预测用户各自的预测值;
基于所述多个待预测用户各自的预测值,将所述多个待预测用户进行排序,根据排序结果从所述多个待预测用户中确定至少一个目标用户。
13.一种模型训练装置,其特征在于,所述模型训练装置包括获取单元、训练单元和融合单元,其中,
所述获取单元,配置为获取至少两个样本数据集;其中,所述至少两个样本数据集各自包括的样本数据中难易比例不同;
所述训练单元,配置为通过所述至少两个样本数据集分别对至少两个预设模型进行训练,得到至少两个训练模型;
所述融合单元,配置为将所述至少两个训练模型进行模型融合,得到目标模型。
14.一种模型训练装置,其特征在于,所述模型训练装置包括存储器和处理器;其中,
所述存储器,用于存储能够在所述处理器上运行的计算机程序;
所述处理器,用于在运行所述计算机程序时,执行如权利要求1至12任一项所述方法的步骤。
15.一种计算机存储介质,其特征在于,所述计算机存储介质存储有模型训练程序,所述模型训练程序被至少一个处理器执行时实现如权利要求1至12任一项所述方法的步骤。
16.一种模型训练设备,其特征在于,所述模型训练设备至少包括权利要求13或14所述的模型训练装置。
CN202110018592.XA 2021-01-07 2021-01-07 一种模型训练方法、装置、计算机存储介质及设备 Pending CN113762579A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110018592.XA CN113762579A (zh) 2021-01-07 2021-01-07 一种模型训练方法、装置、计算机存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110018592.XA CN113762579A (zh) 2021-01-07 2021-01-07 一种模型训练方法、装置、计算机存储介质及设备

Publications (1)

Publication Number Publication Date
CN113762579A true CN113762579A (zh) 2021-12-07

Family

ID=78786283

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110018592.XA Pending CN113762579A (zh) 2021-01-07 2021-01-07 一种模型训练方法、装置、计算机存储介质及设备

Country Status (1)

Country Link
CN (1) CN113762579A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842926A (zh) * 2022-05-10 2022-08-02 北京晶泰科技有限公司 数据处理方法、装置和模型训练方法、装置和电子设备
CN115512391A (zh) * 2022-09-29 2022-12-23 珠海视熙科技有限公司 数据自适应重采样的目标检测模型训练方法、装置及设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114842926A (zh) * 2022-05-10 2022-08-02 北京晶泰科技有限公司 数据处理方法、装置和模型训练方法、装置和电子设备
CN115512391A (zh) * 2022-09-29 2022-12-23 珠海视熙科技有限公司 数据自适应重采样的目标检测模型训练方法、装置及设备

Similar Documents

Publication Publication Date Title
CN110009174B (zh) 风险识别模型训练方法、装置及服务器
TWI789345B (zh) 機器學習模型的建模方法及裝置
Abdou et al. Credit scoring, statistical techniques and evaluation criteria: a review of the literature
Hu A multivariate grey prediction model with grey relational analysis for bankruptcy prediction problems
Gheyas et al. Feature subset selection in large dimensionality domains
CN110321436B (zh) 一种基于社交注意力机制表示学习的冷启动欺诈评论检测方法
CN107230108A (zh) 业务数据的处理方法及装置
Verma et al. Attitude prediction towards ICT and mobile technology for the real-time: an experimental study using machine learning
CN111932269A (zh) 设备信息处理方法及装置
CN113762579A (zh) 一种模型训练方法、装置、计算机存储介质及设备
Rao et al. Credit risk assessment mechanism of personal auto loan based on PSO-XGBoost Model
Sun et al. Financial distress prediction based on similarity weighted voting CBR
CN107392217B (zh) 计算机实现的信息处理方法及装置
Cheong et al. Interpretable stock anomaly detection based on spatio-temporal relation networks with genetic algorithm
Takimoto et al. Anomaly detection using siamese network with attention mechanism for few-shot learning
Kozodoi et al. Shallow self-learning for reject inference in credit scoring
Tan et al. Multi-view representation learning with Kolmogorov-Smirnov to predict default based on imbalanced and complex dataset
CN112819024A (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
Lee et al. Smart Robust Feature Selection (SoFt) for imbalanced and heterogeneous data
Elhoseny et al. A new metaheuristic optimization model for financial crisis prediction: Towards sustainable development
Beade et al. Evolutionary feature selection approaches for insolvency business prediction with genetic programming
Chen et al. Gaussian mixture embedding of multiple node roles in networks
Heng et al. A systematic review of machine learning and explainable artificial intelligence (XAI) in credit risk modelling
CN113259369B (zh) 一种基于机器学习成员推断攻击的数据集认证方法及系统
CN114818900A (zh) 一种半监督特征提取方法及用户信用风险评估方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination