CN112418341A - 模型融合方法、预测方法、装置、设备及存储介质 - Google Patents

模型融合方法、预测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112418341A
CN112418341A CN202011416145.1A CN202011416145A CN112418341A CN 112418341 A CN112418341 A CN 112418341A CN 202011416145 A CN202011416145 A CN 202011416145A CN 112418341 A CN112418341 A CN 112418341A
Authority
CN
China
Prior art keywords
prediction
models
error
value
sample data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202011416145.1A
Other languages
English (en)
Inventor
付金伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Minglue Artificial Intelligence Group Co Ltd
Original Assignee
Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Minglue Artificial Intelligence Group Co Ltd filed Critical Shanghai Minglue Artificial Intelligence Group Co Ltd
Priority to CN202011416145.1A priority Critical patent/CN112418341A/zh
Publication of CN112418341A publication Critical patent/CN112418341A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明提供一种模型融合方法、预测方法、装置、设备及存储介质,涉及数据处理技术领域。该方法包括:获取多个预测模型;采用每个预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值;根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差;根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重;多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,多个预测模型对输入数据的预测权重。使得基于多个预测模型的预测更加稳定,可以结合各预测模型的权重输出预测结果,提高对于输入数据的处理效果,使得预测结果更加准确。

Description

模型融合方法、预测方法、装置、设备及存储介质
技术领域
本发明涉及数据处理技术领域,具体而言,涉及一种模型融合方法、预测方法、装置、设备及存储介质。
背景技术
随着人工智能技术取得进展之后,对于大数据下的机器学习也成为了研究热点。在机器学习的过程中会使用到样本数据,通常需要采用多种模型对样本数据进行处理,不同的模型往往都存在不同的适用场景,不存在一个模型,在所有情况下都胜过其他的模型。因此,对多种模型组合形成一个算法框架,采用算法框架充分利用不同模型的优势对样本数据进行处理也变得越来越重要。
相关技术中,在对多种模型进行融合时,采用平均法对多种模型进行融合。在融合过程中,分类时采用一个模型一票的投票方式,回归时使用多个模型的平均值。
但是,相关技术中,采用平均法对多种模型进行融合,容易出现融合后的多个模型预测不稳定,导致融合的多个模型对输入数据处理效果较差的问题。
发明内容
本发明的目的在于,针对上述现有技术中的不足,提供一种模型融合方法、预测方法、装置、设备及存储介质,以便解决相关技术中,采用平均法对多种模型进行融合,容易出现融合后的多个模型预测不稳定,导致融合的多个模型对输入数据处理效果较差的问题。
为实现上述目的,本发明实施例采用的技术方案如下:
第一方面,本发明实施例提供了一种预测模型的融合方法,包括:
获取多个预测模型,所述多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
采用每个预测模型对目标样本数据进行预测,得到所述每个预测模型的样本预测值,所述目标样本数据为所述每个预测模型对应的应用场景下所述预设预测需求的样本数据;
根据所述每个预测模型的样本预测值、以及所述目标样本数据对应的标准预测值,确定所述每个预测模型的预测误差;
根据所述每个预测模型的预测误差,以及所述多个预测模型的预测误差,计算所述每个预测模型的权重;所述多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,所述多个预测模型对所述输入数据的预测权重。
可选的,所述样本预测值包括:所述每个预测模型对所述目标样本数据中多个样本数据进行预测的多个预测值;所述根据所述每个预测模型的样本预测值、以及所述样本数据对应的标准预测值,确定所述每个预测模型的预测误差,包括:
根据所述多个预测值,和所述多个样本数据对应的多个标准预测值,分别计算所述多个样本数据对应的多个预测误差;
根据所述多个预测误差,计算所述每个预测模型的预测误差。
可选的,所述根据所述多个预测误差,计算所述每个预测模型的预测误差,包括:
根据每个预测误差和对应的样本预测值,计算所述每个样本数据对应的相对预测误差;
根据所述多个样本数据的相对误差的平均值,计算所述每个预测模型的预测误差。
可选的,所述根据所述每个预测模型的预测误差,以及所述多个预测模型的预测误差,计算所述每个预测模型的权重,包括:
根据所述多个预测模型的预测误差,计算所述多个预测模型的第一平均误差;
根据所述第一平均误差,和所述多个预测模型中所述每个预测模型之外的其他预测模型的第二平均误差,计算所述每个预测模型的预测误差贡献值;
根据所述预测误差贡献值,计算所述每个预测模型的权重。
可选的,所述根据所述第一平均误差,和所述多个预测模型中所述每个预测模型之外的其他预测模型的第二平均误差,计算所述每个预测模型的预测误差贡献值,包括:
计算所述第一平均误差,和所述第二平均误差的差值;
根据所述差值和所述每个预测模型在所述多个预测模型中的出现概率,计算所述预测误差贡献值。
可选的,所述根据所述预测误差贡献值,计算所述每个预测模型的权重,包括:
计算所述预测误差贡献值以及所述第一平均误差的比值;
根据所述比值,和预设最大权重值的偏差,计算所述每个预测模型的权重。
第二方面,本发明实施例提供了一种混合应用场景中预测方法,包括:
获取所述混合应用场景中的输入数据;所述混合应用场景为包括多个应用场景中的混合场景;
分别采用多个预测模型对所述输入数据进行预测,得到所述多个预测模型的预测值;所述多个预测模型分别为根据所述多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
根据所述多个预测模型的权重,对所述多个预测模型的预测值进行加权和运算,得到所述输入数据的目标预测值;其中,每个预测模型的权重为采用上述第一方面中任一所述的方法计算得到的权重。
第三方面,本发明实施例提供了一种预测模型的融合装置,包括:
获取模块,用于获取多个预测模型,所述多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
预测模块,用于采用每个预测模型对目标样本数据进行预测,得到所述每个预测模型的样本预测值,所述目标样本数据为所述每个预测模型对应的应用场景下所述预设预测需求的样本数据;
确定模块,用于根据所述每个预测模型的样本预测值、以及所述目标样本数据对应的标准预测值,确定所述每个预测模型的预测误差;
计算模块,用于根据所述每个预测模型的预测误差,以及所述多个预测模型的预测误差,计算所述每个预测模型的权重;所述多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,所述多个预测模型对所述输入数据的预测权重。
可选的,所述样本预测值包括:所述每个预测模型对所述目标样本数据中多个样本数据进行预测的多个预测值;所述确定模块,还用于根据所述多个预测值,和所述多个样本数据对应的多个标准预测值,分别计算所述多个样本数据对应的多个预测误差;根据所述多个预测误差,计算所述每个预测模型的预测误差。
可选的,所述确定模块,还用于根据每个预测误差和对应的样本预测值,计算所述每个样本数据对应的相对预测误差;根据所述多个样本数据的相对误差的平均值,计算所述每个预测模型的预测误差。
可选的,所述计算模块,还用于根据所述多个预测模型的预测误差,计算所述多个预测模型的第一平均误差;根据所述第一平均误差,和所述多个预测模型中所述每个预测模型之外的其他预测模型的第二平均误差,计算所述每个预测模型的预测误差贡献值;根据所述预测误差贡献值,计算所述每个预测模型的权重。
可选的,所述计算模块,还用于计算所述第一平均误差,和所述第二平均误差的差值;根据所述差值和所述每个预测模型在所述多个预测模型中的出现概率,计算所述预测误差贡献值。
可选的,所述计算模块,还用于计算所述预测误差贡献值以及所述第一平均误差的比值;根据所述比值,和预设最大权重值的偏差,计算所述每个预测模型的权重。
第四方面,本发明实施例提供了一种混合应用场景中预测装置,包括:
获取模块,用于获取所述混合应用场景中的输入数据;所述混合应用场景为包括多个应用场景中的混合场景;分别采用多个预测模型对所述输入数据进行预测,得到所述多个预测模型的预测值;所述多个预测模型分别为根据所述多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
运算模块,用于根据所述多个预测模型的权重,对所述多个预测模型的预测值进行加权和运算,得到所述输入数据的目标预测值;其中,每个预测模型的权重为采用上述第一方面中任一所述的方法计算得到的权重。
第五方面,本发明实施例还提供了一种处理设备,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面、第二方面任一项所述的方法。
第六方面,本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述第一方面、第二方面任一项所述的方法。
本发明的有益效果是:本发明实施例提供一种预测模型的融合方法,包括:获取多个预测模型,多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;采用每个预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值,目标样本数据为每个预测模型对应的应用场景下预设预测需求的样本数据;根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差;根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重;多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,多个预测模型对输入数据的预测权重。基于每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重,使得基于多个预测模型的预测更加稳定,在采用融合后的多个预测模型输入数据进行预测时,可以结合各预测模型的权重输出预测结果,提高对于输入数据的处理效果,使得预测结果更加准确。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本发明的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本发明实施例提供的一种预测模型的融合方法的流程示意图;
图2为本发明实施例提供的一种预测模型的融合方法的流程示意图;
图3为本发明实施例提供的一种预测模型的融合方法的流程示意图;
图4为本发明实施例提供的一种预测模型的融合方法的流程示意图;
图5为本发明实施例提供的一种预测模型的融合方法的流程示意图;
图6为本发明实施例提供的一种预测模型的融合方法的流程示意图;
图7为本发明实施例提供的一种混合应用场景中预测方法的流程示意图;
图8为本发明实施例提供的一种预测模型的融合装置的结构示意图;
图9为本发明实施例提供的一种混合应用场景中预测装置的结构示意图;
图10为本发明实施例提供的一种处理设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在本申请的描述中,需要说明的是,若出现术语“上”、“下”、等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该申请产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请的限制。
此外,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
需要说明的是,在不冲突的情况下,本申请的实施例中的特征可以相互结合。
针对相关技术中,容易出现融合后的多个模型预测不稳定,导致融合的多个模型对输入数据处理效果较差的问题。本申请实施例提供一种预测模型的融合方法,基于每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重,使得基于多个预测模型的预测更加稳定,在采用融合后的多个预测模型输入数据进行预测时,可以结合各预测模型的权重输出预测结果,提高对于输入数据的处理效果,使得预测结果更加准确。
本申请实施例提供的预测模型的融合方法,其执行主体可以为处理设备,该处理设备可以为服务器,也可以为终端,还可以为其他类型的具备处理功能的设备,本申请实施例对此不进行具体限制,以下以处理设备为执行主体,对本申请实施例提供的预测模型的融合方法进行解释说明。
图1为本发明实施例提供的一种预测模型的融合方法的流程示意图,如图1所示,该方法可以包括:
S101、获取多个预测模型,多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型。
其中,不同的应用场景中对应的样本数据可以不同,多个预测模型基于对应的样本数据所预测的数据的类型可以相同,即,多个预测模型的功能相同。多个预测模型可以为采用对应的样本数据所训练好的模型。
例如,多个预测模型可以包括:第一预测模型和第二预测模型,第一预测模型和第二预测模型所预测的数据的类型均可以为年龄,第一预测模型采用的分类算法可以为树结构处理算法,第二预测模型采用的分类算法可以为逻辑回归算法。在训练第一预测模型时预测需求的样本数据可以为第一特征和第二特征的数据,在训练第二预测模型时预测需求的样本数据可以为第三特征和第四特征的数据。示例的,第一特征和第二特征可以为面部特征、体重特征,第一预测模型的应用场景为基于面部特征和体重特征进行预测的场景;第三特征和第四特征可以为工作年限特征、兴趣爱好特征,第二预测模型的应用场景为基于工作年限特征和兴趣爱好特征进行预测的场景。当然,多个预测模型还可以用于预测其他类型的数据,例如,体重或者性别等等。
需要说明的是,上述仅为一种示例,应当理解,本申请实施例中对于预测模型的数量、多个预测模型所预测数据的类型、预测模型对应的样本数据特征等等不进行具体限制。
S102、采用每个预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值。
其中,目标样本数据为每个预测模型对应的应用场景下预设预测需求的样本数据。不同应用场景所对应的样本数据的特征可以不同。
需要说明的是,处理设备可以采用每个预测模型同时对目标样本数据进行预测,得到每个预测模型的样本预测值;也可以基于预设顺序,依次采用各预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值;还可以采用其他方式进行预测,本申请实施例对此不进行具体限制。
S103、根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差。
其中,处理设备中可以预设有误差确定算法或者误差确定规则。
在一些实施方式中,处理设备可以采用误差算法或者误差确定规则,根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差。
需要说明的是,每个预测模型对应的目标样本数据的数量可以为至少一个,对于一个预测模型而言,该预测模型可以对各个目标样本数据均进行预测,得到至少一个样本预测值。其中,样本预测值的数量与标准预测值的数量可以相同。
S104、根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重。
其中,多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,多个预测模型对输入数据的预测权重。
在本申请实施例中,混合应用场景中的输入数据包括满足多个预测模型的预设预测需求的数据。例如,输入数据中可以包括第一特征、第二特征、第三特征、第四特征的数据。
需要说明的是,处理设备可以根据预测模型的预测误差,以及多个预测模型的预测误差,确定每个预测模型的误差影响程度,继而基于每个预测模型的误差影响程度确定每个预测模型的权重。
在实际应用中,多个预测模型融合后可以集成为一个算法框架,该算法框架中可以包括多个预测模型,每个预测模型均可以具有对应的权重。采用该算法框架可以实现对于输入数据的预测,并输出输入数据对应的一个预测结果。
综上所述,本发明实施例提供一种预测模型的融合方法,包括:获取多个预测模型,多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;采用每个预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值,目标样本数据为每个预测模型对应的应用场景下预设预测需求的样本数据;根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差;根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重;多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,多个预测模型对输入数据的预测权重。基于每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重,使得基于多个预测模型的预测更加稳定,在采用融合后的多个预测模型输入数据进行预测时,可以结合各预测模型的权重输出预测结果,提高对于输入数据的处理效果,使得预测结果更加准确。
可选的,样本预测值可以包括:每个预测模型对目标样本数据中多个样本数据进行预测的多个预测值。
图2为本发明实施例提供的一种预测模型的融合方法的流程示意图,如图2所示,上述S103中根据每个预测模型的样本预测值、以及样本数据对应的标准预测值,确定每个预测模型的预测误差的过程,可以包括:
S201、根据多个预测值,和多个样本数据对应的多个标准预测值,分别计算多个样本数据对应的多个预测误差。
其中,对于一个样本数据,可以对应一个预测值和一个标准预测值,标准预测值可以称为真实值。
在一种可能的实施方式中,一个预测模型可以对应多个样本数据,对于每个预测模型而言,处理设备可以计算多个样本数据中各个样本数据对应的预测值与标准预测值之间的差值,得到多个样本数据对应的差值,将多个样本数据对应的差值作为多个预测误差。
S202、根据多个预测误差,计算每个预测模型的预测误差。
在一些实施方式中,处理设备可以计算多个预测误差的平均值,将该平均值作为每个预测模型的预测误差;处理设备也可以计算多个预测误差的和值,将和值作为每个预测模型的预测误差,处理设备还可以采用其他方式,根据多个预测误差,计算每个预测模型的预测误差,本申请实施例对此不进行具体限制。
需要说明的是,处理设备可以同时计算每个预测模型的预测误差,也可以采用预设顺序依次计算每个预测模型的预测误差,本申请实施例对此不进行具体限制。
可选的,图3为本发明实施例提供的一种预测模型的融合方法的流程示意图,如图3所示,上述S202中根据多个预测误差,计算每个预测模型的预测误差的过程,可以包括:
S301、根据每个预测误差和对应的样本预测值,计算每个样本数据对应的相对预测误差。
在一些实施方式中,处理设备可以将每个预测误差除以对应的样本预测值,继而求取绝对值,得到每个样本数据对应的相对预测误差,则获取到多个样本数据对应的相对预测误差。
S302、根据多个样本数据的相对误差的平均值,计算每个预测模型的预测误差。
其中,每个预测模型的预测误差可以为每个预测模型的相对预测误差。
另外,处理设备可以计算多个样本数据的相对误差的和值,将该和值除以对个样本数据的数量,得到多个样本数据的相对误差的平均值,将多个样本数据的相对误差的平均值作为每个预测模型的预测误差。
需要说明的是,第i个预测模型对应的相对预测误差可以用MAPEi表示,则有
Figure BDA0002817881470000111
其中,m表示第i个预测模型的样本数据的数量,Predictj表示第j个样本数据的预测值,Targetj表示第j个样本数据的标准预测值,
Figure BDA0002817881470000112
表示第j个样本数据的相对误差,i=1,2,…,n,n表示模型总个数。
可选的,图4为本发明实施例提供的一种预测模型的融合方法的流程示意图,如图4所示,上述S104中根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重的过程,可以包括:
S401、根据多个预测模型的预测误差,计算多个预测模型的第一平均误差。
其中,多个预测模型的第一平均误差可以称为总平均相对预测误差。
在一些实施方式中,处理设备可以计算多个预测模型的预测误差的和值,并统计多个预测模型的数量,将多个预测模型的预测误差的和值除以多个预测模型的数量,得到多个预测模型的第一平均误差。
需要说明的是,第一平均误差可以用MAPE表示,则第一平均误差可以表示为:
Figure BDA0002817881470000113
其中,MAPEi表示第i个预测模型。
S402、根据第一平均误差,和多个预测模型中每个预测模型之外的其他预测模型的第二平均误差,计算每个预测模型的预测误差贡献值。
在本申请实施例中,多个预测模型中每个预测模型之外的其他预测模型的第二平均误差,可以为其他预测模型的预测误差的平均值。其中,可以计算其他预测模型的预测误差的和值,继而统计其他预测模型的数量,将其他预测模型的预测误差的和值除以其他预测模型的数量,得到其他预测模型的第二平均误差。
其中,处理设备中可以预设有预测误差贡献值计算公式。
在一些实施方式中,处理设备可以采用预测误差贡献值计算公式,根据第一平均误差,和多个预测模型中每个预测模型之外的其他预测模型的第二平均误差,计算每个预测模型的预测误差贡献值。
S403、根据预测误差贡献值,计算每个预测模型的权重。
其中,预测误差贡献值与预测模型的权重成反比。
需要说明的是,预测误差贡献值越大,说明预测模型的误差越大,对预测结果正确性的负面影响越大,则该预测模型的权重越小;预测误差贡献值越小,说明预测模型的误差越小,对预测结果正确性的负面影响越小,则该预测模型的权重越大。
可选的,图5为本发明实施例提供的一种预测模型的融合方法的流程示意图,如图5所示,上述S402中根据第一平均误差,和多个预测模型中每个预测模型之外的其他预测模型的第二平均误差,计算每个预测模型的预测误差贡献值的过程,可以包括:
S501、计算第一平均误差,和第二平均误差的差值。
在本申请实施例中,第一平均误差可以用于表征多个预测模型共同参与预测时所达到的误差量,第二平均误差可以用于表征除一个预测模型之外的其他预测模型共同参与预测时所达到的误差量。
S502、根据差值和每个预测模型在多个预测模型中的出现概率,计算预测误差贡献值。
需要说明的是,每个预测模型在多个预测模型中的出现概率可以用ω(|s|)表示,出现概率可以表示为:
Figure BDA0002817881470000121
其中,S表示合作联盟,n表示预测模型的数量,|s|表示s集合中的模型个数,|s|=1,2,3…,n,ω(|s|)是加权因子,(n-|s|)!(|s|-1)!表示多个预测模型的合作方式,例如,可以为多个预测模型的处理先后顺序。
在一种可能的实施方式中,处理设备可以根据差值和每个预测模型在多个预测模型中的出现概率,计算多个子预测误差贡献值,将多个子预测误差贡献值的和值作为预测误差贡献值。
可选的,预测误差贡献值可以表示为:
Figure BDA0002817881470000122
Figure BDA0002817881470000123
其中,MAPE(s)表示第一平均误差,MAPE(s-{i})表示第二平均误差,则MAPE(s)-MAPE(s-{i})表示第一平均误差和第二平均误差的差值,ω(|s|)为出现概率。
此外,预测误差贡献值
Figure BDA0002817881470000124
可以称为沙普利值,即第i个预测模型的沙普利值。
可选的,图6为本发明实施例提供的一种预测模型的融合方法的流程示意图,如图6所示,上述S403中根据预测误差贡献值,计算每个预测模型的权重的过程,可以包括:
S601、计算预测误差贡献值以及第一平均误差的比值。
其中,计算每个预测误差贡献值与第一平均误差的比值,得到每个预测模型对应的比值。
S602、根据比值,和预设最大权重值的偏差,计算每个预测模型的权重。
在一些实施方式中,处理设备可以计算预设最大权重值和比值的差值,将预设最大权重值和比值的差值作为每个预测模型的权重。其中,预设最大权重值可以为1,则每个预测模型的权重可以大于0且小于1。当然,预设最大权重值也可以为其他数值,本申请实施例对此不进行具体限制。
需要说明的是,第i个预测模型的权重可以用wi表示,则
Figure BDA0002817881470000131
Figure BDA0002817881470000132
n表示多个预测模型的数量,MAPE表示第一平均误差,
Figure BDA0002817881470000133
表示预测误差贡献值。
综上所述,本发明实施例提供一种预测模型的融合方法,包括:获取多个预测模型,多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;采用每个预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值,目标样本数据为每个预测模型对应的应用场景下预设预测需求的样本数据;根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差;根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重;多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,多个预测模型对输入数据的预测权重。基于每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重,使得基于多个预测模型的预测更加稳定,在采用融合后的多个预测模型输入数据进行预测时,可以结合各预测模型的权重输出预测结果,提高对于输入数据的处理效果,使得预测结果更加准确。
而且,充分运用不同预测模型的优势,取长补短,融合后的多个预测模型可以组合形成一个算法框架。本申请实施例中通过计算沙普利值确定每个预测模型的边际贡献量,继而合理的确定多个预测模型的权重,改进了预测模型的性能、降低选择不利预测模型的可能性,使得多个预测模型更加稳定,不受极值影响,同时也降低了预测模型的复杂度,提高了在混合应用场景中预测结果的准确性。
在实际应用中,多个预测模型可以应用于分布式计算系统,即各个预测模型可以分布在不同的计算系统上。另外,当数据库出于保密原因而被分割,则必须在每个分区上计算部分解,采用本申请实施例的方式可以联网判定的组合,继而获得最终的解。
可选的,图7为本发明实施例提供的一种混合应用场景中预测方法的流程示意图,如图7所示,该方法可以包括:
S701、获取混合应用场景中的输入数据。
其中,混合应用场景为包括多个应用场景中的混合场景。
在本申请实施例中,输入数据可以包括满足多个应用场景的预测需求的数据。例如,第一预测模型的应用场景为基于面部特征和体重特征进行预测的场景,第二预测模型的应用场景为基于工作年限特征和兴趣爱好特征进行预测的场景,输入数据中可以包括面部特征、体重特征、工作年限特征、兴趣爱好特征对应的数据。
S702、分别采用多个预测模型对输入数据进行预测,得到多个预测模型的预测值。
其中,多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型。
在一种可能的实施方式中,从输入数据中确定每个预测模型对应的子输入数据,并将子输入数据输入预测模型中,得到预测模型输出的预测值。例如,对于第一预测模型,可以从输入数据中确定面部特征和体重特征对应的数据为子数据;对于第而预测模型,可以从输入数据中确定工作年限特征和兴趣爱好特征对应的数据为子数据。
S703、根据多个预测模型的权重,对多个预测模型的预测值进行加权和运算,得到输入数据的目标预测值。
其中,每个预测模型的权重为采用上述预测模型的融合方法计算得到的权重。
在一些实施方式中,处理设备可以计算每个预测模型的权重和预测值的乘积,得到多个乘积值,对多个乘积值进行求和,得到输入数据的目标预测值。
需要说明的是,可以用Ei表示第i个预测模型的预测值,Ei表示第i个预测模型的权重,可以用T表示目标预测值,则目标预测值可以为:
Figure BDA0002817881470000151
其中,n为多个预测模型的数量。
综上所述,本申请实施例提供一种混合应用场景中预测方法,包括:获取混合应用场景中的输入数据;混合应用场景为包括多个应用场景中的混合场景;分别采用多个预测模型对输入数据进行预测,得到多个预测模型的预测值;多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;根据多个预测模型的权重,对多个预测模型的预测值进行加权和运算,得到输入数据的目标预测值;其中,每个预测模型的权重为采用上述预测模型的融合方法计算得到的权重。结合各预测模型的权重,根据输入数据输出预测结果,提高对于输入数据的处理效果,使得输出的目标预测值更加准确。
图8为本发明实施例提供的一种预测模型的融合装置的结构示意图,如图8所示,该装置可以包括:
获取模块801,用于获取多个预测模型,多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
预测模块802,用于采用每个预测模型对目标样本数据进行预测,得到每个预测模型的样本预测值,目标样本数据为每个预测模型对应的应用场景下预设预测需求的样本数据;
确定模块803,用于根据每个预测模型的样本预测值、以及目标样本数据对应的标准预测值,确定每个预测模型的预测误差;
计算模块804,用于根据每个预测模型的预测误差,以及多个预测模型的预测误差,计算每个预测模型的权重;多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,多个预测模型对输入数据的预测权重。
可选的,样本预测值包括:每个预测模型对目标样本数据中多个样本数据进行预测的多个预测值;确定模块803,还用于根据多个预测值,和多个样本数据对应的多个标准预测值,分别计算多个样本数据对应的多个预测误差;根据多个预测误差,计算每个预测模型的预测误差。
可选的,确定模块803,还用于根据每个预测误差和对应的样本预测值,计算每个样本数据对应的相对预测误差;根据多个样本数据的相对误差的平均值,计算每个预测模型的预测误差。
可选的,计算模块804,还用于根据多个预测模型的预测误差,计算多个预测模型的第一平均误差;根据第一平均误差,和多个预测模型中每个预测模型之外的其他预测模型的第二平均误差,计算每个预测模型的预测误差贡献值;根据预测误差贡献值,计算每个预测模型的权重。
可选的,计算模块804,还用于计算第一平均误差,和第二平均误差的差值;根据差值和每个预测模型在多个预测模型中的出现概率,计算预测误差贡献值。
可选的,计算模块804,还用于计算预测误差贡献值以及第一平均误差的比值;根据比值,和预设最大权重值的偏差,计算每个预测模型的权重。
图9为本发明实施例提供的一种混合应用场景中预测装置的结构示意图,如图9所示,该装置可以包括:
获取模块901,用于获取混合应用场景中的输入数据;混合应用场景为包括多个应用场景中的混合场景;分别采用多个预测模型对输入数据进行预测,得到多个预测模型的预测值;多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
运算模块902,用于根据多个预测模型的权重,对多个预测模型的预测值进行加权和运算,得到输入数据的目标预测值;其中,每个预测模型的权重为采用上述计算得到的权重。
上述装置用于执行前述实施例提供的方法,其实现原理和技术效果类似,在此不再赘述。
以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(digital singnal processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(CentralProcessing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
图10为本发明一实施例提供的处理设备的结构示意图,该处理设备可以包括:处理器1001、存储器1002。
存储器1002用于存储程序,处理器1001调用存储器1002存储的程序,以执行上述方法实施例。具体实现方式和技术效果类似,这里不再赘述。
可选地,本发明还提供一种程序产品,例如计算机可读存储介质,包括程序,该程序在被处理器执行时用于执行上述方法实施例。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(英文:processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(英文:Read-Only Memory,简称:ROM)、随机存取存储器(英文:Random Access Memory,简称:RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (11)

1.一种预测模型的融合方法,其特征在于,包括:
获取多个预测模型,所述多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
采用每个预测模型对目标样本数据进行预测,得到所述每个预测模型的样本预测值,所述目标样本数据为所述每个预测模型对应的应用场景下所述预设预测需求的样本数据;
根据所述每个预测模型的样本预测值、以及所述目标样本数据对应的标准预测值,确定所述每个预测模型的预测误差;
根据所述每个预测模型的预测误差,以及所述多个预测模型的预测误差,计算所述每个预测模型的权重;所述多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,所述多个预测模型对所述输入数据的预测权重。
2.根据权利要求1所述的方法,其特征在于,所述样本预测值包括:所述每个预测模型对所述目标样本数据中多个样本数据进行预测的多个预测值;所述根据所述每个预测模型的样本预测值、以及所述样本数据对应的标准预测值,确定所述每个预测模型的预测误差,包括:
根据所述多个预测值,和所述多个样本数据对应的多个标准预测值,分别计算所述多个样本数据对应的多个预测误差;
根据所述多个预测误差,计算所述每个预测模型的预测误差。
3.根据权利要求2所述的方法,其特征在于,所述根据所述多个预测误差,计算所述每个预测模型的预测误差,包括:
根据每个预测误差和对应的样本预测值,计算每个样本数据对应的相对预测误差;
根据所述多个样本数据的相对误差的平均值,计算所述每个预测模型的预测误差。
4.根据权利要求1-3中任一所述的方法,其特征在于,所述根据所述每个预测模型的预测误差,以及所述多个预测模型的预测误差,计算所述每个预测模型的权重,包括:
根据所述多个预测模型的预测误差,计算所述多个预测模型的第一平均误差;
根据所述第一平均误差,和所述多个预测模型中所述每个预测模型之外的其他预测模型的第二平均误差,计算所述每个预测模型的预测误差贡献值;
根据所述预测误差贡献值,计算所述每个预测模型的权重。
5.根据权利要求4所述的方法,其特征在于,所述根据所述第一平均误差,和所述多个预测模型中所述每个预测模型之外的其他预测模型的第二平均误差,计算所述每个预测模型的预测误差贡献值,包括:
计算所述第一平均误差,和所述第二平均误差的差值;
根据所述差值和所述每个预测模型在所述多个预测模型中的出现概率,计算所述预测误差贡献值。
6.根据权利要求4所述的方法,其特征在于,所述根据所述预测误差贡献值,计算所述每个预测模型的权重,包括:
计算所述预测误差贡献值以及所述第一平均误差的比值;
根据所述比值,和预设最大权重值的偏差,计算所述每个预测模型的权重。
7.一种混合应用场景中预测方法,其特征在于,包括:
获取所述混合应用场景中的输入数据;所述混合应用场景为包括多个应用场景中的混合场景;
分别采用多个预测模型对所述输入数据进行预测,得到所述多个预测模型的预测值;所述多个预测模型分别为根据所述多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
根据所述多个预测模型的权重,对所述多个预测模型的预测值进行加权和运算,得到所述输入数据的目标预测值;其中,每个预测模型的权重为采用上述权利要求1-6中任一所述的方法计算得到的权重。
8.一种预测模型的融合装置,其特征在于,包括:
获取模块,用于获取多个预测模型,所述多个预测模型分别为根据多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
预测模块,用于采用每个预测模型对目标样本数据进行预测,得到所述每个预测模型的样本预测值,所述目标样本数据为所述每个预测模型对应的应用场景下所述预设预测需求的样本数据;
确定模块,用于根据所述每个预测模型的样本预测值、以及所述目标样本数据对应的标准预测值,确定所述每个预测模型的预测误差;
计算模块,用于根据所述每个预测模型的预测误差,以及所述多个预测模型的预测误差,计算所述每个预测模型的权重;所述多个预测模型的权重分别为对混合应用场景中的输入数据进行预测的过程中,所述多个预测模型对所述输入数据的预测权重。
9.一种混合应用场景中预测装置,其特征在于,包括:
获取模块,用于获取所述混合应用场景中的输入数据;所述混合应用场景为包括多个应用场景中的混合场景;分别采用多个预测模型对所述输入数据进行预测,得到所述多个预测模型的预测值;所述多个预测模型分别为根据所述多个应用场景下的预设预测需求的样本数据训练的具有多个不同分类算法的预测模型;
运算模块,用于根据所述多个预测模型的权重,对所述多个预测模型的预测值进行加权和运算,得到所述输入数据的目标预测值;其中,每个预测模型的权重为采用上述权利要求1-6中任一所述的方法计算得到的权重。
10.一种处理设备,其特征在于,包括:存储器和处理器,所述存储器存储有所述处理器可执行的计算机程序,所述处理器执行所述计算机程序时实现上述权利要求1-7任一项所述的方法。
11.一种存储介质,其特征在于,所述存储介质上存储有计算机程序,所述计算机程序被读取并执行时,实现上述权利要求1-7任一项所述的方法。
CN202011416145.1A 2020-12-04 2020-12-04 模型融合方法、预测方法、装置、设备及存储介质 Withdrawn CN112418341A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011416145.1A CN112418341A (zh) 2020-12-04 2020-12-04 模型融合方法、预测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011416145.1A CN112418341A (zh) 2020-12-04 2020-12-04 模型融合方法、预测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112418341A true CN112418341A (zh) 2021-02-26

Family

ID=74775386

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011416145.1A Withdrawn CN112418341A (zh) 2020-12-04 2020-12-04 模型融合方法、预测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112418341A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598085B (zh) * 2021-03-02 2021-07-30 聚时科技(江苏)有限公司 支持混合模型融合的Model Ensemble方法
CN113362952A (zh) * 2021-06-21 2021-09-07 平安国际智慧城市科技股份有限公司 基于模型的风险预测方法、装置、计算机设备和存储介质
CN113627681A (zh) * 2021-08-25 2021-11-09 平安国际智慧城市科技股份有限公司 基于预测模型的数据预测方法、装置、计算机设备及介质
CN113743653A (zh) * 2021-08-11 2021-12-03 广西综合交通大数据研究院 融合多种监视系统的机场管理方法、装置、设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112598085B (zh) * 2021-03-02 2021-07-30 聚时科技(江苏)有限公司 支持混合模型融合的Model Ensemble方法
CN113362952A (zh) * 2021-06-21 2021-09-07 平安国际智慧城市科技股份有限公司 基于模型的风险预测方法、装置、计算机设备和存储介质
CN113743653A (zh) * 2021-08-11 2021-12-03 广西综合交通大数据研究院 融合多种监视系统的机场管理方法、装置、设备及存储介质
CN113627681A (zh) * 2021-08-25 2021-11-09 平安国际智慧城市科技股份有限公司 基于预测模型的数据预测方法、装置、计算机设备及介质

Similar Documents

Publication Publication Date Title
CN112418341A (zh) 模型融合方法、预测方法、装置、设备及存储介质
CN104346372B (zh) 用于评估预测模型的方法和装置
CN111226238A (zh) 一种预测方法及终端、服务器
US10748072B1 (en) Intermittent demand forecasting for large inventories
KR20190084866A (ko) 시간 인자와 결합한 협업 필터링 방법, 장치, 서버 및 저장 매체
CN111797320B (zh) 数据处理方法、装置、设备及存储介质
CN110414569B (zh) 聚类实现方法及装置
CN111105265A (zh) 基于客户信息的预测方法、装置、计算机设备及存储介质
Gupta et al. Debiasing in-sample policy performance for small-data, large-scale optimization
CN112183899A (zh) 确定安全度预测模型的方法、装置、设备和存储介质
Wisse et al. Relieving the elicitation burden of Bayesian belief networks.
CN112148986A (zh) 一种基于众包的top-N服务再推荐方法及系统
CN115423037A (zh) 一种基于大数据的用户分类方法及系统
CN111209930A (zh) 一种生成授信策略的方法、装置和电子设备
Peng et al. Shrinkage estimation of varying covariate effects based on quantile regression
CN117540822A (zh) 跨移动边缘网络的联邦类增量学习方法、设备和存储介质
Dayama et al. Truthful interval cover mechanisms for crowdsourcing applications
Almomani et al. Selecting a good stochastic system for the large number of alternatives
CN114581220B (zh) 数据处理方法、设备及分布式计算系统
CN115983902A (zh) 基于用户实时事件的信息推送方法及系统
CN116187675A (zh) 任务分配方法、装置、设备及存储介质
CN111934938B (zh) 基于多属性信息融合的流网络关键节点识别方法和装置
CN115203556A (zh) 一种评分预测模型训练方法、装置、电子设备及存储介质
Tan et al. Predicting the popularity of tweets using internal and external knowledge: an empirical Bayes type approach
CN109684549A (zh) 目标数据预测方法、装置、电子设备及计算机存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20210226

WW01 Invention patent application withdrawn after publication