CN113407680A - 异质集成模型筛选方法和电子设备 - Google Patents

异质集成模型筛选方法和电子设备 Download PDF

Info

Publication number
CN113407680A
CN113407680A CN202110738688.3A CN202110738688A CN113407680A CN 113407680 A CN113407680 A CN 113407680A CN 202110738688 A CN202110738688 A CN 202110738688A CN 113407680 A CN113407680 A CN 113407680A
Authority
CN
China
Prior art keywords
model
models
target
candidate
specified number
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110738688.3A
Other languages
English (en)
Other versions
CN113407680B (zh
Inventor
李龙威
简仁贤
马永宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Emotibot Technologies Ltd
Original Assignee
Emotibot Technologies Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Emotibot Technologies Ltd filed Critical Emotibot Technologies Ltd
Priority to CN202110738688.3A priority Critical patent/CN113407680B/zh
Publication of CN113407680A publication Critical patent/CN113407680A/zh
Application granted granted Critical
Publication of CN113407680B publication Critical patent/CN113407680B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3346Query execution using probabilistic model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请提供了一种异质集成模型筛选方法和电子设备,其中,该方法包括:根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数;根据该初始相关系数,从该待选模型集中筛选出包含指定数量的目标模型的目标模型集。能够提高模型筛选的效率。

Description

异质集成模型筛选方法和电子设备
技术领域
本申请涉及机器学习技术领域,具体而言,涉及一种异质集成模型筛选方法和电子设备。
背景技术
集成模型是指将多个目标模型通过特定的组合方式组成一个模型。当集成模型中的多个目标模型是基于不同的算法时,则该集成模型可以被称为异质集成模型,例如,在做文本分类时,将textcnn(卷积文本分类)、cbow(词袋模型)等不同算法组合成一个模型,则该集成模型可以被称为是异质集成模型。
针对异质集成模型中的目标模型的选取方式有:基于相关技术人员的经验,人工筛选出多个目标模型;或者将能够获得的所有已训练好的目标模型。上述两种方式,如果备选的目标模型有很多时,可能会存在人工工作量较大,或者异质集成模型的计算量较大的问题。
发明内容
有鉴于此,本申请实施例的目的在于提供一种异质集成模型筛选方法和电子设备。能够缓解异质集成筛选遇到的问题。
第一方面,本申请实施例提供了一种异质集成模型筛选方法,包括:
根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数;
根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集。
在一可选的实施方式中,所述方法还包括:
使用训练数据集对初始待选模型进行训练,获得到待选模型集;
使用验证数据集对所述待选模型集中的待选模型进行验证,获得到各个所述待选模型的预测得分。
在一可选的实施方式中,在所述使用训练数据集对初始待选模型进行训练,获得到待选模型集之前,所述方法还包括:
将目标数据集按照预设比例划分成训练数据集和验证数据集。
在一可选的实施方式中,所述使用验证数据集对所述待选模型集中的待选模型进行验证,获得到各个所述待选模型的预测得分,包括:
使用验证数据集中的第j条样本验证第i个待选模型,获得到所述第i个待选模型对第j条样本的多个标签的预测得分;
根据所述第j条样本的标注标签的预测得分,确定出所述第i个待选模型对第j条样本的预测得分;
重复上述两个步骤,直到所述验证数据集中的所有样本被所述待选模型集中的所有待选模型验证完成。
在一可选的实施方式中,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型;
根据第一指定数量的所述目标模型,构建初始集成模型;
确定出所述初始集成模型的中间预测得分;
根据所述中间预测得分以及所述待选模型集中的除所述第一指定数量的目标模型外的待选模型的预测得分,确定出所述待选模型集中的除了所述第一指定数量的目标模型外的待选模型与所述初始集成模型的中间相关系数;
根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,以得到目标模型集,其中,所述第一指定数量与所述第二指定数量之和等于指定数量。
在上述实施方式中,通过层层递进的方式计算筛选出的模型与各个待选模型的相关系数,从而可以使筛选出的目标模型集各个目标模型的相关性相对更小,各个目标模型能够更好地发挥其作用,以使基于该目标模型集构建的异质集成模型泛化性更好。
在一可选的实施方式中,所述根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型,包括:
当所述第一指定数值为二时,根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型作为目标模型。
在一可选的实施方式中,所述根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型,包括:
a.当所述第一指定数值大于二时,根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型,获得到当前筛选目标模型集;
b.根据所述当前筛选目标模型集构建当前集成模型;
c.根据所述当前集成模型的当前集成预测得分;
d.根据所述当前集成预测得分以及所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型的预测得分,确定出所述待选模型集中的除所述当前筛选目标模型集的各个目标模型外的待选模型与所述当前集成模型的当前相关系数;
f.根据所述当前相关系数,从所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型中,筛选出一个与所述当前集成模型的当前相关系数最小的目标模型,对所述当前筛选目标模型集进行更新;
当所述当前筛选目标模型集中的目标模型的数量小于第一指定数量时,返回执行步骤b-f,直到当前筛选目标模型集中的目标模型的数量等于第一指定数量。
在一可选的实施方式中,所述根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,包括:
当所述第二指定数量为一时,根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中,筛选出一个与所述初始集成模型的中间相关系数最小的目标模型。
在一可选的实施方式中,所述根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,包括:
当所述第二指定数量大于一时,根据所述中间相关系数,对所述待选模型集中除所述第一指定数量的目标模型外的待选模型的中间相关系数按照大小顺序排序;
确定出所述中间相关系数排序在前第二指定数量的目标模型。
在一可选的实施方式中,所述确定出所述初始集成模型的中间预测得分,包括:
使用验证数据集对所述初始集成模型进行验证,获得到所述初始集成模型的中间预测得分;或者,
根据所述初始集成模型中的目标模型的预测得分,获得到所述初始集成模型的中间预测得分。
在一可选的实施方式中,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
根据所述初始相关系数的数值大小,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,所述目标模型集中所有任意两个目标模型的相关系数之和小于预设值。
在上述实施方式中,相关系数越高表示两个模型的相关性越大,为了减少因为两个模型的相关性越大所可能导致基于两个模型构建的异质集成模型的泛化性降低,选择相关系数和更小的待选模型作为目标模型集中的目标模型,从而可以使基于该目标模型集构建的异质集成模型的泛化性更高,各个目标模型的作用最大化。
在一可选的实施方式中,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
计算所述待选模型集中的指定待选模型组中,任意两项所述待选模型的初始相关系数之和,获得到所述指定待选模型组的相关系数总值,所述指定待选模型组为所述待选模型集中任意一组包括指定数量的待选模型的待选模型组;
从所述待选模型集中的所有指定待选模型组中,筛选出相关系数总值最小的指定待选模型组作为目标模型集。
在一可选的实施方式中,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
根据所述初始相关系数从所述待选模型集中筛选出第三指定数量的目标模型;
确定出所述待选模型集中除所述第三指定数量的目标模型外的待选模型与第三指定数量的所述目标模型中的各个模型的初始相关系数之和;
基于所述待选模型集中的除所述第三指定数量的目标模型外的待选模型与第三指定数量的所述目标模型中的各个模型的初始相关系数之和,筛选出第四指定数量的目标模型,以得到目标模型集,其中,所述第三指定数量与所述第四指定数量之和等于指定数量。
在上述实施方式中,采用该层层递进的相关系数分析方式确定出目标模型集,可以使目标模型集中的各个目标模型相关性更小。
在一可选的实施方式中,所述初始相关系数为皮尔逊相关系数,所述根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数,包括:
根据待选模型集中的各个目标模型的预测得分,采用皮尔逊计算方式分别计算任意两个目标模型的皮尔逊相关系数。
在上述实施方式中,计算各个待选模型的皮尔逊相关系数以表示各个待选模型的相关性,基于直观数字表示各个待选模型的相关性,以方便实现模型的筛选。
在一可选的实施方式中,所述方法还包括:根据所述指定数量的目标模型,构建目标异质集成模型。
在一可选的实施方式中,所述根据所述指定数量的目标模型,构建目标异质集成模型,包括:采用投票法对所述指定数量的目标模型进行融合,以得到目标异质集成模型;或者,对所述指定数量的目标模型进行加权求和,以构建所述目标异质集成模型。
在上述实施方式中,通过投票法或加权的方式构建目标异质集成模型,可以使目标异质集成模型更好地发挥各个目标模型的功能。
第二方面,本申请实施例提供一种异质集成模型构建装置,包括:
计算模块,用于根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数;
筛选模块,用于根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集。
第三方面,本申请实施例提供一种电子设备,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行上述的方法的步骤。
第四方面,本申请实施例提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述的方法的步骤。
本申请实施例提供的异质集成模型筛选方法、装置、电子设备和存储介质,基于各个待选模型间的相关系数筛选出能够用于构建异质集成模型的目标模型,本申请实施例中的筛选方式与现有技术中的人工筛选或选择所有训练好的目标模型的方式相比,其一方面能够减少人工筛选的工作量,也能够提高异质集成模型所需的模型筛选效率,另外,不采用全选的方式,可以减少异质集成模型中的目标模型的数量,也能减少由于数量较多可能导致降低集成模型的泛化性的情况。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的电子设备的方框示意图。
图2为本申请实施例提供的异质集成模型筛选方法中涉及的模型验证的流程图。
图3为本申请实施例提供的异质集成模型筛选方法的流程图。
图4为本申请实施例提供的异质集成模型筛选方法的步骤204的流程图。
图5为本申请实施例提供的异质集成模型筛选方法的步骤204的另一流程图。
图6为本申请实施例提供的异质集成模型筛选方法的另一流程图。
图7为本申请实施例提供的异质集成模型筛选装置的功能模块示意图。
具体实施方式
下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行描述。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
实施例一
为便于对本实施例进行理解,首先对执行本申请实施例所公开的异质集成模型筛选方法的电子设备进行详细介绍。
如图1所示,是电子设备的方框示意图。电子设备100可以包括存储器111、处理器113。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对电子设备100的结构造成限定。例如,电子设备100还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
上述的存储器111、处理器113各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。上述的处理器113用于执行存储器中存储的可执行模块。
其中,存储器111可以是,但不限于,随机存取存储器(Random Access Memory,简称RAM),只读存储器(Read Only Memory,简称ROM),可编程只读存储器(ProgrammableRead-Only Memory,简称PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-OnlyMemory,简称EEPROM)等。其中,存储器111用于存储程序,所述处理器113在接收到执行指令后,执行所述程序,本申请实施例任一实施例揭示的过程定义的电子设备100所执行的方法可以应用于处理器113中,或者由处理器113实现。
上述的处理器113可能是一种集成电路芯片,具有信号的处理能力。上述的处理器113可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(digital signalprocessor,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本实施例中的电子设备100可以用于执行本申请实施例提供的各个方法中的各个步骤。下面通过几个实施例详细描述异质集成模型筛选方法的实现过程。
实施例二
本申请实施例提供了一种异质集成模型筛选方法。本实施例中,在从待选模型集中对目标模型进行筛选之前,可以先确定出各个待选模型的预测得分。如图2所示,本实施例中的异质集成模型筛选方法中使用到模型的训练和验证流程可以包括步骤2011和步骤2012。
步骤2011,使用训练数据集对初始待选模型进行训练,获得到待选模型集。
基于不同的异质集成模型的构建需求,提供多个初始待选模型。该初始待选模型可以是还未被训练的模型。
本实施例中,为了对初始待选模型进行训练和验证,可以提供一目标数据集,该数据集可以划分为训练数据集和验证数据集。可选地,该训练数据集中的样本数与验证数据集中的样本数的比值可以是4:1。当然,该训练数据集中的样本数与验证数据集中的样本数的比值也可以是5:1等其它比值。可以根据实际需求按需设置该训练数据集中的样本数与验证数据集中的样本数的比值。
示例性地,数据集中的每条样本可以包括特征和标签。基于不同的需求,该特征可以是文本、向量、图像等。所有数据集的标签种类数可以记作Nall。示例性地,对不同种类的标签按照顺序进行编号,例如,标签可以分别记录为id0、id1、id2、id(Nall-1)等,共Nall个标签。
步骤2012,使用验证数据集对所述待选模型集中的待选模型进行验证,获得到各个所述待选模型的预测得分。
每个待选模型的预测得分包括针对验证数据集中每条样本的预测得分。
可选地,使用验证数据集中的第j条样本验证第i个待选模型,获得到所述第i个待选模型对第j条样本的多个标签的预测得分,根据所述第j条样本的标注标签的预测得分,确定出所述第i个待选模型对第j条样本的预测得分。其中,j为正整数且j小于或等于J;i为正整数且小于或等于I。其中,J表示验证数据集中的样本条数,I表示待选模型集中的待选模型数量。
示例性地,每个待选模型针对验证数据集中的每条样本均可以输出Noutput个预测得分,记录输出第i个标签的得分为xi。其中,Noutput<=Nall
其中,若其中一个标签的预测得分越高,表示待选模型越倾向于把样本预测为该标签。
可选地,可以对待选模型针的Noutput个预测得分做softmax处理,以使每个预测得分取值范围是从0-1,且得分全部相加为1,具体可以通过以下公式处理:
Figure BDA0003142394260000101
本实施例中,第i个待选模型预测的第j条样本输出的第n个标签的预测得分为scoremodel=i;sample=j;label=n。示例性地,第i个待选模型预测第j条样本,输出的Noutput个预测得分中,与该第j条样本的标注的标签相同的预测得分的标签编号为n-gold;则第i个子模型预测的第j条样本输出的预测得分为scoremodel=i;sample=j;label=n-gold;如果输出的Noutput个标签不包含第j条样本的标签,那么第i个子模型预测的第j条样本的预测得分scoremodel=i;sample=j;label=n-gold则为常数0。
在一个实例中,第j条样本的标注标签为id3,对第i个待选模型预测第j条样本为id1的预测得分为20%,对第i个待选模型预测第j条样本为id3的预测得分为60%,对第i个待选模型预测第j条样本为id5的预测得分为10%、对第i个待选模型预测第j条样本为id7的预测得分为5%,对第i个待选模型预测第j条样本为id(Nall-1)的预测得分为5%,由于第j条样本的标注标签为id3,而该第i个待选模型预测第j条样本预测为id3的预测得分为60%,则该第i个待选模型预测第j条样本的预测得分为60%。
在一个实例中,第j条样本的标注标签为id3,对第i个待选模型预测第j条样本为id1的预测得分为30%,对第i个待选模型预测第j条样本为id4的预测得分为40%,对第i个待选模型预测第j条样本为id5的预测得分为20%、对第i个待选模型预测第j条样本为id7的预测得分为5%,对第i个待选模型预测第j条样本为id(Nall-1)的预测得分为5%,由于第j条样本的标注标签为id3,则该第i个待选模型预测第j条样本的预测结果不包含对id3的预测得分,则该第i个待选模型预测第j条样本的预测得分0。
图3示出了本申请实施例提供的异质集成模型筛选方法的流程图,下面将对图3所示的具体流程进行详细阐述。
步骤202,根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数。
本实施例中,上述的待选模型集中可以包括多个待选模型。
基于所需构建的异质集成模型的功能的不同,待选模型可以为不同的模型。
例如,若需要构建的异质集成模型用于文本分类,则待选模型可以是fasttext(快速文本分类器)、rcnn(Recurrent Convolutional Neural,递归卷积神经网络)、textcnn、cbow、lstm(Long Short-Term Memory,长短期记忆人工神经网络)、attention(注意力模型)等模型。
再例如,若需要构建的异质集成模型用于目标检测,则待选模型可以是rcnn(Region Convolutional Neural,区域卷积神经网络)、Fast R-CNN(Fast Region CNN快速区域卷积神经网络)、Faster Region CNN(Faster R-CNN,更快速区域卷积神经网络)、SSD(single shot multibox detector,单激发多盒探测算法)、YOLO(You Only Look Once)等模型。
可选地,初始相关系数可以为皮尔逊相关系数。任意一项初始相关系数表征两个待选模型的相关性,初始相关系数的值越大,则两个待选模型的相关性越大;初始相关系数的值越小,则两个待选模型的相关性越小。
步骤202可以被实施为:根据待选模型集中的各个目标模型的预测得分,采用皮尔逊计算方式计算任意两个目标模型的皮尔逊相关系数。
示例性地,两个待选模型的皮尔逊相关系数可以通过以下计算公式计算:
Figure BDA0003142394260000121
Xi0;j=scoremodel=i0;sample=j;label=n-gold
Xi1;j=scoremodel=i1;sample=j;label=n-gold
Figure BDA0003142394260000122
Figure BDA0003142394260000123
其中,pi0;i1表示第i0个待选模型与第i1个待选模型的皮尔逊相关系数;Xi0;j表示第i0个待选模型在步骤2012验证模型时所使用的验证数据集中的第j条样本的预测得分;Xi1;j表示表示第i1个待选模型在验证数据集中的第j条样本的预测得分;
Figure BDA0003142394260000124
表示第i0个待选模型在验证数据集中所有样本的得分均值;
Figure BDA0003142394260000125
表示第i1个待选模型在验证数据集中所有样本的得分均值;J表示用于验证各个待选模型的验证数据集中的样本数量。
步骤204,根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集。
目标模型集中的各个目标模型用于构建目标异质集成模型。
本实施例中,上述的指定数量可以根据待选模型集中的数量确定,也可以根据所需构建的目标异质集成模型确定。
为了更好地发挥出筛选出各个目标模型中的功能作用,则可以筛选出差异相对较大的目标模型。
在一种实施方式中,可以基于已选出的目标模型,动态更新选出的多个目标模型所形成的模型与其它未被选中的其它模型的相关系数,以筛选出指定数量的目标模型。如图4所示,步骤204可以包括步骤2041至步骤2045。
步骤2041,根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型。
示例性地,指定数量可以为三,则该第一指定数量可以为二。则可以根据任意两项的待选模型的初始相关系数的值,选出初始相关系数值最小的两个待选模型作为目标模型。
在一个实例中,待选模型集中可以包括:fasttext、rcnn、textcnn、cbow、lstm、attention六个待选模型。
任意两个待选模型的相关系数可以如下表1所示:
fasttext rcnn textcnn cbow lstm attention
fasttext 1 0.73 0.75 0.91 0.71 0.84
rcnn 0.73 1 0.79 0.77 0.93 0.86
textcnn 0.75 0.79 1 0.89 0.78 0.90
cbow 0.91 0.77 0.89 1 0.77 0.87
lstm 0.71 0.93 0.78 0.77 1 0.85
attention 0.84 0.86 0.90 0.87 0.85 1
表1
由上述表1可以看出,相同的两个待选模型之间的初始相关系数为一,例如,待选模型fasttext与待选模型fasttext的初始相关系数为1,不同的两个待选模型的初始相关系数小于一,例如,待选模型fasttext与待选模型rcnn的初始相关系数为0.73。
由上述表1可以确定出,待选模型fasttext与待选模型lstm的初始相关系数最小,为0.71。则表示待选模型fasttext与待选模型lstm相关性最小,则可以将待选模型fasttext与待选模型lstm,作为选出的两个目标模型。
该第一指定数量可以大于二,步骤2021可以包括以下步骤a至步骤f。
a.根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型,获得到当前筛选目标模型集。
b.根据所述当前筛选目标模型集构建当前集成模型。
c.根据所述当前集成模型的当前集成预测得分。
d.根据所述当前集成预测得分以及所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型的预测得分,确定出所述待选模型集中的除所述当前筛选目标模型集的各个目标模型外的待选模型与所述当前集成模型的当前相关系数。
f.根据所述当前相关系数,从所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型中,筛选出一个与所述当前集成模型的当前相关系数最小的目标模型,对所述当前筛选目标模型集进行更新。
当所述当前筛选目标模型集中的目标模型的数量小于第一指定数量时,返回执行步骤b-f,直到当前筛选目标模型集中的目标模型的数量等于第一指定数量。
步骤2042,根据第一指定数量的所述目标模型,构建初始集成模型。
可选地,可以采用加权求和的方式,将第一指定数量的目标模型组成一个异质集成模型,该异质集成模型作为一个初始集成模型。示例性地,可以采用平均加权的方式,组成一个异质集成模型,该异质集成模型作为一个初始集成模型。
可选地,也可以采用投票法,将第一指定数量的目标模型组成一个异质集成模型,该异质集成模型作为一个初始集成模型。
步骤2043,确定出所述初始集成模型的中间预测得分。
可选地,使用验证数据集对所述初始集成模型进行验证,获得到所述初始集成模型的中间预测得分。具体可以参阅步骤2012中的描述,在此不再赘述。
可选地,根据所述初始集成模型中的目标模型的预测得分,获得到所述初始集成模型的中间预测得分。示例性地,可以基于初始集成模型中的各个目标模型的权重,以及各个目标模型的预测得分,计算得到中间预测得分。
例如,该初始集成模型可以包括三个目标模型,分别表示为:M1、M2和M3。目标模型M1的预测得分可以表示为S1;目标模型M2的预测得分可以表示为S2;目标模型M3的预测得分可以表示为S3。该该初始集成模型可以表示为:p1*M1+p2*M2+p3*M3。其中,p1为该初始集成模型中目标模型M1的权重,p2为该初始集成模型中目标模型M2的权重,p3为该初始集成模型中目标模型M3的权重。则该初始集成模型的预测得分可以表示为:p1*S1+p2*S2+p3*S3。
步骤2044,根据所述中间预测得分以及所述待选模型集中的除所述第一指定数量的目标模型外的待选模型的预测得分,确定出所述待选模型集中的除所述第一指定数量的目标模型外的待选模型与所述初始集成模型的中间相关系数。
基于该初始集成模型的预测得分可以确定出,该初始集成模型与待选模型集中其它还未被选为目标模型的待选模型的相关系数。
步骤2045,根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,以得到目标模型集。
其中,第一指定数量与第二指定数量之和等于指定数量。
当所述第二指定数量为一时,根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中,筛选出一个与所述初始集成模型的中间相关系数最小的目标模型。
在上述实例中,第一指定数量为二时,待选模型集中其它还未被选为目标模型的待选模型包括:rcnn、textcnn、cbow、attention四个待选模型。
以相关系数是皮尔逊相关系数为例,初始集成模型与rcnn、textcnn、cbow、attention四个待选模型的皮尔逊相关系数,分别为0.85、0.86、0.90、0.89。由此可以看出,初始集成模型与待选模型rcnn的皮尔逊相关系数最小,则初始集成模型与待选模型rcnn相关性最小,则可以将待选模型rcnn选作目标模型。在上述实例中,指定数量是三时,则目标模型集中可以包括fasttext、lstm和rcnn三个目标模型。
可选地,若指定数量是四时,第一指定数量可以为三,第二指定数量为一。步骤2041中筛选三个目标模型的方式可以为:通过步骤a至f筛选出三个目标模型。然后通过步骤2042至步骤2045筛选出第四个目标模型。
以上述表1提供的各个待选模型为例,基于步骤a至f可选出三个目标模型分别为fasttext、lstm和rcnn。
然后,使用三个目标模型fasttext、lstm和rcnn构建一个初始集成模型,该初始集成模型与textcnn、cbow、attention三个待选模型的皮尔逊相关系数,分别为0.95、0.94、0.92。由此可以看出三个目标模型fasttext、lstm和rcnn构建的初始集成模型与待选模型attention的皮尔逊相关系数最小,则三个目标模型fasttext、lstm和rcnn构建的初始集成模型与待选模型attention的相关性最小,待选模型attention则被选作第四个目标模型。因此,在此实例中,目标模型集中可以包括fasttext、lstm、rcnn和attention四个目标模型。
进一步地,若指定数量是五时,第一指定数量可以为四,第二指定数量为一。步骤2041中筛选四个目标模型的方式可以为:通过步骤a至f筛选出四个目标模型,然后按照步骤2042至步骤2045的流程选出第五个目标模型。以此类推,基于指定数量的具体值,以确定出需要循环执行步骤b-f的次数,以实现更多数量的目标模型的筛选。
当所述第二指定数量大于一时,步骤2045可以包括:根据所述中间相关系数,对所述待选模型集中除所述第一指定数量的目标模型外的待选模型的中间相关系数按照大小顺序排序,确定出所述中间相关系数排序在前第二指定数量的目标模型。
可选地,若指定数量是四时,第一指定数量可以为二,第二指定数量则为二,步骤2041筛选两个目标模型的方式可以为基于各个待选模型间的初始相关系数的大小,以确定出两个目标模型。步骤2045确定出另外两个目标模型的方式可以为,根据所述中间相关系数,对所述待选模型集中除所述第一指定数量的目标模型外的待选模型的中间相关系数按照大小顺序排序,确定出所述中间相关系数排序在前第二指定数量的目标模型。
以上述实例为例,初始集成模型与rcnn、textcnn、cbow、attention四个待选模型的皮尔逊相关系数,分别为0.85、0.86、0.90、0.89。由此可以看出,初始集成模型与各个待选模型皮尔逊相关系数排序分别为:0.85、0.86、0.89、0.90;其中,待选模型rcnn与初始集成模型的皮尔逊相关系数,待选模型textcnn与初始集成模型的皮尔逊相关系数为两个较小的相关系数,则待选模型cbow和待选模型attention可以选作两个目标模型。在上述实例中,指定数量是四,则目标模型集中可以包括fasttext、lstm、rcnn和textcnn四个目标模型。
在另一种实施方式中,可以直接基于计算出的初始相关系数筛选出包含指定数量的目标模型的目标模型集。步骤204可以被实施为:根据所述初始相关系数的数值大小,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集。
其中,目标模型集中任意两个目标模型的相关系数之和小于预设值。示例性地,该预设值可以是预先设定的值,也可以基于指定数量计算得到的值,还可以是基于初始相关系数计算得到的值。
示例性地,预先设定的值可以是根据具体场景,具体目标模型集的需求设定的值,在此不对预先设定的值做限制。
示例性地,目标模型集中包括四个目标模型时,则该预设值可以为5、4.8、5.2等值。再例如,目标模型集中包括五个目标模型,则该预设值可以为8.1、8.3等值。示例性地,该预设值可以根据指定数量计算得到,例如,N*(N-1)*S/2,其中,N表示指定数量,S表示设定的相关度临界值。例如,该S的取值可以是0.8、0.83、0.78等值。
示例性地,基于初始相关系数计算得到的值则可以是大于指定数量项的初始相关系数之和的最小值,且小于指定数量项的初始相关系数之和的最大值。
在另一种实施方式中,步骤204可以包括:计算所述待选模型集中的指定待选模型组中,任意两项所述待选模型的初始相关系数之和,获得到所述指定待选模型组的相关系数总值;从所述待选模型集中的所有指定待选模型组中,筛选出相关系数总值最小的指定待选模型组作为目标模型集。
其中,指定待选模型组为所述待选模型集中任意一组包括指定数量的待选模型的待选模型组。例如,指定数量是四时,则指定待选模型组为四个待选模型所形成的待选模型组。再例如,指定数量是五时,则指定待选模型组为五个待选模型所形成的待选模型组。
以上述表1所示的待选模型集,且指定数量是五为例,该待选模型集包含的指定待选模型组可以分别为:rcnn、textcnn、cbow、lstm、attention五个待选模型形成的模型组;fasttext、textcnn、cbow、lstm、attention五个待选模型形成的模型组;fasttext、rcnn、cbow、lstm、attention五个待选模型形成的模型组;fasttext、rcnn、textcnn、lstm、attention五个待选模型形成的模型组;fasttext、rcnn、textcnn、cbow、attention五个待选模型形成的模型组;fasttext、rcnn、textcnn、cbow、lstm五个待选模型形成的模型组。
分别计算每一个指定待选模型组中的任意两项待选模型的初始相关系数之和。以指定数量是五为例,则需要计算五个待选模型中任意两项待选模型中的十项初始相关系数之和。
例如,一指定待选模型组为fasttext、rcnn、textcnn、cbow、lstm五个待选模型形成的模型组,该指定待选模型组中任意两项待选模型中的十项初始相关系数分别为:0.73、0.75、0.91、0.71、0.79、0.77、0.93、0.89、0.78、0.77。该指定待选模型组中的任意两项待选模型的初始相关系数之和为:0.73+0.75+0.91+0.71+0.79+0.77+0.93+0.89+0.78+0.77=8.03。再例如,一指定待选模型组为rcnn、textcnn、cbow、lstm、attention五个待选模型形成的模型组,该指定待选模型组中任意两项待选模型中的十项初始相关系数分别为:0.79、0.77、0.93、0.86、0.89、0.78、0.90、0.77、0.87、0.85。该指定待选模型组中的任意两项待选模型的初始相关系数之和为:0.79+0.77+0.93+0.86+0.89+0.78+0.90+0.77+0.87+0.85=8.41。在此不再赘述,上述表1所示的实例中所有指定待选模型组,以及指定待选模型组中任意两项待选模型中的初始相关系数之和。由于上述两个例子可以知道,rcnn、textcnn、cbow、lstm、attention五个待选模型形成的模型组的相关性大于fasttext、rcnn、textcnn、cbow、lstm五个待选模型形成的模型组。
可选地,如图5所示,上述的根据所述初始相关系数的数值大小,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集可以包括步骤2046至步骤2048。
步骤2046,根据所述初始相关系数从所述待选模型集中筛选出第三指定数量的目标模型。
可选地,该第三指定数量也可以等于二,该第三指定数量也可以为指定数量减一。
示例性地,指定数量可以为三,则该第三指定数量可以为二。则可以根据任意两项的待选模型的初始相关系数的值,选出初始相关系数值最小的两个待选模型作为目标模型。
以上述表1为例,待选模型fasttext与待选模型lstm的初始相关系数最小,为0.71,则可以将待选模型fasttext与待选模型lstm,作为选出的两个目标模型。
步骤2047,确定出所述待选模型集中除所述第三指定数量的目标模型外的任一待选模型与第三指定数量的所述目标模型中的模型的初始相关系数之和。
其中,待选模型集中的其它模型可以为待选模型集中除第三指定数量的所述目标模型以外的待选模型。
在表1所示的实例中,待选模型集中的其它模型还包括:rcnn、textcnn、cbow、attention。
例如,待选模型rcnn与两个目模型fasttext、lstm的初始相关系数分别为:0.73、0.93,因此,待选模型rcnn与两个目模型fasttext、lstm的初始相关系数之和为1.66。
例如,待选模型textcnn与两个目模型fasttext、lstm的初始相关系数分别为:0.75、0.78,因此,待选模型textcnn与两个目模型fasttext、lstm的初始相关系数之和为1.53。
例如,待选模型cbow与两个目模型fasttext、lstm的初始相关系数分别为:0.91、0.77,因此,待选模型cbow与两个目模型fasttext、lstm的初始相关系数之和为1.68。
例如,待选模型attention与两个目模型fasttext、lstm的初始相关系数分别为:0.84、0.85,因此,待选模型attention与两个目模型fasttext、lstm的初始相关系数之和为1.69。
步骤2048,基于所述待选模型集中的除所述第三指定数量的目标模型外的待选模型与第三指定数量的所述目标模型中的各个模型的初始相关系数之和,筛选出第四指定数量的目标模型,以得到目标模型集。
其中,第三指定数量与第四指定数量之和等于指定数量。
以指定数量可以为三,则该第四指定数量是一为例,由上述计算可知,待选模型textcnn与第三指定数量的所述目标模型中的各个模型的初始相关系数之和最小,则待选模型textcnn可以选作第三个目标模型。
以指定数量可以为四,则该第四指定数量是二为例,由上述计算可知,待选模型rcnn和待选模型textcnn是与第三指定数量的所述目标模型中的各个模型的初始相关系数之和最小的两个待选模型,则待选模型rcnn和待选模型textcnn则可以选作两个目标模型。
以指定数量可以为四,则该第三指定数量是三,第四指定数量是一为例,步骤2046针对第三指定数量的目标模型的筛选,可以通过步骤2046至步骤2048筛选出三个目标模型,然后通过步骤2047和步骤2048筛选出第四个目标模型。
以为上述表1提供的各个待选模型为例,基于步骤2046至步骤2048可选出三个目标模型分别为fasttext、lstm和textcnn。
然后,分别计算待选模型集中的其它模型的初始相关系数与三个目标模型fasttext、lstm和textcnn的初始相关系数之和,基于待选模型集中的其它模型的初始相关系数与三个目标模型fasttext、lstm和textcnn的初始相关系数之和,以筛选出第四个目标模型。
进一步地,若指定数量是五时,第三指定数量可以为四,第四指定数量为一。步骤2046中筛选四个目标模型的方式可以为:按照指定数量是四的方式执行步骤2046至步骤2048的流程筛选出四个目标模型,然后按照步骤2047至步骤2048的流程选出第五个目标模型。以此类推,基于指定数量的具体值,以确定出需要执行步骤2047至步骤2048的次数,以实现更多数量的目标模型的筛选。
在步骤204之后,如图6所示,异质集成模型筛选还可以包括:步骤206,根据所述指定数量的目标模型,构建目标异质集成模型。
可选地,步骤206可以包括:采用投票法对所述指定数量的目标模型进行融合,以得到目标异质集成模型。
可选地,步骤206可以包括:对所述指定数量的目标模型进行加权求和,以构建所述目标异质集成模型。
示例性地,各项目标模型的权重可以相同,各项目标模型的权重也可以不相同。
在本申请实施例提供的异质集成模型筛选方法中,可以基于各个待选模型间的相关系数筛选出能够用于构建异质集成模型的目标模型,本申请实施例中的筛选方式与现有技术中的人工筛选或选择所有训练好的目标模型的方式相比,其一方面能够减少人工筛选的工作量,也能够提高异质集成模型所需的模型筛选效率,另外,不采用全选的方式,可以减少异质集成模型中的目标模型的数量,也能减少由于数量较多可能导致降低集成模型的泛化性的情况。
实施例三
基于同一申请构思,本申请实施例中还提供了与异质集成模型筛选方法对应的异质集成模型筛选装置,由于本申请实施例中的装置解决问题的原理与前述的异质集成模型筛选方法实施例相似,因此本实施例中的装置的实施可以参见上述方法的实施例中的描述,重复之处不再赘述。
请参阅图7,是本申请实施例提供的异质集成模型筛选装置的功能模块示意图。本实施例中的异质集成模型筛选装置中的各个模块用于执行上述方法实施例中的各个步骤。异质集成模型筛选装置包括:计算模块301和筛选模块302;其中,
计算模块301,用于根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数;
筛选模块302,用于根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集。
目标模型集中的各个目标模型可以用于构建目标异质集成模型。
一种可能的实施方式中,筛选模块302,包括:第一筛选单元、构建单元、第一确定单元、第二确定单元和第二筛选单元。
第一筛选单元,用于根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型;
构建单元,用于根据第一指定数量的所述目标模型,构建初始集成模型;
第一确定单元,用于确定出所述初始集成模型的中间预测得分;
第二确定单元,用于根据所述中间预测得分以及所述待选模型集中的除所述第一指定数量的目标模型外的待选模型的预测得分,确定出所述待选模型集中的除了所述第一指定数量的目标模型外的待选模型与所述初始集成模型的中间相关系数;
第二筛选单元,用于根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,以得到目标模型集,其中,所述第一指定数量与所述第二指定数量之和等于指定数量。
一种可能的实施方式中,第一筛选单元,用于:
当所述第一指定数值为二时,根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型作为目标模型。
一种可能的实施方式中,第一筛选单元,用于:
a.当所述第一指定数值大于二时,根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型,获得到当前筛选目标模型集;
b.根据所述当前筛选目标模型集构建当前集成模型;
c.根据所述当前集成模型的当前集成预测得分;
d.根据所述当前集成预测得分以及所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型的预测得分,确定出所述待选模型集中的除所述当前筛选目标模型集的各个目标模型外的待选模型与所述当前集成模型的当前相关系数;
f.根据所述当前相关系数,从所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型中,筛选出一个与所述当前集成模型的当前相关系数最小的目标模型,对所述当前筛选目标模型集进行更新;
当所述当前筛选目标模型集中的目标模型的数量小于第一指定数量时,返回执行b-f,直到当前筛选目标模型集中的目标模型的数量等于第一指定数量。
一种可能的实施方式中,第二筛选单元,用于:
当所述第二指定数量为一时,根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中,筛选出一个与所述初始集成模型的中间相关系数最小的目标模型。
一种可能的实施方式中,第二筛选单元,用于:
当所述第二指定数量大于一时,根据所述中间相关系数,对所述待选模型集中除所述第一指定数量的目标模型外的待选模型的中间相关系数按照大小顺序排序;
确定出所述中间相关系数排序在前第二指定数量的目标模型。
第一确定单元,用于使用验证数据集对所述初始集成模型进行验证,获得到所述初始集成模型的中间预测得分;或者,根据所述初始集成模型中的目标模型的预测得分,获得到所述初始集成模型的中间预测得分。
一种可能的实施方式中,筛选模块302,用于:
根据所述初始相关系数的数值大小,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,所述目标模型集中所有任意两个目标模型的相关系数之和小于预设值。
一种可能的实施方式中,筛选模块302,用于:
计算所述待选模型集中的指定待选模型组中,任意两项所述待选模型的初始相关系数之和,获得到所述指定待选模型组的相关系数总值,所述指定待选模型组为所述待选模型集中任意一组包括指定数量的待选模型的待选模型组;
从所述待选模型集中的所有指定待选模型组中,筛选出相关系数总值最小的指定待选模型组作为目标模型集。
一种可能的实施方式中,筛选模块302,用于:
根据所述初始相关系数从所述待选模型集中筛选出第三指定数量的目标模型;
确定出所述待选模型集中除所述第三指定数量的目标模型外的任一待选模型与第三指定数量的所述目标模型中的模型的初始相关系数之和;
基于所述待选模型集中的除所述第三指定数量的目标模型外的待选模型与第三指定数量的所述目标模型中的各个模型的初始相关系数之和,筛选出第四指定数量的目标模型,以得到目标模型集,其中,所述第三指定数量与所述第四指定数量之和等于指定数量。
一种可能的实施方式中,计算模块301,用于:
根据待选模型集中的各个目标模型的预测得分,采用皮尔逊计算方式分别计算任意两个目标模型的皮尔逊相关系数。
一种可能的实施方式中,本实施例中的异质集成模型构建装置还包括:
训练模块,用于使用训练数据集对初始待选模型进行训练,获得到待选模型集;
验证模块,用于使用验证数据集对所述待选模型集中的待选模型进行验证,获得到各个所述待选模型的预测得分。
在一可选的实施方式中,本实施例中的异质集成模型构建装置还包括:
划分模块,用于将目标数据集按照预设比例划分成训练数据集和验证数据集。
在一可选的实施方式中,验证模块,用于:
使用验证数据集中的第j条样本验证第i个待选模型,获得到所述第i个待选模型对第j条样本的多个标签的预测得分;
根据所述第j条样本的标注标签的预测得分,确定出所述第i个待选模型对第j条样本的预测得分;
重复上述两个步骤,直到所述验证数据集中的所有样本被所述待选模型集中的所有待选模型验证完成。
一种可能的实施方式中,本实施例中的异质集成模型构建装置还包括:构建模块,用于根据所述指定数量的目标模型,构建目标异质集成模型。
一种可能的实施方式中,构建模块,用于:采用投票法对所述指定数量的目标模型进行融合,以得到目标异质集成模型;或者,对所述指定数量的目标模型进行加权求和,以构建所述目标异质集成模型。
实施例四
本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法实施例中所述的异质集成模型筛选方法的步骤。本申请实施例中提供的功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例所提供的异质集成模型筛选方法的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行上述方法实施例中所述的异质集成模型筛选方法的步骤,具体可参见上述方法实施例,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅为本申请的优选实施例而已,并不用于限制本申请,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (17)

1.一种异质集成模型筛选方法,其特征在于,包括:
根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数;
根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
使用训练数据集对初始待选模型进行训练,获得到待选模型集;
使用验证数据集对所述待选模型集中的待选模型进行验证,获得到各个所述待选模型的预测得分。
3.根据权利要求2所述的方法,其特征在于,在所述使用训练数据集对初始待选模型进行训练,获得到待选模型集之前,所述方法还包括:
将目标数据集按照预设比例划分成训练数据集和验证数据集。
4.根据权利要求2所述的方法,其特征在于,所述使用验证数据集对所述待选模型集中的待选模型进行验证,获得到各个所述待选模型的预测得分,包括:
使用验证数据集中的第j条样本验证第i个待选模型,获得到所述第i个待选模型对第j条样本的多个标签的预测得分;
根据所述第j条样本的标注标签的预测得分,确定出所述第i个待选模型对第j条样本的预测得分;
重复上述两个步骤,直到所述验证数据集中的所有样本被所述待选模型集中的所有待选模型验证完成。
5.根据权利要求1所述的方法,其特征在于,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型;
根据第一指定数量的所述目标模型,构建初始集成模型;
确定出所述初始集成模型的中间预测得分;
根据所述中间预测得分以及所述待选模型集中的除所述第一指定数量的目标模型外的待选模型的预测得分,确定出所述待选模型集中的除了所述第一指定数量的目标模型外的待选模型与所述初始集成模型的中间相关系数;
根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,以得到目标模型集,其中,所述第一指定数量与所述第二指定数量之和等于指定数量。
6.根据权利要求5所述的方法,其特征在于,所述根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型,包括:
当所述第一指定数值为二时,根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型作为目标模型。
7.根据权利要求5所述的方法,其特征在于,所述根据所述初始相关系数从所述待选模型集中筛选出第一指定数量的目标模型,包括:
a.当所述第一指定数值大于二时,根据所述初始相关系数,筛选出所述初始相关系数最小的两个待选模型,获得到当前筛选目标模型集;
b.根据所述当前筛选目标模型集构建当前集成模型;
c.根据所述当前集成模型的当前集成预测得分;
d.根据所述当前集成预测得分以及所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型的预测得分,确定出所述待选模型集中的除所述当前筛选目标模型集的各个目标模型外的待选模型与所述当前集成模型的当前相关系数;
f.根据所述当前相关系数,从所述待选模型集中除所述当前筛选目标模型集的各个目标模型外的待选模型中,筛选出一个与所述当前集成模型的当前相关系数最小的目标模型,对所述当前筛选目标模型集进行更新;
当所述当前筛选目标模型集中的目标模型的数量小于第一指定数量时,返回执行步骤b-f,直到当前筛选目标模型集中的目标模型的数量等于第一指定数量。
8.根据权利要求5所述的方法,其特征在于,所述根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,包括:
当所述第二指定数量为一时,根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中,筛选出一个与所述初始集成模型的中间相关系数最小的目标模型。
9.根据权利要求5所述的方法,其特征在于,所述根据所述中间相关系数,从所述待选模型集中除所述第一指定数量的目标模型外的待选模型中筛选出第二指定数量的目标模型,包括:
当所述第二指定数量大于一时,根据所述中间相关系数,对所述待选模型集中除所述第一指定数量的目标模型外的待选模型的中间相关系数按照大小顺序排序;
确定出所述中间相关系数排序在前第二指定数量的目标模型。
10.根据权利要求5所述的方法,其特征在于,所述确定出所述初始集成模型的中间预测得分,包括:
使用验证数据集对所述初始集成模型进行验证,获得到所述初始集成模型的中间预测得分;或者,
根据所述初始集成模型中的目标模型的预测得分,获得到所述初始集成模型的中间预测得分。
11.根据权利要求1所述的方法,其特征在于,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
根据所述初始相关系数的数值大小,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,所述目标模型集中所有任意两个目标模型的相关系数之和小于预设值。
12.根据权利要求1所述的方法,其特征在于,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
计算所述待选模型集中的指定待选模型组中,任意两项所述待选模型的初始相关系数之和,获得到所述指定待选模型组的相关系数总值,所述指定待选模型组为所述待选模型集中任意一组包括指定数量的待选模型的待选模型组;
从所述待选模型集中的所有指定待选模型组中,筛选出相关系数总值最小的指定待选模型组作为目标模型集。
13.根据权利要求1所述的方法,其特征在于,所述根据所述初始相关系数,从所述待选模型集中筛选出包含指定数量的目标模型的目标模型集,包括:
根据所述初始相关系数从所述待选模型集中筛选出第三指定数量的目标模型;
确定出所述待选模型集中除所述第三指定数量的目标模型外的任一待选模型与第三指定数量的所述目标模型中的模型的初始相关系数之和;
基于所述待选模型集中的除所述第三指定数量的目标模型外的待选模型与第三指定数量的所述目标模型中的各个模型的初始相关系数之和,筛选出第四指定数量的目标模型,以得到目标模型集,其中,所述第三指定数量与所述第四指定数量之和等于指定数量。
14.根据权利要求1所述的方法,其特征在于,所述初始相关系数为皮尔逊相关系数,所述根据待选模型集中的各个待选模型的预测得分,分别确定任意两个待选模型的初始相关系数,包括:
根据待选模型集中的各个目标模型的预测得分,采用皮尔逊计算方式分别计算任意两个目标模型的皮尔逊相关系数。
15.根据权利要求1-14任意一项所述的方法,其特征在于,所述方法还包括:
根据所述指定数量的目标模型,构建目标异质集成模型。
16.根据权利要求15所述的方法,其特征在于,所述根据所述指定数量的目标模型,构建目标异质集成模型,包括:
采用投票法对所述指定数量的目标模型进行融合,以得到目标异质集成模型;或者,
对所述指定数量的目标模型进行加权求和,以构建所述目标异质集成模型。
17.一种电子设备,其特征在于,包括:处理器、存储器,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述机器可读指令被所述处理器执行时执行如权利要求1至16任一所述的方法的步骤。
CN202110738688.3A 2021-06-30 2021-06-30 异质集成模型筛选方法和电子设备 Active CN113407680B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110738688.3A CN113407680B (zh) 2021-06-30 2021-06-30 异质集成模型筛选方法和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110738688.3A CN113407680B (zh) 2021-06-30 2021-06-30 异质集成模型筛选方法和电子设备

Publications (2)

Publication Number Publication Date
CN113407680A true CN113407680A (zh) 2021-09-17
CN113407680B CN113407680B (zh) 2023-06-02

Family

ID=77680703

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110738688.3A Active CN113407680B (zh) 2021-06-30 2021-06-30 异质集成模型筛选方法和电子设备

Country Status (1)

Country Link
CN (1) CN113407680B (zh)

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214436A (zh) * 2018-08-22 2019-01-15 阿里巴巴集团控股有限公司 一种针对目标场景的预测模型训练方法及装置
CN110399927A (zh) * 2019-07-26 2019-11-01 玖壹叁陆零医学科技南京有限公司 识别模型训练方法、目标识别方法及装置
CN111241745A (zh) * 2020-01-09 2020-06-05 深圳前海微众银行股份有限公司 逐步模型选择方法、设备及可读存储介质
CN111353549A (zh) * 2020-03-10 2020-06-30 创新奇智(重庆)科技有限公司 图像标签的核验方法及装置、电子设备、存储介质
WO2020155300A1 (zh) * 2019-01-31 2020-08-06 网宿科技股份有限公司 一种模型预测方法及装置
CN112149702A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 特征的处理方法和装置
CN112149737A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 选择模型训练方法、模型选择方法、装置及电子设备
WO2021007812A1 (zh) * 2019-07-17 2021-01-21 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
CN112308144A (zh) * 2020-10-30 2021-02-02 江苏云从曦和人工智能有限公司 一种筛选样本的方法、系统、设备及介质
WO2021022933A1 (zh) * 2019-08-06 2021-02-11 平安科技(深圳)有限公司 多任务预测方法、装置、电子设备及存储介质
WO2021073152A1 (zh) * 2019-10-14 2021-04-22 平安科技(深圳)有限公司 基于神经网络的数据标签生成方法、装置、终端及介质
US20210150335A1 (en) * 2019-11-20 2021-05-20 International Business Machines Corporation Predictive model performance evaluation

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109214436A (zh) * 2018-08-22 2019-01-15 阿里巴巴集团控股有限公司 一种针对目标场景的预测模型训练方法及装置
WO2020155300A1 (zh) * 2019-01-31 2020-08-06 网宿科技股份有限公司 一种模型预测方法及装置
CN112149702A (zh) * 2019-06-28 2020-12-29 北京百度网讯科技有限公司 特征的处理方法和装置
WO2021007812A1 (zh) * 2019-07-17 2021-01-21 深圳大学 一种深度神经网络超参数优化方法、电子设备及存储介质
CN110399927A (zh) * 2019-07-26 2019-11-01 玖壹叁陆零医学科技南京有限公司 识别模型训练方法、目标识别方法及装置
WO2021022933A1 (zh) * 2019-08-06 2021-02-11 平安科技(深圳)有限公司 多任务预测方法、装置、电子设备及存储介质
WO2021073152A1 (zh) * 2019-10-14 2021-04-22 平安科技(深圳)有限公司 基于神经网络的数据标签生成方法、装置、终端及介质
US20210150335A1 (en) * 2019-11-20 2021-05-20 International Business Machines Corporation Predictive model performance evaluation
CN111241745A (zh) * 2020-01-09 2020-06-05 深圳前海微众银行股份有限公司 逐步模型选择方法、设备及可读存储介质
CN111353549A (zh) * 2020-03-10 2020-06-30 创新奇智(重庆)科技有限公司 图像标签的核验方法及装置、电子设备、存储介质
CN112149737A (zh) * 2020-09-23 2020-12-29 创新奇智(青岛)科技有限公司 选择模型训练方法、模型选择方法、装置及电子设备
CN112308144A (zh) * 2020-10-30 2021-02-02 江苏云从曦和人工智能有限公司 一种筛选样本的方法、系统、设备及介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARNOUD V.DEN BOER等: "Decision-based model selection", 《EUROPEAN JOURNAL OF OPERATIONAL RESEARCH》 *
夏陆岳等: "动态选择性集成神经网络软测量建模", 《计算机与应用化学》 *

Also Published As

Publication number Publication date
CN113407680B (zh) 2023-06-02

Similar Documents

Publication Publication Date Title
US10600005B2 (en) System for automatic, simultaneous feature selection and hyperparameter tuning for a machine learning model
Dangeti Statistics for machine learning
US10430690B1 (en) Machine learning predictive labeling system
US20210158164A1 (en) Finding k extreme values in constant processing time
Berger Large scale multi-label text classification with semantic word vectors
CN109766557B (zh) 一种情感分析方法、装置、存储介质及终端设备
JP2019519821A (ja) モデル分析方法、装置、及びコンピュータ読み取り可能な記憶媒体
KR101804170B1 (ko) 비관심 아이템을 활용한 아이템 추천 방법 및 장치
CN112102899A (zh) 一种分子预测模型的构建方法和计算设备
CN112818218B (zh) 信息推荐方法、装置、终端设备及计算机可读存储介质
US7930700B1 (en) Method of ordering operations
CN111159481B (zh) 图数据的边预测方法、装置及终端设备
US20220366295A1 (en) Pre-search content recommendations
WO2022157973A1 (ja) 情報処理システム、情報処理方法、及びコンピュータプログラム
CN112632000A (zh) 日志文件聚类方法、装置、电子设备和可读存储介质
CN112508177A (zh) 一种网络结构搜索方法、装置、电子设备及存储介质
CN113407680B (zh) 异质集成模型筛选方法和电子设备
CN115730152A (zh) 基于用户画像分析的大数据处理方法及大数据处理系统
JP5063639B2 (ja) データ分類方法及び装置及びプログラム
CN115409079A (zh) 一种矩阵处理装置、方法及处理设备
CN112200488A (zh) 针对业务对象的风险识别模型训练方法及装置
CN112257765A (zh) 基于未知类相似类别集的零样本图像分类方法及系统
CN115660722B (zh) 银寿客户转化的预测方法、装置和电子设备
JP2009301121A (ja) 印象判定処理方法、プログラム、及び、画像印象判定装置
JP2019159374A (ja) 情報処理装置及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant