CN115964632A - 构建ai集成模型的方法、ai集成模型的推理方法及装置 - Google Patents
构建ai集成模型的方法、ai集成模型的推理方法及装置 Download PDFInfo
- Publication number
- CN115964632A CN115964632A CN202110977566.XA CN202110977566A CN115964632A CN 115964632 A CN115964632 A CN 115964632A CN 202110977566 A CN202110977566 A CN 202110977566A CN 115964632 A CN115964632 A CN 115964632A
- Authority
- CN
- China
- Prior art keywords
- model
- graph
- training data
- base
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000013473 artificial intelligence Methods 0.000 title claims abstract description 335
- 230000010354 integration Effects 0.000 title claims abstract description 129
- 238000000034 method Methods 0.000 title claims abstract description 109
- 238000012549 training Methods 0.000 claims abstract description 354
- 238000003062 neural network model Methods 0.000 claims description 22
- 238000004891 communication Methods 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 18
- 238000003066 decision tree Methods 0.000 claims description 16
- 230000003993 interaction Effects 0.000 claims description 16
- 238000007637 random forest analysis Methods 0.000 claims description 16
- 238000003860 storage Methods 0.000 claims description 16
- 230000002452 interceptive effect Effects 0.000 claims description 14
- 238000010276 construction Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 230000003247 decreasing effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 23
- 238000007726 management method Methods 0.000 description 172
- 230000008569 process Effects 0.000 description 21
- 230000000875 corresponding effect Effects 0.000 description 19
- 238000010586 diagram Methods 0.000 description 18
- 239000011159 matrix material Substances 0.000 description 17
- 238000005070 sampling Methods 0.000 description 16
- 238000004422 calculation algorithm Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 230000001960 triggered effect Effects 0.000 description 7
- 238000012795 verification Methods 0.000 description 6
- 238000013528 artificial neural network Methods 0.000 description 5
- 210000004027 cell Anatomy 0.000 description 5
- 238000005457 optimization Methods 0.000 description 5
- 238000011478 gradient descent method Methods 0.000 description 4
- 238000011176 pooling Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012512 characterization method Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000009826 distribution Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000004927 fusion Effects 0.000 description 2
- 238000012886 linear function Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 238000010200 validation analysis Methods 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 238000000547 structure data Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供了一种构建人工智能(AI)集成模型的方法,包括:获取训练数据集、初始图网络模型和多个基模型,然后利用训练数据集中的训练数据和多个基模型,迭代训练初始图网络模型,获得图网络模型,接着将图网络模型和多个基模型构建为AI集成模型,其中,图网络模型的输入为由多个基模型的输出构成的图结构。由于图网络模型在对图结构进行处理时,会考虑图结构中各节点的邻居节点,因此,图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,由此根据AI集成模型中的多个基模型和图网络模型获得的特征在用于AI任务的处理时,可以提高AI任务的执行结果的精度。
Description
本申请要求于2021年05月31日提交中国国家知识产权局、申请号为202110602479.6、发明名称为“一种基于图网络的人工智能大模型构建方法”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,尤其涉及一种构建AI集成模型的方法、AI集成模型的推理方法、AI集成模型的管理系统、推理装置以及计算设备集群、计算机可读存储介质、计算机程序产品。
背景技术
随着AI技术尤其是深度学习技术的不断发展,AI模型的规模也不断变大,例如许多AI模型的结构逐渐变深、变宽,AI模型的参数量逐渐增加。目前一些AI模型可以基于自身庞大的规模以及大量的计算资源,从海量数据中进行挖掘,以完成相应的AI任务。
其中,大规模的AI模型可以通过集成方式获得。通过集成方式获得的AI模型可以称作AI集成模型,用于形成AI集成模型的多个AI模型可以称作基模型。在推理阶段,可以将AI集成模型中的多个基模型的输出进行融合,得到融合后的推理结果。对于不同AI任务,AI集成模型的融合方式可以是不同的。例如,对于分类任务,通常可以对多个基模型的输出进行投票,以获得AI集成模型的推理结果;又例如,对于回归任务,通常可以对多个基模型的输出取平均值,将平均值作为AI集成模型的推理结果。
然而,上述利用AI集成模型获得最终推理结果的方法,并未考虑AI集成模型中的基模型本身的差异性和相关性,直接对基模型的输出进行平均,或者是进行投票处理来进行基模型的融合,导致AI集成模型不能体现其内部的基模型的互相协作的能力,由此基于该AI集成模型获得的AI任务的执行结果的精度有待提高。
发明内容
本申请提供了一种构建AI集成模型的方法。该方法通过将图网络模型和多个基模型构建为AI集成模型,AI集成模型中的图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,由此根据图网络模型获得的特征用于AI任务的处理,提高了获得的AI任务的执行结果的精度。
第一方面,本申请提供一种构建AI集成模型的方法。该方法可以由AI集成模型的管理平台执行。该管理平台可以是用于构建AI集成模型的软件系统,计算设备或计算设备集群通过运行该软件系统的程序代码,以执行构建AI集成模型的方法。该管理平台也可以是用于构建AI集成模型的硬件系统。下文以该管理平台为软件系统进行示例说明。
具体地,管理平台可以获取训练数据集、初始图网络模型和多个基模型,然后利用训练数据集中的训练数据和多个基模型,迭代训练初始图网络模型,获得图网络模型,接着将图网络模型和多个基模型构建为AI集成模型,其中,图网络模型的输入为由多个基模型的输出构成的图结构。
该方法中,管理平台根据多个基模型的输出构建图结构,然后通过图网络模型对图结构进行处理,以对多个基模型的输出进行融合。由于图网络模型在对图结构进行处理时,会考虑图结构中各节点的邻居节点,因此,图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,由此根据图网络模型获得的特征用于后续AI任务的处理,相比于任何一个基模型得到的特征用于后续AI任务的处理可以获得更准确的AI任务的执行结果,也即本申请的技术方案提高了获得AI任务的执行结果的精度。
并且,管理平台通过图网络模型将多个基模型的输出融合,可以采用端到端的并行训练方式进行AI集成模型的训练,一方面降低了模型训练的难度,提高了模型训练的效率,另一方面保障了训练得到的AI集成模型的泛化性能。
在一些可能的实现方式中,管理平台在利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型的过程中,每次迭代包括将所述训练数据集中的第一训练数据分别输入至每个基模型,获得每个基模型对所述第一训练数据进行推理后的输出,然后将所述多个基模型对所述第一训练数据进行推理后的输出构建成图结构,接着利用所述图结构训练所述初始图网络模型。
其中,利用图结构训练初始图网络模型,可以使得训练得到的图网络模型能够在对多个基模型的输出进行融合时,充分考虑各个基模型之间的差异性和相关性,由此根据图网络模型获得的特征用于AI任务的处理,提高了AI任务的执行结果的精度。
在一些可能的实现方式中,所述多个基模型包括以下类型的AI模型中的一种或多种:决策树模型、随机森林模型和神经网络模型。其中,决策树模型、随机森林模型等可以用于对结构化的数据进行处理,神经网络模型可以用于对非结构化的数据如图像、文本、语音、视频等类型的数据进行处理。通过不同的基模型可以构建不同的AI集成模型,例如是对结构化的数据进行处理的AI集成模型和对非结构化的数据进行处理的AI集成模型,满足了不同业务的需求。
在一些可能的实现方式中,管理平台可以训练超网络,从所述超网络中获得多个基模型。其中,管理平台从超网络中获得的基模型为神经网络模型。该神经网络模型是管理平台基于用户的选择,通过神经网络搜索方式生成。
与从管理平台内置的模型或者用户预先上传的模型中获得基模型相比,通过训练超网络实时获得的基模型与AI任务的匹配度较高,由此可以提高基于AI集成模型获得的AI任务的执行结果的精度。
在一些可能的实现方式中,管理平台可以对基模型进行组合,以构建出指定大小的AI集成模型,从而满足用户的个性化需求。在构建AI集成模型过程中,管理平台还支持对基模型进行增加或删减,降低了AI集成模型迭代更新的成本。
进一步地,基模型和AI集成模型均可以用于提取特征。因此,管理平台可以先基于基模型获得推理结果,而无需等待AI集成模型构建完成,由此缩短了推理时间,提高了推理效率。并且提高了对中间结果(如基模型的推理结果)的利用率。
在一些可能的实现方式中,管理平台在训练超网络,从超网络中获得多个基模型时,可以利用所述训练数据集中的训练数据训练超网络,获得第i个基模型,其中,i为正整数,然后管理平台可以根据第i个基模型的性能更新训练数据集中的训练数据的权重,利用更新权重后的训练数据集中的训练数据训练所述超网络,获得第i+1个基模型。
其中,训练数据的权重可以表征训练数据被用于训练超网络的概率。管理平台更新训练数据的权重,可以更新训练数据集中的训练数据被用于训练超网络的概率,如此可以实现根据一些训练数据进行针对性地训练,获得新的基模型,该新的基模型可以与原基模型实现性能互补,由此可以进一步提高基于多个基模型构建的AI集成模型获得的AI任务的执行结果的精度。
在一些可能的实现方式中,当第i个基模型在第二类别的训练数据的性能高于在第一类别的训练数据的性能时,管理平台可以增加训练数据集中的第一类别的训练数据的权重,和/或降低所述训练数据集中的第二类别的训练数据的权重。如此,管理平台可以根据误分类的训练数据着重训练超网络,获得新的基模型。如此获得的多个基模型可以形成互补,提高了基于AI集成模型获得的AI任务的执行结果的精度。
在一些可能的实现方式中,管理平台在利用更新权重后的训练数据训练超网络时,可以是利用更新权重后的训练数据,微调超网络。由于管理平台可以对经过训练的超网络继续进行训练,而不需要从头开始训练,提高了训练效率,加快了训练进度。
在一些可能的实现方式中,管理平台可以确定所述多个基模型中每两个基模型对所述第一训练数据进行推理后的输出之间的相似度,然后以所述多个基模型中每个基模型对所述第一训练数据进行推理后的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
通过上述方式构建的图结构可以通过节点之间的边保留不同基模型的输出之间的相似性等信息,因此,AI集成模型可以通过图网络模型对图结构进行处理,从而实现根据不同基模型的输出之间的相似性等信息对不同基模型的输出进行融合,将该融合后的特征用于AI任务的处理,可以提高AI任务的执行结果的精度。
在一些可能的实现方式中,所述图网络模型包括图卷积网络模型、图注意力网络模型、图自动编码器模型、图生成网络模型或者图时空网络模型中的任意一种。其中,图卷积网络模型等图网络模型具有强大的表达能力,尤其是对非欧数据(非欧几里得结构数据)具有强大的表达能力,能够有效地聚合不同基模型输出的特征,根据上述图网络模型获得的特征用于AI任务的处理,提高了AI任务的执行结果的精度。
在一些可能的实现方式中,所述图网络模型为由切比雪夫网络化简得到的图卷积网络模型。其中,切比雪夫网络通过利用拉普拉斯矩阵的高阶近似(例如是多项式展开)来逼近卷积核,大大降低了参数量,并且使得图卷积网络模型具备局部性。
第二方面,本申请提供一种AI集成模型的推理方法。该方法可以由推理装置执行,AI集成模型包括图网络模型和多个基模型。推理装置可以获取输入数据,然后将所述输入数据分别输入所述AI集成模型中的每个基模型,获得每个基模型对所述输入数据进行推理后的输出。其中,每个基模型为经过训练后的AI模型。接着推理装置可以将多个基模型的输出构建成图结构,然后将该图结构输入至图网络模型,基于图网络模型获得AI集成模型的推理结果。
在该方法中,推理装置可以通过将多个基模型的输出构建为图结构,通过AI集成模型中的图网络模型对图结构进行处理,如此可以实现根据各个基模型之间的差异性和相关性对多个基模型的输出进行融合,提高了基于AI集成模型所获得的AI任务的执行结果的精度。
在一些可能的实现方式中,推理装置可以确定所述多个基模型中每两个基模型的输出之间的相似度,然后以所述多个基模型中每个基模型的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。如此,推理装置可以基于图结构中边的信息,保存多个基模型的输出之间的相似性、差异性等信息,基于该信息对多个基模型的输出进行融合,提高了基于AI集成模型获得的AI任务的执行结果的精度。
在一些可能的实现方式中,所述AI集成模型的推理结果为所述输入数据的特征。该输入数据的特征可以是AI集成模型中的图网络模型对多个基模型提取的特征进行融合所得的融合后的特征。
在一些可能的实现方式中,推理装置可以将所述AI集成模型的推理结果输入至决策层,将所述决策层的输出作为AI任务的执行结果。其中,决策层可以是分类器或者回归器等。
由于推理装置通过AI集成模型提取的特征是基于多个基模型的相似性、差异性进行融合的特征,基于该特征进行进一步决策获得AI任务的执行结果,可以提高AI任务的执行结果的精度。
在一些可能的实现方式中,推理装置可以将所述AI集成模型的推理结果输入至任务模型,利用任务模型对所述推理结果进行进一步的特征提取,以及根据进一步特征提取后的特征进行决策,将所述决策获得的结果作为AI任务的执行结果,其中,所述任务模型为针对所述AI任务被训练完成的AI模型。
在该方法中,推理装置将AI集成模型用于对输入数据进行预处理,以便于下游的任务模型基于预处理后的数据进行特征提取、决策,以完成相应的AI任务。其中,任务模型对预处理后的数据进行特征提取、决策,而不是直接对原始的输入数据进行特征提取、决策,因而具有较高的响应速度和响应效率。
第三方面,本申请提供一种AI集成模型的管理系统。所述系统包括:
交互单元,用于获取训练数据集、初始图网络模型和多个基模型,其中,每个基模型为经过训练后的AI模型;
训练单元,用于利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型,获得图网络模型;
构建单元,用于将所述图网络模型和所述多个基模型构建为所述AI集成模型,其中,所述图网络模型的输入为由所述多个基模型的输出构成的图结构。
在一些可能的实现方式中,所述训练单元在利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型的过程中,每次迭代包括:
将所述训练数据集中的第一训练数据分别输入至每个基模型,获得每个基模型对所述第一训练数据进行推理后的输出;
将所述多个基模型对所述第一训练数据进行推理后的输出构建成图结构;
利用所述图结构训练所述初始图网络模型。
在一些可能的实现方式中,所述多个基模型包括以下类型的AI模型中的一种或多种:决策树模型、随机森林模型和神经网络模型。
在一些可能的实现方式中,所述交互单元具体用于:
通过训练单元训练超网络,从所述超网络中获得多个基模型。
在一些可能的实现方式中,所述训练单元具体用于:
利用所述训练数据集中的训练数据训练超网络,获得第i个基模型,所述i为正整数;
根据所述第i个基模型的性能更新所述训练数据集中的训练数据的权重;
利用更新权重后的所述训练数据集中的训练数据训练所述超网络,获得第i+1个基模型。
在一些可能的实现方式中,所述训练单元具体用于:
当所述第i个基模型在第二类别的训练数据的性能高于在第一类别的训练数据的性能时,增加所述训练数据集中的第一类别的训练数据的权重,和/或降低所述训练数据集中的第二类别的训练数据的权重。
在一些可能的实现方式中,所述训练单元具体用于:
利用更新权重后的所述训练数据,微调所述超网络。
在一些可能的实现方式中,所述训练单元具体用于:
确定所述多个基模型中每两个基模型对所述第一训练数据进行推理后的输出之间的相似度;
以所述多个基模型中每个基模型对所述第一训练数据进行推理后的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
在一些可能的实现方式中,所述图网络模型包括图卷积网络模型、图注意力网络模型、图自动编码器模型、图生成网络模型或者图时空网络模型中的任意一种。
在一些可能的实现方式中,所述图卷积网络模型包括由切比雪夫网络化简得到的图卷积网络模型。
第四方面,本申请提供一种AI集成模型的推理装置。所述AI集成模型包括图网络模型和多个基模型,所述装置包括:
通信模块,用于获取输入数据;
第一推理模块,用于将所述输入数据分别输入所述AI集成模型中的每个基模型,获得每个基模型对所述输入数据进行推理后的输出,其中,所述每个基模型为经过训练后的AI模型;
构建模块,用于将所述多个基模型的输出构建成图结构;
第二推理模块,用于将所述图结构输入至所述图网络模型,基于所述图网络模型获得所述AI集成模型的推理结果。
在一些可能的实现方式中,所述构建模块具体用于:
确定所述多个基模型中每两个基模型的输出之间的相似度;
以所述多个基模型中每个基模型的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
在一些可能的实现方式中,所述AI集成模型的推理结果为所述输入数据的特征。
在一些可能的实现方式中,所述装置还包括:
执行模块,用于将所述AI集成模型的推理结果输入至决策层,将所述决策层的输出作为AI任务的执行结果。
在一些可能的实现方式中,所述装置还包括:
执行模块,用于将所述AI集成模型的推理结果输入至任务模型,利用任务模型对所述推理结果进行进一步的特征提取,以及根据进一步特征提取后的特征进行决策,将所述决策获得的结果作为AI任务的执行结果,其中,所述任务模型为针对所述AI任务被训练完成的AI模型。
第五方面,本申请提供一种计算设备集群,所述计算设备集群包括至少一台计算设备。至少一台计算设备包括至少一个处理器和至少一个存储器。所述处理器、所述存储器进行相互的通信。所述至少一个处理器用于执行所述至少一个存储器中存储的指令,以使得计算设备集群执行如第一方面或第二方面的任一种实现方式所述的方法。
第六方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,所述指令指示计算设备或计算设备集群执行上述第一方面或第二方面的任一种实现方式所述的方法。
第七方面,本申请提供了一种包含指令的计算机程序产品,当其在计算设备或计算设备集群上运行时,使得计算设备或计算设备集群执行上述第一方面或第二方面的任一种实现方式所述的方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
图1为本申请实施例提供的一种AI集成模型的管理平台的系统架构图;
图2A为本申请实施例提供的一种管理平台的部署示意图;
图2B为本申请实施例提供的一种管理平台的部署示意图;
图3为本申请实施例提供的一种交互界面的示意图;
图4为本申请实施例提供的一种AI集成模型的构建方法的流程图;
图5为本申请实施例提供的一种图卷积网络模型的原理图;
图6A为本申请实施例提供的一种获取基模型的流程示意图;
图6B为本申请实施例提供的一种神经网络搜索的流程示意图;
图7为本申请实施例提供的一种获取多个基模型的流程示意图;
图8为本申请实施例提供的一种推理装置的结构示意图;
图9为本申请实施例提供的一种推理装置的部署示意图;
图10为本申请实施例提供的一种AI集成模型的推理方法的流程图;
图11为本申请实施例提供的一种计算设备集群的结构示意图;
图12为本申请实施例提供的一种计算设备集群的结构示意图。
具体实施方式
本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
首先对本申请实施例中所涉及到的一些技术术语进行介绍。
AI模型,是指通过机器学习等AI技术开发和训练得到的、用于实现特定AI任务的算法模型。例如:AI模型可以包括支持向量机(support vector machine,SVM)模型、随机森林(random forest,RF)模型和决策树(decision tree,DT)模型,AI模型也可以包括深度学习(deep learning,DL)模型,如神经网络模型。
为了提高AI模型的性能,还可以将多个独立的AI模型组合形成大规模的AI模型(也称为AI大模型)。利用多个AI模型形成大规模的AI模型的方式可以包括集成的方式,通过集成方式获得的大规模的AI模型也称作AI集成模型。AI集成模型中的用于进行特征提取的AI模型也称为基模型,或称作基学习器。在实际应用时,基模型可以采用决策树模型、随机森林模型或者神经网络模型等。应理解,本申请中的AI集成模型中所包括的基模型相对独立地运行,在推理时,多个基模型的推理结果(也即输出)按照一定的方式进行结合,结合后的输出作为AI集成模型的输出,也即,本申请中的集成实际上是表示基模型的推理结果的集成。
图网络模型,是用于处理图结构的AI模型,例如图神经网络模型。其中,图结构是包括多个节点(也称作顶点vector)的数据结构。多个节点中的至少两个节点之间包括边(edge)。在实际应用时,节点可以通过圆圈表示,边可以通过圆圈之间的连线表征。图结构可以应用于不同场景中,表达具有关联关系的数据。例如,图结构可以用于表示社交网络中用户的关系,具体地,图结构中的节点表征用户,图结构中的边表征用户之间的关系,例如是同事、好友、亲属等等。又例如,图结构可以用于表示航线,具体地,图结构中的节点用于表示城市,图结构中的边用于表示城市之间的航线。
决策层,用于根据输入的特征进行决策的算法结构。其中,决策层通常与用于特征提取的AI模型或者AI集成模型联合使用,用于完成特定的AI任务。例如,基模型或图网络模型可以提取特征,然后可以将提取的特征输入至决策层进行决策。其中,决策层可以包括不同类型,例如决策层可以是分类器或者是回归器。应理解,在一些情况下,AI模型或者AI集成模型可以不包括决策层,也即仅用于特征提取。在推理过程中,经过AI模型或者AI集成模型获得的特征再可以被输入至决策层,用于实现特定的AI任务。在另一些情况下,决策层也可以作为是AI模型或者AI集成模型的一部分,也即,AI模型或者AI集成模型既用于特征提取又用于决策。在这种情况下,在推理阶段,AI模型或者AI集成模型可以直接获得针对AI任务的结果。如无特殊说明,本申请中后续AI集成模型中的基模型和图网络模型表示仅用于特征提取,而不包含决策层的功能,经过AI集成模型获得的特征可以根据AI任务的目标,被继续输入至决策层。
AI任务,是指利用AI模型或AI集成模型的功能完成的任务。例如:AI任务可以包括图像处理(例如图像分割、图像分类、图像识别、图像标注等)、自然语言处理(语言翻译、智能问答)或者语音处理(语音唤醒、语音识别、语音合成)等任务。不同AI任务的难易程度不同。例如,一些AI任务可以由一个简单的经过训练后的AI模型及决策层完成。又例如,还有一些AI任务需要由一个大规模的经过训练的AI模型及决策层完成。
在一些场景中,单个AI模型的推理精度不高,将多个AI模型作为基模型,构建AI集成模型是一种提升精度的策略。相关技术中,多个基模型的输出可以通过投票方式或者加权平均方式进行融合,得到AI集成模型的推理结果。然而,通过该方法获得的AI集成模型的推理结果并未考虑基模型本身的差异性和相关性,由此使得基于该AI集成模型获得的AI任务的执行结果的精度依然不高。另外,AI集成模型中的多个基模型通常是并行训练得到,基模型之间不存在强依赖关系,如此难以充分挖掘各个基模型的优势,可以导致AI集成模型对一些输入数据的推理效果不佳,进而影响了基于该AI集成模型获得的AI任务的执行结果的精度。
有鉴于此,本申请实施例提供了一种构建AI集成模型的方法。该方法可以由AI集成模型的管理平台执行。管理平台可以获取训练数据集、初始图网络模型和多个基模型,然后利用训练数据集中的训练数据和多个基模型,迭代训练初始图网络模型,获得图网络模型,接着将图网络模型和多个基模型构建为AI集成模型,其中,图网络模型的输入为由多个基模型的输出构成的图结构。
该方法中,管理平台根据多个基模型的输出构建图结构,然后通过图网络模型对图结构进行处理,以对多个基模型的输出进行融合。由于图网络模型在对图结构进行处理时,会考虑图结构中各节点的邻居节点,因此,图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,由此根据图网络模型获得的特征用于AI任务的处理,提高了基于AI集成模型获得的AI任务的执行结果的精度。
并且,在一些实施例中,管理平台在获得多个基模型时,可以根据对超网络的训练获得基模型,基于当前基模型的性能对用于训练超网络的训练数据的权重进行更新,例如,增加基模型误分类训练数据的权重。然后通过更新权重后的训练数据获取下一个基模型,如此多个基模型可以形成互补,由此提高了基于AI集成模型获得的AI任务的执行结果的精度。
为了使得本申请的技术方案更加清楚、易于理解,下面结合附图对AI集成模型的管理平台进行介绍。
参见图1所示的AI集成模型的管理平台的结构示意图,该管理平台100包括交互单元102、训练单元104和构建单元106。进一步地,该管理平台100还可以包括存储单元108。下面对各单元分别进行介绍。
交互单元102用于获取训练数据集、初始图网络模型和多个基模型。其中,每个基模型为经过训练后的AI模型。交互单元102可以通过多种方式获取训练数据集、初始图网络模型和多个基模型。例如,交互单元102可以根据用户的选择,从管理平台100内置的训练数据集、初始图网络模型、基模型中,获取用于构建AI集成模型的训练数据集、初始图网络模型和多个基模型。又例如,交互单元102还可以接收用户上传的训练数据集、初始图网络模型和多个基模型。
训练单元104用于利用训练数据集中的训练数据和多个基模型,迭代训练初始图网络模型,获得图网络模型。其中,训练单元104在迭代训练初始图网络模型时,每次迭代包括:将训练数据集中的第一训练数据分别输入至每个基模型,获得每个基模型对第一训练数据进行推理后的输出,然后将多个基模型对第一训练数据进行推理后的输出构建成图结构,接着利用该图结构训练初始图网络模型。
第一训练数据可以是训练数据集中的若干训练数据。例如,训练数据集中的训练数据可以按照批大小(batch size)分为若干批,每一批包括的训练数据的数量等于批大小。相应地,第一训练数据可以是若干批训练数据中的一批训练数据。
在一些可能的实现方式中,训练单元104还用于训练超网络,从超网络中获得多个基模型。其中,训练单元104可以基于当前基模型的性能对用于训练超网络的训练数据的权重进行更新,例如,增加基模型误分类训练数据的权重。然后训练单元104通过更新权重后的训练数据训练超网络,获得下一个基模型。如此多个基模型可以形成互补,提高了基于AI集成模型获得的AI任务的执行结果的精度。
构建单元106用于将图网络模型和多个基模型构建为AI集成模型。其中,图网络模型的输入为由多个基模型的输出构成的图结构。具体地,构建单元106用于将多个基模型的输出获得的图结构作为图网络模型的输入,从而使得在推理阶段,多个基模型和图网络模型可以共同用于对输入数据的处理,由此获得AI集成模型的推理结果。由于构建单元106将多个基模型和图网络模型进行了基于输出和输入的互相连接,使得在推理阶段,AI集成模型可以作为一个整体自动地对输入数据进行推理。
存储单元108用于存储管理平台100内置的训练数据集、初始图网络模型和/或基模型。进一步地,存储单元108还可以存储用户上传的训练数据集、初始图网络模型和/或基模型。在一些实施例中,存储单元108也可以对训练单元104训练超网络获得的基模型进行存储。其中,存储单元108还可以对用户通过交互单元102设置的训练参数等进行存储。本实施例对此不作限定。
图1对管理平台100的架构进行了详细说明。下面对管理平台100的部署方式进行详细介绍。应理解,上述AI集成模型的管理平台100也可以称为AI集成模型的管理系统。该AI集成模型的管理系统可以是部署于硬件设备或硬件设备集群的软件系统,AI集成模型的管理系统也可以是由一个或多个硬件设备组成的硬件系统。本申请中,对管理平台100的描述均表示对AI集成模型的管理系统的举例性描述。
在一些可能的实现方式中,如图2A所示,管理平台100可以部署在云环境,当管理平台100为软件系统时,具体为部署在云环境上的一个或多个计算设备(例如:中心服务器),或者当管理平台100为硬件系统时,管理平台100可以包括云环境上的一个或多个计算设备。所述云环境指示云服务提供商拥有的,用于提供计算、存储、通信资源的中心计算设备集群。
具体实现时,用户可以通过客户端(例如是浏览器或者是专用客户端)触发启动管理平台100的操作,然后,用户通过客户端与管理平台100进行交互,以构建AI集成模型。
具体地,管理平台100的交互单元102可以提供交互逻辑,客户端可以基于该交互逻辑向用户呈现交互界面。该交互界面例如可以是图形用户界面(graphical userinterface,GUI)或者是命令用户界面(command user interface,CUI)。
为了便于理解,下面以交互界面为GUI进行示例说明。参见图3所示的交互界面300的示意图,该交互界面300支持用户配置训练数据集、基模型以及初始图网络模型。具体地,交互界面300承载有训练数据集配置组件302、基模型配置组件304和初始图网络模型配置组件306。
其中,训练数据集配置组件302包括下拉控件,下拉控件被触发时可以展示下拉框,用户可以从该下拉框中选择管理平台100内置的训练数据集,例如是训练数据集1至训练数据集k中的任意一个。其中,k为正整数。在一些实施例中,用户也可以选择自定义的训练数据集。具体地,当用户从下拉框中选择自定义的训练数据集时,交互界面300可以提供接口以供用户输入自定义的训练数据集所在的地址,如此,客户端可以根据该地址获取自定义的训练数据集。
类似地,基模型配置组件304包括下拉控件,该下拉控件被触发时,可以展示下拉框,下拉框中可以包括管理平台100内置的基模型,例如是随机森林模型、决策树模型或者是神经网络模型等等。其中,随机森林模型、决策树模型可以是经过训练后的AI模型。需要说明的是,管理平台100可以内置随机森林模型的至少一个实例,和/或者,内置决策树模型的至少一个实例。基模型配置组件304的下拉控件被触发时,可以通过下拉框展示管理平台100内置的各种模型的至少一个实例。当用户选择随机森林模型的一个实例或者决策树模型的一个实例时,用户还可以通过基模型配置组件304中的数量配置控件配置该实例的数量。其中,用户也可以通过下拉控件配置多种模型的实例作为基模型,并针对每种模型的实例分别配置实例的数量。
进一步地,下拉控件还可以支持用户上传自定义的模型作为基模型。具体地,下拉控件展示的下拉框中包括用户自定义的模型,用户可以选择自定义的模型,从而触发上传自定义的模型作为基模型的流程。当然,用户也可以预先上传自定义的模型,如此,用户可以在配置基模型时,从用户上传的自定义的模型中选择基模型,以用于构建AI集成模型。
上述用户选择的基模型,可以是管理平台内置存在的,也可以是用户预先上传的。在另一些实施例中,用户选择的基模型还可以是管理平台根据用户的选择即将生成的,例如,当用户选择神经网络模型时,交互界面300还可以提供接口以供用户配置用于获得神经网络模型的相关参数。例如,通过超网络采样的方式获得神经网络模型时,交互界面300可以提供搜索空间、性能指标、性能指标的参考值等参数接口,以便用户通过上述接口配置相应的参数。如此,管理平台100可以基于上述参数,通过神经网络搜索方式获得多个基模型。
初始图网络模型配置组件306包括下拉控件,下拉控件被触发时可以展示下拉框,用户可以从该下拉框中选择管理平台100内置的或者是用户上传的初始图网络模型,例如可以选择图卷积网络(graph convolution networks,GCN)模型、图注意力网络(graphattention networks,GAN)模型、图自动编码器(graph antoencoders,GAE)模型、图生成网络(graph generative networks,GGN)模型或者图时空网络(graph spatial-temporalnetworks,GSTN)模型中的任意一种。
交互界面300还承载有确定控件308和取消控件309。当取消控件309被触发时,用户的选择被取消。当确定控件308被触发时,客户端可以将用户配置的上述参数提交至管理平台100。管理平台100可以根据上述配置,获取训练数据集、初始图网络模型和多个基模型,然后基于训练数据集和多个基模型,迭代训练初始图网络模型,获得图网络模型,然后将图网络模型和多个基模型构建成AI集成模型。
需要说明的是,多个用户可以通过各自的客户端触发启动管理平台100的操作,以在云环境中创建与多个用户各自对应的管理平台100的实例。每个用户可以通过各自的客户端与相应的管理平台100的实例进行交互,从而实现构建各自的AI集成模型。
其中,多个用户可以基于各自的AI任务配置相应的训练数据集、初始图网络模型和多个基模型。不同用户配置的训练数据集、初始图网络模型和多个基模型可以是不同的。相应地,不同用户构建得到的AI集成模型可以是不同的。也即管理平台100提供了一站式的AI集成模型构建方法,针对不同用户的不同AI任务或同一用户的不同AI任务均可以构建对应的AI集成模型,具有较高的通用性和可用性,能够满足业务需求。
管理平台100也可以部署在边缘环境中,具体为部署在边缘环境中的一个或多个计算设备(边缘计算设备)上或者管理平台100包括边缘环境中的一个或多个计算设备,边缘计算设备可以为服务器、计算盒子等。所述边缘环境指示在地理位置上距离终端设备(即端侧设备)较近的,用于提供计算、存储、通信资源的边缘计算设备集群。在一些实现方式中,管理平台100还可以部署在终端设备上。终端设备包括但不限于台式机、笔记本电脑、智能手机等用户终端。
在另一些可能的实现方式中,如图2B所示,管理平台100可以分布式地部署在不同环境。例如,交互单元102可以部署在边缘环境,训练单元104、构建单元106可以部署在云环境。用户可以通过客户端触发启动管理平台100的操作,以创建管理平台100的实例。其中,每个管理平台100的实例包括交互单元102、训练单元104和构建单元106。上述单元分布式地部署在云环境和边缘环境中。
图2B仅仅是管理平台100的各个部分分布式地部署在不同环境中一种实现方式。在本申请实施例其他可能的实现方式中,还可以在云环境、边缘环境、端设备中的三个环境,或其中其他两个环境上分别部署管理平台100的一部分。
接下来,从管理平台100的角度,结合附图对本申请实施例的AI集成模型的构建方法进行详细说明。
参见图4所示的AI集成模型的构建方法的流程图,该方法包括:
S402:管理平台100获取训练数据集。
具体地,管理平台100可以内置至少一个训练数据集。内置的训练数据集可以是从开源社区获得的开源数据集,例如ImageNet、OpenImage等。在一些实施例中,内置的训练数据集也可以包括管理平台100的运营商自定义的数据集,管理平台100的运营商租赁或购买的私有数据集等。用户可以从管理平台100内置的至少一个训练数据集中选择一个训练数据集,如此,管理平台100可以基于用户的选择操作,获得相应的训练数据集,以用于模型训练。
在一些可能的实现方式中,用户也可以不选择管理平台100内置的训练数据集。例如,用户可以自行上传训练数据集。具体地,用户可以通过交互界面300输入训练数据集所在的地址或路径,管理平台100根据该地址或路径,获取相应的训练数据集,以用于模型训练。
S404:管理平台100获取初始图网络模型。
具体地,管理平台100可以内置至少一种初始图网络模型。例如,管理平台100可以内置图卷积网络模型、图注意力网络模型、图自动编码器模型、图生成网络模型或者图时空网络模型中的一种或多种。用户可以从管理平台100内置的至少一种初始图网络模型中,选择一个初始图网络模型,以用于构建AI集成模型。
在一些可能的实现方式中,用户也可以不选择管理平台100内置的初始图网络模型。例如,用户可以自行上传初始图网络模型。具体地,用户可以通过交互界面300输入初始图网络模型所在的地址或路径,管理平台100根据该地址或路径,获取相应的初始图网络模型,以用于构建AI集成模型。
S406:管理平台100获取多个基模型。
具体地,管理平台100可以根据用户的选择,获得多个基模型。该基模型为经过AI训练的AI模型。该AI模型可以是随机森林模型、决策树模型或者是神经网络模型。其中,用户选择的多个基模型可以是管理平台100内置存在的,也可以是用户预先上传的。当然,用户也可以实时上传基模型,以便于管理平台100获得上述基模型。
针对随机森林模型、决策树模型、神经网络模型等不同类型的模型,管理平台100可以提供上述模型的至少一个实例,以供用户选择。其中,管理平台100提供的实例可以是管理平台100内置,也可以是用户预先上传,用户可以从中选择至少一个实例,作为用于构建AI集成模型的基模型。此外,用户还可以配置该实例的数量为N(N为整数),以便于管理平台100获取N个该模型的实例,以用于构建AI集成模型。进一步地,用户可以选择多个模型的实例,作为用于构建AI集成模型的基模型,并且用户可以针对每个实例,分别配置实例的数量,以便于管理平台100分别获取相应数量的实例,用于构建AI集成模型。
在一些可能的实现方式中,管理平台100也可以根据用户的选择,生成基模型。例如,用户可以选择生成神经网络模型作为基模型。具体地,管理平台100可以训练超网络,从超网络中获得多个基模型。其中,管理平台100训练超网络,从超网络中获得多个基模型的具体实现在下文进行详细描述,在此不作重点介绍。
需要说明的是,上述S402、S404、S406可以并行执行,也可以按照设定的顺序先后执行,例如管理平台100也可以先执行S404、S406,然后再执行S402。本申请实施例对S402至S406的执行顺序不作限定。
S408:管理平台100利用训练数据集中的训练数据和多个基模型,迭代训练初始图网络模型,获得图网络模型。
具体地,每次迭代包括:管理平台100将训练数据集中的一部分训练数据(可以称为:第一训练数据)分别输入至每个基模型,获得每个基模型对上述第一训练数据进行推理后的输出;然后,管理平台100将多个基模型对上述第一训练数据进行推理后的输出构建成图结构;接着,管理平台100利用图结构训练初始图网络模型。
其中,第一训练数据为训练数据集中的若干数据。训练数据集中的训练数据可以按照batchsize分为多个批,第一训练数据可以是其中一批训练数据。例如,训练数据集包括10000条训练数据,batchsize可以是100,则训练数据集可以分为100批,第一训练数据可以为100批数据中的一批。每个基模型可以对第一训练数据进行特征提取,得到特征。该特征实际上可以通过向量或矩阵进行表示。每个基模型对第一训练数据进行推理后的输出可以包括上述特征。
图结构是一种包括多个节点的数据结构。进一步地,图结构还包括多个节点中至少两个节点之间的边。在一些实施例中,管理平台100可以确定多个基模型对所述第一训练数据进行推理后的输出之间的相似度,例如可以基于多个基模型输出的特征的距离,确定多个基模型的输出之间的相似度。然后管理平台100以所述多个基模型中每个基模型对所述第一训练数据进行推理后的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
管理平台100利用图结构训练初始图网络模型,具体可以是将图结构输入初始图网络模型,通过初始图网络模型可以实现基于边的信息对节点的信息进行聚合,从而实现从图结构中提取特征。需要说明的是,该特征是融合多个基模型的输出的特征。然后管理平台100可以将初始图网络模型输出的特征输入至决策层进行决策,获得决策结果。其中,决策层可以是分类器或者回归器等等,相应地,决策结果可以是分类结果或回归结果。管理平台100可以根据决策结果和训练数据的标签计算损失函数的函数值,也即损失值,然后管理平台100可以基于损失值的梯度采用梯度下降法更新初始图网络模型的参数,从而实现迭代训练初始图网络模型。
为了便于理解,本申请实施例还以初始图网络模型为图卷积网络模型进行示例说明。
参见图5所示的图卷积网络模型的原理图,该示例中,管理平台100获取基模型1、基模型2、基模型3、基模型4等多个基模型,管理平台100可以根据基模型1至基模型4的输出构建图结构。为了便于描述,以X1、X2、X3、X4分别表示基模型1至基模型4的输出,管理平台100以X1、X2、X3、X4为节点,基于X1、X2、X3、X4的相似度确定节点的边,例如可以基于相似度确定出边X1X2、X1X3、X1X4、X2X3、X2X4、X3X4,根据上述节点和边可以获得图结构。
然后管理平台100将该图结构输入图卷积网络模型,图卷积网络模型包括图卷积层。图卷积层可以对图卷积网络模型的输入进行卷积,得到卷积结果。其中,图卷积网络模型可以通过一个映射f(.)表征。该映射f(.)使得图卷积网络模型可以根据边的信息聚合节点的信息。以X4为例,图卷积网络模型的图卷积层在对X4卷积时,与X4关联的X1、X2、X3也参与卷积运算,得到卷积结果Z4。类似地,图卷积层可以对X1、X2、X3进行卷积运算,获得卷积结果Z1、Z2、Z3。其中,上述卷积结果用于表征图卷积网络模型提取的特征,该特征可以是融合有多个基模型的输出的特征。
在一些可能的实现方式中,考虑到基于频谱的图卷积存在图卷积核参数量大的问题,管理平台100还可以采用由切比雪夫网络ChebNet化简得到的图卷积网络模型作为初始图卷积网络模型。
其中,ChebNet通过利用拉普拉斯矩阵的高阶近似(例如是多项式展开)来逼近卷积核gθ,如此大大降低了参数量,并且使得图卷积网络模型具备局部性。具体地,卷积核gθ被参数化成公式(1)的形式:
其中,θk为图卷积网络模型中可学习的参数,表示多项式中第k项的权重。K为多项式的最高阶数,Λ为特征值矩阵,通常是对称矩阵。
上述ChebNet还可以被化简,得到一阶近似版本的GCN。具体地,令K=1,拉普拉斯矩阵的最大特征值λmax≈2,则简化后的GCN的卷积结果可以表示为公式(2):
其中,x为输入,gθ为卷积核。θ0、θ1为多项式的权重。L为归一化的拉普拉斯矩阵,In为n阶单位矩阵。A为邻接矩阵,D为度矩阵。
为了避免过拟合,还可以约束θ=θ0=-θ1,以减少图卷积网络模型的参数。此时公式(2)可以进一步简化为:
上述卷积过程是以一维卷积进行示例说明,将一维卷积推广到多维卷积,可以得到如下卷积结果:
其中,Z用于表示多维卷积的卷积结果,4表示输入的矩阵形式,即输入矩阵,W表示参数矩阵。该参数矩阵中包括特征变换参数,例如是图卷积网络模型中可学习的参数θ,该参数具体是用于对特征进行增强的参数。
管理平台100可以通过初始图卷积网络模型,利用公式(5)对基模型的输出进行融合,得到融合后的特征,该特征具体可以是如公式(5)所示的卷积结果Z,然后将特征输入至决策层如分类器,可以获得分类结果。管理平台100可以根据分类结果和训练数据的标签计算损失值,然后根据损失值的梯度更新图卷积网络模型的参数矩阵W,由此实现对图卷积网络模型的迭代训练。
经过训练的初始图网络模型(例如图卷积网络模型)满足预设条件时,管理平台100可以停止训练,将上述经过训练的初始图网络模型确定为图网络模型。其中,预设条件可以根据经验值设置。例如,预设条件可以是损失值趋于收敛,损失值小于预设值,或者是性能达到预设性能。其中,性能可以是精度等指标,基于此,性能达到预设性能可以是精度达到95%。
S410:管理平台100将图网络模型和多个基模型构建为AI集成模型。
具体地,管理平台100可以将多个基模型的输出构成图结构,然后将该图结构作为图网络模型的输入,由此实现多个基模型和图网络模型的集成,进而可以获得AI集成模型。其中,基模型用于提取特征,图网络模型用于对多个基模型提取的特征进行融合,得到融合后的特征。在一些可能的实现方式中,AI集成模型还可以集成有决策层,如分类器或回归器。融合后的特征输入至决策层,可以获得分类结果或回归结果,由此可以完成特定的AI任务。
基于上述内容描述,本申请实施例提供了一种构建AI集成模型的方法。该方法中,管理平台100将图网络模型和多个基模型构建为AI集成模型。该AI集成模型可以根据多个基模型的输出构建图结构,然后通过图网络模型对图结构进行处理,以对多个基模型的输出进行融合。由于图网络模型在对图结构进行处理时,会考虑图结构中各节点的邻居节点,因此,图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,由图网络模型和多个基模型构建的AI集成模型获得的特征用于AI任务的执行,可以提高AI任务的执行结果的精度。
在图4所示实施例中,管理平台100也可以根据神经网络架构搜索(neuralarchitecture search,NAS)算法,通过搜索方式获得多个基模型。考虑到NAS算法耗时较长,管理平台100还可以采用优化的NAS算法,搜索得到多个基模型。
其中,优化的NAS算法可以包括高效神经网络架构搜索(efficient neuralarchitecture search,ENAS)算法、可微网络架构搜索(differentiable architecturesearch,DARTS)算法或者无代理架构搜索(proxyless NAS)算法等算法中的任意一种。需要说明的是,通过NAS算法或者优化的NAS算法得到的基模型为神经网络模型。
为了便于理解,下面以通过DARTS算法获取基模型进行示例说明。参见图6A所示的根据DARTS算法获取基模型的流程示意图,具体包括如下步骤:
S602:管理平台100根据搜索空间确定超网络。
DARTS的原理是根据搜索空间确定一个超网络(supernet)。该超网络可以表示为一个有向无环图,有向无环图中的每个节点(node)可以表示特征图(或者特征向量),节点之间的边(edge)表示节点之间进行连接的可能的操作,例如可以是3*3卷积、5*5卷积等等。
通常情况下,节点之间的操作选择是离散的,也即搜索空间(表示可搜索的操作的集合)是离散的。超网络中节点之间的边被扩展,使得节点之间进行连接具有更多可能的操作,如此可以实现搜索空间的松弛化。具体地,管理平台100可以根据用户配置的节点之间可能的操作,扩展搜索空间中的边,以将搜索空间松弛化。然后,管理平台100可以将松弛化的搜索空间映射至连续空间,从而获得超网络。
S604:管理平台100训练超网络,获得基模型。
具体地,超网络设置有目标函数。在搜索空间被映射至连续空间的情况下,目标函数可以映射成可微函数,如此,管理平台100可以在连续空间内,通过梯度下降法(gradientdescent,GD)进行模型寻优。
其中,DARTS的原理是通过搜索方式训练出神经元(cell),例如是norm-cell和reduce-cell,然后将多个cell相连,从而获得神经网络模型。其中,norm-cell是输出的特征图尺寸与输入的特征图尺寸保持一致,reduce-cell是输出的特征图尺寸相对于输入的特征图尺寸减小一半。相连的cell的数量可以通过超参数layer控制,例如layer=20,则表征将20个cell相连,获得神经网络模型。
下面以训练一个cell进行示例说明。参见图6B所示的神经网络搜索的流程示意图,首先参见图6B中的(a),(a)示出了cell,该cell可以表示为有向无环图,有向无环图中的节点1、节点2、节点3和节点4分别表示特征图,节点之间的边表示节点之间进行连接的可能的操作,在初始时,节点之间的边是未知的。管理平台100可以响应于用户的配置操作,将节点之间的边扩展为多条边(如图6B中不同线型所示的多条边),相应地,节点之间进行连接的可能的操作扩展为8种可能的操作,例如是3x3深度可分离卷积、5x5深度可分离卷积、3x3空洞卷积、5x5空洞卷积、3x3最大化池化、3x3平均池化,恒等、直连等等,如此可以将离散的搜索空间松弛化,进而获得如图6B中的(b)所示的超网络。
然后管理平台100可以对超网络执行采样(sampling),以获得子网络(sub-network)。其中,采样是指从节点之间进行连接的可能的操作中选择一种或多种操作。在获得子网络之后还可以计算梯度(gradient),然后基于该梯度更新超网络的参数,以对超网络进行训练。管理平台100通过不断执行上述采样和更新的步骤,可以进行模型寻优。参见图6B中的(d),(d)示出了采样获得的最优子网络。该最优子网络可以作为基模型。
管理平台100获得基模型的关键在于采样,接下来对采样过程进行详细说明。超网络中可学习的参数包括操作参数ω和结构参数α。其中,操作参数ω表征节点之间进行连接的操作,例如为3x3深度可分离卷积、5x5深度可分离卷积、3x3空洞卷积、5x5空洞卷积、3x3最大化池化、3x3平均池化、恒等或直连等等。结构参数α用于表征节点之间进行连接的操作的权值。基于此,采样过程可以表示为以结构参数α为上级变量,以超网络的操作参数ω为下级变量的两级优化问题,具体参见公式(6):
其中,Ltrain表征在训练数据集上的损失,即训练损失,Lval表征在验证数据集上的损失,即验证损失。arg表示变元argument,通常和最大值、最小值结合使用,用于表示使得表达式最大或最小的变元。ω*(α)表示使得Ltrain(ω,α)最小的ω。s.t.为subject to的缩写,用于表示需要满足或服从的条件。基于此,公式(6)表征在满足ω*(α)=arg minωLtrain(ω,α)的条件下,使得minαLval(ω*(α),α)最小的α。
为了求解上述公式(6),一种可能的实现方法是交替优化上述操作参数ω和结构参数α。具体地,管理平台100可以交替执行如下步骤:(a)根据验证损失(例如是验证损失的梯度采用梯度下降法更新结构参数α;(b)根据训练损失(例如是训练损失的梯度采用梯度下降法更新操作参数ω。其中,ξ表示学习速率,表示梯度。当通过交替优化所得的子网络在验证数据集上的性能达到预设性能时,则可以终止交替执行上述步骤。
考虑到交替优化的复杂度非常高,管理平台100还可以采用梯度近似进行优化,以降低复杂度。具体地,管理平台100可以将ω*(α)代入验证损失,然后确定Lval(ω*(α),α)的梯度作为Lval(ω-ξLtrain(ω,α),α)的梯度的近似值,具体请参见公式(7):
该方法以在验证数据集上的损失(也即验证损失)最小为优化目标,通过梯度下降法寻找产生最优子网络的分布,而不是直接寻找最优子网络。由此提高了采样子网络的效率。其中,管理平台100采样所得的子网络可以作为基模型。
以上对从超网络中进行采样获得一个基模型进行详细说明。管理平台100可以通过相同的方式进行采样,从而获得多个基模型。进一步地,考虑到基模型可能存在对一些训练数据的推理效果不佳的情况,管理平台100还可以在获得一个基模型(例如是第i个基模型,i为正整数)后,确定该基模型的性能,例如是基模型在不同类别训练数据上的性能。其中,性能可以通过精度或推理时间等指标进行衡量,本实施例对此不作限定。下面对获取多个基模型的过程进行详细说明。
参见图7所示的获取多个基模型的流程示意图,具体包括如下步骤:
步骤1:管理平台100根据搜索空间,确定超网络。
步骤2:管理平台100训练超网络,获得基模型。
其中,管理平台100确定超网络,以及训练超网络,获得基模型的实现可以参见图6A和图6B相关内容描述。本实施例中假定管理平台100获得的第一个基模型为φ0。
步骤3:管理平台100确定基模型的性能。
基模型的性能可以由通过基模型获得的AI任务的执行结果的精度进行衡量。具体地,管理平台100可以将用于评估精度的训练数据输入基模型,根据该基模型提取的特征进行分类,然后基于分类结果和训练数据的标签确定误分类的训练数据和正确分类的训练数据。管理平台100可以根据各类别的训练数据中误分类的训练数据的数量和正确分类的训练数据的数量,获得基模型的精度。
需要说明的是,在采样获得基模型后,管理平台100还可以先训练基模型K轮,然后再确定该基模型的性能。其中,K为正整数。进一步地,管理平台100还可以判断基模型的性能是否达到预设性能,若是,则可以直接停止采样,直接基于该基模型完成相应的AI任务;若否,则可以执行步骤4至5,以继续采样获得下一个基模型。
步骤4:管理平台100可以根据基模型的性能更新训练数据的权重。
具体地,该基模型在第二类型的训练数据的性能高于在第一类别的训练数据的性能时,管理平台100可以增加训练数据集中第一类别的训练数据的权重,和/或降低训练数据集中第二类别的训练数据的权重。如此,第一类别的训练数据有较高的概率用于训练超网络,第二类别的训练数据有较低的概率用于训练超网络。
其中,管理平台100更新训练数据的权重有多种实现方式,下面以其中两种实现方式进行示例说明。
在第一种实现方式中,管理平台100可以根据线性函数更新训练数据的权重。该线性函数具体是表征训练数据的权重与基模型的性能之间的线性关系的函数。其中,管理平台100还可以对权重进行归一化。例如,管理平台100可以将不同类别的训练数据的权重之和设置为1。
在第二种实现方式中,管理平台100可以利用Adaboost方法更新训练数据的权重。具体参见公式(8):
其中,Ei表征基模型φi的误差率,βi表征基模型φi的系数,Wi(j)是用于训练当前基模型(例如为基模型φi)的训练数据xj的权重,Wi+1(j)是用于训练下一个基模型(例如为基模型φi+1)的训练数据xj的权重。Zi是个归一化系数,使得Wi(j)能够代表一个分布。hi(·)是基模型φi的推理结果,yj是样本数据中的标签。
具体地,训练平台102可以获取基模型φi的误差率Ei,例如可以基于基模型φi的精度确定基模型φi的误差率。然后训练平台102根据基模型φi的误差率Ei,计算基模型的系数βi。接着,训练平台102根据基模型φi对样本数据xj的预测结果hi(xj)是否等于样本数据中的标签yj,调整权重。例如,hi(xj)=yj时,训练平台102可以在Wi(j)的基础上乘以获得更新的权重Wi+1(j);hi(xj)≠yj时,训练平台102可以在Wi(j)的基础上乘以获得更新的权重Wi+1(j)。
步骤5:管理平台100采用更新权重后的训练数据训练超网络,从该超网络中采样获得下一个基模型。
更新训练数据的权重后,权重高的训练数据有较高概率被选中用于训练超网络,获得基模型,权重低的训练数据有较低概率被选中用于训练超网络。如此,超网络可以重点基于权重高的训练数据进行训练,在该训练过程中采样得到的基模型在该类型训练数据具有较好的性能。由此,管理平台100从训练超网络过程中,获得的多个基模型可以实现性能互补,基于集成有上述多个基模型的AI集成模型所获得的AI任务的执行结果的精度可以显著提高。
进一步地,管理平台100在利用更新权重后的训练数据训练超网络,以获得下一个基模型时,可以是基于更新权重后的训练数据训练原始的超网络,也可以是基于更新权重后的训练数据,微调(fine tune)超网络。其中,微调是指对预训练模型进行小幅度的调整。具体到本实施例,管理平台100可以基于更新权重后的训练数据,对经过训练的超网络进行再训练,而无需从头开始训练超网络,从而实现超网络的微调,可以降低训练的复杂度。
当基模型的数量大于等于2,且基模型的性能均未达到预设性能时,管理平台100可以基于训练数据集和获得的多个基模型训练初始图网络模型,得到图网络模型。然后管理平台100确定图网络模型的性能是否达到预设性能,若是,则可以停止训练,根据图网络模型和多个基模型构建AI集成模型,若否,则可以继续采样新的基模型,并在新的基模型的性能未达到预设性能时,基于训练数据集和包括新的基模型在内的多个基模型训练得到图网络模型。
图1至图7所示实施例对AI集成模型的构建方法进行了详细介绍,经过上述方法构建的AI集成模型可以用于对输入数据进行推理,以用于AI任务的实现。接下来对AI集成模型的推理方法进行介绍。
AI集成模型的推理方法可以由推理装置执行。其中,推理装置可以是软件装置。该软件装置可以部署在计算设备或计算设备集群中,计算设备集群通过运行该软件装置,从而执行本申请实施例提供的AI集成模型的推理方法。在一些实施例中,推理装置也可以是硬件装置。该硬件装置运行时,执行本申请实施例提供的AI集成模型的推理方法。为了便于理解,下文以该推理装置为软件装置进行示例说明。
参见图8所示的推理装置的结构示意图,该装置800包括通信模块802、第一推理模块804、构建模块806和第二推理模块808。其中,通信模块802用于获取输入数据,第一推理模块804用于将所述输入数据分别输入每个基模型,获得每个基模型对所述输入数据进行推理后的输出,构建模块806用于将所述多个基模型的输出构建成图结构,第二推理模块808用于将图结构输入至图网络模型,基于图网络模型获得该AI集成模型的推理结果。
在一些可能的实现方式中,如图9所示,推理装置800可以部署在云环境中。如此,推理装置800可以向用户提供推理云服务,以供用户使用。具体地,用户可以通过客户端(例如是浏览器或者是专用客户端)触发启动推理装置800的操作,以在云环境中创建推理装置800的实例。然后,用户通过客户端与推理装置800的实例进行交互,以执行AI集成模型的推理方法。类似地,推理装置800也可以部署在边缘环境中,或者是部署在台式机、笔记本电脑、智能手机等用户终端中。
在另一些可能的实现方式中,推理装置800还可以分布式地部署在不同环境。例如,推理装置800的各个模块可以分布式地部署在云环境、边缘环境和端设备的任意两个环境中,或者部署在上述三个环境中。
接下来,将从推理装置800的角度对本申请实施例提供的AI集成模型的推理方法进行详细说明。
参见图10所示的AI集成模型的推理方法的流程图,该方法包括:
S1002:推理装置800获取输入数据。
具体地,推理装置800中包括AI集成模型。不同的训练数据能够构建出不同的AI集成模型,不同的AI集成模型可以用于完成不同的AI任务。例如,标注有图像的类别的训练数据可以构建出对图像进行分类的AI集成模型,标注有翻译语句的训练数据可以构建出对文本进行翻译的AI集成模型。
推理装置800可以接收用户上传的输入数据,或者是从数据源获取输入数据。根据AI任务不同,推理装置800接收的输入数据可以是不同类型。以AI任务为图像分类任务为例,推理装置800接收的输入数据可以是待分类的图像,该AI任务的目标是对图像进行分类,该AI任务的执行结果可以为图像的类别。
S1004:推理装置800将输入数据分别输入至AI集成模型中的每个基模型,获得每个基模型对输入数据进行推理后的输出。
其中,每个基模型为经过训练后的AI模型。该基模型可以是经过训练的随机森林模型或者决策树模型等,也可以是从超网络中采样得到的神经网络模型。推理装置800将输入数据分别输入每个基模型,每个基模型可以对输入数据进行特征提取,获得每个基模型对输入数据进行推理后的输出。
仍以图像分类任务示例说明,推理装置800将待分类的图像输入至AI集成模型中的每个基模型,获得每个基模型对待分类的图像进行推理后的输出。其中,每个基模型对待分类的图像进行推理后的输出为每个基模型从待分类的图像中提取的特征。
S1006:推理装置800将所述多个基模型的输出构建成图结构。
具体地,推理装置800可以确定多个基模型中每两个基模型的输出之间的相似度。其中,多个基模型的输出可以通过特征表示,因此,每两个基模型的输出之间的相似度可以通过特征之间的距离表征。推理装置800可以以多个基模型中每个基模型的输出为图结构的节点,根据每两个基模型的输出之间的相似度确定节点之间的边,然后根据上述节点和上述边构建成图结构。
其中,推理装置800可以设置相似度阈值。在一些可能的实现方式中,当两个特征的距离大于该相似度阈值时,则可以确定两个特征对应的节点之间包括边,当两个特征的距离小于或等于该相似度阈值时,则可以确定两个特征对应的节点之间不包括边。在另一些可能的实现方式中,推理装置800也可以设置任意两个节点之间包括边,然后根据特征的距离大小为各自对应的边赋予权重。
S1008:推理装置800将所述图结构输入至所述图网络模型,基于所述图网络模型获得所述AI集成模型的推理结果。
推理装置800将构建的图结构输入至图网络模型,该图网络模型可以对图结构进行处理,例如是通过图卷积网络模型对图结构进行卷积处理,从而获得AI集成模型的推理结果。AI集成模型的推理结果可以是输入数据的特征,该特征具体是图网络模型对多个基模型提取的特征进行融合所得到的融合后的特征。
在图像分类任务的示例中,推理装置800根据各个基模型从待分类的图像中提取的特征构建图结构,然后将该图结构输入至图网络模型,获得AI集成模型的推理结果。该推理结果可以是AI集成模型中的图网络模型对多个基模型提取的特征进行融合所得的融合后的特征。
S1010:推理装置800将AI集成模型的推理结果输入至决策层,将决策层的输出作为AI任务的执行结果。
针对不同AI任务,决策层可以是不同类型。例如,对于分类任务,决策层可以是分类器,对于回归任务,决策层可以是回归器。推理装置800可以输入AI集成模型的推理结果(例如是融合后的特征)至决策层进行决策,将决策层的输出作为AI任务的执行结果。
仍以AI任务为图像分类任务进行示例说明。推理装置800可以将融合后的特征输入至分类器进行分类,获得图像的类别。其中,图像的类别即为分类任务的执行结果。
需要说明的是,AI集成模型也可以用于对输入数据进行预处理,AI集成模型的推理结果作为预处理的结果。推理装置800可以将AI集成模型的推理结果,输入至下游的任务模型。该任务模型是针对特定的AI任务被训练完成的AI模型。推理装置800可以利用任务模型对推理结果进行进一步的特征提取,以及根据进一步特征提取后的特征进行决策,将所述决策获得的结果作为AI任务的执行结果。
在实际应用时,推理装置800还可以向用户呈现AI任务的执行结果,以便于用户根据该执行结果采取相应的措施,或者执行相应的动作。本申请实施例对此不作限定。
基于以上描述,本申请实施例提供了一种AI集成模型的推理方法。该方法中,推理装置800将输入数据输入多个基模型,将多个基模型的输出构建为图结构,然后通过图网络模型对图结构进行处理,以对多个基模型的输出进行融合。由于图网络模型在对图结构进行处理时,会考虑图结构中各节点的邻居节点,因此,图网络模型在对多个基模型的输出进行融合时,充分考虑了各个基模型之间的差异性和相关性,根据由图网络模型和多个基模型构建的AI集成模型所获得的AI任务的执行结果的精度可以显著提高。
上文结合图1至图10对本申请实施例提供的AI集成模型的推理方法进行了详细介绍,下面将结合附图对本申请实施例提供的装置、设备进行介绍。
参见图1所示的AI集成模型的管理平台100的结构示意图,该管理平台100(也即管理系统)包括:
交互单元102,用于获取训练数据集、初始图网络模型和多个基模型,其中,每个基模型为经过训练后的AI模型;
训练单元104,用于利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型,获得图网络模型;
构建单元106,用于将所述图网络模型和所述多个基模型构建为所述AI集成模型,其中,所述图网络模型的输入为由所述多个基模型的输出构成的图结构。
在一些可能的实现方式中,所述训练单元104在利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型的过程中,每次迭代包括:
将所述训练数据集中的第一训练数据分别输入至每个基模型,获得每个基模型对所述第一训练数据进行推理后的输出;
将所述多个基模型对所述第一训练数据进行推理后的输出构建成图结构;
利用所述图结构训练所述初始图网络模型。
在一些可能的实现方式中,所述多个基模型包括以下类型的AI模型中的一种或多种:决策树模型、随机森林模型和神经网络模型。
在一些可能的实现方式中,所述交互单元102具体用于:
通过训练单元训练超网络,从所述超网络中获得多个基模型。
在一些可能的实现方式中,所述训练单元104具体用于:
利用所述训练数据集中的训练数据训练超网络,获得第i个基模型,所述i为正整数;
根据所述第i个基模型的性能更新所述训练数据集中的训练数据的权重;
利用更新权重后的所述训练数据集中的训练数据训练所述超网络,获得第i+1个基模型。
在一些可能的实现方式中,所述训练单元104具体用于:
当所述第i个基模型在第二类别的训练数据的性能高于在第一类别的训练数据的性能时,增加所述训练数据集中的第一类别的训练数据的权重,和/或降低所述训练数据集中的第二类别的训练数据的权重。
在一些可能的实现方式中,所述训练单元104具体用于:
利用更新权重后的所述训练数据,微调所述超网络。
在一些可能的实现方式中,所述训练单元104具体用于:
确定所述多个基模型中每两个基模型对所述第一训练数据进行推理后的输出之间的相似度;
以所述多个基模型中每个基模型对所述第一训练数据进行推理后的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
在一些可能的实现方式中,所述图网络模型包括图卷积网络模型、图注意力网络模型、图自动编码器模型、图生成网络模型或者图时空网络模型中的任意一种。
在一些可能的实现方式中,所述图卷积网络模型包括由切比雪夫网络化简得到的图卷积网络模型。
根据本申请实施例的管理平台100可对应于执行本申请实施例中描述的方法,并且管理平台100的各个模块/单元的上述和其它操作和/或功能分别为了实现图4所示实施例中的各个方法的相应流程,为了简洁,在此不再赘述。
接着,参见图8所示的AI集成模型的推理装置800的结构示意图,该推理装置800包括:
通信模块802,用于获取输入数据;
第一推理模块804,用于将所述输入数据分别输入所述AI集成模型中的每个基模型,获得每个基模型对所述输入数据进行推理后的输出,其中,所述每个基模型为经过训练后的AI模型;
构建模块806,用于将所述多个基模型的输出构建成图结构;
第二推理模块808,用于将所述图结构输入至所述图网络模型,基于所述图网络模型获得所述AI集成模型的推理结果。
在一些可能的实现方式中,所述构建模块806具体用于:
确定所述多个基模型中每两个基模型的输出之间的相似度;
以所述多个基模型中每个基模型的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
在一些可能的实现方式中,所述AI集成模型的推理结果为所述输入数据的特征。
在一些可能的实现方式中,所述装置800还包括:
执行模块,用于将所述AI集成模型的推理结果输入至决策层,将所述决策层的输出作为AI任务的执行结果。
在一些可能的实现方式中,所述装置800还包括:
执行模块,用于将所述AI集成模型的推理结果输入至任务模型,利用任务模型对所述推理结果进行进一步的特征提取,以及根据进一步特征提取后的特征进行决策,将所述决策获得的结果作为AI任务的执行结果,其中,所述任务模型为针对所述AI任务被训练完成的AI模型。
根据本申请实施例的推理装置800可对应于执行本申请实施例中描述的方法,并且推理装置800的各个模块/单元的上述和其它操作和/或功能分别为了实现图10所示实施例中的各个方法的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供一种计算设备集群。该计算设备集群可以是云环境、边缘环境或者终端设备中的至少一台计算设备形成的计算设备集群。该计算设备集群具体用于实现如图1所示实施例中管理平台100的功能。
图11提供了一种计算设备集群的结构示意图,如图11所示,计算设备集群10包括多台计算设备1100,计算设备1100包括总线1101、处理器1102、通信接口1103和存储器1104。处理器1102、存储器1104和通信接口1103之间通过总线1101通信。
总线1101可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图11中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器1102可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
通信接口1103用于与外部通信。例如,通信接口1103可以用于获取训练数据集、初始图网络模型和多个基模型,或者通信接口1103用于输出基于多个基模型构建的AI集成模型。等等。
存储器1104可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器1104还可以包括非易失性存储器(non-volatilememory),例如只读存储器(read-only memory,ROM),快闪存储器,硬盘驱动器(hard diskdrive,HDD)或固态驱动器(solid state drive,SSD)。
存储器1104中存储有可执行代码,处理器1102执行该可执行代码以执行前述构建AI集成模型的方法。
具体地,在实现图1所示实施例的情况下,且图1实施例中所描述的管理平台100的各部分如交互单元102、训练单元104、构建单元106的功能为通过软件实现的情况下,执行图1中功能所需的软件或程序代码可以存储在计算设备集群10中的至少一个存储器1104中。至少一个处理器1102执行存储器1104中存储的程序代码,以使得计算设备集群1100执行前述构建AI集成模型的方法。
图12提供了一种计算设备集群的结构示意图,如图12所示,计算设备集群20包括多台计算设备1200,计算设备1200包括总线1201、处理器1202、通信接口1203和存储器1204。处理器1202、存储器1204和通信接口1203之间通过总线1201通信。
其中,总线1201、处理器1202、通信接口1203和存储器1204的具体实现可以参见图11相关内容描述。计算设备集群20中的至少一个存储器1204中存储有可执行代码,至少一个处理器1202执行该可执行代码以执行前述AI集成模型的推理方法。
本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,所述指令指示计算设备执行上述应用于管理平台100的构建AI集成模型的方法,或者指示计算设备执行上述应用于推理装置800的推理方法。
本申请实施例还提供了一种计算机程序产品。所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时,全部或部分地产生按照本申请实施例所述的流程或功能。
所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。
所述计算机程序产品可以为一个软件安装包,在需要使用前述构建AI集成模型的方法或AI集成模型的推理方法的任一方法的情况下,可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。
Claims (34)
1.一种构建人工智能AI集成模型的方法,其特征在于,包括:
获取训练数据集、初始图网络模型和多个基模型,其中,每个基模型为经过训练后的AI模型;
利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型,获得图网络模型;
将所述图网络模型和所述多个基模型构建为所述AI集成模型,其中,所述图网络模型的输入为由所述多个基模型的输出构成的图结构。
2.根据权利要求1所述的方法,其特征在于,在利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型的过程中,每次迭代包括:
将所述训练数据集中的第一训练数据分别输入至每个基模型,获得每个基模型对所述第一训练数据进行推理后的输出;
将所述多个基模型对所述第一训练数据进行推理后的输出构建成图结构;
利用所述图结构训练所述初始图网络模型。
3.根据权利要求1或2所述的方法,其特征在于,所述多个基模型包括以下类型的AI模型中的一种或多种:决策树模型、随机森林模型和神经网络模型。
4.根据权利要求1或2所述的方法,其特征在于,所述获得多个基模型包括:
训练超网络,从所述超网络中获得多个基模型。
5.根据权利要求4所述的方法,其特征在于,所述训练超网络,从所述超网络中获得多个基模型,包括:
利用所述训练数据集中的训练数据训练超网络,获得第i个基模型,所述i为正整数;
根据所述第i个基模型的性能更新所述训练数据集中的训练数据的权重;
利用更新权重后的所述训练数据集中的训练数据训练所述超网络,获得第i+1个基模型。
6.根据权利要求5所述的方法,其特征在于,所述根据所述第i个基模型的性能更新所述训练数据集中的训练数据的权重,包括:
当所述第i个基模型在第二类别的训练数据的性能高于在第一类别的训练数据的性能时,增加所述训练数据集中的第一类别的训练数据的权重,和/或降低所述训练数据集中的第二类别的训练数据的权重。
7.根据权利要求5所述的方法,其特征在于,所述利用更新权重后的所述训练数据训练所述超网络,包括:
利用更新权重后的所述训练数据,微调所述超网络。
8.根据权利要求2所述的方法,其特征在于,所述将所述多个基模型对所述第一训练数据进行推理后的输出构建成图结构,包括:
确定所述多个基模型中每两个基模型对所述第一训练数据进行推理后的输出之间的相似度;
以所述多个基模型中每个基模型对所述第一训练数据进行推理后的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
9.根据权利要求1或2所述的方法,其特征在于,所述图网络模型包括以下模型中的任意一种:图卷积网络模型、图注意力网络模型、图自动编码器模型、图生成网络模型或者图时空网络模型。
10.根据权利要求9所述的方法,其特征在于,当所述图网络模型为图卷积网络模型时,所述图卷积网络模型为由切比雪夫网络化简得到的图卷积网络模型。
11.一种人工智能AI集成模型的推理方法,其特征在于,所述方法应用于推理装置,所述AI集成模型包括图网络模型和多个基模型,包括:
获取输入数据;
将所述输入数据分别输入所述AI集成模型中的每个基模型,获得每个基模型对所述输入数据进行推理后的输出,其中,所述每个基模型为经过训练后的AI模型;
将所述多个基模型的输出构建成图结构;
将所述图结构输入至所述图网络模型,基于所述图网络模型获得所述AI集成模型的推理结果。
12.根据权利要求11所述的方法,其特征在于,所述将所述多个基模型的输出构建成图结构,包括:
确定所述多个基模型中每两个基模型的输出之间的相似度;
以所述多个基模型中每个基模型的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
13.根据权利要求11或12所述的方法,其特征在于,所述AI集成模型的推理结果为所述输入数据的特征。
14.根据权利要求13所述的方法,其特征在于,所述方法还包括:
将所述AI集成模型的推理结果输入至决策层,将所述决策层的输出作为AI任务的执行结果。
15.根据权利要求13所述的方法,其特征在于,所述方法还包括:
将所述AI集成模型的推理结果输入至任务模型,利用任务模型对所述推理结果进行进一步的特征提取,以及根据进一步特征提取后的特征进行决策,将所述决策获得的结果作为AI任务的执行结果,其中,所述任务模型为针对所述AI任务被训练完成的AI模型。
16.一种人工智能AI集成模型的管理系统,其特征在于,所述平台包括:
交互单元,用于获取训练数据集、初始图网络模型和多个基模型,其中,每个基模型为经过训练后的AI模型;
训练单元,用于利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型,获得图网络模型;
构建单元,用于将所述图网络模型和所述多个基模型构建为所述AI集成模型,其中,所述图网络模型的输入为由所述多个基模型的输出构成的图结构。
17.根据权利要求16所述的系统,其特征在于,所述训练单元在利用所述训练数据集中的训练数据和所述多个基模型,迭代训练所述初始图网络模型的过程中,每次迭代包括:
将所述训练数据集中的第一训练数据分别输入至每个基模型,获得每个基模型对所述第一训练数据进行推理后的输出;
将所述多个基模型对所述第一训练数据进行推理后的输出构建成图结构;
利用所述图结构训练所述初始图网络模型。
18.根据权利要求16或17所述的系统,其特征在于,所述多个基模型包括以下类型的AI模型中的一种或多种:决策树模型、随机森林模型和神经网络模型。
19.根据权利要求16或17所述的系统,其特征在于,所述交互单元具体用于:
通过训练单元训练超网络,从所述超网络中获得多个基模型。
20.根据权利要求19所述的系统,其特征在于,所述训练单元具体用于:
利用所述训练数据集中的训练数据训练超网络,获得第i个基模型,所述i为正整数;
根据所述第i个基模型的性能更新所述训练数据集中的训练数据的权重;
利用更新权重后的所述训练数据集中的训练数据训练所述超网络,获得第i+1个基模型。
21.根据权利要求20所述的系统,其特征在于,所述训练单元具体用于:
当所述第i个基模型在第二类别的训练数据的性能高于在第一类别的训练数据的性能时,增加所述训练数据集中的第一类别的训练数据的权重,和/或降低所述训练数据集中的第二类别的训练数据的权重。
22.根据权利要求20所述的系统,其特征在于,所述训练单元具体用于:
利用更新权重后的所述训练数据,微调所述超网络。
23.根据权利要求17所述的系统,其特征在于,所述训练单元具体用于:
确定所述多个基模型中每两个基模型对所述第一训练数据进行推理后的输出之间的相似度;
以所述多个基模型中每个基模型对所述第一训练数据进行推理后的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
24.根据权利要求16或17所述的系统,其特征在于,所述图网络模型包括以下模型中的任意一种:图卷积网络模型、图注意力网络模型、图自动编码器模型、图生成网络模型或者图时空网络模型。
25.根据权利要求24所述的系统,其特征在于,当所述图网络模型为图卷积网络模型时,所述图卷积网络模型为由切比雪夫网络化简得到的图卷积网络模型。
26.一种人工智能AI集成模型的推理装置,其特征在于,所述AI集成模型包括图网络模型和多个基模型,所述装置包括:
通信模块,用于获取输入数据;
第一推理模块,用于将所述输入数据分别输入所述AI集成模型中的每个基模型,获得每个基模型对所述输入数据进行推理后的输出,其中,所述每个基模型为经过训练后的AI模型;
构建模块,用于将所述多个基模型的输出构建成图结构;
第二推理模块,用于将所述图结构输入至所述图网络模型,基于所述图网络模型获得所述AI集成模型的推理结果。
27.根据权利要求26所述的装置,其特征在于,所述构建模块具体用于:
确定所述多个基模型中每两个基模型的输出之间的相似度;
以所述多个基模型中每个基模型的输出为图结构的节点,根据所述相似度确定所述节点之间的边,根据所述节点和所述边获得所述图结构。
28.根据权利要求26或27所述的装置,其特征在于,所述AI集成模型的推理结果为所述输入数据的特征。
29.根据权利要求28所述的装置,其特征在于,所述装置还包括:
执行模块,用于将所述AI集成模型的推理结果输入至决策层,将所述决策层的输出作为AI任务的执行结果。
30.根据权利要求28所述的装置,其特征在于,所述装置还包括:
执行模块,用于将所述AI集成模型的推理结果输入至任务模型,利用任务模型对所述推理结果进行进一步的特征提取,以及根据进一步特征提取后的特征进行决策,将所述决策获得的结果作为AI任务的执行结果,其中,所述任务模型为针对所述AI任务被训练完成的AI模型。
31.一种计算设备集群,其特征在于,所述计算设备集群包括至少一台计算设备,所述至少一台计算设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有计算机可读指令,所述至少一个处理器读取并执行所述计算机可读指令,使得所述计算设备集群执行如权利要求1至10任一项所述的方法。
32.一种计算设备集群,其特征在于,所述计算设备集群包括至少一台计算设备,所述至少一台计算设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有计算机可读指令,所述至少一个处理器执行所述计算机可读指令,使得所述计算设备集群执行如权利要求11至15任一项所述的方法。
33.一种计算机可读存储介质,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算设备或计算设备集群上运行时,使得所述计算设备或计算设备集群执行如权利要求1至15任一项所述的方法。
34.一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算设备或计算设备集群上运行时,使得所述计算设备或计算设备集群执行如权利要求1至15任一项所述的方法。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/CN2021/142269 WO2022252596A1 (zh) | 2021-05-31 | 2021-12-29 | 构建ai集成模型的方法、ai集成模型的推理方法及装置 |
EP21943948.6A EP4339832A1 (en) | 2021-05-31 | 2021-12-29 | Method for constructing ai integrated model, and inference method and apparatus of ai integrated model |
US18/524,875 US20240119266A1 (en) | 2021-05-31 | 2023-11-30 | Method for Constructing AI Integrated Model, and AI Integrated Model Inference Method and Apparatus |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2021106024796 | 2021-05-31 | ||
CN202110602479 | 2021-05-31 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115964632A true CN115964632A (zh) | 2023-04-14 |
Family
ID=87352961
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110977566.XA Pending CN115964632A (zh) | 2021-05-31 | 2021-08-24 | 构建ai集成模型的方法、ai集成模型的推理方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115964632A (zh) |
-
2021
- 2021-08-24 CN CN202110977566.XA patent/CN115964632A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110263227B (zh) | 基于图神经网络的团伙发现方法和系统 | |
EP4170553A1 (en) | Framework for optimization of machine learning architectures | |
CN111066021B (zh) | 使用随机文档嵌入的文本数据表示学习 | |
JP7478145B2 (ja) | 機械学習モデルの自動生成 | |
WO2021041133A1 (en) | Resource constrained neural network architecture search | |
WO2017206936A1 (zh) | 基于机器学习的网络模型构造方法及装置 | |
US20210256368A1 (en) | Training a neural network to create an embedding for an unlabeled vertex in a hypergraph | |
WO2019011093A1 (zh) | 机器学习模型训练方法和装置、表情图像分类方法和装置 | |
US11741375B2 (en) | Capturing the global structure of logical formulae with graph long short-term memory | |
CN116261731A (zh) | 基于多跳注意力图神经网络的关系学习方法与系统 | |
Arsov et al. | Network embedding: An overview | |
WO2022166115A1 (en) | Recommendation system with adaptive thresholds for neighborhood selection | |
Krawczyk et al. | Instance reduction for one-class classification | |
CN107491782B (zh) | 利用语义空间信息的针对少量训练数据的图像分类方法 | |
US20220101063A1 (en) | Method and apparatus for analyzing neural network performance | |
US20240119266A1 (en) | Method for Constructing AI Integrated Model, and AI Integrated Model Inference Method and Apparatus | |
CN115699041A (zh) | 利用专家模型的可扩展迁移学习 | |
WO2024040941A1 (zh) | 神经网络结构搜索方法、装置及存储介质 | |
US20210406693A1 (en) | Data sample analysis in a dataset for a machine learning model | |
US11048852B1 (en) | System, method and computer program product for automatic generation of sizing constraints by reusing existing electronic designs | |
US20230229570A1 (en) | Graph machine learning for case similarity | |
Hoya et al. | Heuristic pattern correction scheme using adaptively trained generalized regression neural networks | |
CN115964632A (zh) | 构建ai集成模型的方法、ai集成模型的推理方法及装置 | |
US20230259761A1 (en) | Transfer learning system and method for deep neural network | |
CN111914083A (zh) | 语句处理方法、装置及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |