CN112508177A - 一种网络结构搜索方法、装置、电子设备及存储介质 - Google Patents
一种网络结构搜索方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN112508177A CN112508177A CN202011471981.XA CN202011471981A CN112508177A CN 112508177 A CN112508177 A CN 112508177A CN 202011471981 A CN202011471981 A CN 202011471981A CN 112508177 A CN112508177 A CN 112508177A
- Authority
- CN
- China
- Prior art keywords
- model
- searched
- bulldozer
- guidance
- loss value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 89
- 230000004927 fusion Effects 0.000 claims abstract description 31
- 238000003062 neural network model Methods 0.000 claims abstract description 24
- 239000011159 matrix material Substances 0.000 claims description 22
- 238000009826 distribution Methods 0.000 claims description 20
- 238000004364 calculation method Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 7
- 238000012163 sequencing technique Methods 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 4
- 238000013528 artificial neural network Methods 0.000 description 34
- 230000008569 process Effects 0.000 description 30
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 6
- 230000000306 recurrent effect Effects 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 4
- 238000003058 natural language processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000004913 activation Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000750 progressive effect Effects 0.000 description 2
- 230000002787 reinforcement Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 238000004821 distillation Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种网络结构搜索方法、装置、电子设备及存储介质,该方法包括:获得多个指导模型中的每个指导模型的权重参数,并根据权重参数对待搜索结构的隐含层输出与多个指导模型的隐含层输出之间的多个推土机距离进行加权融合,获得推土机距离损失值;根据推土机距离损失值对待搜索结构进行可微分网络结构搜索,获得待搜索模型;对待搜索模型的输出结果和多个指导模型的输出结果之间的交叉熵加权融合,获得第一交叉熵,以及计算训练标签和待搜索模型的输出结果之间的第二交叉熵,并对第一交叉熵和第二交叉熵进行加权融合,获得交叉熵损失值;根据推土机距离损失值和交叉熵损失值对待搜索模型进行训练,获得神经网络模型。
Description
技术领域
本申请涉及机器学习和深度学习的技术领域,具体而言,涉及一种网络结构搜索方法、装置、电子设备及存储介质。
背景技术
网络结构搜索(Network Architecture Search,NAS),又被称为神经网络搜索或者神经网络结构搜索,是指自动生成神经网络结构的方法过程。
目前的网络结构搜索的方法包括:基于强化学习的结构搜索算法和基于进化算法的结构搜索方法,这两种网络结构搜索方法都是将网络结构搜索看作黑箱的优化问题,使用强化学习或者变异遗传的思路来找到较优的神经网络结构模型,然而在实现过程中发现,使用上述方法搜索到有效神经网络结构模型的准确率比较低。
发明内容
本申请实施例的目的在于提供一种网络结构搜索方法、装置、电子设备及存储介质,用于改善搜索到有效神经网络结构模型的准确率比较低的问题。
本申请实施例提供了一种网络结构搜索方法,包括:获得多个指导模型中的每个指导模型的权重参数,并计算待搜索结构的隐含层输出与多个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并根据权重参数对多个推土机距离进行加权融合,获得推土机距离损失值,其中,一个指导模型对应一个推土机距离;根据推土机距离损失值对待搜索结构进行可微分网络结构搜索,获得待搜索模型;对待搜索模型的输出结果和多个指导模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵,以及计算训练标签和待搜索模型的输出结果之间的第二交叉熵,并对第一交叉熵和第二交叉熵进行加权融合,获得交叉熵损失值;根据推土机距离损失值和交叉熵损失值对待搜索模型进行训练,获得搜索后的神经网络模型。在上述的实现过程中,通过使用多个指导模型来指导待搜索结构的可微分网络结构搜索的过程和待搜索模型进行训练的过程,并使用推土机距离来量化该待搜索结构与多个指导模型的在结构上的不同,有效地利用了集成学习中的多个指导模型在不同结构上的特征信息,从而提高了搜索到神经网络结构模型的准确率。
可选地,在本申请实施例中,获得多个指导模型中的每个指导模型的权重参数,包括:根据每个指导模型的准确率与多个指导模型的准确率之和的比例,确定每个指导模型的权重参数;或者,计算出待搜索结构的隐含层输出与多个指导模型中的每个指导模型的推土机距离,获得多个推土机距离,并对多个推土机距离进行归一化,获得每个指导模型的权重参数,推土机距离与权重参数之间的关系为反比例关系。在上述的实现过程中,通过根据多个指导模型中的每个指导模型的准确率与多个指导模型的准确率之和的比例,或者推土机距离之和的比例,来确定每个指导模型的权重参数;从而利用了集成学习实现群众智能,即学习了多个指导模型中准确率较高的指导模型的特征信息,有效地提高了搜索到神经网络结构模型的准确率。
可选地,在本申请实施例中,获得多个指导模型中的每个指导模型的权重参数,包括:根据每个指导模型的准确率与多个指导模型的准确率之和的比例,确定每个指导模型的第一权重参数;计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并对多个推土机距离进行归一化,获得每个指导模型的第二权重参数,推土机距离与第二权重参数之间的关系为反比例关系;对每个指导模型的第一权重参数和每个指导模型的第二权重参数进行加权融合,获得每个指导模型的权重参数。在上述的实现过程中,通过利用了集成学习实现群众智能,有效地提高了搜索到神经网络结构模型的准确率。
可选地,在本申请实施例中,计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离,包括:分别计算出待搜索结构的隐含层输出对应的第一注意力矩阵,以及每个指导模型的隐含层输出对应的第二注意力矩阵;分别计算出第一注意力矩阵对应的第一注意力分布,以及第二注意力矩阵对应的第二注意力分布;根据第一注意力分布和第二注意力分布的最小平方差,确定待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离。
可选地,在本申请实施例中,根据推土机距离损失值对待搜索结构进行可微分网络结构搜索,获得待搜索模型,包括:获取待搜索结构的多个隐含层中的每个隐含层对应的结构参数,隐含层包括多个节点,结构参数表征节点之间的连接权重;根据推土机距离损失值更新每个隐含层中的多个节点的结构参数;按照结构参数从大到小的顺序对每个隐含层对应的多个节点进行排序,获得排序后的多个节点;从排序后的多个节点中筛选出节点的结构参数的累加之和大于预设阈值的多个候选节点,并根据多个候选节点构建待搜索模型。在上述的实现过程中,使用推土机距离(EMD)来量化该待搜索结构与多个指导模型的在结构上的不同,并加入了多老师模型来指导可微分网络结构搜索的过程和待搜索模型进行训练的过程,有效地利用了集成学习实现群众智能,从而提高了搜索到神经网络结构模型的准确率。
可选地,在本申请实施例中,根据推土机距离损失值和交叉熵损失值对待搜索模型进行训练,包括:对推土机距离损失值和交叉熵损失值进行加权融合,获得总损失值;根据总损失值对待搜索模型进行训练。
本申请实施例还提供了一种网络结构搜索装置,包括:权重参数计算模块,用于获得多个指导模型中的权重参数;第一损失计算模块,用于计算待搜索结构的隐含层输出与多个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并根据权重参数对多个推土机距离进行加权融合,获得推土机距离损失值,其中,一个指导模型对应一个推土机距离;网络结构搜索模块,用于根据推土机距离损失值对待搜索结构进行可微分网络结构搜索,获得待搜索模型;第二损失计算模块,用于对待搜索模型的输出结果和多个指导模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵,以及计算训练标签和待搜索模型的输出结果之间的第二交叉熵,并对第一交叉熵和第二交叉熵进行加权融合,获得交叉熵损失值;搜索模型获得模块,用于根据推土机距离损失值和交叉熵损失值对待搜索模型进行训练,获得搜索后的神经网络模型。
可选地,在本申请实施例中,第一损失计算模块,具体用于:根据每个指导模型的准确率与多个指导模型的准确率之和的比例,确定每个指导模型的权重参数;或者,计算出待搜索结构的隐含层输出与多个指导模型中的每个指导模型的隐含层输出之间的推土机距离获得多个推土机距离,并对多个推土机距离进行归一化,获得每个指导模型的权重参数,推土机距离与权重参数之间的关系为反比例关系。
可选地,在本申请实施例中,指导模型为预训练语言模型,预训练语言模型包括:自回归语言模型或者自编码语言模型。
本申请实施例还提供了一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上面描述的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上面描述的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出的本申请实施例提供的网络结构搜索方法的流程示意图;
图2示出的本申请实施例提供的待搜索结构与指导模型进行网络结构搜索的过程示意图;
图3示出的本申请实施例提供的根据软目标和硬目标获得交叉熵损失值的过程示意图;
图4示出的本申请实施例提供的网络结构搜索装置的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整的描述。
在介绍本申请实施例提供的网络结构搜索方法之前,先介绍本申请实施例中所涉及的一些概念:
可微分结构搜索(Differentiable Architecture Search,DARTS),是指将网络空间表示为一个有向无环图,其关键是将节点连接和激活函数通过一种巧妙的表示组合成了一个矩阵,其中每个元素代表了连接和激活函数的权重,在搜索时使用了Softmax函数,这样就将搜索空间变成了连续空间,目标函数成为了可微函数。
卷积神经网络(Convolutional Neural Networks,CNN),是一种人工神经网络,人工神经网络的人工神经元可以响应周围单元,可以进行大型图像处理;卷积神经网络可以包括卷积层和池化层。
循环神经网络(Recurrent Neural Network,RNN),又称递归神经网络,是一类以序列数据为输入,在序列的演进方向进行递归(recursion)且所有节点(循环单元)按链式连接的递归神经网络(recursive neural network);循环神经网络的核心部分是一个有向图。
集成学习是指通过将不同的神经网络模型组合成一个元神经网络模型,此处的不同的神经网络模型可以是相同类型的神经网络模型,具体例如:将第一CNN模型和第二CNN模型进行集成学习,也可以是不同类型的神经网络模型,具体例如:将CNN模型和RNN模型进行集成学习,与单个神经网络模型相比,元神经网络模型具有更好的泛化性能。集成学习有时也被称为多神经网络模型系统等,其一般结构为:先训练一组个体学习器,再使用某种策略将它们结合起来。
预训练语言模型,又被简称为预训练模型,是指将大量的文本语料作为训练数据,使用训练数据对神经网络进行监督机器学习、半监督机器学习或者无监督机器学习,获得的神经网络模型,这里的预训练模型蕴含着语言模型中的文本结构关系。
交叉熵(cross entropy,CE),是指描述两个近似概率分布的差异程度;在自然语言处理研究中,交叉熵常被用来评价和对比统计语言模型,用来衡量统计语言模型是否反映了语言数据的真实分布。
需要说明的是,本申请实施例提供的网络结构搜索方法可以被电子设备执行,这里的电子设备是指具有执行计算机程序功能的设备终端或者上述的服务器,设备终端例如:智能手机、个人电脑(personal computer,PC)、平板电脑、个人数字助理(personaldigital assistant,PDA)、移动上网设备(mobile Internet device,MID)、网络交换机或网络路由器等。
在介绍本申请实施例提供的网络结构搜索方法之前,先介绍该网络结构搜索方法适用的应用场景,这里的应用场景包括但不限于:基于深度学习的自然语言处理(NaturalLanguage Processing,NLP)、图像识别和声音识别等等场景,具体例如:针对具体的任务使用该神经网络结构搜索方法获得搜索后的神经网络模型,并使用神经网络模型完成该任务等,常见的自然语言处理任务例如:依存句法分析、命名实体识别和词性标注等等。
本申请实施例提供的网络结构搜索方法的主要思路是,通过使用多个指导模型来指导待搜索结构的可微分网络结构搜索的过程和待搜索模型进行训练的过程,并使用推土机距离(Earth Mover Distance,EMD)来量化该待搜索结构与多个指导模型的在结构上的不同,有效地利用了集成学习中的多个指导模型在不同结构上的特征信息,从而提高了搜索到神经网络结构模型的准确率。
请参见图1示出的本申请实施例提供的网络结构搜索方法的流程示意图;在具体的实践过程中,下面的权重参数和推土机距离等等都是在网络结构搜索的循环迭代过程中动态变化计算的,而不是一个静态的值,也就是说,下面的每个步骤均可以执行多次,动态地计算权重参数和推土机距离;上述的网络结构搜索方法可以包括:
步骤S110:获得多个指导模型中的每个指导模型的权重参数,多个指导模型用于指导待搜索结构,该权重参数用于计算推土机距离损失值。
需要说明的是,步骤S110中的权重参数不是指节点权重、结构参数权重和模型内部的网络参数权重,而是指导模型在计算推土机距离损失值时的权重参数;也就是说,此处计算出的权重参数将在下面的步骤S120中使用。
待搜索结构,是指需要被可微分结构搜索(DARTS)出的神经网络结构,其中,在搜索过程中,DARTS会遍历全部节点,使用节点上全部连接的加权进行计算,可以先优化结构权重,再优化网络权重;当然也可以同时优化结构权重和网络权重。当然除了使用DARTS,也可以根据具体实际情况使用渐进的可微分网络结构搜索(Progressive DifferentiableArchitecture Search,P-DARTS)来获得待搜索结构,或者结合强化学习和集成学习等方式来加快获得待搜索结构的速度。
指导模型,又被称为老师(Teacher)模型,是指网络结构比待搜索模型复杂的神经网络模型,可以用于根据指导模型对待搜索模型进行蒸馏学习;此处的指导模型可以是预训练语言模型,也可以选择两个、三个或者三个以上预训练语言模型作为指导模型,预训练语言模型包括:自回归语言模型或者自编码语言模型,可以使用的预训练语义模型例如:GloVe、word2vec和fastText等模型。
上述步骤S110的实施方式,包括但不限于如下几种:
第一种实施方式,根据准确率(Accuracy)来确定指导模型的权重参数,此处的准确率是指使用测试数据集对神经网络模型进行验证,具体例如:测试数据集包括:文本内容和该文本内容对应的分类标签(例如:积极的文章或消极的文章),那么使用该神经网络模型对文本内容的分类进行预测,获得预测标签;若该预测标签和分类标签相同,那么说明该文本内容的预测结果是正确的;相反,若该预测标签于分类标签不同,那么说明书该文本内容的预测结果是错误的,当所有的文本内容均被预测并比较后,即可获知该神经网络模型的准确率;该实施方式具体例如:根据多个指导模型中的每个指导模型的准确率与此多个指导模型的准确率之和的比例,确定每个指导模型的权重参数;具体例如:多个指导模型为两个指导模型:第一指导模型和第二指导模型,且第一指导模型的准确率是96,第二指导模型的准确率是88,那么容易算出第一指导模型的权重为96/(96+88)=52.17%,而第二指导模型的权重为88/(96+88)=47.83%。
第二种实施方式,根据推土机距离确定指导模型的权重参数,该实施方式具体例如:计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并对多个推土机距离进行归一化,获得每个指导模型的权重参数;具体的归一化过程例如:假设有两个指导模型:第一指导模型和第二指导模型,将第一指导模型和第二指导模型分别与待搜索结构之间的推土机距离分别为a和b,那么可以根据公式对多个推土机距离进行归一化,其中,W为归一化后的权重参数数组;具体地,假设a为1且b为2,那么可以根据公式获得这两个指导模型的权重参数(保留两位小数),即第一指导模型的权重参数为0.67,第二指导模型的权重参数为0.32。同理地,假设有三个指导模型:第一指导模型、第二指导模型和第三指导模型,它们分别与待搜索结构之间的推土机距离分别为a=2、b=3和c=5,那么可以根据公式对多个推土机距离进行归一化,分别获得三个指导模型的权重参数(保留两位小数)。由此可以看出,推土机距离与权重参数之间的关系为反比例关系,因此在具体实践过程中,如果有更多的指导模型,可以根据推土机距离与权重参数之间的关系为反比例关系的思路依次扩展,指导模型具体的数量不应理解为对本申请实施例的限制。
上述计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离的实施方式例如:根据待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离;其中,HT是指导模型,HS是待搜索模型,EMD(HT,HS)是指导模型与待搜索结构之间的推土机距离,也可以根据具体情况简写为EMD,fij是使用动态规划算法计算出来的转移矩阵,Dij是指导模型的第j隐含层输出和待搜索模型的第i隐含层输出之间的均方误差。
第三种实施方式,根据推土机距离确定指导模型的权重参数,该实施方式具体可以包括:
步骤S111:根据每个指导模型的准确率与多个指导模型的准确率之和的比例,确定每个指导模型的第一权重参数。
其中,该步骤S111的实施原理和实施方式与上面第一种实施方式的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对第一种实施方式的描述。
步骤S112:计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并对多个推土机距离进行归一化,获得每个指导模型的第二权重参数。
上述步骤S112中的计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离的实施方式例如:首先,根据公式O·OT=XS计算出待搜索结构的隐含层输出对应的第一注意力矩阵,以及根据公式O·OT=XT计算出每个指导模型的隐含层输出对应的第二注意力矩阵,其中,O表示模型的隐含层输出的特征矩阵,OT表示模型的隐含层输出的特征矩阵的倒置,XS代表待搜索结构对应的第一注意力矩阵,XT代表每个指导模型对应的第二注意力矩阵;然后,根据计算出第一注意力矩阵对应的第一注意力分布,其中,XS代表待搜索结构对应的第一注意力矩阵,d为待搜索结构的隐含层总数量,softmax代表归一化指数函数,AS代表第一注意力分布;以及,根据计算出第二注意力矩阵对应的第二注意力分布,其中,XT代表每个指导模型对应的第二注意力矩阵,d为待搜索结构的隐含层总数量,softmax代表归一化指数函数,AT代表第二注意力分布;根据计算第一注意力分布和第二注意力分布的均方误差,其中,代表待搜索结构的第i个隐含层的第一注意力分布和指导模型的第j个隐含层的第二注意力分布之间的均方误差,Ai S代表待搜索结构的第i个隐含层的第一注意力分布,Aj T代表指导模型的第j个隐含层的第二注意力分布;根据确定待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离;其中,EMD(HT,HS)是指导模型与待搜索结构之间的推土机距离,fij是使用动态规划算法计算出来的转移矩阵,Dij是指导模型的第j隐含层输出和待搜索模型的第i隐含层输出之间的均方误差。最后,根据公式对多个推土机距离进行归一化,获得每个指导模型的权重参数;其中,Q2表示归一化后的推土机距离,X表示当前未被归一化的推土机距离,Xmax表示多个推土机距离中的最大推土机距离,Xmax表示多个推土机距离中的最小推土机距离。
步骤S113:对每个指导模型的第一权重参数和每个指导模型的第二权重参数进行加权融合,获得每个指导模型的权重参数。
上述步骤S113的实施方式例如:根据公式Q=α×Q1+(1-α)×Q2对每个指导模型的第一权重参数和每个指导模型的第二权重参数进行加权融合,获得每个指导模型的权重参数;其中,Q代表每个指导模型的权重参数,Q1代表指导模型的第一权重参数,Q2代表指导模型的第二权重参数,α代表第一权重参数的权值,且α的取值是0至1,(1-α)可以代表第二权重参数的权值。
在上述的实现过程中,通过根据多个指导模型中的每个指导模型的准确率与多个指导模型的准确率之和的比例,或者推土机距离之和的比例,来确定每个指导模型的权重参数;从而利用了集成学习实现群众智能,即学习了多个指导模型中准确率较高的指导模型的特征信息,有效地提高了搜索到神经网络结构模型的准确率。
在步骤S110之后,执行步骤S120:计算待搜索结构的隐含层输出与多个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并根据权重参数对多个推土机距离进行加权融合,获得推土机距离损失值。
其中,一个待搜索结构的隐含层输出与一个指导模型的隐含层输出之间计算得到一个推土机距离,也就是说,一个待搜索结构与每个指导模型之间都计算出一个推土机距离,因此,一个指导模型对应一个推土机距离;上述的多个指导模型可以包括两个、三个、五个或者更多个指导模型,为了便于理解和说明,下面以指导模型是两个的情况进行说明,这两个指导模型包括:第一指导模型和第二指导模型;上述步骤S120的实施方式可以包括:
步骤S121:计算待搜索结构的隐含层输出与多个指导模型的每个指导模型的隐含层输出之间的推土机距离,获得每个指导模型的推土机距离。
其中,该步骤S121的实施原理和实施方式与步骤S112的实施原理和实施方式是类似的,因此,这里不再对该步骤的实施方式和实施原理进行说明,如有不清楚的地方,可以参考对步骤S112的描述。
步骤S122:根据每个指导模型的推土机距离和每个指导模型的权重参数计算推土机距离损失值。
请参见图2示出的本申请实施例提供的待搜索结构与指导模型进行网络结构搜索的过程示意图;上述步骤S122的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,指导模型是两个:第一指导模型和第二指导模型,那么可以根据EMDLoss=EMD1×W+EMD2×(1-W)计算推土机距离损失值;其中,EMDLoss为推土机距离损失值,EMD1为第一指导模型的推土机距离,EMD2为第二指导模型的推土机距离,W为第一指导模型的权重参数,1-W为第二指导模型的权重参数。
第二种实施方式,指导模型是三个:第一指导模型、第二指导模型和第三指导模型,那么可以根据EMDLoss=EMD1×W1+EMD2×W2+EMD3(1-W1-W2)计算推土机距离损失值;其中,EMDLoss为推土机距离损失值,EMD1为第一指导模型的推土机距离,EMD2为第二指导模型的推土机距离,EMD3为第三指导模型的推土机距离,W1为第一指导模型的权重参数,W2为第二指导模型的权重参数,1-W1-W2为第三指导模型的权重参数。
在步骤S120之后,执行步骤S130:根据推土机距离损失值对待搜索结构进行可微分网络结构搜索,获得待搜索模型。
上述步骤S130的实施方式可以包括:
步骤S131:获取待搜索结构的多个隐含层中的每个隐含层对应的结构参数。
其中,隐含层包括多个节点,每个节点包括多个神经网络基础单元,多个隐含层可以通过节点连接,节点之间也可以通过神经网络基础单元连接,具体是否连接需要由每个神经网络基础单元、节点或者隐含层所对应的结构参数来确定。上述的结构参数表征神经网络基础单元、节点或者隐含层之间的连接概率,也可以理解为结构参数是表征神经网络基础单元、节点或者隐含层之间的连接权重;此处的连接概率具体计算方式例如:根据计算神经网络基础单元、节点或者隐含层之间的连接概率;其中,i表示第i个神经网络基础单元、节点或者隐含层,j表示第j个神经网络基础单元、节点或者隐含层,O表示每个节点中的操作集合,即每个节点中的神经网络基础单元集合,o表示每个节点的操作集合中的具体操作,α表示对应的结构参数。
上述步骤S131的实施方式例如:对待搜索结构进行可微分网络结构搜索(DARTS)或者渐进的可微分网络结构搜索(P-DARTS)处理,并实时获取待搜索结构的多个隐含层输出与指导模型的多个隐含层输出之间的推土机距离损失值;获取待搜索结构的多个隐含层中的每个隐含层对应的结构参数,此处的预设阈值可以根据具体情况进行设置。
步骤S132:根据推土机距离损失值更新每个隐含层中的多个节点的结构参数。
步骤S133:按照结构参数从大到小的顺序对每个隐含层对应的多个节点进行排序,获得排序后的多个节点。
需要说明的是,按照结构参数从大到小的顺序对每个隐含层对应的多个节点进行排序是为了能够更快地计算出节点的结构参数的累加之和大于预设阈值的多个候选节点,具体例如:假设共有三个节点,这三个节点的结构参数分别为0.3、0.4和0.5,且预设阈值为0.8,若在没有从大到小排序的情况下,需要从三个节点中找到最大值取出0.5,再将两个节点中取出最大值0.4,两次取出的最大值之和为0.9超过了预设阈值。在数量非常多的情况下,此处的查找操作需要执行很多次,而如果数量非常多且已经按照从大到小排序的情况下,可以使用数学算法判断出前面的多少个节点累加之和大于预设阈值,常见的快速算法例如二分法等等。步骤S134:从排序后的多个节点中筛选出节点的结构参数的累加之和大于预设阈值的多个候选节点,并根据多个候选节点构建待搜索模型。
上述步骤S132至步骤S134的实施方式例如:首先,根据推土机距离损失值更新每个隐含层中的多个节点的结构参数,也可以同时更新结构参数和网络模型参数,也就是说,在具体实践过程中,可以单独更新结构参数,也可以将结构参数和网络模型参数一起更新;然后,按照结构参数从大到小的顺序对每个隐含层对应的多个节点进行排序,获得排序后的多个节点;最后,从排序后的多个节点中筛选出节点的结构参数的累加之和大于预设阈值的多个候选节点,并根据多个候选节点构建待搜索模型;其中,预设阈值可以根据具体的情况进行设置,可以设置为0.6、0.7或者0.8等等,具体例如:假设共有三个节点,这三个节点的结构参数分别为0.3、0.4和0.5,且预设阈值为0.6,那么对按照结构参数从大到小的顺序对每个隐含层对应的三个节点进行排序后,获得排序后的三个节点的排序参数为0.5、0.4和0.3,由此可以看出,前两个结构参数之和(0.5+0.4)已经大于预设阈值0.6,因此,将前两个节点筛选出来,然后将每个隐含层中的节点都按照这种方式进行处理,最后由这些节点即可构建出待搜索模型。
在步骤S130之后,执行步骤S140:对待搜索模型的输出结果和多个指导模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵,以及计算训练标签和待搜索模型的输出结果之间的第二交叉熵,并对第一交叉熵和第二交叉熵进行加权融合,获得交叉熵损失值。
训练标签,是指对待搜索模型进行训练时所使用的训练数据集中的训练标签,该训练数据集中还包括训练数据,其中,训练数据和训练标签是对应的,具体例如:假设待搜索模型是用于对文本内容进行情感分类的神经网络模型,那么可以使用文本内容和该文本内容对应的分类标签(例如:积极的文章或消极的文章)训练该神经网络模型,此处的文本内容就是训练数据,此处的分类标签就是训练标签,为了方便存储和压缩传输,可以将很多文本内容和该文本内容对应的分类标签作为训练数据集,将训练数据集作为整体一起存储和压缩传输。
上述步骤S140中的训练标签的获得方式包括:第一种获得方式,接收其它终端设备发送的训练标签,将训练标签存储至文件系统、数据库或移动存储设备中;第二种获得方式,获取预先存储的训练标签,具体例如:从文件系统中获取训练标签,或者从数据库中获取训练标签,或者从移动存储设备中获取训练标签;第三种获得方式,使用浏览器等软件获取互联网上的训练标签,或者使用其它应用程序访问互联网获得训练标签。
上述步骤S140中的计算待搜索模型的输出结果和指导模型的输出结果之间的第一交叉熵的实施方式例如:获得训练标签以及该训练标签对应的训练数据;使用待搜索模型对训练数据进行预测,即使用待搜索模型中的神经网络基础单元对训练数据进行一系列计算,获得待搜索模型的输出结果;同理地,使用多个指导模型对训练数据进行预测,获得多个指导模型的输出结果;为了便于理解和说明,这里以两个指导模型为例(在实际过程中还可以选择更多的指导模型个数),此处的两个指导模型包括:第一指导模型和第二指导模型,然后根据上面获得权重参数的三种实施方式中的任一种获得每个指导模型的权重参数,并使用公式CE(p,q)=w×CE1(p,q1)+(1-w)×CE2(p,q2)对多个指导模型的输出结果和待搜索模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵;其中,p是待搜索模型的输出结果,q是所有指导模型的输出结果,CE(p,q)代表第一交叉熵,w是第一指导模型的权重参数,q1是第一指导模型的输出结果,CE1(p,q1)代表第一指导模型的输出结果和待搜索模型的输出结果之间的交叉熵,(1-w)是第二指导模型的权重参数,q2是第二指导模型的输出结果,CE2(p,q2)代表第二指导模型的输出结果和待搜索模型的输出结果之间的交叉熵。
上述步骤S140中的计算训练标签和待搜索模型的输出结果之间的第二交叉熵的实施方式例如:获得训练标签以及该训练标签对应的训练数据;使用待搜索模型对训练数据进行预测,即使用待搜索模型中的神经网络基础单元对训练数据进行一系列计算,获得待搜索模型的输出结果;根据CE(p,y)计算训练标签和待搜索模型的输出结果之间的第二交叉熵;其中,p是待搜索模型的输出结果,y是训练标签,CE(p,y)是第二交叉熵。
上述步骤S140中的对第一交叉熵和第二交叉熵计算交叉熵进行加权融合,获得交叉熵损失值的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,请参见图3示出的本申请实施例提供的根据软目标和硬目标获得交叉熵损失值的过程示意图;结合软目标和硬目标来计算上述的交叉熵损失值,当然在具体的实施过程中,可以使用可调整参数来调整软目标和硬目标的比重,从而避免了直接只使用硬目标来获得交叉熵损失值,使得获得的交叉熵损失值更加准确;该实施方式例如:可以根据LKD=(1-α)CE(p,y)+aCE(p,q)对第一交叉熵和第二交叉熵进行加权融合,获得交叉熵损失值;其中,LKD是交叉熵损失值,α是第一可调整参数,p是待搜索模型的输出结果,q是指导模型的输出结果,y是训练标签,CE(p,y)是待搜索模型的输出结果与指导模型的输出结果之间的交叉熵,由于训练标签通常是人工识别并设置的整数标签,此处的整数标签具体例如:1代表是某种动物类别,0代表不是某种动物类别;在模型训练的具体场景中,由训练标签确定的第一交叉熵也通常被称为硬目标(hard target),CE(p,q)是训练标签与待搜索模型的输出结果之间的第二交叉熵,而待搜索模型的输出结果和指导模型的输出结果均是模型输出的小数标签,在模型训练的具体场景中,由待搜索模型的输出结果和指导模型的输出结果确定的交叉熵也通常被称为软目标(soft target)。
第二种实施方式,直接使用待搜索模型的输出结果与指导模型的输出结果之间的第一交叉熵作为交叉熵损失对待搜索模型进行训练一段时间,或者使用第一交叉熵作为交叉熵损失对待搜索模型进行训练直到训练批次(epoch)数量达到预设阈值或者直到待搜索模型的准确率达到预设比例后,再使用训练标签与待搜索模型的输出结果之间的第二交叉熵作为交叉熵损失对待搜索模型进行训练,直到训练批次(epoch)数量达到预设阈值或者直到待搜索模型的准确率达到预设比例即可停止训练,其中,上述的第一交叉熵和第二交叉熵的计算方式与上面的描述类似,因此,这里便不再赘述。
在步骤S140之后,执行步骤S150:根据推土机距离损失值和交叉熵损失值对待搜索模型进行训练,获得搜索后的神经网络模型。
上述步骤S150的实施方式有很多种,包括但不限于如下几种:
第一种实施方式,先计算总损失值,再根据总损失值来对待搜索模型进行训练;也就是说,对推土机距离损失值和交叉熵损失值进行加权融合,获得总损失值,根据总损失值对待搜索模型进行训练;具体例如:根据Loss=LKD+β·EMD(HT,HS)对待搜索模型进行训练;其中,EMD(HT,HS)是推土机距离损失值,LKD是交叉熵损失值,β为第二可调整参数,Loss为总损失值。
第二种实施方式,使用单样本方式或者批次样本的训练方式对待搜索模型进行训练,该实施方式具体例如:使用单样本方式或者批次样本的训练方式对待搜索模型进行训练。其中,此处的单样本方式是指每次只输入一个样本,计算出所有已输入样本的均方误差,再进行一次待搜索模型中的网络参数权重调整,然后依次训练其他的样本,直到模型的网络权重参数收敛。上述的批次样本的训练方式是指将所有的样本分为多个批次,依照一定的顺序将每个批次输入待搜索模型,从而先计算出每个批次中样本的均方误差,然后累加所有样本的均方误差,最后进行一次全局权值的调整。
第三种实施方式,使用监督式学习或者半监督学习的方式,对待搜索模型进行训练;其中,监督式学习(Supervised learning)又被称为监督式训练,是机器学习的一种学习范式,可以由训练资料中学到或建立一个学习模式(learning model)或学习函数,并依此模式推测新的实例。无监督学习(unsupervised learning)又被称为无监督式训练,是指机器学习的一种方法学习范式,没有给定事先标记过的训练示例,自动对输入的数据进行分类或分群;而半监督学习是指介于监督学习和无监督学习之间的一种学习范式。
在上述的实现过程中,通过使用多个指导模型来指导待搜索结构的可微分网络结构搜索的过程和待搜索模型进行训练的过程,并使用推土机距离(EMD)来量化该待搜索结构与多个指导模型的在结构上的不同,有效地利用了集成学习中的多个指导模型在不同结构上的特征信息,也就是说,加入了多老师模型来指导可微分网络结构搜索的过程和待搜索模型进行训练的过程,有效地利用了集成学习实现群众智能,从而提高了搜索到神经网络结构模型的准确率。
请参见图4示出的本申请实施例提供的网络结构搜索装置的结构示意图;本申请实施例提供了一种网络结构搜索装置200,包括:
权重参数计算模块210,用于获得多个指导模型中的权重参数。
第一损失计算模块220,用于计算待搜索结构的隐含层输出与多个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并根据权重参数对多个推土机距离进行加权融合,获得推土机距离损失值,其中,一个指导模型对应一个推土机距离。
网络结构搜索模块230,用于根据推土机距离损失值对待搜索结构进行可微分网络结构搜索,获得待搜索模型。
第二损失计算模块240,用于对待搜索模型的输出结果和多个指导模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵,以及计算训练标签和待搜索模型的输出结果之间的第二交叉熵,并对第一交叉熵和第二交叉熵进行加权融合,获得交叉熵损失值。
搜索模型获得模块250,用于根据推土机距离损失值和交叉熵损失值对待搜索模型进行训练,获得搜索后的神经网络模型。
可选地,在本申请实施例中,权重参数计算模块,具体用于:
根据每个指导模型的准确率与多个指导模型的准确率之和的比例,确定每个指导模型的权重参数;或者,计算出待搜索结构的隐含层输出与每个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并对多个推土机距离进行归一化,获得每个指导模型的权重参数,推土机距离与权重参数之间的关系为反比例关系。
可选地,在本申请实施例中,搜索模型获得模块,包括:
总损失值获得模块,用于对推土机距离损失值和交叉熵损失值进行加权融合,获得总损失值。
搜索模型训练模块,用于根据总损失值对待搜索模型进行训练。
可选地,在本申请实施例中,指导模型可以是预训练语言模型,预训练语言模型可以包括:自回归语言模型或者自编码语言模型。
应理解的是,该装置与上述的网络结构搜索方法实施例对应,能够执行上述方法实施例涉及的各个步骤,该装置具体的功能可以参见上文中的描述,为避免重复,此处适当省略详细描述。该装置包括至少一个能以软件或固件(firmware)的形式存储于存储器中或固化在装置的操作系统(operating system,OS)中的软件功能模块。
本申请实施例提供的一种电子设备,包括:处理器和存储器,存储器存储有处理器可执行的机器可读指令,机器可读指令被处理器执行时执行如上的方法。
本申请实施例还提供了一种存储介质,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上的方法;其中,存储介质可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器,电可擦除可编程只读存储器,可擦除可编程只读存储器,可编程只读存储器,只读存储器,磁存储器,快闪存储器,磁盘或光盘。
本申请实施例提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其他的方式实现。以上所描述的装置实施例仅是示意性的,例如,附图中的流程图和框图显示了根据本申请实施例的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上的描述,仅为本申请实施例的可选实施方式,但本申请实施例的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请实施例揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请实施例的保护范围之内。
Claims (10)
1.一种网络结构搜索方法,其特征在于,包括:
获得多个指导模型中的每个指导模型的权重参数;
计算待搜索结构的隐含层输出与所述多个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并根据所述权重参数对所述多个推土机距离进行加权融合,获得推土机距离损失值,其中,一个所述指导模型对应一个所述推土机距离;
根据所述推土机距离损失值对所述待搜索结构进行可微分网络结构搜索,获得待搜索模型;
对所述待搜索模型的输出结果和所述多个指导模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵,以及计算训练标签和所述待搜索模型的输出结果之间的第二交叉熵,并对所述第一交叉熵和所述第二交叉熵进行加权融合,获得交叉熵损失值;
根据所述推土机距离损失值和所述交叉熵损失值对所述待搜索模型进行训练,获得搜索后的神经网络模型。
2.根据权利要求1所述的方法,其特征在于,所述获得多个指导模型中的每个指导模型的权重参数,包括:
根据所述每个指导模型的准确率与所述多个指导模型的准确率之和的比例,确定所述每个指导模型的权重参数;
或者,
计算出所述待搜索结构的隐含层输出与所述每个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并对所述多个推土机距离进行归一化,获得所述每个指导模型的权重参数,所述推土机距离与所述权重参数之间的关系为反比例关系。
3.根据权利要求1所述的方法,其特征在于,所述获得多个指导模型中的每个指导模型的权重参数,包括:
根据所述每个指导模型的准确率与所述多个指导模型的准确率之和的比例,确定所述每个指导模型的第一权重参数;
计算出所述待搜索结构的隐含层输出与所述每个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并对所述多个推土机距离进行归一化,获得所述每个指导模型的第二权重参数,所述推土机距离与所述第二权重参数之间的关系为反比例关系;
对所述每个指导模型的第一权重参数和所述每个指导模型的第二权重参数进行加权融合,获得所述每个指导模型的权重参数。
4.根据权利要求3所述的方法,其特征在于,所述计算出所述待搜索结构的隐含层输出与所述每个指导模型的隐含层输出之间的推土机距离,包括:
分别计算出所述待搜索结构的隐含层输出对应的第一注意力矩阵,以及所述每个指导模型的隐含层输出对应的第二注意力矩阵;
分别计算出所述第一注意力矩阵对应的第一注意力分布,以及所述第二注意力矩阵对应的第二注意力分布;
根据所述第一注意力分布和所述第二注意力分布的最小平方差,确定所述待搜索结构的隐含层输出与所述每个指导模型的隐含层输出之间的推土机距离。
5.根据权利要求1所述的方法,其特征在于,所述根据所述推土机距离损失值对所述待搜索结构进行可微分网络结构搜索,获得待搜索模型,包括:
获取所述待搜索结构的多个隐含层中的每个隐含层对应的结构参数,所述隐含层包括多个节点,所述结构参数表征节点之间的连接权重;
根据所述推土机距离损失值更新所述每个隐含层中的多个节点的结构参数;
按照结构参数从大到小的顺序对所述每个隐含层对应的多个节点进行排序,获得排序后的多个节点;
从所述排序后的多个节点中筛选出节点的结构参数的累加之和大于预设阈值的多个候选节点,并根据所述多个候选节点构建所述待搜索模型。
6.根据权利要求1所述的方法,其特征在于,所述根据所述推土机距离损失值和所述交叉熵损失值对所述待搜索模型进行训练,包括:
对所述推土机距离损失值和所述交叉熵损失值进行加权融合,获得总损失值;
根据所述总损失值对所述待搜索模型进行训练。
7.根据权利要求1-6任一所述的方法,其特征在于,所述指导模型为预训练语言模型,所述预训练语言模型包括:自回归语言模型或者自编码语言模型。
8.一种网络结构搜索装置,其特征在于,包括:
权重参数计算模块,用于获得多个指导模型中的权重参数;
第一损失计算模块,用于计算待搜索结构的隐含层输出与所述多个指导模型的隐含层输出之间的推土机距离,获得多个推土机距离,并根据所述权重参数对所述多个推土机距离进行加权融合,获得推土机距离损失值,其中,一个所述指导模型对应一个所述推土机距离;
网络结构搜索模块,用于根据所述推土机距离损失值对所述待搜索结构进行可微分网络结构搜索,获得待搜索模型;
第二损失计算模块,用于对所述待搜索模型的输出结果和所述多个指导模型的输出结果之间的交叉熵进行加权融合,获得第一交叉熵,以及计算训练标签和所述待搜索模型的输出结果之间的第二交叉熵,并对所述第一交叉熵和所述第二交叉熵进行加权融合,获得交叉熵损失值;
搜索模型获得模块,用于根据所述推土机距离损失值和所述交叉熵损失值对所述待搜索模型进行训练,获得搜索后的神经网络模型。
9.一种电子设备,其特征在于,包括:处理器和存储器,所述存储器存储有所述处理器可执行的机器可读指令,所述机器可读指令被所述处理器执行时执行如权利要求1至7任一所述的方法。
10.一种存储介质,其特征在于,该存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如权利要求1至7任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011471981.XA CN112508177A (zh) | 2020-12-11 | 2020-12-11 | 一种网络结构搜索方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011471981.XA CN112508177A (zh) | 2020-12-11 | 2020-12-11 | 一种网络结构搜索方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508177A true CN112508177A (zh) | 2021-03-16 |
Family
ID=74973225
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011471981.XA Pending CN112508177A (zh) | 2020-12-11 | 2020-12-11 | 一种网络结构搜索方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508177A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949832A (zh) * | 2021-03-25 | 2021-06-11 | 鼎富智能科技有限公司 | 一种网络结构搜索方法、装置、电子设备及存储介质 |
CN114117206A (zh) * | 2021-11-09 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 推荐模型处理方法、装置、电子设备及存储介质 |
US20240137286A1 (en) * | 2022-10-25 | 2024-04-25 | International Business Machines Corporation | Drift detection in edge devices via multi-algorithmic deltas |
-
2020
- 2020-12-11 CN CN202011471981.XA patent/CN112508177A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112949832A (zh) * | 2021-03-25 | 2021-06-11 | 鼎富智能科技有限公司 | 一种网络结构搜索方法、装置、电子设备及存储介质 |
CN112949832B (zh) * | 2021-03-25 | 2024-04-16 | 鼎富智能科技有限公司 | 一种网络结构搜索方法、装置、电子设备及存储介质 |
CN114117206A (zh) * | 2021-11-09 | 2022-03-01 | 北京达佳互联信息技术有限公司 | 推荐模型处理方法、装置、电子设备及存储介质 |
CN114117206B (zh) * | 2021-11-09 | 2023-05-30 | 北京达佳互联信息技术有限公司 | 推荐模型处理方法、装置、电子设备及存储介质 |
US20240137286A1 (en) * | 2022-10-25 | 2024-04-25 | International Business Machines Corporation | Drift detection in edge devices via multi-algorithmic deltas |
US11991050B2 (en) * | 2022-10-25 | 2024-05-21 | International Business Machines Corporation | Drift detection in edge devices via multi-algorithmic deltas |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109408731B (zh) | 一种多目标推荐方法、多目标推荐模型生成方法以及装置 | |
CN111406267B (zh) | 使用性能预测神经网络的神经架构搜索 | |
EP3711000B1 (en) | Regularized neural network architecture search | |
CN111582694B (zh) | 一种学习评估方法及装置 | |
CN111612134B (zh) | 神经网络结构搜索方法、装置、电子设备及存储介质 | |
Muhammad et al. | SUPERVISED MACHINE LEARNING APPROACHES: A SURVEY. | |
CN109766557B (zh) | 一种情感分析方法、装置、存储介质及终端设备 | |
CN112508177A (zh) | 一种网络结构搜索方法、装置、电子设备及存储介质 | |
CN109376222A (zh) | 问答匹配度计算方法、问答自动匹配方法及装置 | |
US20190286978A1 (en) | Using natural language processing and deep learning for mapping any schema data to a hierarchical standard data model (xdm) | |
US11599666B2 (en) | Smart document migration and entity detection | |
US11624624B2 (en) | Methods and apparatuses for predicting user destinations | |
US20190228297A1 (en) | Artificial Intelligence Modelling Engine | |
CN114358657B (zh) | 一种基于模型融合的岗位推荐方法及装置 | |
Gnanasekaran et al. | Using Recurrent Neural Networks for Classification of Natural Language-based Non-functional Requirements. | |
CN112508178A (zh) | 神经网络结构搜索方法、装置、电子设备及存储介质 | |
CN112380421A (zh) | 简历的搜索方法、装置、电子设备及计算机存储介质 | |
CN118043802A (zh) | 一种推荐模型训练方法及装置 | |
CN113642652A (zh) | 生成融合模型的方法、装置和设备 | |
CN115879508A (zh) | 一种数据处理方法及相关装置 | |
CN114168819B (zh) | 一种基于图神经网络的岗位匹配方法及装置 | |
CN111897943A (zh) | 会话记录搜索方法、装置、电子设备及存储介质 | |
CN117421171B (zh) | 一种大数据任务监控方法、系统、装置及存储介质 | |
US20220129789A1 (en) | Code generation for deployment of a machine learning model | |
CN114254686A (zh) | 对抗样本的识别方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210316 |