CN111967585B - 网络模型的处理方法及装置、电子设备和存储介质 - Google Patents

网络模型的处理方法及装置、电子设备和存储介质 Download PDF

Info

Publication number
CN111967585B
CN111967585B CN202011021703.4A CN202011021703A CN111967585B CN 111967585 B CN111967585 B CN 111967585B CN 202011021703 A CN202011021703 A CN 202011021703A CN 111967585 B CN111967585 B CN 111967585B
Authority
CN
China
Prior art keywords
stage
network model
structures
stages
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011021703.4A
Other languages
English (en)
Other versions
CN111967585A (zh
Inventor
郭少鹏
王宇杰
李全全
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Sensetime Technology Co Ltd
Original Assignee
Shenzhen Sensetime Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Sensetime Technology Co Ltd filed Critical Shenzhen Sensetime Technology Co Ltd
Priority to CN202011021703.4A priority Critical patent/CN111967585B/zh
Publication of CN111967585A publication Critical patent/CN111967585A/zh
Application granted granted Critical
Publication of CN111967585B publication Critical patent/CN111967585B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Error Detection And Correction (AREA)

Abstract

本申请公开了一种网络模型的处理方法及装置、电子设备、存储介质,其中,所述方法应用于第一网络模型,所述第一网络模型包括N个阶段,N为大于等于1的整数,所述N个阶段具有对应的N个第一结构,所述方法包括:基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;基于与所述N个阶段对应的N个马尔科夫模型确定与所述N个阶段对应的N个期望结构;基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构。

Description

网络模型的处理方法及装置、电子设备和存储介质
技术领域
本申请实施例涉及计算机领域,尤其涉及一种网络模型的处理方法及装置、电子设备和存储介质。
背景技术
近年来,深度学习在人工智能相关的产品中起着至关重要的作用,例如物体检测,人脸识别等。然而在实际的任务中,不同的产品需要不同计算量的模型;例如,安防产品通常会使用计算量大,但是精度高的模型,而移动端产品由于硬件算力、存储空间等限制,一般会选择计算量较小的模型。决定模型计算量的主要因素为模型的卷积层的数量(即深度)以及模型中各个卷积层的通道的数量(即宽度)。然而,这两个因素通常都是人为设计的,在有限的计算量下,模型中卷积层的数量以及各个卷积层的通道的数量的分配将直接影响模型的精度,人为的设计通常很难找到针对模型最优的卷积层的数量以及各个卷积层的通道数量的分配方式。
发明内容
为解决上述技术问题,本申请实施例提供了一种网络模型的处理方法及装置、电子设备和存储介质。
本申请实施例提供了一种网络模型的处理方法,所述方法应用于第一网络模型,所述第一网络模型包括N个阶段,N为大于等于1的整数,所述N个阶段具有对应的N个第一结构,所述方法包括:
基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;
基于与所述N个阶段对应的N个马尔科夫模型确定与所述N个阶段对应的N个期望结构;
基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构。
本申请一可选实施方式中,所述方法还包括:
利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型;
基于所述第二网络模型对所述N个马尔科夫模型进行优化,得到与所述N个阶段对应的N个优化的马尔科夫模型;
所述基于与所述N个阶段对应的马尔科夫模型确定与所述N个阶段对应的N个期望结构,包括:
利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,包括:
判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系;
若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构满足预设关系,则将所述N个第一结构确定为所述N个阶段的优化结构;
若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构不满足预设关系,则迭代执行如下步骤,直到所述N个第一结构与所述N个期望结构满足预设关系:
基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构;
利用所述N个优化的马尔科夫模型对具有N个第二结构的第一网络模型进行采样及训练,得到更新的第二网络模型;
基于所述更新的第二网络模型对所述N个优化的马尔科夫模型进行优化;
利用N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型,包括:
利用所述N个马尔科夫模型分别采样所述第一网络模型中的至少一个子模型;
利用目标训练集训练所述子模型,得到所述子模型的参数;
利用所述子模型的参数更新所述第一网络模型的参数,并对所述第一网络模型进行训练,得到对所述第一网络模型进行训练后的第二网络模型。
本申请一可选实施方式中,所述对所述第一网络模型进行训练,包括:
基于所述子模型的损失函数和所述第一网络模型的损失函数确定用于训练所述第一网络模型的第一损失函数,并利用所述第一损失函数对所述第一网络模型进行训练。
本申请一可选实施方式中,所述基于所述第二网络模型对所述N个马尔科夫模型进行优化,得到与所述N个阶段对应的N个优化的马尔科夫模型,包括:
针对所述第二网络模型的N个阶段中的每个阶段,基于该阶段对应的马尔科夫模型确定该阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率;
将所述边际概率与该阶段进行合并,并利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数;
基于该阶段对应的优化的可学习参数确定与该阶段对应的优化的马尔科夫模型。
本申请一可选实施方式中,所述将所述边际概率与该阶段进行合并,包括:
针对该阶段对应的马尔科夫模型中的第i层的第k个状态,将该状态的边际概率与该阶段的第i个卷积层的第k组通道的输出相乘,得到子合并结果;
将i的取值从1到L,且k的取值从1到C得到的多个子合并结果结合得到合并结果;其中,L为该阶段包含的卷积层的数量,L为大于等于1的整数,C为该阶段的各卷积层包含的通道组的数量,C为大于等于1的整数。
本申请一可选实施方式中,所述利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数,包括:
利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数;
利用所述第二损失函数对该阶段对应的优化的可学习参数进行优化,得到该阶段对应的优化的可学习参数。
本申请一可选实施方式中,所述利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数之前,所述方法还包括:
基于预设的目标计算代价以及所述第二网络模型的计算成本确定所述计算量约束函数。
本申请一可选实施方式中,所述利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构,包括:
确定所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值;
基于所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值,确定所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构,包括:
针对所述N个阶段中的每个阶段,对于该阶段对应的第一结构的第i个卷积层,该第i个卷积层包括C组通道,若该阶段对应的期望结构的第i个卷积层包括的通道的组数小于C-1,则将该阶段对应的第一结构的第i个卷积层的第C组通道删除;若该阶段对应的期望结构的第i个卷积层包括的通道的组数等于C-1,则保持该阶段对应的第一结构的第i个卷积层的通道的数量不变;若该阶段对应的期望结构的第i个卷积层包括的通道的组数大于C-1,则在该阶段对应的第一结构的第i个卷积层增加一组通道;
对于该阶段对应的第一结构的卷积层的数量L,若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中增加一个卷积层;若该阶段对应的期望结构的卷积层数量等于L-1,则保持该阶段对应的第一结构的卷积层的数量不变;若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中去掉一个卷积层。
本申请一可选实施方式中,所述判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系,包括:
针对所述N个阶段中的每个阶段,判断该阶段对应的第一结构的第i个卷积层的通道的组数减去该阶段对应的期望结构的第i个卷积层的通道的组数的结果是否等于第一阈值,以及判断该阶段对应的第一结构的卷积层的数量减去该阶段对应的期望结构的卷积层的数量的结果是否等于第二阈值。
本申请一可选实施方式中,所述基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型,包括:
针对所述N个阶段中的每个阶段,将该阶段对应的第一结构的卷积层的数量确定为该阶段对应的马尔科夫模型的层数;其中,该阶段对应的第一结构的卷积层的数量为L,L为大于等于1的整数;
针对该阶段对应的第一结构的第i个卷积层,1≤i≤L,将该第i个卷积层包含的通道的数量分为C组,并将所述C的数值作为该阶段对应的马尔科夫模型中的第i层包括的状态的数量;将该阶段对应的马尔科夫模型中的第i层包括的C个状态中的第k个状态设置为代表保留该阶段对应的第一结构中的第i个卷积层的第k组通道;
其中,该阶段对应的马尔科夫模型的各状态之间具有对应的转移概率。
本申请实施例还提供了一种网络模型的处理装置,所述装置应用于第一网络模型,所述第一网络模型包括N个阶段,N为大于等于1的整数,所述N个阶段具有对应的N个第一结构,所述装置包括:
构建单元,用于基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;
确定单元,用于基于与所述N个阶段对应的N个马尔科夫模型确定与所述N个阶段对应的N个期望结构;
调整单元,用于基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构。
本申请一可选实施方式中,所述装置还包括:
训练单元,用于利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型;
优化单元,用于基于所述第二网络模型对所述N个马尔科夫模型进行优化,得到与所述N个阶段对应的N个优化的马尔科夫模型;
所述确定单元,具体用于:利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请一可选实施方式,所述调整单元,具体用于:判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系;若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构满足预设关系,则将所述N个第一结构确定为所述N个阶段的优化结构;若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构不满足预设关系,则迭代执行如下步骤,直到所述N个第一结构与所述N个期望结构满足预设关系:基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构;利用所述N个优化的马尔科夫模型对具有N个第二结构的第一网络模型进行采样及训练,得到更新的第二网络模型;基于所述更新的第二网络模型对所述N个优化的马尔科夫模型进行优化;利用N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述训练单元,具体用于:利用所述N个马尔科夫模型分别采样所述第一网络模型中的至少一个子模型;利用目标训练集训练所述子模型,得到所述子模型的参数;利用所述子模型的参数更新所述第一网络模型的参数,并对所述第一网络模型进行训练,得到对所述第一网络模型进行训练后的第二网络模型。
本申请一可选实施方式中,所述训练单元,还具体用于:基于所述子模型的损失函数和所述第一网络模型的损失函数确定用于训练所述第一网络模型的第一损失函数,并利用所述第一损失函数对所述第一网络模型进行训练。
本申请一可选实施方式中,所述优化单元,具体用于:针对所述第二网络模型的N个阶段中的每个阶段,基于该阶段对应的马尔科夫模型确定该阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率;将所述边际概率与该阶段进行合并,并利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数;基于该阶段对应的优化的可学习参数确定与该阶段对应的优化的马尔科夫模型。
本申请一可选实施方式中,所述优化单元,还具体用于:针对该阶段对应的马尔科夫模型中的第i层的第k个状态,将该状态的边际概率与该阶段的第i个卷积层的第k组通道的输出相乘,得到子合并结果;将i的取值从1到L,且k的取值从1到C得到的多个子合并结果结合得到合并结果;其中,L为该阶段包含的卷积层的数量,L为大于等于1的整数,C为该阶段的各卷积层包含的通道组的数量,C为大于等于1的整数。
本申请一可选实施方式中,所述优化单元,还具体用于:利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数;利用所述第二损失函数对该阶段对应的优化的可学习参数进行优化,得到该阶段对应的优化的可学习参数。
本申请一可选实施方式中,所述优化单元,还具体用于:所述利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数之前,基于预设的目标计算代价以及所述第二网络模型的计算成本确定所述计算量约束函数。
本申请一可选实施方式中,所述确定单元,还具体用于:确定所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值;基于所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值,确定所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述调整单元,还具体用于:针对所述N个阶段中的每个阶段,对于该阶段对应的第一结构的第i个卷积层,该第i个卷积层包括C组通道,若该阶段对应的期望结构的第i个卷积层包括的通道的组数小于C-1,则将该阶段对应的第一结构的第i个卷积层的第C组通道删除;若该阶段对应的期望结构的第i个卷积层包括的通道的组数等于C-1,则保持该阶段对应的第一结构的第i个卷积层的通道的数量不变;若该阶段对应的期望结构的第i个卷积层包括的通道的组数大于C-1,则在该阶段对应的第一结构的第i个卷积层增加一组通道;对于该阶段对应的第一结构的卷积层的数量L,若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中增加一个卷积层;若该阶段对应的期望结构的卷积层数量等于L-1,则保持该阶段对应的第一结构的卷积层的数量不变;若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中去掉一个卷积层。
本申请一可选实施方式中,所述调整单元,还具体用于:针对所述N个阶段中的每个阶段,判断该阶段对应的第一结构的第i个卷积层的通道的组数减去该阶段对应的期望结构的第i个卷积层的通道的组数的结果是否等于第一阈值,以及判断该阶段对应的第一结构的卷积层的数量减去该阶段对应的期望结构的卷积层的数量的结果是否等于第二阈值。
本申请一可选实施方式中,所述构建单元,具体用于:针对所述N个阶段中的每个阶段,将该阶段对应的第一结构的卷积层的数量确定为该阶段对应的马尔科夫模型的层数;其中,该阶段对应的第一结构的卷积层的数量为L,L为大于等于1的整数;针对该阶段对应的第一结构的第i个卷积层,1≤i≤L,将该第i个卷积层包含的通道的数量分为C组,并将所述C的数值作为该阶段对应的马尔科夫模型中的第i层包括的状态的数量;将该阶段对应的马尔科夫模型中的第i层包括的C个状态中的第k个状态设置为代表保留该阶段对应的第一结构中的第i个卷积层的第k组通道;其中,该阶段对应的马尔科夫模型的各状态之间具有对应的转移概率。
本申请实施例还提供了一种计算机存储介质,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现上述网络模型的处理的方法步骤。
本申请实施例还提供了一种电子设备,所述电子设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现上述网络模型的处理的方法步骤。
本申请实施例的技术方案,通过基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;基于与所述N个阶段对应的N个马尔科夫模型确定与所述N个阶段对应的N个期望结构;基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构。如此,能够将对第一网络模型的各阶段的调整过程定义为对应的马尔科夫过程,通过构建与各阶段对应的马尔科夫模型,并利用各阶段对应的马尔科夫模型得到第一网络模型中各阶段的期望结构,进而利用各阶段的期望结构对第一网络模型的各阶段的结构进行调整,实现对第一网络模型整体的结构的优化。本申请实施例的技术方案能够自动的将给定的第一网络模型的各阶段包含的卷积层的数量以及各卷积层包含的通道的数量进行重分配,可以用于需要对模型进行扩展或者剪枝的各种应用场景。
附图说明
图1为本申请实施例提供的网络模型的处理方法的流程示意图;
图2为本申请实施例提供的马尔科夫模型的结构示意图;
图3为本申请实施例提供的利用马尔科夫模型对第一网络模型进行采样及训练的示意图;
图4为本申请实施例提供的将马尔科夫模型中各状态的边际概率与第二网络模型中的对应阶段进行合并的示意图;
图5为本申请实施例提供的基于期望结构对第一结构进行调整的示意图;
图6为本申请实施例提供的网络模型的处理装置的结构组成示意图;
图7为本申请实施例提供的电子设备的结构组成示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
图1为本申请实施例提供的网络模型的处理方法的流程示意图,所述方法应用于第一网络模型,所述第一网络模型包括N个阶段,N为大于等于1的整数,所述N个阶段具有对应的N个第一结构,如图1所示,所述方法包括如下步骤:
步骤101:基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型。
本申请实施例中,第一网络模型包括多个阶段,各阶段用于对输入该阶段的数据作相应的处理,例如,可以利用第一网络模型的多个阶段将输入至第一网络模型中的高维度的图像数据进行降维处理,使得第一网络模型最终输出低维度的图像数据。第一网络模型中的每个阶段都包括有至少一个卷积层,各卷积层包括一定数量的通道。针对第一网络模型中的各阶段对应的第一结构中的各卷积层,每个卷积层中包括的通道数量可能是数千个。
例如,针对ResNet类型的残差结构,ResNet可以理解为由多个卷积神经网络(CNN,Convolutional Neural Networks)构成,如图3所示的第一网络模型,可以理解为图3中的第一网络模型包含有3个CNN,其中,每个CNN包含两个卷积层,各CNN的卷积层中包含的通道的数量不同。
本申请实施例对于第一网络模型包含的阶段的数量不作具体限定,例如,第一网络模型可以仅具有一个阶段,该阶段包含6个卷积层。本申请实施例的技术方案能够对具有任意结构的第一网络模型的结构进行优化,第一网络模型可以包括多个阶段,各阶段的卷积层的数量以及各卷积层的通道的数量都可以是任意数值。
本申请一可选实施方式中,可以具体通过如下方式来基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型:
针对所述N个阶段中的每个阶段,将该阶段对应的第一结构的卷积层的数量确定为该阶段对应的马尔科夫模型的层数;其中,该阶段对应的第一结构的卷积层的数量为L,L为大于等于1的整数;
针对该阶段对应的第一结构的第i个卷积层,1≤i≤L,将该第i个卷积层包含的通道的数量分为C组,并将所述C的数值作为该阶段对应的马尔科夫模型中的第i层包括的状态的数量;将该阶段对应的马尔科夫模型中的第i层包括的C个状态中的第k个状态设置为代表保留该阶段对应的第一结构中的第i个卷积层的第k组通道;
其中,该阶段对应的马尔科夫模型的各状态之间具有对应的转移概率。
具体的,针对第一网络模型中的某一个阶段,若该阶段包括有两个卷积层,将该阶段的第一个卷积层的通道按照通道的数量平均的分为3组,将该阶段的第二个卷积层的通道按照通道的数量平均分为两组,则如图2所示,基于该阶段构建的马尔科夫模型的第1层包括3个状态,第2层包括2个状态。图2中,Sij代表该阶段的第i个卷积层将保留前j组通道,例如,S12代表保留该阶段第1个卷积层的第2组通道。图2中,马尔科夫过程从S11开始,E代表马尔科夫过程终止。图2中,P(Sn|Sk)表示从Sk转移到Sn的概率,例如,P(S21|S11)代表从通道S11转移到通道S21的概率。
本申请实施例中,由于第一网络模型中的各阶段中的每个卷积层可能包含数千个通道,很难对第一网络模型中的各阶段的每个卷积层的通道数量做到细颗粒度的调节,针对第一网络模型中的各阶段的每个卷积层,通过将每个卷积层的包含的通道数量分为多个组,使每组通道中包括多个通道,可以减少搜索空间。
本申请实施例中,第一网络模型的各阶段对应的马尔科夫模型的转移概率可以利用梯度下降法进行优化。针对每个阶段对应的马尔科夫模型,在给定转移概率的情况下,可以计算出各阶段对应的马尔科夫模型中各层以及各层中各状态的边际概率。第一网络模型的各阶段对应的马尔科夫模型中各层以及各层中的各状态的边际概率可以看作是第一网络模型的对应阶段中对应的元素(对应的卷积层以及对应的通道)的比例因子,在第一网络模型进行前馈传播的过程中,利用每一个比例因子乘以第一网络模型中对应元素的特征图,接着,第一网络模型中的各阶段对应的马尔科夫模型的转移概率可以与第一网络模型的权重共同通过梯度下降法进行优化。对于第一网络模型中某一阶段的某一元素,若该元素对应的马尔科夫模型中的状态的边际概率为零,则该元素可以被移除。
步骤102:基于与所述N个阶段对应的N个马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请实施例中,所述期望结构包括:期望的卷积层的数量以及各个卷积层中期望的通道数量。
本申请一可选实施方式中,所述基于与所述N个阶段对应的马尔科夫模型确定与所述N个阶段对应的N个期望结构,包括:利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请实施例中,为了得到N个优化的马尔科夫模型,需要首先利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型;基于所述第二网络模型对所述N个马尔科夫模型进行优化,得到与所述N个阶段对应的N个优化的马尔科夫模型。
在一种实施方式中,利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型具体可以通过以下方式实现:
利用所述N个马尔科夫模型分别采样所述第一网络模型中的至少一个子模型;
利用目标训练集训练所述子模型,得到所述子模型的参数;
利用所述子模型的参数更新所述第一网络模型的参数,并对所述第一网络模型进行训练,得到对所述第一网络模型进行训练后的第二网络模型。
具体的,图3为本申请实施例提供的利用N个马尔科夫模型中的某个马尔科夫模型对第一网络模型进行采样及训练的示意图,本申请实施例中,第一网络模型包含有多个子模型,且多个子模型共享同一套权重。在利用N个马尔科夫模型中的每个马尔科夫模型采样第一网络模型中的子模型并对子模型进行训练后,由于子模型的参数与第一网络模型的参数是共享的,因此,子模型中回传的梯度会直接更新到第一网络模型上,在每次对子模型迭代训练过程中,第一网络模型也会被训练,从而得到对第一网络模型进行训练后的第二网络模型。这里,第一网络模型与第二网络模型的结构是相同的,因此,第一网络模型中的各阶段也对应于第二网络模型中的各阶段。
在一种实施方式中,对第一网络模型进行训练,包括:基于所述子模型的损失函数和所述第一网络模型的损失函数确定用于训练所述第一网络模型的第一损失函数,并利用所述第一损失函数对所述第一网络模型进行训练。
具体的,在对第一网络模型进行训练时,可以采用子模型的损失函数和第一网络模型的损失函数的和作为训练第一网络模型过程的第一损失函数,公式如下:
losstask=losssampling+lossfull (1)
其中,losstask代表第一损失函数,losssampling代表子模型的损失函数,lossfull代表第一模型的损失函数。
在一种实施方式中,基于所述第二网络模型对所述N个马尔科夫模型进行优化,得到与所述N个阶段对应的N个优化的马尔科夫模型具体可通过以下过程实现:
针对所述第二网络模型的N个阶段中的每个阶段,基于该阶段对应的马尔科夫模型确定该阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率;
将所述边际概率与该阶段进行合并,并利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数;
基于该阶段对应的优化的可学习参数确定与该阶段对应的优化的马尔科夫模型。
本申请实施例中,针对第一网络模型中的某一个阶段,将该阶段的各卷积层的通道所对应空间称为宽度空间,将卷积层的层数所对应的空间称为深度空间。以宽度空间为例,针对第一网络模型中的某一个阶段,针对该阶段包括有C组通道的某个卷积层,定义p(g1,...,gk)为该卷积层中前k组通道被保留的概率,则该卷积层中前k组通道被保留的概率可以通过公式(2)来计算:
p(g1,...,gk)=p(gk|g1,...,gk-1)p(g1,...gk-1) (2)
其中,p(gk|g1,...,gk-1)代表在给定卷积层中前k-1组通道被保留的概率的情况下,保留该卷积层中第k组通道的概率,p(g1,...gk-1)代表该卷积层中前k-1组通道被保留的概率。
这里,在给定卷积层中第k-1组通道被保留的概率gk-1的情况下,保留该卷积层中第k组通道的概率gk条件独立于该卷积层中前k-2组通道被保留的概率p(g1,...gk-2)。因此,公式(2)又可以被写为公式(3):
Figure BDA0002700852090000141
此外,定义
Figure BDA0002700852090000143
代表给定卷积层中第k-1组通道被移除的概率,并定义
Figure BDA0002700852090000144
也就是说,在给定卷积层中第k-1组通道不被保留的情况下,卷积层中的第k组通道也不会被保留。基于此,可以得到公式(4)。
Figure BDA0002700852090000142
基于公式(4)可以看出,保留给定卷积层中前k组通道的概率p(g1,...,gk)可以由保留该卷积层中第k组通道的边际概率p(gk)来表示。对于一个确定的马尔科夫模型,基于马尔科夫模型的转移概率,能够确定出该马尔科夫模型中各状态的边际概率,而该马尔科夫模型中各状态的边际概率即代表该马尔科夫模型对应的第一网络模型中某个阶段中的各个卷积层中的各组通道被保留的边际概率。
对于由宽度和深度构成的复合空间,针对第一网络模型中的某一个阶段,针对该阶段的第l个卷积层的第k组通道,其边际概率为:
Figure BDA0002700852090000151
其中,该阶段中的第1个卷积层的第1组通道的边际概率
Figure BDA0002700852090000152
该阶段的第l个卷积层的第1组通道的边际概率
Figure BDA0002700852090000153
可以利用以下公式(6)计算得到。
Figure BDA0002700852090000154
其中,p(g(l-1))代表该阶段第l-1个卷积层中包含的各通道的边际概率。由于第一网络模型中的各阶段中的每个卷积层都至少包括一个通道组,因此,
Figure BDA0002700852090000155
又可以用来代表保留各阶段中第l个卷积层的边际概率。
综合以上公式(2)至公式(6),可以看出,对于给定的马尔科夫模型,基于其转移概率,可以得到马尔科夫模型中各层以及各层中各状态的边际概率。这里,各马尔科夫模型中各层以及各层中各状态的边际概率又等同于第二网络模型中与各马尔科夫模型对应的各阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率,而第二网络模型中各卷积层以及各卷积层中的各通道被保留的边际概率又等同于第一网络模型中各卷积层以及各卷积层中的各通道被保留的边际概率。
在一种具体的实施方式中,针对所述第二网络模型的N个阶段中的每个阶段,将所述边际概率与该阶段进行合并,包括:
针对该阶段对应的马尔科夫模型中的第i层的第k个状态,将该状态的边际概率与该阶段的第i个卷积层的第k组通道的输出相乘,得到子合并结果;
将i的取值从1到L,且k的取值从1到C得到的多个子合并结果结合得到合并结果;其中,L为该阶段包含的卷积层的数量,L为大于等于1的整数,C为该阶段的各卷积层包含的通道组的数量,C为大于等于1的整数。
图4为本申请实施例提供的将马尔科夫模型中各状态的边际概率与第二网络模型中的对应阶段进行合并的示意图。针对第二网络模型的N个阶段中的某个阶段,对于该阶段对应的马尔科夫模型中的第i层的第k个状态的边际概率
Figure BDA0002700852090000161
将该边际概率
Figure BDA0002700852090000162
与第二网络模型中该阶段的第i个卷积层的第k组通道的输出相乘,即可得到对应的子合并结果,公式如下:
Figure BDA0002700852090000163
其中,
Figure BDA0002700852090000164
代表第二网络模型中该阶段的第i个卷积层的第k组通道的实际输出,
Figure BDA0002700852090000165
代表计算得到的第二网络模型中该阶段的第i个卷积层的第k组通道的输出,
Figure BDA0002700852090000166
代表马尔科夫模型中的第i层的第k个状态的边际概率。其中,
Figure BDA0002700852090000167
可以通过以下公式(8)来计算。
Figure BDA0002700852090000168
其中,
Figure BDA0002700852090000169
代表第二网络模型中该阶段的第i个卷积层的第k组通道的权重,⊙代表卷积运算,x(l)代表第二网络模型中该阶段的第i个卷积层的第k组通道的给定输入。
可学习的参数α通过公式(7)被包裹在该阶段对应的马尔科夫模型各状态的边际概率与第二网络模型的该阶段合并后的合并结果中,公式(9)为该阶段对应的可学习的参数α与该阶段对应的马尔科夫模型的转移概率的关系。
Figure BDA00027008520900001610
其中,exp代表以e为底的指数运算。
基于公式(9),在得到该阶段对应的可学习的参数α后,即可得到该阶段对应的马尔科夫模型的转移概率。
本申请实施例中,针对第二网络模型的N个阶段中的每个阶段,通过利用该阶段对应的马尔科夫模型中各状态的边际概率与第二网络模型中的该阶段进行合并,并利用合并结果对用于确定该阶段对应的马尔科夫模型中转移概率的可学习参数进行优化,即可得到与该阶段对应的优化的马尔科夫模型。
在一种可选的实施方式中,针对所述第二网络模型的N个阶段中的每个阶段,利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数的过程可以通过以下方式实现:
利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数,利用所述第二损失函数对所述可学习参数进行优化,得到优化后的学习参数。
具体的,针对第二网络模型的N个阶段中的每个阶段,在对该阶段对应的马尔科夫模型进行优化时,可以通过对该阶段对应的优化前的马尔科夫模型与第二网络模型中的该阶段的合并结果进行训练得到该阶段对应的优化的可学习的参数α。在对合并结果进行训练时,训练过程的损失函数可以通过以下公式(10)得到:
lossM=losstaskFlossFOLPs (10)
其中,lossM代表对合并结果进行训练时的损失函数,losstask代表公式(1)中的第一损失函数,λF代表预设的超参数,lossFOLPs代表计算量约束函数。
这里,在利用预设的损失函数、计算量约束函数以及预设的超参数确定目标损失函数之前,需要首先确定出计算量约束函数。
在一种实施方式中,可以基于预设的目标计算代价以及第二网络模型的计算成本确定出计算量约束函数。
具体的,在一种可选的实施方式中,可以利用每秒浮点运算次数(FLOPs,floating-point operations)来衡量第一网络模型的计算代价,也可以采用推理潜伏期来衡量第一网络模型的计算代价。以FLOPs为例,对于第一网络模型中某一阶段的第l个卷积层,其该卷积层期望的输出通道的数量为E(out),期望的输入通道的数量为E(in),E(in)的数值等于该阶段中第l个卷积层的前一个卷积层,即第l-1个卷积层的期望的输出通道的数量。第一网络模型中的某一阶段的各卷积层期望的输出通道的数量可以基于该阶段对应的马尔科夫模型中对应的各层中的各状态的边际概率得到,具体介绍见公式(14)。这里,第一网络模型中某一阶段的第l个卷积层期望的FLOPs可以利用以下公式(11)计算得到:
Figure BDA0002700852090000181
其中,E(FLOPs(l))代表该阶段的第l个卷积层的期望的每秒浮点运算次数,对于通常的卷积层,#group的取值为1,对于深度卷积层,#group的取值为E(in),SI代表输入卷积层的输入规模,SK代表卷积核大小,SP代表填充规模,stride代表卷积步长。
对于上述E(FLOPs(l)),其又代表针对第l个卷积层的单张输入图片的单次前馈传播的浮点运算次数。
对于一个包含N个卷积层的网络模型,其期望的FLOPs可以利用公式(12)计算得到:
Figure BDA0002700852090000182
其中,E(NFLOPs)代表包含N个卷积层的网络模型期望的每秒浮点运算次数。
在给定预设的目标计算代价FT的情况下,计算量约束函数lossFLOPs通过公式(13)计算得到:
Figure BDA0002700852090000183
基于公式(11)至(13),我们可以利用梯度下降法优化第二网络模型(也等同于第一网络模型)的期望每秒浮点运算次数。
在一种实施方式中,利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构的过程为:
确定所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值;
基于所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值,确定所述N个阶段对应的N个期望结构。
具体的,针对第一网络模型中的每个阶段,在确定出该阶段对应的优化的马尔科夫模型的转移概率后,即可利用公式(5)和公式(6)计算得到该阶段对应的优化的马尔科夫模型中各层以及各层中各状态的边际概率,进而可以利用公式(14)以及公式(15)分别计算得到该阶段对应的期望结构包括的各卷积层期望的输出通道的数量以及期望的卷积层的数量。
Figure BDA0002700852090000191
其中,E(channel)代表一个卷积层的期望的输出通道数,p(g)代表卷积层中通道组g的边际概率,NC(g)代表通道组g包含的通道数量。
Figure BDA0002700852090000192
其中,E(depth)代表期望的卷积层的数量。
公式(15)中,针对第一网络模型中的各个阶段,由于各阶段对应的期望的卷积层的数量应该大于1,因此,在每次对第一网络模型的各阶段的结构进行调整时,各阶段都必须至少保留一个卷积层,各阶段的第1个卷积层的边际概率p(g1 (1))的取值都为1。
步骤103:基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构。
本申请实施中,第一网络模型的优化结构是对第一网络模型的原结构包含的卷积层的数量以及各卷积层包含的通道的数量进行优化后的结构,具体可以是对第一网络模型的原结构进行剪枝后的结构,也可以是对第一网络模型的原结构进行扩展后的结构。
本申请一可选实施方式中,基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整的过程可以通过以下方式实现:
判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系;
若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构满足预设关系,则将所述N个第一结构确定为所述N个阶段的优化结构;
若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构不满足预设关系,则迭代执行如下步骤,直到所述N个第一结构与所述N个期望结构满足预设关系:
基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构;
利用所述N个优化的马尔科夫模型对具有N个第二结构的第一网络模型进行采样及训练,得到更新的第二网络模型;
基于所述更新的第二网络模型对所述N个优化的马尔科夫模型进行优化;
利用N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
具体的,本申请实施例中,针对第一网络模型的各个阶段,在基于各个阶段对应的优化的马尔科夫模型中各状态的边际概率得到各阶段期望的卷积层的数量以及各卷积层期望的通道数量后,需要判断各阶段的卷积层的数量以及各卷积层包含的通道数量与各阶段对应的期望的卷积层的数量以及各卷积层期望的通道数量是否满足预设关系,若满足预设关系,则不需要对各阶段对应的第一结构进行调整,直接将该阶段的第一结构作为对对该阶段进行结构优化后的最优结构。
若不满足预设关系,则需要基于各阶段对应的期望的卷积层的数量以及各卷积层期望的通道数量对各阶段对应的第一结构包含的卷积层的数量以及各卷积层包含的通道数量按照一定的规则进行调整,得到各阶段对应的第二结构,并继续利用各阶段对应的优化的马尔科夫模型对进行结构调整后的第一网络模型进行再次的采样和训练,并利用训练得到的第一网络模型对各阶段对应的优化的马尔科夫模型进行进一步的优化,以利用对各阶段对应的再次优化后的马尔科夫模型再次得到与各阶段对应的期望结构,并判断此次得到的各阶段的期望结构与具有第二结构的各阶段是否满足预设关系,按照以上过程迭代反复,直至各阶段的期望结构与第一网络模型的对应的各阶段的第一结构满足预设关系。
在一种实施方式中,判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系具体可通过以下方式实现:
针对所述N个阶段中的每个阶段,判断该阶段对应的第一结构的第i个卷积层的通道的组数减去该阶段对应的期望结构的第i个卷积层的通道的组数的结果是否等于第一阈值,以及判断该阶段对应的第一结构的卷积层的数量减去该阶段对应的期望结构的卷积层的数量的结果是否等于第二阈值。
具体的,本申请实施例中,针对第一网络模型中具有第一结构的某个阶段,在对于该阶段对应的第一结构中的某一卷积层包含的通道的数量的调整时,若第一结构中的某一卷积层包含有C组通道,我们定义该卷积层的前C-2组通道为内部集,第C-1组通道为边缘集,第C组通道为附加集。基于以上设置,在得到该卷积层期望的通道数量的情况下,我们把该卷积层通道数量的调整过程分为以下3种情况:
(1)期望的通道组的数量落入内部集中,即期望的通道组数小于等于C-2,则判定该卷积层倾向于保留较少的通道,因此,将该卷积层中的附加集,即第C组通道删除。
这里,在将卷积层中的第C组通道删除后,进一步将原有的第C-1组通道作为新的附加集,将原有的第C-2组通道作为新的边缘集,将原有的第C-3组通道作为新的内部集,以在下一次得到新的期望结构后,再次基于新的期望结构以及分别设置的新的附加集、边缘集以及内部集进行对该卷积层进行调整。
(2)期望的通道组的数量落在边缘集上,即期望的通道组数等于C-1,则判定该卷积层倾向于保持现有的通道数量不变,因此,不对该卷积层的通道数量进行增加或者删除。
在这种情况下,该卷积层的附加集、边缘集以及内部集的设置不变。
(3)期望的通道组的数量落在附加集上超出附加集,即期望的通道组数大于等于C,则判定该卷积层倾向于保留更多的通道数量,因此,在该卷积层的第C组通道之后再增加一组通道。
在这种情况下,在卷积层中新增加了一组通道,即第C+1组通道后,将该C+1组通道作为新的附加集,将第C组通道作为新的边缘集,将第C-1组通道作为新的内部集,以在下一次得到新的期望结构后,再次基于新的期望结构以及分别设置的新的附加集、边缘集以及内部集进行对该卷积层包含的通道数量进行调整。
同样的,本申请实施例中,针对第一网络模型中具有第一结构的某个阶段,在对该阶段对应的第一结构中包含的卷积层数量的调整时,若该阶段对应的第一结构中包含有L个卷积层,我们定义前L-2个卷积层为内部层,第L-1个卷积层为边缘层,第L个卷积层为附加层。基于以上设置,在得到该阶段期望的卷积层数量的情况下,把该阶段对应的第一结构中包含的卷积层数量的调整过程分为以下3种情况:
(1)期望的卷积层的数量落入内部层中,即期望的卷积层的数量小于等于L-2,则判定倾向于该阶段保留较少的卷积层,因此,将该阶段对应的第一结构中的附加层,即第L层卷积层删除。
这里,在将该阶段对应的第一结构中的第L层卷积层删除后,进一步将原有的第L-1层卷积层作为新的附加层,将原有的第L-2层卷积层作为新的边缘层,将原有的前L-3层卷积层作为新的内部层,以在下一次得到新的期望结构后,再次基于新的期望结构以及分别设置的新的附加层、边缘层以及内部层对卷积层的数量进行调整。
(2)期望的卷积层的数量落在边缘层上,即期望的卷积层的数量等于L-1,则判定倾向于保持该阶段现有的卷积层的数量不变,因此,不对该阶段对应的第一结构中卷积层的数量进行增加或者删除。
在这种情况下,该阶段对应的第一结构的附加层、边缘层以及内部层的设置不变。
(3)期望的卷积层的数量落在附加层上或者比附加层更大,即期望的卷积层的数量大于等于L,则判定倾向于该阶段中保留更多的卷积层,因此,在第L个卷积层之后再增加一个新的卷积层。
在这种情况下,在该阶段对应的第一结构中新增加了一个卷积层,即第L+1个卷积层后,将该第L+1个卷积层作为附加层,将第L层卷积层作为边缘层,将第L-1层卷积层作为内部层,以在下一次得到新的期望结构后,再次基于新的期望结构以及分别设置的新的附加层、边缘层以及内部层进行对该阶段对应的第一结构进行调整。
这里,针对第一网络模型中的某个阶段,在该阶段对应的第一结构中新增加了第L+1层卷积层的情况下,可以将第L层的通道数量作为第L+1层卷积层的通道数量,该第L+1层卷积层的权重也可以随机进行初始化。
基于以上介绍的基于各阶段对应的期望结构对各阶段对应的第一结构的卷积层的数量以及卷积层包含的通道的数量的调整,可以看出,针对第一网络模型的各个阶段,各个阶段对应的第一结构与各阶段对应的期望结构满足预设关系,具体是指,各阶段期望的卷积层的数量落在各阶段对应的第一结构的边缘层上,对于各个卷积层,对应的卷积层的期望的通道的组的数量落在各阶段对应的第一结构中对应的卷积层通道的边缘集上。
或者,针对第一网络模型的各个阶段,各阶段对应的第一结构与各阶段对应的期望结构满足预设关系,具体是指,针对各阶段对应的第一结构中的某一卷积层以及各阶段对应的期望结构中对应的卷积层,各阶段对应的第一结构中该卷积层的通道组数减去各阶段对应的期望结构中该卷积层的通道组数的结果等于1,以及,各阶段对应的第一结构中卷积层的数量减去各阶段对应的期望结构对应的期望卷积层的数量的结果等于1。
本申请实施例中,在基于所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值,确定所述N个阶段对应的N个期望结构后,可以采用以下方式对N个第一结构进行更新,得到N个第二结构。
针对所述N个阶段中的每个阶段,对于该阶段对应的第一结构的第i个卷积层,该第i个卷积层包括C组通道,若该阶段对应的期望结构的第i个卷积层包括的通道的组数小于C-1,则将该阶段对应的第一结构的第i个卷积层的第C组通道删除;若该阶段对应的期望结构的第i个卷积层包括的通道的组数等于C-1,则保持该阶段对应的第一结构的第i个卷积层的通道的数量不变;若该阶段对应的期望结构的第i个卷积层包括的通道的组数大于C-1,则在该阶段对应的第一结构的第i个卷积层增加一组通道;
对于该阶段对应的第一结构的卷积层的数量L,若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中增加一个卷积层;若该阶段对应的期望结构的卷积层数量等于L-1,则保持该阶段对应的第一结构的卷积层的数量不变;若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中去掉一个卷积层。
针对第一网络模型中的各阶段,图5为本申请实施例提供的基于期望结构对第一结构进行调整的示意图。这里,基于期望结构对第一结构进行更新得到第二结构的情况可以参考上述介绍的基于期望结构对第一结构对应的卷积层的数量以及各卷积层包含的通道的数量的调整所介绍的6种情况。
本申请实施例的技术方案,能够将对第一网络模型的各阶段的调整过程定义为对应的马尔科夫过程,通过构建与各阶段对应的马尔科夫模型,并利用马尔科夫模型得到第一网络模型各阶段的期望结构,进而利用各阶段的期望结构对第一网络模型的各阶段的结构进行调整,实现对第一网络模型整体的结构的优化。本申请实施例的技术方案能够自动的将给定的第一网络模型的各阶段包含的卷积层的数量以及各卷积层包含的通道的数量进行重分配,可以用于需要对模型进行扩展或者剪枝的各种应用场景。
本申请实施例中,由于给定了预设的目标计算代价,并且基于目标计算代价确定出了计算量约束函数,而对第一网络模型对应的各马尔科夫模型的优化过程所利用的损失函数又是基于计算量约束函数得到的,因此,本申请在第一网络模型的各阶段的结构与利用各阶段对应的优化的马尔科夫模型得到的各阶段的期望结构满足预设关系的情况下,第一网络模型的计算代价是能够收敛于预设的目标计算代价的。也就是说,本申请最终得到的具有优化结构的第一网络模型能够满足需求的目标计算代价。
下面,再结合图3至图5来说明本申请实施例利用N个马尔科夫模型对第一网络模型的各个阶段的结构进行调整的3个阶段。
图3为阶段1,该阶段主要利用各阶段对应的马尔科夫模型对第一网络模型中的子模型进行采样和训练,并基于训练得到的各子模型的参数对第一网络模型整体进行训练,得到第二网络模型。
图4为阶段2,该阶段主要是利用训练好的第一网络模型,即第二网络模型对用于对第一网络模型进行采样和训练的N个马尔科夫模型进行优化,主要是将各马尔科夫模型各层的状态的边际概率及各层的边际概率与第二网络模型中对应阶段的对应通道组或卷积层进行合并,并通过对合并结果进行训练得到与各阶段对应的优化的可学习参数,从而进一步利用各阶段得到的优化的可学习参数得到各阶段对应的优化的马尔科夫模型的转移概率。并且,基于各阶段对应的优化的马尔科夫模型的转移概率,即可得到各阶段对应的优化的马尔科夫模型中各状态以及各层的边际概率。
图5为阶段3,在确定出各阶段对应的优化的马尔科夫模型中各状态以及各层的边际概率后,可以利用得到的边际概率得到与第一网络模型的各阶段对应的期望结构,期望结构包括期望的卷积层数量以及各卷积层中期望的通道数量。基于各阶段对应的期望结构与各阶段对应的第一结构的调整规则,即可利用各阶段对应的期望结构对第一网络模型中的各阶段对应的第一结构进行调整和更新。
本申请实施例中,在对第一网络模型的各阶段对应的第一结构进行更新后,继续将更新的各阶段的第一结构作为各阶段的结构,并利用各阶段对应的优化的马尔科夫模型再次迭代执行图2至图4对应的阶段1至阶段3,直至最后基于各阶段对应的期望结构与最后更新的各阶段的第一结构满足预设关系,在确定各阶段对应的第一结构与各阶段对应的期望结构满足预设关系后,可以将与各阶段对应的期望结构满足预设关系的各阶段的第一结构作为第一网络模型各阶段最终的优化结构,从而得到第一网络模型的整体优化结构。
本申请实施例中,在得到第一网络模型的整体优化结构后,通过将具有优化结构的第一网络模型的参数进行随机初始化,并利用目标训练集对具有优化结构的第一网络模型进行训练,即可得到符合目标计算量的第一网络模型。
图6为本申请实施例提供的网络模型的处理装置的结构组成示意图,如图6所示,所述网络模型的处理装置包括:
构建单元601,用于基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;
确定单元602,用于基于与所述N个阶段对应的N个马尔科夫模型确定与所述N个阶段对应的N个期望结构;
调整单元603,用于基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构。
本申请一可选实施方式中,所述装置还包括:
训练单元604,用于利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型;
优化单元605,用于基于所述第二网络模型对所述N个马尔科夫模型进行优化,得到与所述N个阶段对应的N个优化的马尔科夫模型;
所述确定单元602,具体用于:利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述调整单元603,具体用于:判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系;若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构满足预设关系,则将所述N个第一结构确定为所述N个阶段的优化结构;若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构不满足预设关系,则迭代执行如下步骤,直到所述N个第一结构与所述N个期望结构满足预设关系:基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构;利用所述N个优化的马尔科夫模型对具有N个第二结构的第一网络模型进行采样及训练,得到更新的第二网络模型;基于所述更新的第二网络模型对所述N个优化的马尔科夫模型进行优化;利用N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述训练单元604,具体用于:利用所述N个马尔科夫模型分别采样所述第一网络模型中的至少一个子模型;利用目标训练集训练所述子模型,得到所述子模型的参数;利用所述子模型的参数更新所述第一网络模型的参数,并对所述第一网络模型进行训练,得到对所述第一网络模型进行训练后的第二网络模型。
本申请一可选实施方式中,所述训练单元604,还具体用于:基于所述子模型的损失函数和所述第一网络模型的损失函数确定用于训练所述第一网络模型的第一损失函数,并利用所述第一损失函数对所述第一网络模型进行训练。
本申请一可选实施方式中,所述优化单元605,具体用于:针对所述第二网络模型的N个阶段中的每个阶段,基于该阶段对应的马尔科夫模型确定该阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率;将所述边际概率与该阶段进行合并,并利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数;基于该阶段对应的优化的可学习参数确定与该阶段对应的优化的马尔科夫模型。
本申请一可选实施方式中,所述优化单元605,还具体用于:针对该阶段对应的马尔科夫模型中的第i层的第k个状态,将该状态的边际概率与该阶段的第i个卷积层的第k组通道的输出相乘,得到子合并结果;将i的取值从1到L,且k的取值从1到C得到的多个子合并结果结合得到合并结果;其中,L为该阶段包含的卷积层的数量,L为大于等于1的整数,C为该阶段的各卷积层包含的通道组的数量,C为大于等于1的整数。
本申请一可选实施方式中,所述优化单元605,还具体用于:利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数;利用所述第二损失函数对该阶段对应的优化的可学习参数进行优化,得到该阶段对应的优化的可学习参数。
本申请一可选实施方式中,所述优化单元605,还具体用于:所述利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数之前,基于预设的目标计算代价以及所述第二网络模型的计算成本确定所述计算量约束函数。
本申请一可选实施方式中,所述确定单元602,还具体用于:确定所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值;基于所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值,确定所述N个阶段对应的N个期望结构。
本申请一可选实施方式中,所述调整单元603,还具体用于:针对所述N个阶段中的每个阶段,对于该阶段对应的第一结构的第i个卷积层,该第i个卷积层包括C组通道,若该阶段对应的期望结构的第i个卷积层包括的通道的组数小于C-1,则将该阶段对应的第一结构的第i个卷积层的第C组通道删除;若该阶段对应的期望结构的第i个卷积层包括的通道的组数等于C-1,则保持该阶段对应的第一结构的第i个卷积层的通道的数量不变;若该阶段对应的期望结构的第i个卷积层包括的通道的组数大于C-1,则在该阶段对应的第一结构的第i个卷积层增加一组通道;对于该阶段对应的第一结构的卷积层的数量L,若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中增加一个卷积层;若该阶段对应的期望结构的卷积层数量等于L-1,则保持该阶段对应的第一结构的卷积层的数量不变;若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中去掉一个卷积层。
本申请一可选实施方式中,所述调整单元603,还具体用于:针对所述N个阶段中的每个阶段,判断该阶段对应的第一结构的第i个卷积层的通道的组数减去该阶段对应的期望结构的第i个卷积层的通道的组数的结果是否等于第一阈值,以及判断该阶段对应的第一结构的卷积层的数量减去该阶段对应的期望结构的卷积层的数量的结果是否等于第二阈值。
本申请一可选实施方式中,所述构建单元601,具体用于:针对所述N个阶段中的每个阶段,将该阶段对应的第一结构的卷积层的数量确定为该阶段对应的马尔科夫模型的层数;其中,该阶段对应的第一结构的卷积层的数量为L,L为大于等于1的整数;针对该阶段对应的第一结构的第i个卷积层,1≤i≤L,将该第i个卷积层包含的通道的数量分为C组,并将所述C的数值作为该阶段对应的马尔科夫模型中的第i层包括的状态的数量;将该阶段对应的马尔科夫模型中的第i层包括的C个状态中的第k个状态设置为代表保留该阶段对应的第一结构中的第i个卷积层的第k组通道;其中,该阶段对应的马尔科夫模型的各状态之间具有对应的转移概率。
本领域技术人员应当理解,图6所示的网络模型的处理装置中的各单元的实现功能可参照前述网络模型的处理方法的相关描述而理解。图6所示的网络模型的处理方法中的各单元的功能可通过运行于处理器上的程序而实现,也可通过具体的逻辑电路而实现。
本申请实施例上述基于网络模型中的各模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read OnlyMemory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本申请实施例不限制于任何特定的硬件和软件结合。
相应地,本申请实施例还提供一种计算机程序产品,其中存储有计算机可执行指令,该计算机可执行指令被执行时能够实现本申请实施例的上述网络模型的处理方法。
图7为本申请实施例提供的电子设备的结构组成示意图,如图7所示,电子设备700可以包括一个或多个(图中仅示出一个)处理器701(处理器701可以包括但不限于微处理器(MCU,Micro Controller Unit)或可编程逻辑器件(FPGA,Field Programmable GateArray)等的处理装置)、用于存储数据的存储器702、以及用于通信功能的传输装置703。本领域普通技术人员可以理解,图7所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,电子设备700还可包括比图7中所示更多或者更少的组件,或者具有与图7所示不同的配置。
存储器702可用于存储应用软件的软件程序以及模块,如本申请实施例中的方法对应的程序指令/模块,处理器701通过运行存储在存储器702内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的方法。存储器702可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器702可进一步包括相对于处理器701远程设置的存储器,这些远程存储器可以通过网络连接至电子设备700。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置703用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备700的通信供应商提供的无线网络。在一个实例中,传输装置703包括一个网络适配器(NIC,Network Interface Controller),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置703可以为射频(RF,Radio Frequency)模块,其用于通过无线方式与互联网进行通讯。
本申请实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
在本申请所提供的几个实施例中,应该理解到,所揭露的方法和智能设备,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本申请各实施例中的各功能单元可以全部集成在一个第二处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

Claims (14)

1.一种网络模型的处理方法,其特征在于,所述方法应用于第一网络模型,所述第一网络模型包括N个阶段,N为大于等于2的整数,所述N个阶段具有对应的N个第一结构,所述方法包括:
基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;
利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型;
针对所述第二网络模型的N个阶段中的每个阶段,基于该阶段对应的马尔科夫模型确定该阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率;将所述边际概率与该阶段进行合并,并利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数;基于该阶段对应的优化的可学习参数确定与该阶段对应的优化的马尔科夫模型;
利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构;所述期望结构包括:期望的卷积层的数量以及各个卷积层中期望的通道数量;
基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构;
利用具有所述优化结构的第一网络模型对目标图像进行图像处理,识别所述目标图像中的目标对象。
2.根据权利要求1所述的方法,其特征在于,所述基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,包括:
判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系;
若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构满足预设关系,则将所述N个第一结构确定为所述N个阶段的优化结构;
若所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构不满足预设关系,则迭代执行如下步骤,直到所述N个第一结构与所述N个期望结构满足预设关系:
基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构;
利用所述N个优化的马尔科夫模型对具有N个第二结构的第一网络模型进行采样及训练,得到更新的第二网络模型;
基于所述更新的第二网络模型对所述N个优化的马尔科夫模型进行优化;
利用N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构。
3.根据权利要求1所述的方法,其特征在于,所述利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型,包括:
利用所述N个马尔科夫模型分别采样所述第一网络模型中的至少一个子模型;
利用目标训练集训练所述子模型,得到所述子模型的参数;
利用所述子模型的参数更新所述第一网络模型的参数,并对所述第一网络模型进行训练,得到对所述第一网络模型进行训练后的第二网络模型。
4.根据权利要求3所述的方法,其特征在于,所述对所述第一网络模型进行训练,包括:
基于所述子模型的损失函数和所述第一网络模型的损失函数确定用于训练所述第一网络模型的第一损失函数,并利用所述第一损失函数对所述第一网络模型进行训练。
5.根据权利要求1所述的方法,其特征在于,所述将所述边际概率与该阶段进行合并,包括:
针对该阶段对应的马尔科夫模型中的第i层的第k个状态,将该状态的边际概率与该阶段的第i个卷积层的第k组通道的输出相乘,得到子合并结果;
将i的取值从1到L,且k的取值从1到C得到的多个子合并结果结合得到合并结果;其中,L为该阶段包含的卷积层的数量,L为大于等于1的整数,C为该阶段的各卷积层包含的通道组的数量,C为大于等于1的整数。
6.根据权利要求1所述的方法,其特征在于,所述利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数,包括:
利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数;
利用所述第二损失函数对该阶段对应的优化的可学习参数进行优化,得到该阶段对应的优化的可学习参数。
7.根据权利要求6所述的方法,其特征在于,所述利用预设的损失函数、计算量约束函数以及预设的超参数确定第二损失函数之前,所述方法还包括:
基于预设的目标计算代价以及所述第二网络模型的计算成本确定所述计算量约束函数。
8.根据权利要求1所述的方法,其特征在于,所述利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构,包括:
确定所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值;
基于所述N个优化的马尔科夫模型中的各层以及各层中的各状态的取值,确定所述N个阶段对应的N个期望结构。
9.根据权利要求2所述的方法,其特征在于,基于所述N个期望结构对所述N个第一结构进行更新,得到N个第二结构,包括:
针对所述N个阶段中的每个阶段,对于该阶段对应的第一结构的第i个卷积层,该第i个卷积层包括C组通道,若该阶段对应的期望结构的第i个卷积层包括的通道的组数小于C-1,则将该阶段对应的第一结构的第i个卷积层的第C组通道删除;若该阶段对应的期望结构的第i个卷积层包括的通道的组数等于C-1,则保持该阶段对应的第一结构的第i个卷积层的通道的数量不变;若该阶段对应的期望结构的第i个卷积层包括的通道的组数大于C-1,则在该阶段对应的第一结构的第i个卷积层增加一组通道;
对于该阶段对应的第一结构的卷积层的数量L,若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中增加一个卷积层;若该阶段对应的期望结构的卷积层数量等于L-1,则保持该阶段对应的第一结构的卷积层的数量不变;若该阶段对应的期望结构的卷积层数量大于L-1,则在该阶段对应的第一结构中去掉一个卷积层。
10.根据权利要求2所述的方法,其特征在于,所述判断所述N个阶段对应的N个期望结构与所述N个阶段对应的N个第一结构是否满足预设关系,包括:
针对所述N个阶段中的每个阶段,判断该阶段对应的第一结构的第i个卷积层的通道的组数减去该阶段对应的期望结构的第i个卷积层的通道的组数的结果是否等于第一阈值,以及判断该阶段对应的第一结构的卷积层的数量减去该阶段对应的期望结构的卷积层的数量的结果是否等于第二阈值。
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型,包括:
针对所述N个阶段中的每个阶段,将该阶段对应的第一结构的卷积层的数量确定为该阶段对应的马尔科夫模型的层数;其中,该阶段对应的第一结构的卷积层的数量为L,L为大于等于1的整数;
针对该阶段对应的第一结构的第i个卷积层,1≤i≤L,将该第i个卷积层包含的通道的数量分为C组,并将所述C的数值作为该阶段对应的马尔科夫模型中的第i层包括的状态的数量;将该阶段对应的马尔科夫模型中的第i层包括的C个状态中的第k个状态设置为代表保留该阶段对应的第一结构中的第i个卷积层的第k组通道;
其中,该阶段对应的马尔科夫模型的各状态之间具有对应的转移概率。
12.一种网络模型的处理装置,其特征在于,所述装置应用于第一网络模型,所述第一网络模型包括N个阶段,N为大于等于2的整数,所述N个阶段具有对应的N个第一结构,所述装置包括:
构建单元,用于基于具有对应的N个第一结构的所述N个阶段,构建与所述N个阶段对应的N个马尔科夫模型;
训练单元,用于利用所述N个马尔科夫模型对所述第一网络模型进行采样以及训练,得到对所述第一网络模型进行训练后的第二网络模型;
优化单元,用于针对所述第二网络模型的N个阶段中的每个阶段,基于该阶段对应的马尔科夫模型确定该阶段中的各卷积层以及各卷积层中的各通道被保留的边际概率;将所述边际概率与该阶段进行合并,并利用目标训练集对合并结果进行训练,得到该阶段对应的优化的可学习参数;基于该阶段对应的优化的可学习参数确定与该阶段对应的优化的马尔科夫模型;
确定单元,用于利用与所述N个阶段对应的N个优化的马尔科夫模型确定与所述N个阶段对应的N个期望结构;所述期望结构包括:期望的卷积层的数量以及各个卷积层中期望的通道数量;
调整单元,用于基于所述N个期望结构对所述N个阶段对应的N个第一结构进行调整,得到所述第一网络模型的优化结构;
处理单元,用于利用具有所述优化结构的第一网络模型对目标图像进行图像处理,识别所述目标图像中的目标对象。
13.一种计算机存储介质,其特征在于,所述存储介质上存储有可执行指令,该可执行指令被处理器执行时实现权利要求1至11中任一项所述的方法步骤。
14.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器上存储有计算机可执行指令,所述处理器运行所述存储器上的计算机可执行指令时可实现权利要求1至11中任一项所述的方法步骤。
CN202011021703.4A 2020-09-25 2020-09-25 网络模型的处理方法及装置、电子设备和存储介质 Active CN111967585B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011021703.4A CN111967585B (zh) 2020-09-25 2020-09-25 网络模型的处理方法及装置、电子设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011021703.4A CN111967585B (zh) 2020-09-25 2020-09-25 网络模型的处理方法及装置、电子设备和存储介质

Publications (2)

Publication Number Publication Date
CN111967585A CN111967585A (zh) 2020-11-20
CN111967585B true CN111967585B (zh) 2022-02-22

Family

ID=73387516

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011021703.4A Active CN111967585B (zh) 2020-09-25 2020-09-25 网络模型的处理方法及装置、电子设备和存储介质

Country Status (1)

Country Link
CN (1) CN111967585B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255912B (zh) * 2021-06-08 2022-07-12 深圳市商汤科技有限公司 神经网络的通道剪枝方法及装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107798331A (zh) * 2017-09-05 2018-03-13 赵彦明 离变焦图像序列特征提取方法和装置
CN108229673A (zh) * 2016-12-27 2018-06-29 北京市商汤科技开发有限公司 卷积神经网络的处理方法、装置和电子设备
CN110929839A (zh) * 2018-09-20 2020-03-27 深圳市商汤科技有限公司 训练神经网络的方法和装置、电子设备和计算机存储介质
CN111460958A (zh) * 2020-03-26 2020-07-28 暗物智能科技(广州)有限公司 一种物体检测器构建、物体检测方法及系统
CN111553477A (zh) * 2020-04-30 2020-08-18 深圳市商汤科技有限公司 图像处理方法、装置及存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107688849B (zh) * 2017-07-28 2021-04-13 赛灵思电子科技(北京)有限公司 一种动态策略定点化训练方法及装置
US10720151B2 (en) * 2018-07-27 2020-07-21 Deepgram, Inc. End-to-end neural networks for speech recognition and classification
CN110717394A (zh) * 2019-09-06 2020-01-21 北京三快在线科技有限公司 人脸识别模型的训练方法、装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229673A (zh) * 2016-12-27 2018-06-29 北京市商汤科技开发有限公司 卷积神经网络的处理方法、装置和电子设备
CN107798331A (zh) * 2017-09-05 2018-03-13 赵彦明 离变焦图像序列特征提取方法和装置
CN110929839A (zh) * 2018-09-20 2020-03-27 深圳市商汤科技有限公司 训练神经网络的方法和装置、电子设备和计算机存储介质
CN111460958A (zh) * 2020-03-26 2020-07-28 暗物智能科技(广州)有限公司 一种物体检测器构建、物体检测方法及系统
CN111553477A (zh) * 2020-04-30 2020-08-18 深圳市商汤科技有限公司 图像处理方法、装置及存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
DMCP: Differentiable Markov Channel Pruning for Neural Networks;Shaopeng Guo et al.;《2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR)》;20200805;第1536-1541页 *
深度神经网络架构优化与设计;张选杨;《中国优秀硕士学位论文全文数据库 信息科技辑》;20200115;第2020年卷(第1期);第I140-260页 *

Also Published As

Publication number Publication date
CN111967585A (zh) 2020-11-20

Similar Documents

Publication Publication Date Title
CN109886388B (zh) 一种基于变分自编码器的训练样本数据扩充方法和装置
CN109685198B (zh) 用于量化神经网络的参数的方法和装置
US10521729B2 (en) Neural architecture search for convolutional neural networks
CN110276442B (zh) 一种神经网络架构的搜索方法及装置
US10713533B2 (en) Image processing method and apparatus, and computer-readable storage medium
US20220147877A1 (en) System and method for automatic building of learning machines using learning machines
CN111406264A (zh) 神经架构搜索
US11694097B2 (en) Regression modeling of sparse acyclic graphs in time series causal inference
CN115860081B (zh) 一种芯粒算法调度方法、系统、电子设备及存储介质
CN110807529A (zh) 一种机器学习模型的训练方法、装置、设备及存储介质
CN109145107B (zh) 基于卷积神经网络的主题提取方法、装置、介质和设备
CN111967585B (zh) 网络模型的处理方法及装置、电子设备和存储介质
CN110033089A (zh) 基于分布式估计算法的深度神经网络参数优化方法及系统
CN111368887A (zh) 雷雨天气预测模型的训练方法及雷雨天气预测方法
CN109325530A (zh) 基于少量无标签数据的深度卷积神经网络的压缩方法
CN111832693B (zh) 神经网络层运算、模型训练方法、装置及设备
CN116187430A (zh) 一种联邦学习方法及相关装置
CN116911350B (zh) 基于图神经网络模型的量化方法、任务处理方法及装置
KR20220073600A (ko) 최적 파라미터 결정 방법 및 시스템
JP2022042467A (ja) 人工ニューラルネットワークモデル学習方法およびシステム
CN111383357A (zh) 一种适应目标数据集的网络模型微调方法、系统、终端和存储介质
JP6099099B2 (ja) 収束判定装置、方法、及びプログラム
CN117113174A (zh) 一种模型训练的方法、装置、存储介质及电子设备
CN108921207B (zh) 一种超参数确定方法、装置及设备
CN111401569B (zh) 超参数优化方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant