CN111553464A - 基于超网络的图像处理方法、装置及智能设备 - Google Patents

基于超网络的图像处理方法、装置及智能设备 Download PDF

Info

Publication number
CN111553464A
CN111553464A CN202010338426.3A CN202010338426A CN111553464A CN 111553464 A CN111553464 A CN 111553464A CN 202010338426 A CN202010338426 A CN 202010338426A CN 111553464 A CN111553464 A CN 111553464A
Authority
CN
China
Prior art keywords
network
target detection
super
training
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010338426.3A
Other languages
English (en)
Other versions
CN111553464B (zh
Inventor
初祥祥
许瑞军
张勃
王斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Priority to CN202010338426.3A priority Critical patent/CN111553464B/zh
Publication of CN111553464A publication Critical patent/CN111553464A/zh
Priority to US17/028,876 priority patent/US20210334661A1/en
Priority to EP20200022.0A priority patent/EP3901827B1/en
Application granted granted Critical
Publication of CN111553464B publication Critical patent/CN111553464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Neurology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本公开是关于一种基于超网络的图像处理方法、装置及智能设备。所述方法包括:将预先训练的主干网与目标检测网络的后端进行合并,对合并后得到的超网络进行训练,基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果,由于将预先训练的主干网与目标检测网络的后端进行合并,并对合并得到的超网络进行训练以及神经网络结构搜索,因而可以提高超网络的训练效率,并且由于是对训练后的超网络进行神经网络结构搜索,因而可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。

Description

基于超网络的图像处理方法、装置及智能设备
技术领域
本公开涉及深度学习技术领域,尤其涉及一种基于超网络的图像处理方法、装置及智能设备。
背景技术
相关技术中,目标检测神经网络结构搜索(NAS,Neural Architecture Search)通常是先训练用于提取特征的主干网,然后固定该主干网的参数,并将其与目标检测网络相连接。通过搜索目标检测网络的后端得到子网络。然而,该方案获取的子网络结构较为单一,会限制最后搜索出的网络结构的性能。
发明内容
为克服相关技术中存在的问题,本公开实施例提供一种基于超网络的图像处理方法、装置及智能设备,用以解决相关技术中的缺陷。
根据本公开实施例的第一方面,提供一种基于超网络的图像处理方法,包括:
将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;
对合并后得到的超网络进行训练;
基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
在一实施例中,所述合并后得到的超网络中包括依次串接的多个结构层,每个所述结构层中包括多个子结构,并且所述多个子结构输出构成每个所述结构层的输出,其中,每个子结构对应一神经网络基本运算单元或模块;
所述对合并后得到的超网络进行训练,包括:
对合并后得到的超网络进行单路径激活训练。
在一实施例中,所述对合并后得到的超网络进行单路径激活训练,包括:
对合并后得到的超网络进行单路径采样,基于样本图像信息对采样出的单路径子网络进行单步训练,重复采样和训练过程,直至合并后的超网络收敛,得到子结构的权重。
在一实施例中,所述方法还包括:
对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网。
在一实施例中,所述基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,包括:
基于所述训练得到子结构的权重,确定所述超网络的采样单路径子网络对测试图像信息进行预测的评测指标;
基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
根据本公开实施例的第二方面,提供一种基于超网络的图像处理装置,包括:
超网络合并模块,用于将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;
超网络训练模块,用于对合并后得到的超网络进行训练;
网络结构搜索模块,用于基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
处理结果获取模块,用于利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
在一实施例中,所述合并后得到的超网络中包括依次串接的多个结构层,每个所述结构层中包括多个子结构,并且所述多个子结构输出构成每个所述结构层的输出,其中,每个子结构对应一神经网络基本运算单元或模块;
所述超网络训练模块还用于对合并后得到的超网络进行单路径激活训练。
在一实施例中,所述超网络训练模块还用于对合并后得到的超网络进行单路径采样,基于样本图像信息对采样出的单路径子网络进行单步训练,重复采样和训练过程,直至合并后的超网络收敛,得到子结构的权重。
在一实施例中,所述装置还包括:
主干网训练模块,用于对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网。
在一实施例中,所述网络结构搜索模块,包括:
评测指标确定单元,用于基于所述训练得到子结构的权重,确定所述超网络的采样单路径子网络对测试图像信息进行预测的评测指标;
网络架构确定单元,用于基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
根据本公开实施例的第三方面,提供一种智能设备,包括:
处理器和用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;对合并后得到的超网络进行训练;
基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
根据本公开实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:
将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;对合并后得到的超网络进行训练;
基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开通过将预先训练的主干网与目标检测网络的后端进行合并,并对合并后得到的超网络进行训练,然后基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,进而利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果,由于将预先训练的主干网与目标检测网络的后端进行合并,并对合并得到的超网络进行训练以及神经网络结构搜索,因而可以提高超网络的训练效率,并且由于是对训练后的超网络进行神经网络结构搜索,因而可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是根据一示例性实施例示出的一种基于超网络的图像处理方法的流程图;
图2A是根据又一示例性实施例示出的一种基于超网络的图像处理方法的流程图;
图2B是根据一示例性实施例示出的超网络的结构示意图;
图3A是根据另一示例性实施例示出的一种基于超网络的图像处理方法的流程图;
图3B是根据一示例性实施例示出的主干网的结构示意图;
图4是根据一示例性实施例示出的如何基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构的流程图;
图5是根据一示例性实施例示出的一种基于超网络的图像处理装置的框图;
图6是根据一示例性实施例示出的另一种基于超网络的图像处理装置的框图;
图7是根据一示例性实施例示出的一种智能设备的框图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例并不代表与本公开相一致的各个实施例。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
图1是根据一示例性实施例示出的一种基于超网络的图像处理方法的流程图;该基于超网络的图像处理方法可以应用于终端设备(如,智能手机、平板电脑、可穿戴设备等),或者可以用于服务端(如,一台服务器或多台服务器组成的服务器集群)。如图1所示,该基于超网络的图像处理方法包括以下步骤S101-S104:
在步骤S101中,将预先训练的主干网与目标检测网络的后端进行合并。
本实施例中,主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于上述图像特征进行目标检测。
举例来说,上述将预先训练的主干网与目标检测子网络进行合并时可以将主干网的后端与目标检测子网络的前端相连接,进而可以得到合并后的超网络。
在一实施例中,上述主干网的获取方式还可以参见下述图3A所示实施例,在此先不进行详述。
在步骤S102中,对合并后得到的超网络进行训练。
本实施例中,当将预先训练的主干网与目标检测网络的后端进行合并后,可以采用预设方法对合并后得到的超网络进行训练。进而在训练完成后,得到符合预设要求的超网络。例如,使用大量的图像样本,对合并后得到的超网络进行训练。
其中,上述对合并后得到的超网络进行训练所采用的预设方法可以由开发人员或用户根据实际业务需要进行设置,例如可以采用典型的反向传播方法、正向传播方法,以及双向传播方法等,本实施例对此不进行限定。
在另一实施例中,上述对所述超网络进行训练的方式还可以参见下述图2A所示实施例,在此先不进行详述。
在步骤S103中,基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构。
本实施例中,可以采用设定搜索算法,基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构。
其中,设定搜索算法可以由开发人员或用户根据实际业务需要进行选取,例如可以选取为以下任一种:随机搜索算法、贝叶斯搜索算法、进化学习算法、强化学习算法、进化和强化学习结合算法、以及基于梯度的算法。
在一实施例中,上述基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构的方式可以参见下述图4所示实施例,在此先不进行详述。
在步骤S104中,利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
本实施例中,在得到目标检测神经网络架构后,可以将该待处理图像输入目标检测神经网络架构,以利用该目标检测神经网络架构对待处理图像进行处理,进而可以得到图像处理结果。
由上述描述可知,本实施例通过将预先训练的主干网与目标检测网络的后端进行合并,并对合并后得到的超网络进行训练,然后基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,进而利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果,由于将预先训练的主干网与目标检测网络的后端进行合并,并对合并得到的超网络进行训练以及神经网络结构搜索,因而可以提高超网络的训练效率,并且由于是对训练后的超网络进行神经网络结构搜索,因而可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。
图2A是根据又一示例性实施例示出的一种基于超网络的图像处理方法的流程图;图2B是根据一示例性实施例示出的超网络的结构示意图。该基于超网络的图像处理方法可以应用于终端设备(如,智能手机、平板电脑、可穿戴设备等),或者可以用于服务端(如,一台服务器或多台服务器组成的服务器集群)。如图2A所示,该基于超网络的图像处理方法包括以下步骤S201-S204:
在步骤S201中,将预先训练的主干网与目标检测网络的后端进行合并。
其中,主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测。
在步骤S202中,对合并后得到的超网络进行单路径激活训练。
如图2B所示,上述合并后得到的超网络中包括依次串接的多个结构层(如第一结构层、第二结构层、……、第N结构层等),每个所述结构层中包括多个子结构(如子结构A、子结构B、……、子结构C等),并且所述多个子结构输出构成每个所述结构层的输出,其中,每个子结构对应一神经网络基本运算单元或模块。
举例来说,在对合并后得到的超网络进行单路径激活训练时,可以对合并后得到的超网络进行单路径采样,基于样本图像信息对采样出的单路径子网络进行单步训练,重复采样和训练过程,直至合并后的超网络收敛(即,直至每个结构层中的子结构得到充分训练),以得到子结构的权重。
在步骤S203中,基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构。
在步骤S204中,利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
其中,步骤S201、S203、S204的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过将预先训练的主干网与目标检测网络的后端进行合并,并对合并后得到的超网络进行单路径激活训练,然后基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,进而利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果,由于将预先训练的主干网与目标检测网络的后端进行合并,并对合并得到的超网络进行训练以及神经网络结构搜索,因而可以提高超网络的训练效率,并且由于是对合并后得到的超网络进行单路径激活训练,以及对训练后的超网络进行神经网络结构搜索,因而可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。
图3A是根据另一示例性实施例示出的一种基于超网络的图像处理方法的流程图;图3B是根据一示例性实施例示出的主干网的结构示意图。本实施例的基于超网络的图像处理方法可以应用于终端设备(如,智能手机、平板电脑、可穿戴设备等),或者可以用于服务端(如,一台服务器或多台服务器组成的服务器集群)。如图3A所示,该基于超网络的图像处理方法包括以下步骤S301-S305:
在步骤S301中,对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网。
本实施例中,当构建用于对从图像信息中提取的图像特征进行分类的初始主干网后,可以对该初始主干网进行单路径激活训练,得到预先训练的主干网。其中,主干网为包含主干网的各个搜索网络空间的网络。值得说明的是,超网络即多个网络的集合,其可以作为包含多个网络的网络搜索空间。换言之,超网络是搜索空间的一种表示形式,即超网含有所有子网,但整体又可以作为一个特殊的神经网络。
举例来说,上述初始主干网超网络的结构可以参见图3B。如图3B所示,该初始主干网中包括依次串接的多个结构层(如第一结构层、第二结构层、……、第N结构层等),每个所述结构层中包括多个子结构(如子结构A、子结构B、……、子结构C等),并且该多个子结构输出构成每个结构层的输出。其中子结构的输入端与位于所在结构层之前的结构层的输出端连接(即每个结构层的各个子结构的输入端均与上一个结构层的输出端连接)。其中,每个子结构用于对输入的特征进行基本运算单元和模块对应的操作,包括但不限定于卷积、可分离卷积、空洞卷积、池化、跳接操作、以及其不同的操作的组合。在一实施例中,对初始主干网进行单路径激活训练即每步只激活单路径子网进行训练,具体步骤可以包括:
步骤一、自所述超网络第一层起至最后一层,逐层从每层的采样池中取出一个子结构,取出后的子结构不再放回所述采样池;
步骤二、将自每层选择的子结构连接起来,组成一个子网络;
重复步骤一至步骤二的过程,以获取多个子网络,进而对所述多个子网络中的各个子网络分别进行一次训练,根据所述多个子网络的训练结果,更新所述超网络的参数,例如可以使用反射传播BP算法分别对所述多个子网络中的各个子网络进行训练。
在步骤S302中,将预先训练的主干网与目标检测网络的后端进行合并。
其中,所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网,用于基于所述图像特征进行目标检测。
在步骤S303中,对合并后得到的超网络进行单路径激活训练。
在步骤S304中,基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构。
在步骤S305中,利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
其中,步骤S302-S305的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网,进而可以实现后续将预先训练的主干网与目标检测网络的后端进行合并,以及对合并后得到的超网络进行训练,并进行网络结构搜索得到目标检测神经网络架构,可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。
图4是根据一示例性实施例示出的如何基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构的流程图;本实施例在上述实施例的基础上以如何基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构为例进行示例性说明。如图4所示,上述步骤S103中所述基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,可以包括以下步骤S401-S402:
在步骤S401中,基于所述训练得到子结构的权重,确定所述超网络的采样单路径子网络对测试图像信息进行预测的评测指标。
本实施例中,当对合并后得到的超网络进行训练后,可以得到各个子结构的权重,进而可以基于训练得到子结构的权重,确定超网络的采样单路径子网络对测试图像信息进行预测的评测指标。
举例来说,上述得到各个子结构的权重后,可以将该权重用于超网络的采样单路径子网络,进而可以利用该采样单路径子网络对测试图像信息进行预测,得到该测试图像的评测指标。
其中,上述评测指标可以由开发人员基于实际业务需求进行设置,如设置为准确率、召回率等,本实施例对此不进行限定。
在步骤S402中,基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
本实施例中,当得到各个子网络的评测指标后,可以基于各个子网络的评测指标,并根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
其中,上述特定搜索方法可以由开发人员基于实际业务需求进行选取,如选取为演化算法、随机搜索、强化学习方法等,本实施例对此不进行限定。
在此基础上,上述实际需要可以包括能耗与评测指标达到最好平衡等。
由上述描述可知,本实施例通过基于训练得到子结构的权重,确定超网络的采样单路径子网络对测试图像信息进行预测的评测指标,并基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构,可以实现后续利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果,由于是对训练后的超网络进行神经网络结构搜索,因而可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。
图5是根据一示例性实施例示出的一种基于超网络的图像处理装置的框图;该基于超网络的图像处理装置可以应用于终端设备(如,智能手机、平板电脑、可穿戴设备等),或者可以用于服务端(如,一台服务器或多台服务器组成的服务器集群)。如图5所示,该装置包括:超网络合并模块110、超网络训练模块120、网络结构搜索模块130以及处理结果获取模块140,其中,
超网络合并模块110,用于将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;
超网络训练模块120,用于对合并后得到的超网络进行训练;
网络结构搜索模块130,用于基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
处理结果获取模块140,用于利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
由上述描述可知,本实施例通过将预先训练的主干网与目标检测网络的后端进行合并,并对合并后得到的超网络进行训练,然后基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,进而利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果,由于将预先训练的主干网与目标检测网络的后端进行合并,并对合并得到的超网络进行训练以及神经网络结构搜索,因而可以提高超网络的训练效率,并且由于是对训练后的超网络进行神经网络结构搜索,因而可以保证有足够丰富的搜索空间进行神经网络结构搜索,进而可以提高搜索出的网络结构的图像处理性能。
图6是根据一示例性实施例示出的另一种基于超网络的图像处理装置的框图;该基于超网络的图像处理装置可以应用于终端设备(如,智能手机、平板电脑、可穿戴设备等),或者可以用于服务端(如,一台服务器或多台服务器组成的服务器集群)。其中,超网络合并模块210、超网络训练模块220、网络结构搜索模块230以及处理结果获取模块240与前述图5所示实施例中的超网络合并模块110、超网络训练模块120、网络结构搜索模块130以及处理结果获取模块140的功能相同,在此不进行赘述。
本实施例中,所述合并后得到的超网络中可以包括依次串接的多个结构层,每个所述结构层中包括多个子结构,并且所述多个子结构输出构成每个所述结构层的输出,其中,每个子结构对应一神经网络基本运算单元或模块;
超网络训练模块220还可以用于对合并后得到的超网络进行单路径激活训练。
在一实施例中,超网络训练模块220还可以用于对合并后得到的超网络进行单路径采样,基于样本图像信息对采样出的单路径子网络进行单步训练,重复采样和训练过程,直至合并后的超网络收敛,得到子结构的权重。
在一实施例中,上述装置还可以包括:
主干网训练模块250,用于对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网。
在一实施例中,网络结构搜索模块230,可以包括:
评测指标确定单元231,用于基于所述训练得到子结构的权重,确定所述超网络的采样单路径子网络对测试图像信息进行预测的评测指标;
网络架构确定单元232,用于基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
图7是根据一示例性实施例示出的一种电子设备的框图。例如,装置900可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。
参照图7,装置900可以包括以下一个或多个组件:处理组件902,存储器904,电源组件906,多媒体组件908,音频组件910,输入/输出(I/O)的接口912,传感器组件914,以及通信组件916。
处理组件902通常控制装置900的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理组件902可以包括一个或多个处理器920来执行指令,以完成上述的方法的全部或部分步骤。此外,处理组件902可以包括一个或多个模块,便于处理组件902和其他组件之间的交互。例如,处理部件902可以包括多媒体模块,以方便多媒体组件908和处理组件902之间的交互。
存储器904被配置为存储各种类型的数据以支持在设备900的操作。这些数据的示例包括用于在装置900上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。存储器904可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
电力组件906为装置900的各种组件提供电力。电力组件906可以包括电源管理系统,一个或多个电源,及其他与为装置900生成、管理和分配电力相关联的组件。
多媒体组件908包括在所述装置900和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件908包括一个前置摄像头和/或后置摄像头。当装置900处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。
音频组件910被配置为输出和/或输入音频信号。例如,音频组件910包括一个麦克风(MIC),当装置900处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器904或经由通信组件916发送。在一些实施例中,音频组件910还包括一个扬声器,用于输出音频信号。
I/O接口912为处理组件902和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。
传感器组件914包括一个或多个传感器,用于为装置900提供各个方面的状态评估。例如,传感器组件914可以检测到装置900的打开/关闭状态,组件的相对定位,例如所述组件为装置900的显示器和小键盘,传感器组件914还可以检测装置900或装置900一个组件的位置改变,用户与装置900接触的存在或不存在,装置900方位或加速/减速和装置900的温度变化。传感器组件914可以包括语音拾取传感器VPU Sensor,被配置为基于骨传导方式采集语音信息。传感器组件914还可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件914还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件914还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。
通信组件916被配置为便于装置900和其他设备之间有线或无线方式的通信。装置900可以接入基于通信标准的无线网络,如WiFi,2G或3G,4G或5G或它们的组合。在一个示例性实施例中,通信部件916经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件916还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
在示例性实施例中,装置900可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子组件实现,用于执行上述基于超网络的图像处理方法。
在示例性实施例中,还提供了一种包括指令的非临时性计算机可读存储介质,例如包括指令的存储器904,上述指令可由装置900的处理器920执行以完成上述基于超网络的图像处理方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。
本领域技术人员在考虑说明书及实践这里公开的公开后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
应当理解的是,本公开并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims (12)

1.一种基于超网络的图像处理方法,其特征在于,包括:
将预先训练的主干网与目标检测网络的后端进行合并,所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;
对合并后得到的超网络进行训练;
基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
2.根据权利要求1所述的方法,其特征在于,所述合并后得到的超网络中包括依次串接的多个结构层,每个所述结构层中包括多个子结构,并且所述多个子结构输出构成每个所述结构层的输出,其中,每个子结构对应一神经网络基本运算单元或模块;
所述对合并后得到的超网络进行训练,包括:
对合并后得到的超网络进行单路径激活训练。
3.根据权利要求2所述的方法,其特征在于,所述对合并后得到的超网络进行单路径激活训练,包括:
对合并后得到的超网络进行单路径采样,基于样本图像信息对采样出的单路径子网络进行单步训练,重复采样和训练过程,直至合并后的超网络收敛,得到子结构的权重。
4.根据权利要求2所述的方法,其特征在于,所述方法还包括:
对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网。
5.根据权利要求1所述的方法,其特征在于,所述基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构,包括:
基于所述训练得到子结构的权重,确定所述超网络的采样单路径子网络对测试图像信息进行预测的评测指标;
基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
6.一种基于超网络的图像处理装置,其特征在于,包括:
超网络合并模块,用于将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;
超网络训练模块,用于对合并后得到的超网络进行训练;
网络结构搜索模块,用于基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
处理结果获取模块,用于利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
7.根据权利要求6所述的装置,其特征在于,所述合并后得到的超网络中包括依次串接的多个结构层,每个所述结构层中包括多个子结构,并且所述多个子结构输出构成每个所述结构层的输出,其中,每个子结构对应一神经网络基本运算单元或模块;
所述超网络训练模块还用于对合并后得到的超网络进行单路径激活训练。
8.根据权利要求7所述的装置,其特征在于,所述超网络训练模块还用于对合并后得到的超网络进行单路径采样,基于样本图像信息对采样出的单路径子网络进行单步训练,重复采样和训练过程,直至合并后的超网络收敛,得到子结构的权重。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括:
主干网训练模块,用于对构建的初始主干网进行单路径激活训练,得到所述预先训练的主干网。
10.根据权利要求6所述的装置,其特征在于,所述网络结构搜索模块,包括:
评测指标确定单元,用于基于所述训练得到子结构的权重,确定所述超网络的采样单路径子网络对测试图像信息进行预测的评测指标;
网络架构确定单元,用于基于各个子网络的评测指标,根据特定搜索方法在搜索空间中进行搜索,得到符合实际需要的一系列子网络,并作为所述目标检测神经网络架构。
11.一种智能设备,其特征在于,包括:
处理器和用于存储处理器可执行指令的存储器;
其中,所述处理器被配置为:
将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;对合并后得到的超网络进行训练;
基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;
利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
12.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现以下步骤:
将预先训练的主干网与目标检测网络的后端进行合并;所述主干网包含主干网搜索空间的分类超网,用于从图像信息中提取图像特征,所述目标检测网络的后端包含目标检测网后端搜索空间的目标检测后端超网络,用于基于所述图像特征进行目标检测;对合并后得到的超网络进行训练;
基于训练后的超网络进行神经网络结构搜索,得到目标检测神经网络架构;利用所述目标检测神经网络架构对待处理图像进行处理,得到图像处理结果。
CN202010338426.3A 2020-04-26 2020-04-26 基于超网络的图像处理方法、装置及智能设备 Active CN111553464B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202010338426.3A CN111553464B (zh) 2020-04-26 2020-04-26 基于超网络的图像处理方法、装置及智能设备
US17/028,876 US20210334661A1 (en) 2020-04-26 2020-09-22 Image processing method and apparatus based on super network, and computer storage medium
EP20200022.0A EP3901827B1 (en) 2020-04-26 2020-10-05 Image processing method and apparatus based on super network, intelligent device and computer storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010338426.3A CN111553464B (zh) 2020-04-26 2020-04-26 基于超网络的图像处理方法、装置及智能设备

Publications (2)

Publication Number Publication Date
CN111553464A true CN111553464A (zh) 2020-08-18
CN111553464B CN111553464B (zh) 2023-09-29

Family

ID=72005912

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010338426.3A Active CN111553464B (zh) 2020-04-26 2020-04-26 基于超网络的图像处理方法、装置及智能设备

Country Status (3)

Country Link
US (1) US20210334661A1 (zh)
EP (1) EP3901827B1 (zh)
CN (1) CN111553464B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418337A (zh) * 2020-11-27 2021-02-26 太原理工大学 基于脑功能超网络模型的多特征融合数据分类方法
CN112464579A (zh) * 2021-02-02 2021-03-09 四川大学 基于进化神经网络结构搜索食管癌病变区域识别建模方法
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法
CN114925739A (zh) * 2021-02-10 2022-08-19 华为技术有限公司 目标检测方法、装置和系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110782034A (zh) * 2019-10-31 2020-02-11 北京小米智能科技有限公司 神经网络的训练方法、装置及存储介质
US20200082275A1 (en) * 2018-09-10 2020-03-12 Fujitsu Limited Neural network architecture search apparatus and method and computer readable recording medium
CN110956262A (zh) * 2019-11-12 2020-04-03 北京小米智能科技有限公司 超网络训练方法及装置、电子设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104781827B (zh) * 2012-12-18 2018-10-19 英特尔公司 用于加速对象检测的硬件卷积预过滤

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200082275A1 (en) * 2018-09-10 2020-03-12 Fujitsu Limited Neural network architecture search apparatus and method and computer readable recording medium
CN110782034A (zh) * 2019-10-31 2020-02-11 北京小米智能科技有限公司 神经网络的训练方法、装置及存储介质
CN110956262A (zh) * 2019-11-12 2020-04-03 北京小米智能科技有限公司 超网络训练方法及装置、电子设备、存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
姚相坤;万里红;霍宏;方涛;: "基于多结构卷积神经网络的高分遥感影像飞机目标检测" *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112418337A (zh) * 2020-11-27 2021-02-26 太原理工大学 基于脑功能超网络模型的多特征融合数据分类方法
CN112598021A (zh) * 2020-11-27 2021-04-02 西北工业大学 一种基于自动机器学习的图结构搜索方法
CN112464579A (zh) * 2021-02-02 2021-03-09 四川大学 基于进化神经网络结构搜索食管癌病变区域识别建模方法
CN114925739A (zh) * 2021-02-10 2022-08-19 华为技术有限公司 目标检测方法、装置和系统
CN114925739B (zh) * 2021-02-10 2023-11-03 华为技术有限公司 目标检测方法、装置和系统

Also Published As

Publication number Publication date
EP3901827B1 (en) 2024-05-01
EP3901827A1 (en) 2021-10-27
CN111553464B (zh) 2023-09-29
US20210334661A1 (en) 2021-10-28

Similar Documents

Publication Publication Date Title
KR102365890B1 (ko) 신경망의 훈련 방법, 장치 및 저장 매체
CN111553464B (zh) 基于超网络的图像处理方法、装置及智能设备
CN105338409B (zh) 一种网络视频预加载方法及装置
CN109359056B (zh) 一种应用程序测试方法及装置
CN109599104B (zh) 多波束选取方法及装置
CN111160448B (zh) 一种图像分类模型的训练方法及装置
CN111968635B (zh) 语音识别的方法、装置及存储介质
CN107133354B (zh) 图像描述信息的获取方法及装置
US20210279473A1 (en) Video processing method and apparatus, electronic device, and storage medium
CN111461304B (zh) 分类神经网络的训练方法、文本分类方法、装置及设备
CN103944804A (zh) 推荐联系人的方法及装置
CN109117874A (zh) 操作行为预测方法及装置
CN105677392A (zh) 应用程序的推荐方法和装置
CN110941727B (zh) 一种资源推荐方法、装置、电子设备及存储介质
CN110928425A (zh) 信息监控方法及装置
CN113032627A (zh) 视频分类方法、装置、存储介质及终端设备
CN111062407B (zh) 图像处理方法及装置、电子设备和存储介质
CN112783779A (zh) 测试用例的生成方法、装置、电子设备和存储介质
CN110177379B (zh) 基站接入方法及系统
CN112259122A (zh) 音频类型识别方法、装置及存储介质
CN111382242A (zh) 一种信息提供方法、装置及可读介质
CN104636442A (zh) 名片传递方法及装置
CN111354356B (zh) 一种语音数据处理方法及装置
CN111650554A (zh) 定位方法及装置、电子设备和存储介质
CN112214114A (zh) 一种输入方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant