CN110705695B - 搜索模型结构的方法、装置、设备和存储介质 - Google Patents

搜索模型结构的方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN110705695B
CN110705695B CN201910959674.7A CN201910959674A CN110705695B CN 110705695 B CN110705695 B CN 110705695B CN 201910959674 A CN201910959674 A CN 201910959674A CN 110705695 B CN110705695 B CN 110705695B
Authority
CN
China
Prior art keywords
model structure
candidate model
candidate
structures
target object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910959674.7A
Other languages
English (en)
Other versions
CN110705695A (zh
Inventor
希滕
张刚
温圣召
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201910959674.7A priority Critical patent/CN110705695B/zh
Publication of CN110705695A publication Critical patent/CN110705695A/zh
Application granted granted Critical
Publication of CN110705695B publication Critical patent/CN110705695B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了搜索模型结构的方法、装置、设备和计算机可读存储介质,涉及人工智能领域。该方法包括确定能够用于从图像中检测目标对象的模型结构搜索空间,该模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作;以及基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。本公开的实施例能够自动搜索适合用于目标检测任务的最优模型结构。

Description

搜索模型结构的方法、装置、设备和存储介质
技术领域
本公开的实施例主要涉及人工智能领域,并且更具体地,涉及用于搜索模型结构的方法、装置、设备和计算机可读存储介质。
背景技术
近年来,深度学习技术在很多方向上都取得了巨大的成功。在深度学习技术中,模型结构(即,人工神经网络的结构)的好坏对最终模型的效果有非常重要的影响。由人工设计神经网络结构往往需要设计者具有非常丰富的经验和尝试非常多的组合方式。由于众多网络参数会产生非常多的组合方式,常规的随机搜索几乎是不可行。因此,最近几年神经网络架构搜索技术(Neural Architecture Search,简称NAS)成为研究热点,其利用算法代替繁琐的人工操作来自动搜索最佳的神经网络架构。
目标检测问题(例如,从图像中检测人、动物等目标对象)非常有挑战性。由于目标检测问题的复杂性,很难人工设计出非常好的神经网络结构。现有的模型结构自动搜索方法主要针对分类问题,无法直接应用于目标检测问题的模型结构自动搜索。
发明内容
根据本公开的示例实施例,提供了一种用于搜索模型结构的方案。
在本公开的第一方面中,提供了一种用于搜索模型结构的方法。该方法包括确定能够用于从图像中检测目标对象的模型结构搜索空间,该模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。该方法还包括基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。
在本公开的第二方面中,提供了一种用于搜索模型结构的装置。该装置包括搜索空间确定模块,被配置为确定能够用于从图像中检测目标对象的模型结构搜索空间,该模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。该装置还包括模型结构搜索模块,被配置为基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。
在本公开的第三方面中,提供了一种计算设备,包括一个或多个处理器;以及存储器,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行使,使得该计算设备实现根据本公开的第一方面的方法。
在本公开的第四方面中,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现根据本公开的第一方面的方法。
应当理解,发明内容部分中所描述的内容并非旨在限定本公开的实施例的关键或重要特征,亦非用于限制本公开的范围。本公开的其它特征将通过以下的描述变得容易理解。
附图说明
结合附图并参考以下详细说明,本公开各实施例的上述和其他特征、优点及方面将变得更加明显。在附图中,相同或相似的附图标注表示相同或相似的元素,其中:
图1示出了本公开的多个实施例能够在其中实现的示例系统的示意图;
图2示出了根据本公开的一些实施例的用于搜索模型结构的示例方法的流程图;
图3示出了根据本公开的一些实施例的针对目标检测问题的示例模型结构搜索空间的示意图;
图4示出了根据本公开的一些实施例的用于在模型结构搜索空间中搜索模型结构的示例方法的流程图;
图5示出了根据本公开的一些实施例的适合用于检测大物体的示例模型结构的示意图;
图6示出了根据本公开的一些实施例的适合用于检测小物体的示例模型结构的示意图;
图7示出了根据本公开的实施例的用于搜索模型结构的装置的示意框图;以及
图8示出了能够实施本公开的多个实施例的计算设备的框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
在本公开的实施例的描述中,术语“包括”及其类似用语应当理解为开放性包含,即“包括但不限于”。术语“基于”应当理解为“至少部分地基于”。术语“一个实施例”或“该实施例”应当理解为“至少一个实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
在本公开的实施例的描述中,“模型”可以从训练数据中学习到相应的输入与输出之间的关联,从而在训练完成后可以针对给定的输入,生成对应的输出。例如,神经网络模型被构造为包括多个神经元,每个神经元根据训练获得的参数来处理输入,并产生输出。所有神经元的参数组成神经网络模型的参数集。当神经网络模型的参数集被确定时,该模型可以被运行以执行相应功能。在本文中,术语“神经网络”、“神经网络模型”、“模型”和“网络”可替换地使用。
如以上提及的,由于目标检测问题的复杂性,很难人工设计出非常好的神经网络结构。现有的模型结构自动搜索方法主要针对分类问题。然而,分类问题和目标检测问题差异巨大。对图像进行分类(例如,图像中是否包括人)可能仅涉及单个类别或者较少类别,而对图像进行目标检测(例如,确定图像中包括多少个人,以及每个人所在的位置)可能涉及几十甚至几百个类别。因此,现有的模型结构自动搜索方法无法直接应用于目标检测问题的模型结构自动搜索。
根据本公开的实施例,提出了一种用于针对目标检测问题的模型结构自动搜索方案。该方案能够确定用于从图像中检测目标对象的模型结构搜索空间。模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。然后,基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。本公开的实施例能够自动搜索出适合用于目标检测任务的最优模型结构,从而提高目标检测的效率和准确性。
以下将参照附图来具体描述本公开的实施例。图1示出了本公开的多个实施例能够在其中实现的示例系统100的示意图。如图1所示,系统100可以包括模型结构搜索装置110、模型训练装置120和模型应用装置130。模型结构搜索装置110、模型训练装置120和模型应用装置130可以被实现在同一物理设备中,或者被单独地实现在不同的物理设备中。应当理解,在图1中仅出于示例性的目的描述系统100的结构和功能,而不暗示对于本公开的范围的任何限制。本公开的实施例还可以被应用到具有不同的结构和/或功能的系统中。
模型结构搜索装置110可以实现模型结构的自动搜索。如图1所示,针对目标检测问题(例如,从图像中检测人、动物等目标对象,确定其数量和位置等),模型结构搜索装置110可以确定模型结构搜索空间,并且在模型结构搜索空间中搜索适合用于检测待检测目标对象101的模型结构102。模型结构搜索空间可以包括能够用于从图像中检测目标对象的多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。待检测目标对象101例如可以按照尺寸(例如,大物体、小物体等)、种类(例如,人、动物等)等属性而被划分为不同类型。模型结构搜索装置110可以基于待检测目标对象101的类型来在模型结构搜索空间中搜索适合用于检测该类型对象的模型结构102。
由模型结构搜索装置110搜索到的模型结构102可以被提供给模型训练装置120进行训练。模型训练装置120可以基于训练数据103并且利用模型结构102进行训练,以得到经训练的模型104。例如,针对目标检测问题,训练数据103可以包括多个训练图像和指示每个训练图像中存在的一个或多个待检测目标对象101的信息。经训练的模型104可以能够被用于从任意输入图像中检测待检测目标对象101。
由模型训练装置120基于模型结构102而训练得到的模型104可以被提供给模型应用装置130。模型应用装置130可以利用模型104对输入图像105中的待检测对象101进行检测,并生成检测结果106。检测结果106可以指示输入图像105中是否存在待检测对象101、所存在的待检测对象101的数量和位置、以及待检测对象101的种类等。
图2示出了根据本公开的一些实施例的用于搜索模型结构的示例方法200的流程图。过程200可以由如图1所示的模型结构搜索装置110来实现。应当理解,方法200还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。
在框210处,模型结构搜索装置110确定能够用于从图像中检测目标对象的模型结构搜索空间。
在一些实施例中,模型结构搜索空间可以包括能够用于从图像中检测目标对象的多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。
图3示出了根据本公开的一些实施例的针对目标检测问题的示例模型结构搜索空间300的示意图。
如图3所示,C2表示对图像310进行特征变换(例如,卷积操作)而得到的特征图。例如,假设图像310为RGB图像,其尺度为1024*1024*3(即,长为1024像素,宽为1024像素,通道数为3),C2的尺度可以为256*256*64(即,长为256像素,宽为256像素,通道数为64)。在此所述的“尺度”由图像的长度、宽度和通道数(也称为“维度”)来表示。C3表示对C2执行下采样而得到的特征图。以2倍下采样为例,例如,C3的长度可以是C2长度的1/2(例如,128像素),C3的宽度可以是C2宽度的1/2(例如,128像素),C3的通道数可以超过C2的通道数。类似地,C4表示对C3执行下采样(例如,2倍下采样)而得到的特征图,并且C5表示对C4执行下采样(例如,2倍下采样)而得到的特征图。
P2~P5表示经过特征融合后得到的不同尺度的特征图,P2~P5中的任一项可以作为用于检测目标对象的输出特征图。例如,P5可以具有与C5相同的尺寸(即,长度和宽度),但两者的维度可能不同。P4可以具有与C4相同的尺寸,但两者的维度可能不同。P3可以具有与C3相同的尺寸,但两者的维度可能不同。P2可以具有与C2相同的尺寸,但两者的维度可能不同。
图3中的虚线示出了将从图像得到的不同尺度的特征图融合成用于检测目标对象的输出特征图的所有可能的融合方式。例如,以将P3作为输出特征图为例,其融合方式320示出了P3的所有可能的输入特征图,包括C2、C3、C4、C5、P5和/或P4。由于这些输入特征图的尺度与输出特征图P3的尺度不同,在融合时需要执行相应的尺度变换。在图3中,A3(·)表示以P3的尺度作为目标尺度将各种尺度的特征图C2、C3、C4、C5、P5和/或P4变换到目标尺度的自适应尺度变换操作。例如,将C2连接到P3时需要执行下采样(例如,2倍下采样)操作,C3连接到P3不做上下采样,将C4连接到P3需要执行上采样(例如,2倍上采样)操作,将C5连接到P3需要执行上采样(例如,4倍上采样)操作等等。在图3中,
Figure BDA0002228508450000071
……和/或
Figure BDA0002228508450000072
分别表示在融合过程中对特征图C2、C3、C4、C5、P5和/或P4执行的相应操作(例如,卷积操作)。
从图3中可以看出,P2~P5中的任一项可以作为用于检测目标对象的输出特征图。此外,针对P2~P5中的每一项,选择哪些输入特征图、这些输入特征图以何种拓扑结构进行连接、以及在融合时分别对这些输入特征图执行哪些操作可能存在很多种组合方式。每一种组合方式将构成模型结构搜索空间300中的一种候选模型结构。
返回到图2,在框220处,模型结构搜索装置110基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。
在一些实施例中,待检测目标对象可以按照其尺度被划分为不同类型,例如尺寸超过阈值尺寸的大物体、或者尺寸低于阈值尺寸的小物体。备选地,在另一些实施例中,待检测目标对象可以按照其种类被划分成不同类型,例如人物、动物等。模型结构搜索装置110可以基于待检测目标对象的类型来在在模型结构搜索空间中搜索适合用于从图像中检测该类型的对象的模型结构。
图4示出了根据本公开的一些实施例的用于在模型结构搜索空间中搜索模型结构的示例方法400的流程图。方法400例如可以被视为如图2所示的框220的一种示例实现方式。应当理解,方法400还可以包括未示出的附加框和/或可以省略所示出的框。本公开的范围在此方面不受限制。
在框410处,模型结构搜索装置110从模型结构搜索空间所包括的多个候选模型结构中选择一组候选模型结构(本文中也称为“第一组候选模型结构”)。在一些实施例中,在初始情况下,第一组候选模型结构可以是随机选择的。
然后,模型结构搜索装置110可以迭代地执行框420~框450,直到迭代终止条件被满足。
在框420处,模型结构搜索装置110确定第一组候选模型结构的性能指标。在一些实施例中,针对第一组候选模型结构中的每个候选模型结构,可以利用该候选模型结构来训练用于目标检测的模型。通过利用经训练的模型来执行目标检测任务(例如,从图像中检测特定类型的目标对象),可以确定该模型的性能指标(例如,准确率、误识别率等等)。所确定的性能指标可以被视为该候选模型结构的性能指标。以此方式,模型结构搜索装置110能够确定第一组候选模型结构中的每个候选模型结构的性能指标。
在框430处,模型结构搜索装置110确定迭代终止条件是否被满足。在一些实施例中,迭代终止条件可以包括以下之一:迭代次数达到阈值次数;或者两次迭代中所选的候选模型结构的性能指标变化量低于阈值(也即,收敛)。
如果迭代终止条件不满足,则方法400进行至框440处,其中模型结构搜索装置110从第一组候选模型结构中选择性能指标最好的至少一个候选模型结构。
然后,在框450处,模型结构搜索装置110基于所选择的至少一个候选模型结构,从模型结构搜索空间所包括的多个候选模型结构中选择第二组候选模型结构,并利用第二组候选模型结构来替换第一组候选模型结构。在一些实施例中,模型结构搜索装置110可以从多个候选模型结构中选择与至少一个候选模型结构的相似度超过阈值相似度的一个或多个候选模型结构作为第二组模型结构。附加地或备选地,在一些实施例中,所选的第二组模型结构可以包括从第一组候选模型结构中选择的性能指标最好的至少一个候选模型结构。
响应于第一组候选模型结构被更新,方法400进行至框420,以进行下一次迭代。以此方式,所选的候选模型结构的性能指标能够越来越好,直到满足迭代终止条件。
如果在框430处确定迭代终止条件被满足,则方法400进行至框460处,其中模型结构搜索装置110从第一组候选模型结构中选择性能指标最好的候选模型结构作为最终模型结构(例如,如图1所示的模型结构102)。
图5示出了根据本公开的一些实施例的适合用于检测大物体的示例模型结构500的示意图。在此所述的“大物体”指代尺寸超过阈值尺寸的物体。例如,示例模型结构500是模型结构搜索装置110通过执行如图4所示的方法400而得到的。出于示例的目的,图5仅示出了各个特征层的连接方式,而未示出对各特征层的特征图进行融合时的相应操作。如图5所示,特征图C2、C3和C5被融合成P5,C2、C4和C5被融合成P4,特征图C2、C3和P5被融合成P3,最终特征图C4、P4和P3被融合成P2作为输出特征图。输出特征图P2将被用于检测图像中的大物体。
图6出了根据本公开的一些实施例的适合用于检测小物体的示例模型结构600的示意图。在此所述的“小物体”指代尺寸低于阈值尺寸的物体。例如,示例模型结构600是模型结构搜索装置110通过执行如图4所示的方法400而得到的。出于示例的目的,图6仅示出了各个特征层的连接方式,而未示出对各特征层的特征图进行融合时的相应操作。如图6所示,特征图C2、C3和C5被融合成P5,特征图C3、C4和P5被融合成P4,特征图C3和P4被融合成P3,最终特征图C2和P3被融合成P2作为输出特征图。输出特征图P2将被用于检测图像中的小物体。
通过以上描述能够看出,本公开的实施例提出了一种用于针对目标检测问题的模型结构自动搜索方案。该方案能够确定用于从图像中检测目标对象的模型结构搜索空间。模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。然后,基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。本公开的实施例能够自动搜索出适合用于目标检测任务的最优模型结构,从而提高目标检测的效率和准确性。
图7示出了根据本公开实施例的用于搜索模型结构的装置700的示意性框图。装置700可以被包括在如图1所示的模型结构搜索装置110中或者被实现为模型结构搜索装置110。如图7所示,装置700可以包括搜索空间确定模块710,被配置为确定能够用于从图像中检测目标对象的模型结构搜索空间,该模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在融合中应用于多个特征图的相应操作。装置700还可以包括模型结构搜索模块720,被配置为基于待检测目标对象的类型,在模型结构搜索空间中搜索适合用于从图像中检测待检测目标对象的模型结构。
在一些实施例中,待检测目标对象包括尺寸超过阈值尺寸的物体。
在一些实施例中,待检测目标对象包括尺寸低于阈值尺寸的物体。
在一些实施例中,模型结构搜索模块720还被配置为:从多个候选模型结构中选择第一组候选模型结构;迭代地执行以下操作,直到迭代终止条件被满足:确定第一组候选模型结构的性能指标;响应于迭代终止条件未被满足,从第一组候选模型结构中确定性能指标最好的至少一个候选模型结构;以及基于至少一个候选模型结构,从多个候选模型结构中选择第二组候选模型结构,以替换第一组候选模型结构;以及响应于迭代终止条件被满足,将第一组候选模型结构中性能指标最好的候选模型结构确定为模型结构。
在一些实施例中,迭代终止条件包括以下之一:迭代次数达到阈值次数;或者第一组候选模型结构的性能指标变化量低于阈值。
在一些实施例中,模型结构搜索模块720还被配置为:针对一组候选模型结构中的每个候选模型结构,训练该候选模型结构以得到用于从图像中检测待检测目标对象的模型;利用该模型从图像中检测待检测目标对象;以及基于该模型的检测结果,确定该候选模型结构的性能指标。
在一些实施例中,模型结构搜索模块720还被配置为:从多个候选模型结构中选择与至少一个候选模型结构的相似度超过阈值相似度的第二组候选模型结构。
在一些实施例中,第二组候选模型结构包括至少一个候选模型结构。
图8示出了可以用来实施本公开的实施例的示例设备800的示意性框图。设备800可以用于实现如图1所示的模型结构搜索装置110、模型训练装置120和/或模型应用装置130。如图所示,设备800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的计算机程序指令或者从存储单元808加载到随机访问存储器(RAM)803中的计算机程序指令,来执行各种适当的动作和处理。在RAM 803中,还可存储设备800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
设备800中的多个部件连接至I/O接口805,包括:输入单元806,例如键盘、鼠标等;输出单元807,例如各种类型的显示器、扬声器等;存储单元808,例如磁盘、光盘等;以及通信单元809,例如网卡、调制解调器、无线通信收发机等。通信单元809允许设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理单元801执行上文所描述的各个方法和处理,例如过程200和/或400。例如,在一些实施例中,过程200和/或400可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元808。在一些实施例中,计算机程序的部分或者全部可以经由ROM 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到RAM 803并由CPU801执行时,可以执行上文描述的过程200和/或400的一个或多个步骤。备选地,在其他实施例中,CPU 801可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行过程200和/或400。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
此外,虽然采用特定次序描绘了各操作,但是这应当理解为要求这样操作以所示出的特定次序或以顺序次序执行,或者要求所有图示的操作应被执行以取得期望的结果。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实现中。相反地,在单个实现的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实现中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (14)

1.一种用于搜索模型结构的方法,包括:
确定能够用于从图像中检测目标对象的模型结构搜索空间,所述模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在所述融合中应用于所述多个特征图的相应操作;以及
基于待检测目标对象的类型,在所述模型结构搜索空间中搜索适合用于从图像中检测所述待检测目标对象的模型结构;
其中在所述模型结构搜索空间中搜索所述模型结构包括:
从所述多个候选模型结构中选择第一组候选模型结构;
迭代地执行以下操作,直到迭代终止条件被满足:
确定所述第一组候选模型结构的性能指标;
响应于所述迭代终止条件未被满足,从所述第一组候选模型结构中确定性能指标最好的至少一个候选模型结构;以及
基于所述至少一个候选模型结构,从所述多个候选模型结构中选择第二组候选模型结构,以替换所述第一组候选模型结构;以及
响应于所述迭代终止条件被满足,将第一组候选模型结构中性能指标最好的候选模型结构确定为所述模型结构;
其中从所述多个候选模型结构中选择所述第二组候选模型结构包括:
从所述多个候选模型结构中选择与所述至少一个候选模型结构的相似度超过阈值相似度的所述第二组候选模型结构。
2.根据权利要求1所述的方法,其中所述待检测目标对象包括尺寸超过阈值尺寸的物体。
3.根据权利要求1所述的方法,其中所述待检测目标对象包括尺寸低于阈值尺寸的物体。
4.根据权利要求1所述的方法,其中所述迭代终止条件包括以下之一:
迭代次数达到阈值次数;或者
所述第一组候选模型结构的性能指标变化量低于阈值。
5.根据权利要求1所述的方法,其中确定所述第一组候选模型结构的性能指标包括:
针对所述第一组候选模型结构中的每个候选模型结构,
训练所述候选模型结构以得到用于从图像中检测所述待检测目标对象的模型;
利用所述模型从图像中检测所述待检测目标对象;以及
基于所述模型的检测结果,确定所述候选模型结构的性能指标。
6.根据权利要求1所述的方法,其中所述第二组候选模型结构包括所述至少一个候选模型结构。
7.一种用于搜索模型结构的装置,包括:
搜索空间确定模块,被配置为确定能够用于从图像中检测目标对象的模型结构搜索空间,所述模型结构搜索空间包括多个候选模型结构,其中每个候选模型结构指示将从图像得到的多个特征图融合成用于检测目标对象的输出特征图的融合方式,以及在所述融合中应用于所述多个特征图的相应操作;以及
模型结构搜索模块,被配置为基于待检测目标对象的类型,在所述模型结构搜索空间中搜索适合用于从图像中检测所述待检测目标对象的模型结构;
其中所述模型结构搜索模块被配置为:
从所述多个候选模型结构中选择第一组候选模型结构;
迭代地执行以下操作,直到迭代终止条件被满足:
确定所述第一组候选模型结构的性能指标;
响应于所述迭代终止条件未被满足,从所述第一组候选模型结构中确定性能指标最好的至少一个候选模型结构;以及
基于所述至少一个候选模型结构,从所述多个候选模型结构中选择第二组候选模型结构,以替换所述第一组候选模型结构;以及
响应于所述迭代终止条件被满足,将第一组候选模型结构中性能指标最好的候选模型结构确定为所述模型结构;
其中所述模型结构搜索模块被配置为:
从所述多个候选模型结构中选择与所述至少一个候选模型结构的相似度超过阈值相似度的所述第二组候选模型结构。
8.根据权利要求7所述的装置,其中所述待检测目标对象包括尺寸超过阈值尺寸的物体。
9.根据权利要求7所述的装置,其中所述待检测目标对象包括尺寸低于阈值尺寸的物体。
10.根据权利要求7所述的装置,其中所述迭代终止条件包括以下之一:
迭代次数达到阈值次数;或者
所述第一组候选模型结构的性能指标变化量低于阈值。
11.根据权利要求7所述的装置,其中所述模型结构搜索模块被配置为:
针对所述第一组候选模型结构中的每个候选模型结构,
训练所述候选模型结构以得到用于从图像中检测所述待检测目标对象的模型;
利用所述模型从图像中检测所述待检测目标对象;以及
基于所述模型的检测结果,确定所述候选模型结构的性能指标。
12.根据权利要求7所述的装置,其中所述第二组候选模型结构包括所述至少一个候选模型结构。
13.一种计算设备,包括:
一个或多个处理器;以及
存储器,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述计算设备实现根据权利要求1-6中任一项所述的方法。
14.一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现根据权利要求1-6中任一项所述的方法。
CN201910959674.7A 2019-10-10 2019-10-10 搜索模型结构的方法、装置、设备和存储介质 Active CN110705695B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910959674.7A CN110705695B (zh) 2019-10-10 2019-10-10 搜索模型结构的方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910959674.7A CN110705695B (zh) 2019-10-10 2019-10-10 搜索模型结构的方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
CN110705695A CN110705695A (zh) 2020-01-17
CN110705695B true CN110705695B (zh) 2022-11-18

Family

ID=69200154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910959674.7A Active CN110705695B (zh) 2019-10-10 2019-10-10 搜索模型结构的方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN110705695B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111767988B (zh) * 2020-06-29 2024-08-13 上海可东网络科技有限公司 神经网络的融合方法和装置
EP4033402A1 (en) 2021-01-26 2022-07-27 Continental Automotive GmbH Method for determining the encoder architecture of a neural network

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010037022A (ko) * 1999-10-13 2001-05-07 윤종용 그룹화된 얼굴 영상들과 그물망 형태의 탐색 영역을 이용한 얼굴 검출 방법 및 그 장치
JP2015105866A (ja) * 2013-11-29 2015-06-08 富士通株式会社 応力評価方法及び応力評価装置
CN105469052A (zh) * 2015-11-25 2016-04-06 东方网力科技股份有限公司 一种车辆检测跟踪方法和装置
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN110276442A (zh) * 2019-05-24 2019-09-24 西安电子科技大学 一种神经网络架构的搜索方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010037022A (ko) * 1999-10-13 2001-05-07 윤종용 그룹화된 얼굴 영상들과 그물망 형태의 탐색 영역을 이용한 얼굴 검출 방법 및 그 장치
JP2015105866A (ja) * 2013-11-29 2015-06-08 富士通株式会社 応力評価方法及び応力評価装置
CN105469052A (zh) * 2015-11-25 2016-04-06 东方网力科技股份有限公司 一种车辆检测跟踪方法和装置
CN109948029A (zh) * 2019-01-25 2019-06-28 南京邮电大学 基于神经网络自适应的深度哈希图像搜索方法
CN109840508A (zh) * 2019-02-17 2019-06-04 李梓佳 一个基于深度网络架构自动搜索的机器人视觉控制方法,设备及存储介质
CN110276442A (zh) * 2019-05-24 2019-09-24 西安电子科技大学 一种神经网络架构的搜索方法及装置

Also Published As

Publication number Publication date
CN110705695A (zh) 2020-01-17

Similar Documents

Publication Publication Date Title
CN111414987B (zh) 神经网络的训练方法、训练装置和电子设备
JP7196218B2 (ja) 画像質問応答方法、装置、コンピュータ装置、媒体及びプログラム
US20190361972A1 (en) Method, apparatus, device for table extraction based on a richly formatted document and medium
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN112966522A (zh) 一种图像分类方法、装置、电子设备及存储介质
CN108734210B (zh) 一种基于跨模态多尺度特征融合的对象检测方法
CN113139543B (zh) 目标对象检测模型的训练方法、目标对象检测方法和设备
US20230162477A1 (en) Method for training model based on knowledge distillation, and electronic device
JP2020126613A (ja) イメージを分析するために、ディープラーニングネットワークに利用するためのトレーニングイメージに対するラベルリング信頼度を自動的に評価するための方法、及びこれを利用した信頼度評価装置
CN113537070B (zh) 一种检测方法、装置、电子设备及存储介质
CN110705695B (zh) 搜索模型结构的方法、装置、设备和存储介质
US11948078B2 (en) Joint representation learning from images and text
CN116310850B (zh) 基于改进型RetinaNet的遥感图像目标检测方法
CN110245683A (zh) 一种少样本目标识别的残差关系网络构建方法及应用
CN113223011B (zh) 基于引导网络和全连接条件随机场的小样本图像分割方法
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
CN114022865A (zh) 基于车道线识别模型的图像处理方法、装置、设备和介质
CN111868752B (zh) 神经网络层权重的连续参数化
CN113706705B (zh) 用于高精地图的图像处理方法、装置、设备以及存储介质
CN113963167B (zh) 应用于目标检测的方法、装置及计算机程序产品
CN112950652B (zh) 机器人及其手部图像分割方法和装置
CN115687764A (zh) 车辆轨迹评估模型的训练方法、车辆轨迹评估方法和装置
CN114898454A (zh) 一种神经网络模型的训练方法、装置、电子设备及介质
CN114972910A (zh) 图文识别模型的训练方法、装置、电子设备及存储介质
CN111062477B (zh) 一种数据处理方法、装置及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant