CN109522949B - 目标识别模型建立方法及装置 - Google Patents
目标识别模型建立方法及装置 Download PDFInfo
- Publication number
- CN109522949B CN109522949B CN201811320140.1A CN201811320140A CN109522949B CN 109522949 B CN109522949 B CN 109522949B CN 201811320140 A CN201811320140 A CN 201811320140A CN 109522949 B CN109522949 B CN 109522949B
- Authority
- CN
- China
- Prior art keywords
- training
- neural network
- model
- compression
- convolutional neural
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本申请实施例提供一种目标识别模型建立方法及装置,方法包括:根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1;构建深度卷积神经网络模型,该模型的卷积核数量N2大于N1;采用目标场景的图像样本集对深度卷积神经网络模型进行一次压缩训练,得到压缩模型,该压缩模型的卷积核数量N3小于N2;当N3大于N1或当压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且压缩模型的目标分类准确率不高于预期分类准确率;采用最终获得的压缩模型对目标场景中的图像进行分类。如此,可以快速地训练得到适用于目标场景的高性能网络。
Description
技术领域
本申请涉及图像处理技术领域,具体而言,涉及一种目标识别模型建立方法及装置。
背景技术
在实际应用中,通常会采用深度学习方法来对感兴趣的目标进行识别,以实现相应的功能。例如,在铁路运营场景中,可能出现如下情况:
在山区和隧道口处有时会突发落石或突发泥石流,从而导致异物进入高速铁路轨道;当某一新建公路或新建铁路的施工路段跨越已有铁路时,或是与该已有铁路并行时,容易出现机械、人员及施工材料侵入该已有铁路的限界的情况。
在出现前述的情况时,由于列车运行速度非常快,若只依靠司机的视觉检测或传统检测方法来识别异物,准确性较低,很难确保列车运行的安全,从而可能造成列车脱轨和人员伤亡等后果。因此,需要对侵入到铁路运行范围内的异物进行识别。
然而,采用深度学习方法具有一定缺陷,具体为:为了达到较好的识别效果,往往需要大量的数据进行训练。其中,对于不同的应用场景,即便是十分类似的场景,也需要使用新场景的数据重新进行训练,这限制了深度学习网络模型的广泛应用。针对这一问题,相关技术中通常采用迁移训练的方式,将一个训练好的网络迁移至新场景中重新进行训练,目前主要存在如下两种方式:
第一、通过一个占用较小空间的网络先对多个场景的样本数据进行训练,再将训练好的网络直接迁移到单个场景的样本上去;
第二、通过一个深度网络先对多个场景的样本数据进行训练,再将训练好的网络迁移至单个场景的样本上去,然后再进行网络压缩。
上述方式均存在缺陷,第一种方式中,使用占用空间较小的网络对各个场景的样本数据进行训练难以达到较好的识别效果,再将训练得到的网络迁移至其他场景,识别效果将进一步变差。第二种方式中,一方面,采用先迁移再压缩的方式所需的训练次数较多,导致训练耗时较长。
发明内容
有鉴于此,本申请的目的在于提供一种目标识别模型建立方法及装置,以至少部分地改善上述问题。
为了达到上述目的,本申请实施例采用如下技术方案:
第一方面,本申请实施例提供一种目标识别模型建立方法,所述方法包括:
根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络可以包含的最大卷积核数量N1;
构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,所述深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,所述预训练数据库包含其它场景和/或所述目标场景的图像样本;
以所述目标场景的图像样本集作为训练数据库,对所述深度卷积神经网络模型进行一次压缩训练,得到所述深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2;
当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止;将最终获得的压缩模型作为所述图像目标分类模型,以对所述目标场景中的图像进行目标分类识别。
第二方面,本申请实施例还提供一种目标识别模型建立装置,所述装置包括:
计算模块,用于根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1;
构建模块,用于构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,所述深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,所述预训练数据库包含其它场景和/或所述目标场景的图像样本;
第一压缩训练模块,用于以所述目标场景的图像样本集作为训练数据库,对所述深度卷积神经网络模型进行一次压缩训练,得到所述深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2;
第二压缩训练模块,用于当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止;将最终获得的压缩模型作为所述图像目标分类模型,以对所述目标场景中的图像进行目标分类识别。相对于现有技术而言,本申请实施例具有以下有益效果:
本申请实施例提供的一种目标识别模型建立方法及装置,根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1;构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,该深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,该预训练数据库保护其它场景和/或该目标场景的图像样本。以目标场景的图像样本集作为训练数据库,对该深度卷积神经网络模型进行一次压缩训练,得到该深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2;当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止。将最终获得的压缩模型作为图像目标分类模型,以对目标场景中的图像进行目标分类识别。如此,可以快速地训练得到适用于目标场景的高性能网络。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的目标识别模型建立方法的流程示意图;
图2为本申请实施例提供的一种压缩训练的子步骤示意图;
图3为本申请实施例提供的一种再训练过程的子步骤示意图;
图4为本申请实施例提供的一种图像处理设备的示意图;
图5为本申请实施例提供的一种目标识别模型建立装置的功能模块框图。
图标:100-图像处理设备;110-机器可读存储介质;120-处理器;200-目标识别模型建立装置;210-计算模块;220-构建模块;230-第一压缩训练模块;240-第二压缩训练模块。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。
因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
在许多应用场景中,通常会设置监控系统来进行视频图像的采集,该监控系统采用多相机协作监测。在此情况下,若采用深度网络对监控系统采集到的图像进行识别,则一旦更换相机场景,就需要重新采集和标注大量图像并重新训练。深度网络本身具有较大的参数冗余,体积大,若每次更换相机场景都重新训练将会耗费大量时长,难以广泛应用。
为改善上述问题,本申请实施例提供一种目标识别模型建立方法及装置。
如图1所示,是本申请实施例提供的一种目标识别模型建立方法的流程示意图,下面对该方法包括的各个步骤进行详述。
步骤S11,根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1。
在实际应用中,针对目标场景,可以根据图像目标分类实时性要求(例如处理速度、供网络模型使用的存储空间等)确定神经卷积神经网络可以包含的最大卷积核数量N1。
步骤S12,构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1。
其中,所述深度卷积神经网络模型的参数可以通过随机初始化获得,或者利用预训练数据库通过预训练获得。所述预训练数据库可以包含其它场景和/或所述目标场景的图像样本。
以铁路运营场景为例,所述预训练数据库中可以包括空背景图像、列车运行图像及人员上道图像三种类别的图像。列车运行图像是指在所述空背景图像上出现列车的图像,人员上道图像是指在所述空背景图像上出现人的图像。
在本实施例中,为了达到更好的训练效果,可以对获取到的图像集中的图像进行预处理,例如将图像中的每一像素减去均值等处理,并为预处理后的图像添加相应的类别标签,以上述的铁路运营场景为例,可以为处理后的图像添加“空背景”标签、“列车运行”标签或“人员上道标签”,从而建立所述预训练样本数据集。
可选地,在本实施例中,所述深度卷积神经网络可以是改进后的VGG16网络模型。所述改进后的VGG16网络模型包括GAP全局平均池化层、softmax分类层及多个卷积层。
VGG16网络模型是一个深度卷积神经网络模型,16表示深度。在相关技术中,VGG16网络模型包括五个堆栈式的卷积层、三个全连接层以及一个softmax分类层。然而全连接层的参数量极大,容易过拟合,过拟合又容易导致模型的泛化能力弱,即难以应用到其他场景中。因此,在本实施例中,采用GlobalAveragePooling(GAP全局平均池化)层代替全连接层的部分,并在GAP全局平均池化层之后直接连接softmax分类层。如此,在能够获得较好识别效果的基础上,大大减少了模型中的参数的连接量。
在本实施例中,所述改进后的VGG16网络模型是指上述的采用GAP全局平均池化层替代全连接层的部分之后的VGG16网络模型。
在构建好深度卷积神经网络后,可以采用从目标场景采集的样本数据对所述深度预训练网络进行迁移训练,并在迁移训练的同时进行压缩。换言之,本实施例提供的目标识别模型建立方法,是一边进行迁移训练一边进行压缩的。
在本实施例中,直接将构建好的所述深度卷积神经网络迁移至所述目标训练样本数据集上。在将VGG16网络模型中的全连接层的部分替换为GAP全局平均池化层之后,模型所占内存依旧在500MB以上,模型中仍旧具有较大的参数冗余。因此,本实施例基于所述目标场景的图像样本集对所述深度卷积神经网络进行压缩训练从而得到所述图像目标分类模型。
步骤S13,以所述目标场景的图像样本集作为训练数据库,对所述深度卷积神经网络模型进行一次压缩训练,得到所述深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2。
步骤S14,当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止。
可选地,在本实施例中,所述压缩训练可以包括以下步骤:
利用所述训练样本数据库对所述深度卷积神经网络模型进行训练,在训练结束后,对所述深度卷积神经网络进行一次剪枝。
可选地,请参照图2,在本实施例中,对所述深度卷积神经网络进行一次剪枝,可以包括如图2所示的子步骤。
步骤S21,向所述深度卷积神经网络模型输入训练样本。
其中,所述训练样本是指上文描述的训练数据库中的样本,即来自目标场景的图像样本集中的图像。
步骤S22,针对所述深度预训练网络模型中的每个卷积层,计算所述卷积层中的各卷积核输出的特征图的Ln范数。
其中,其中n≥0。
步骤S23,对所述Ln范数值进行由大至小排列,删除所述Ln范数值小于预设门限值的冗余卷积核,或者删除排序在预设门限值后面的冗余卷积核,实现所述深度卷积神经网络的压缩。
可选地,所述预设门限值可以根据实际需求进行灵活设定,本实施例对此不做限制。
在本实施例中,从卷积层中剔除冗余卷积核,可以包括以下步骤:
提取所述深度预训练网络中的参数连接值,所述参数连接值包括所述深度预训练网络中各层的权重值和偏置连接值;
从获取到的参数连接值中删除与所述冗余卷积核对应的位置处的参数连接值;
从所述卷积层连接的下一层的输入通道中,删除与所述冗余卷积核对应的输入通道。
步骤S24,利用所述训练样本数据库对压缩过的深度卷积神经网络模型进行再训练,以完成一次剪枝。
针对每一次删除冗余卷积核,通过该次删除操作可以得到一个新网络,即步骤S24中描述的压缩过的深度卷积神经网络,此时可以对该压缩过的深度卷积神经网络进行再训练,具体过程可以如图3所示:
步骤S31,冻结所述压缩过的深度卷积神经网络的卷积层的权重值,对所述压缩过的深度卷积神经网络的其他层的权重值进行训练,直至准确率不再升高。
步骤S32,在对所述压缩过的深度卷积神经网络的所述其他层的权重值进行训练之后,对所述压缩过的深度卷积神经网络的各层的权重值进行训练,直至准确率收敛,得到所述压缩模型。
步骤S15,将最终获得的压缩模型作为图像目标分类模型,以对所述目标场景中的图像进行目标分类识别。
如图4所示,是本申请实施例提供的一种图像处理设备100的示意图。该图像处理设备100可以包括机器可读存储介质110以及处理器120。
所述机器可读存储介质110及所述处理器120各元件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,这些元件相互之间可通过一条或多条通讯总线或信号线实现电性连接。所述机器可读存储介质110上存储有机器可执行指令,通过读取并执行与异物入侵检测模型建立逻辑对应的机器可执行指令,处理器120可以执行上文描述的异物入侵检测模型建立方法。
本文中提到的机器可读存储介质110可以是任何电子、磁性、光学或其他物理存储装置,可以包含存储信息,如可执行指令、数据等。例如,机器可读存储介质110可以是:RAM(RandomAccessMemory,随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等),或者类似的存储介质,或者它们的组合。
如图5所示,是本申请实施例提供的一种目标识别模型建立装置200的示意图。所述目标识别模型建立装置200包括至少一个可以以软件或固件(firmware)的形式存储于所述机器可读存储介质120上,或固化在图像处理设备100的操作系统(OperatingSystem,OS)中的软件功能模块。处理器120可以执行机器可读存储介质110中的可执行模块,例如执行所述目标识别模型建立装置200所包括的软件功能模块或计算机程序等。所述异物入侵检测模型建立装置200包括计算模块210、构建模块220、第一压缩训练模块230和第二压缩训练模块240。
所述计算模块210用于根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1。
在本实施例中,所述计算模块210可以用于执行步骤S11,关于所述计算模块210的描述具体可以参考对步骤S11的详细描述。
所述构建模块220用于构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,所述深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,所述预训练数据库包含其它场景和/或所述目标场景的图像样本。
在本实施例中,所述构建模块220可以用于执行步骤S12,关于所述构建模块220的描述具体可以参考对步骤S12的详细描述。
所述第一压缩训练模块230用于以所述目标场景的图像样本集作为训练数据库,对所述深度卷积神经网络模型进行一次压缩训练,得到所述深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2。
在本实施例中,所述第一压缩训练模块230可以用于执行步骤S13,关于所述第一压缩训练模块230的描述具体可以参考对步骤S13的详细描述。
所述第二压缩训练模块240用于当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止;将最终获得的压缩模型作为所述图像目标分类模型,以对所述目标场景中的图像进行目标分类识别。
在本实施例中,所述第二压缩训练模块240可以用于执行步骤S14和步骤S15,关于所述第二压缩训练模块240的描述具体可以参考对步骤S14和步骤S15的详细描述。
可选地,在本实施例中,所述第一压缩训练模块和所述第二压缩训练模块对所述深度卷积神经网络进行一次剪枝的具体方式,为:
向所述深度卷积神经网络模型输入训练样本;
针对所述深度卷积神经网络模型中的每个卷积层,计算所述卷积层中的各卷积核输出的特征图的Ln范数,其中n≥0;
对所述Ln范数值进行由大至小排列,删除所述Ln范数值小于预设门限值的冗余卷积核,或者删除排序在预设门限值后面的冗余卷积核,实现所述深度卷积神经网络的压缩;
利用所述训练样本数据库对压缩过的深度卷积神经网络模型进行再训练,以完成一次剪枝。
可选地,在本实施例中,所述第一压缩训练模块和所述第二压缩训练模块从所述卷积层中删除所述冗余卷积核的具体方式,为:
提取所述深度预训练网络中的参数连接值,所述参数连接值包括所述深度预训练网络中各层的权重值和偏置连接值;
从获取到的参数连接值中删除与所述冗余卷积核对应的位置处的参数连接值;
从所述卷积层连接的下一层的输入通道中,删除与所述冗余卷积核对应的输入通道。
可选地,所述第一压缩训练模块和所述第二压缩训练模块对压缩过的深度卷积神经网络的再训练过程包括:
冻结所述压缩过的深度卷积神经网络的卷积层的权重值,对所述压缩过的深度卷积神经网络的其他层的权重值进行训练,直至准确率不再升高;
在对所述压缩过的深度卷积神经网络的所述其他层的权重值进行训练之后,对所述压缩过的深度卷积神经网络的各层的权重值进行训练,直至准确率收敛,得到所述压缩模型。
综上所述,本申请实施例提供本申请实施例提供一种目标识别模型建立方法及装置,根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1;构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,该深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,该预训练数据库保护其它场景和/或该目标场景的图像样本。以目标场景的图像样本集作为训练数据库,对该深度卷积神经网络模型进行一次压缩训练,得到该深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2;当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止。将最终获得的压缩模型作为图像目标分类模型,以对目标场景中的图像进行目标分类识别。如此,可以在不需要预训练的情况下,更为容易、快速地获取到高性能的目标识别网络。
在本申请所提供的实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
Claims (6)
1.一种图像目标分类模型建立方法,其特征在于,所述方法包括:
根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1;
构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,所述深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,所述预训练数据库包含其它场景和/或所述目标场景的图像样本;
以所述目标场景的图像样本集作为训练数据库,对所述深度卷积神经网络模型进行一次压缩训练,得到所述深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2;
当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止;将最终获得的压缩模型作为图像目标分类模型,以对所述目标场景中的图像进行目标分类识别;
所述压缩训练包括如下步骤:
利用训练样本数据库对所述深度卷积神经网络模型进行训练,在训练结束后,对所述深度卷积神经网络进行一次剪枝;
所述对所述深度卷积神经网络进行一次剪枝,包括:
向所述深度卷积神经网络模型输入训练样本;
针对所述深度卷积神经网络模型中的每个卷积层,计算所述卷积层中的各卷积核输出的特征图的Ln范数,其中n≥0;
对所述Ln范数值进行由大至小排列,删除所述Ln范数值小于预设门限值的冗余卷积核,或者删除排序在预设门限值后面的冗余卷积核,实现所述深度卷积神经网络的压缩;
利用训练样本数据库对压缩过的深度卷积神经网络模型进行再训练,以完成一次剪枝。
2.根据权利要求1所述的方法,其特征在于,从所述卷积层中删除所述冗余卷积核,包括:
提取深度预训练网络中的参数连接值,所述参数连接值包括所述深度预训练网络中各层的权重值和偏置连接值;
从获取到的参数连接值中删除与所述冗余卷积核对应的位置处的参数连接值;
从所述卷积层连接的下一层的输入通道中,删除与所述冗余卷积核对应的输入通道。
3.根据权利要求1所述的方法,其特征在于,对压缩过的深度卷积神经网络的再训练过程包括:
冻结所述压缩过的深度卷积神经网络的卷积层的权重值,对所述压缩过的深度卷积神经网络的其他层的权重值进行训练,直至准确率不再升高;
在对所述压缩过的深度卷积神经网络的所述其他层的权重值进行训练之后,对所述压缩过的深度卷积神经网络的各层的权重值进行训练,直至准确率收敛,得到所述压缩模型。
4.一种目标识别模型建立装置,其特征在于,所述装置包括:
计算模块,用于根据目标场景中的图像目标分类实时性要求,计算深度卷积神经网络包含的最大卷积核数量N1;
构建模块,用于构建深度卷积神经网络模型,其中,所述深度卷积神经网络模型的卷积核数量N2大于N1,所述深度卷积神经网络模型的参数通过随机初始化获得,或者利用预训练数据库通过预训练获得;其中,所述预训练数据库包含其它场景和/或所述目标场景的图像样本;
第一压缩训练模块,用于以所述目标场景的图像样本集作为训练数据库,对所述深度卷积神经网络模型进行一次压缩训练,得到所述深度卷积神经网络的压缩模型,该压缩模型的卷积核数量N3小于N2;
第二压缩训练模块,用于当N3大于N1或者当得到的压缩模型的目标分类准确率高于预期分类准确率时,对得到的压缩模型重复进行压缩训练,直至N3不大于N1且得到的压缩模型的目标分类准确率不高于预期分类准确率时为止;将最终获得的压缩模型作为所述图像目标分类模型,以对所述目标场景中的图像进行目标分类识别;
所述第一压缩训练模块和所述第二压缩训练模块进行压缩训练的具体方式,为:
利用训练样本数据库对所述深度卷积神经网络模型进行训练,在训练结束后,对所述深度卷积神经网络进行一次剪枝;
所述第一压缩训练模块和所述第二压缩训练模块对所述深度卷积神经网络进行一次剪枝的具体方式,为:
向所述深度卷积神经网络模型输入训练样本;
针对所述深度卷积神经网络模型中的每个卷积层,计算所述卷积层中的各卷积核输出的特征图的Ln范数,其中n≥0;
对所述Ln范数值进行由大至小排列,删除所述Ln范数值小于预设门限值的冗余卷积核,或者删除排序在预设门限值后面的冗余卷积核,实现所述深度卷积神经网络的压缩;
利用训练样本数据库对压缩过的深度卷积神经网络模型进行再训练,以完成一次剪枝。
5.根据权利要求4所述的装置,其特征在于,所述第一压缩训练模块和所述第二压缩训练模块从所述卷积层中删除所述冗余卷积核的具体方式,为:
提取深度预训练网络中的参数连接值,所述参数连接值包括所述深度预训练网络中各层的权重值和偏置连接值;
从获取到的参数连接值中删除与所述冗余卷积核对应的位置处的参数连接值;
从所述卷积层连接的下一层的输入通道中,删除与所述冗余卷积核对应的输入通道。
6.根据权利要求4所述的装置,其特征在于,所述第一压缩训练模块和所述第二压缩训练模块对压缩过的深度卷积神经网络的再训练过程包括:
冻结所述压缩过的深度卷积神经网络的卷积层的权重值,对所述压缩过的深度卷积神经网络的其他层的权重值进行训练,直至准确率不再升高;
在对所述压缩过的深度卷积神经网络的所述其他层的权重值进行训练之后,对所述压缩过的深度卷积神经网络的各层的权重值进行训练,直至准确率收敛,得到所述压缩模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811320140.1A CN109522949B (zh) | 2018-11-07 | 2018-11-07 | 目标识别模型建立方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811320140.1A CN109522949B (zh) | 2018-11-07 | 2018-11-07 | 目标识别模型建立方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109522949A CN109522949A (zh) | 2019-03-26 |
CN109522949B true CN109522949B (zh) | 2021-01-26 |
Family
ID=65774002
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811320140.1A Active CN109522949B (zh) | 2018-11-07 | 2018-11-07 | 目标识别模型建立方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109522949B (zh) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110232436A (zh) * | 2019-05-08 | 2019-09-13 | 华为技术有限公司 | 卷积神经网络的修剪方法、装置及存储介质 |
CN110781948A (zh) * | 2019-10-22 | 2020-02-11 | 北京市商汤科技开发有限公司 | 图像处理方法、装置、设备及存储介质 |
CN111340223A (zh) * | 2020-02-27 | 2020-06-26 | 上海商汤临港智能科技有限公司 | 神经网络压缩、目标检测、行驶控制方法以及装置 |
CN111462167A (zh) * | 2020-04-21 | 2020-07-28 | 济南浪潮高新科技投资发展有限公司 | 一种结合边缘计算与深度学习的智能终端视频分析算法 |
CN112598020A (zh) * | 2020-11-24 | 2021-04-02 | 深兰人工智能(深圳)有限公司 | 目标识别方法及系统 |
CN112465042B (zh) * | 2020-12-02 | 2023-10-24 | 中国联合网络通信集团有限公司 | 一种分类网络模型的生成方法及装置 |
CN113139577B (zh) * | 2021-03-22 | 2024-02-23 | 广东省科学院智能制造研究所 | 一种基于可变形卷积网络的深度学习图像分类方法及系统 |
CN114637730B (zh) * | 2022-03-23 | 2023-01-10 | 清华大学 | 一种模型文件的压缩的方法、装置、系统及存储介质 |
CN115063362A (zh) * | 2022-06-10 | 2022-09-16 | 嘉洋智慧安全生产科技发展(北京)有限公司 | 配电箱门检测方法、系统、电子设备、介质和程序产品 |
CN114932927B (zh) * | 2022-07-20 | 2022-11-01 | 北京大成国测智能科技有限公司 | 基于轻量化深度学习的铁路异物识别方法与系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160400A (zh) * | 2015-09-08 | 2015-12-16 | 西安交通大学 | 基于l21范数的提升卷积神经网络泛化能力的方法 |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN108229679A (zh) * | 2017-11-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 卷积神经网络去冗余方法及装置、电子设备和存储介质 |
CN108304928A (zh) * | 2018-01-26 | 2018-07-20 | 西安理工大学 | 基于改进聚类的深度神经网络的压缩方法 |
CN108596988A (zh) * | 2018-03-09 | 2018-09-28 | 西安电子科技大学 | 一种用于卷积神经网络的压缩算法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10332028B2 (en) * | 2015-08-25 | 2019-06-25 | Qualcomm Incorporated | Method for improving performance of a trained machine learning model |
US20180220589A1 (en) * | 2015-11-03 | 2018-08-09 | Keith Charles Burden | Automated pruning or harvesting system for complex morphology foliage |
WO2017181336A1 (zh) * | 2016-04-19 | 2017-10-26 | 北京中科寒武纪科技有限公司 | maxout层运算装置和方法 |
CN106919942B (zh) * | 2017-01-18 | 2020-06-26 | 华南理工大学 | 用于手写汉字识别的深度卷积神经网络的加速压缩方法 |
CN106845549B (zh) * | 2017-01-22 | 2020-08-21 | 珠海习悦信息技术有限公司 | 一种基于多任务学习的场景与目标识别的方法及装置 |
CN108334934B (zh) * | 2017-06-07 | 2021-04-13 | 赛灵思公司 | 基于剪枝和蒸馏的卷积神经网络压缩方法 |
-
2018
- 2018-11-07 CN CN201811320140.1A patent/CN109522949B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160400A (zh) * | 2015-09-08 | 2015-12-16 | 西安交通大学 | 基于l21范数的提升卷积神经网络泛化能力的方法 |
CN106355248A (zh) * | 2016-08-26 | 2017-01-25 | 深圳先进技术研究院 | 一种深度卷积神经网络训练方法及装置 |
CN108229679A (zh) * | 2017-11-23 | 2018-06-29 | 北京市商汤科技开发有限公司 | 卷积神经网络去冗余方法及装置、电子设备和存储介质 |
CN108304928A (zh) * | 2018-01-26 | 2018-07-20 | 西安理工大学 | 基于改进聚类的深度神经网络的压缩方法 |
CN108596988A (zh) * | 2018-03-09 | 2018-09-28 | 西安电子科技大学 | 一种用于卷积神经网络的压缩算法 |
Non-Patent Citations (3)
Title |
---|
Channel Pruning for Accelerating Very Deep Neural Networks;Yihui He et al;《 2017 IEEE International Conference on Computer Vision (ICCV)》;20171029;第1398-1406页 * |
Convolutional neural network simplification via feature map pruning;Junhua Zou et al;《Computers & Electrical Engineering》;20180831;第70卷;第950-958页 * |
深度神经网络压缩与加速综述;纪荣嵘等;《计算机研究与发展》;20180930;第55卷(第9期);第1871-1888页 * |
Also Published As
Publication number | Publication date |
---|---|
CN109522949A (zh) | 2019-03-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109522949B (zh) | 目标识别模型建立方法及装置 | |
Kim et al. | Deep-hurricane-tracker: Tracking and forecasting extreme climate events | |
US10235566B2 (en) | Determining stockpile volume based on digital aerial images and three-dimensional representations of a site | |
Girisha et al. | Uvid-net: Enhanced semantic segmentation of uav aerial videos by embedding temporal information | |
CN106897681B (zh) | 一种遥感图像对比分析方法及系统 | |
Dong et al. | A hybrid spatial–temporal deep learning architecture for lane detection | |
CN112329702B (zh) | 一种快速人脸密度预测和人脸检测方法、装置、电子设备及存储介质 | |
Cui et al. | Convolutional neural network for recognizing highway traffic congestion | |
CN116485717B (zh) | 一种基于像素级深度学习的混凝土坝表面裂缝检测方法 | |
CN113221983B (zh) | 迁移学习模型的训练方法及装置、图像处理方法及装置 | |
Rodriguez‐Lozano et al. | Benefits of ensemble models in road pavement cracking classification | |
CN113409361A (zh) | 一种多目标跟踪方法、装置、计算机及存储介质 | |
CN116994000A (zh) | 零件边缘特征提取方法和装置、电子设备及存储介质 | |
US11436761B2 (en) | Preventing feature loss when compressing images | |
Cajas et al. | Identify faults in road structure zones with deep learning | |
CN116861262A (zh) | 一种感知模型训练方法、装置及电子设备和存储介质 | |
Zhu et al. | Crack detection using enhanced hierarchical convolutional neural networks | |
WO2020165544A1 (fr) | Identification de zones roulables avec prise en compte de l'incertitude par une méthode d'apprentissage profond | |
Kalakoti | Key-Frame Detection and Video Retrieval Based on DC Coefficient-Based Cosine Orthogonality and Multivariate Statistical Tests. | |
KR102026280B1 (ko) | 딥 러닝을 이용한 씬 텍스트 검출 방법 및 시스템 | |
CN116071557A (zh) | 一种长尾目标检测方法、计算机可读存储介质及驾驶设备 | |
CN116052206A (zh) | 融合视觉显著性的鸟类识别方法和系统 | |
CN114694080A (zh) | 一种监控暴力行为检测方法、系统、装置及可读存储介质 | |
Sheela et al. | Super pixels transmission map-based object detection using deep neural network in UAV video | |
CN116363656A (zh) | 包含多行文本的图像识别方法、装置及计算机设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |