CN109145743A

CN109145743A - 一种基于深度学习的图像识别方法及装置

Info

Publication number: CN109145743A
Application number: CN201810796427.5A
Authority: CN
Inventors: 杨智昌; 林文垣
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-07-19
Filing date: 2018-07-19
Publication date: 2019-01-04

Abstract

本发明适用于计算机领域，尤其涉及一种基于深度学习的图像识别方法及装置，其中方法包括：获取待检测图像；将所述待检测图像用网格进行划分，每个网格为一个图像单元，通过单个轻量级深度神经网络计算并生成所述图像单元的边界框数据与类概率，其中，所述轻量级深度神经网络由深度可分离卷积构建而成；根据所述边界框数据与类概率，输出图像识别结果。本发明能够有效分辨出图像中的物体，智能程度与精确度高；特别是应用于安保系统的影像识别，其可以有效识别或预测影像中正在或即将发生的事件，并为人们提供相应的提示，可以避免很多犯罪事件的发生，有力地保障了人们的生命、财产安全。

Description

一种基于深度学习的图像识别方法及装置

技术领域

本发明涉及计算机领域，特别是涉及一种基于深度学习的图像识别方法及装置。

背景技术

随着科技的发展，以及人们生活水平的提高，很多现代家居都会配置居家保全系统，很多现代家居中，例如独栋房屋，其会有前院、后院，甚至是游泳池等户外空间，但由于这些家居保全系统的画面监控采用的都是传统的影像技术，其只是简单的画面呈现与识别，当用户装设这些传统的居家保全系统时就有可能遇到一些问题。

其中最主要的问题就是误报率很高，在某些地区(特别是美国的一些地区)，误报的比率甚至高达99％，而且如果出动警察到府后发现是误报，住户就会被罚款，但这些罚款其实也还不及出动警察所要耗费的成本；同时也因为误报率太高，在有些地区这些警报甚至会被忽视。此外，传统的保全系统虽会录制画面，但当真正有犯罪发生时，这些画面只能用于事后搜证，不能及时反应。因此，现有的影像识别技术并不能满足居家保全系统的要求。

发明内容

基于此，有必要针对上述的问题，提供一种基于深度学习的图像识别方法，该方法包括：

包括：

获取待检测图像；

将所述待检测图像用网格进行划分，每个网格为一个图像单元，通过单个轻量级深度神经网络计算并生成所述图像单元的边界框数据与类概率，其中，所述轻量级深度神经网络由深度可分离卷积构建而成；

根据所述边界框数据与类概率，输出图像识别结果。

在其中一个实施例中，提供了一种基于深度学习的图像识别装置；该装置用于：

获取待检测图像；

根据所述边界框数据与类概率，输出图像识别结果。

本发明提供了一种基于深度学习的图像识别方法，通过构建深度可分离卷积构建轻量级深度神经网络来对图像进行识别，能够有效分辨出图像中的物体，智能程度与精确度高；特别是应用于安保系统的影像识别，其可以有效识别或预测影像中正在或即将发生的事件，并为人们提供相应的提示，可以避免很多犯罪的发生，有力地保障了人们的生命、财产安全。

附图说明

图1为一个实施例中提供的一种基于深度学习的图像识别方法的流程图；

图2是本发明一个实施例提供的轻量级深度神经网络结构图；

图3是本发明一个实施例提供的一种图像识别效果图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

可以理解，本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件，但除非特别说明，这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说，在不脱离本申请的范围的情况下，可以将第一xx脚本称为第二xx脚本，且类似地，可将第二xx脚本称为第一xx脚本。

实施例一：

图1示出本发明实施例提出的一种基于深度学习的图像识别方法的流程。为便于描述，仅示出与本发明相关的内容，详述如下。

本方法包括如下步骤：

步骤S101，获取待检测图像。

步骤S102，将所述待检测图像用网格进行划分，每个网格为一个图像单元，通过单个轻量级深度神经网络计算并生成所述图像单元的边界框数据与类概率，其中，所述轻量级深度神经网络由深度可分离卷积构建而成。

步骤S103，根据所述边界框数据与类概率，输出图像识别结果，根据该输出结果可以直接进行特定行为预测，例如识别拍摄影像中的人是否发生纠纷，或是交通路口是否产生车祸等情况，均有助于在事故发生的第一时间做记录，并且联络相关人员前往处理。

在本发明的一个实施例中，在步骤S101中，影像设备(如监控设备)上得到的图像或影像数据，可以上传到服务器上，服务器做了第一步动作就是获取这些数据，也即待检测图像。优选的，在进入下一步处理之前，可以先对待检测图像作一些处理，比如去均值(把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果)、归一化(把所有的数据都归一到同样的范围)、PCA/白化等等。

在本发明的一个实施例中，对于步骤S102所述的深度学习，其本质是在大数据支持下的多层人工神经网络系统，一个深度学习模型通常包含数以百万计甚至千万计的参数和十几层甚至几十层的网络，巨量的参数带来性能提升的同时，也带来网络体量巨大、运算缓慢等缺点，不利于深度学习模型向运算资源有限的设备和应用中嵌入。另一方面，深度神经网络又常常是过参数化的。尤其是对于特定的任务而言，有相当部分的神经元和连接权重对模型的性能没有实质性的影响，或这些影响可以借由再训练方法由其他神经元填补。因此，本发明实施例提出的构建轻量级深度神经网络不但具有必要性，也具有可能性。首先，尽管神经网络通常是深度越深，效果越好，但针对具体的应用场景和需求，适当深度和参数数目的网络即能够满足。盲目加深网络复杂度所带来的微弱性能提升在许多应用场合意义并不大。其次，神经网络常常存在过参数化的问题，网络神经元的功能具有较大的重复性，即使在网络性能敏感的场景，大部分网络也可以被“安全地”压缩而不影响其性能。

本发明实施例中是通过深度可分离的卷积构建而成，其中，卷积是一种积分运算，用来求两个曲线重叠区域面积，可以看作加权求和。在图像处理中，它可以把一个点的像素值用它周围的点的像素值的加权平均代替，可以消除噪声、特征增强。而对于可分离卷积，其是将卷积操作拆分成多个步骤，本发明中的轻量级深度神经网络的构建基础就是深度可分离卷积。图2中示出了一种基于流线型架构的轻量级深度神经网络的示意图，其使用深度可分离卷积构建；图中示出了多个卷积层(Conv.Layer)、池化层(Maxpool.Layer)、全连接层(Conn.Layer)，各个层底下的乘式代表各个层所涉及的参数的数量。

在本发明实施例中，对于现实世界中的图像而言，图形常常都是由很多简单的边缘组成，因此可以通过检测一系列简单边缘的存在与否实现物体的识别，因此本发明采用边界框数据与类概率两参数来实现该识别，如图3所示，边界框数据主要用于标识所对应图块/图像单元的位置，以及其边界的位置，类概率表示其对应的对象(即上述图块/图像单元)属于预设的分类集合的概率，比如预设了动物、车、植物等分类集合，其中的某个类概率则可表示其对应的图像单元属于动物这个分类集合的概率是多少，或者属于车的分类集合的概率是多大。图像单元由这两个参数配合可以得到一分类概率图，其体现了相同/相近类别属性的图像单元的分布，这些分布组合起来便可清晰得到最终检测结果。

当得到如图3所示的分类概率图(也即类概率的分布图)时，将其拟合到原始待检测图像上时，便划出各个分类的对象，如图中的猫、自行车及小汽车，辨识度高。在对影像的动态的识别过程中，就能获取影像中各个对象的分类，并根据其“行为特征”(一般是所对应分类的属性，通过程序或协议事先设定)，设置相应的约束条件，当符合某些约束条件时，则输出对应的提示，以用于风险防范；例如检测到属于“人”的分类，且其具有“偷东西的行为特征”，那么立即提醒户主，或者发出警报，或者直接报警等。

在本发明的一个优选实施例中，对于“通过单个轻量级深度神经网络计算并生成所述图像单元的边界框数据与类概率”这一步骤，其可进一步细分为：

步骤S201，将所述图像单元作卷积处理，以进行特征提取与重组，形成中间特征数据集合；

步骤S202，将所述中间特征数据集合经过多次数据采样与卷积处理后，得到一全连接特征数据集合；

步骤S203，将所述全连接特征数据集合进行特征进行计算，形成并输出所述边界框数据与类概率。

在本发明实施例中，可分离卷积的处理方式带来了计算上巨大优势，举个例子，假设有一个3×3大小的卷积层，其输入通道为16、输出通道为32。那么一般的操作就是用32个3×3的卷积核来分别同输入数据卷积，这样每个卷积核需要3×3×16个参数，得到的输出是只有一个通道的数据。之所以会得到一通道的数据，是因为刚开始3×3×16的卷积核的每个通道会在输入数据的每个对应通道上做卷积，然后叠加每一个通道对应位置的值，使之变成了单通道，那么32个卷积核一共需要(3×3×16)×32＝4068个参数。运用深度可分离卷积进行处理会比普通卷积减少所需要的参数(计算量整整少了8倍，而且降低的精度还很小)，重要的是深度可分离卷积将以往普通卷积操作同时考虑通道和区域改变成，卷积先只考虑区域，然后再考虑通道，实现了通道和区域的分离，处理过程大为优化。

一般的，深度神经网络包括输入层、卷积层、池化层(也称作采样层)、全连接层等，上述的步骤S201、S202、S203中提到的中间特征数据集合可以指在输入层到全连接层之间的任何一个经过卷积处理的卷积层或经过采样处理的池化层，在其他环境下也叫特征图(Feature Map)。

结合这几个步骤，将图像单元作卷积处理一般是输入层获取该图像单元后，通过卷积核将其进行卷积处理(即上文提到的加权计算)得到卷积层，以特征图(Feature Map)形式体现，卷积处理这一操作实现了图像的特征提取与重组，。优选的，本发明实施例中，需要对中间特征数据集合经过多次的卷积处理和数据采样处理；这里的数据采样处理主要是由池化层执行，该处理过程中会将主要特征保留，舍去多余无用特征，这样就可以实现信息压缩。

在多层卷积、池化后，我们需要以类的形式输出，卷积和池化层只会提取特征，并减少原始图像带来的参数。然而，为了生成最终的输出，我们需要应用全连接层来生成一个等于我们需要的类的数量的输出，仅仅依靠卷积层是难以达到这个要求的。因此，在这之后，到最后一个中间特征数据集合时，其会进行全连接得到全连接层，也即就是上述的全连接特征数据集合，到这一步时，再将全连接特征数据集合进行特征进行计算，形成并输出所述边界框数据与类概率。

卷积层可以生成3D激活图，而我们只需要图像是否属于一个特定的类这样的内容，输出层具有类似分类交叉熵的损失函数，用于计算预测误差因此。基于这个问题，在本发明的一个实施例中，将所述全连接特征数据集合进行特征进行计算，形成并输出所述边界框数据与类概率的步骤具体为：

通过激活函数对所述全连接特征数据集合中的特征进行分类计算，得到初步的边界框数据与类概率；

通过损失函数对所述初步的边界框数据与类概率进行计算，得到其与实际结果的偏差评价。

在本发明的一个实施例中，当轻量级深度神经网络构建完成后需要对其进行训练，即向网络输人足够多的样本，通过算法调整网络的结构(调整权值的算法，本发明中采用可分离卷积算法)，使网络的输出与预期值相符。在训练中，会通过以下损失函数计算输出值的偏差：

其中，S是输入的网格数量，B是边界框的编号，C是分类集合的数量，x和y是边界框的中心坐标，w和h是边界框的宽度和高度，p是预测的类概率。

损失函数，反应的是预期值与真实值的相差多少，同时对损失函数求偏导，来更新权重值，使激活函数输出值越来越接近真实值。在训练阶段损失函数用于评估网络输出结果与实际值的差异，然后用损失函数的值更新每个神经元之间的权重值，卷积神经网络的训练目的就是最小化损失函数值。

因此，总的来说，我们将输入的待检测图像传递到第一个卷积层中，卷积后以激活图形式输出；图片在卷积层中过滤后的特征会被输出，并传递下去；每个过滤器(即卷积处理中所采用的卷积核，其对应为一加权函数)都会给出不同的特征，以帮助进行正确的类预测。因为我们需要保证图像大小的一致，所以我们使用同样的填充(零填充)，否则填充会被使用，因为它可以帮助减少特征的数量；随后加入池化层进一步减少参数的数量；在预测最终提出前，数据会经过多个卷积和池化层的处理，卷积层会帮助提取特征，越深的卷积神经网络会提取越具体的特征，越浅的网络提取越浅显的特征。输出层是全连接层，其中来自其他层的输入在这里被平化和发送，以便将输出转换为网络所需的参数，随后输出层会产生输出，这些信息会互相比较，排除错误。损失函数是全连接输出层计算的均方根损失，随后我们会计算梯度错误，错误会进行反向传播，以不断改进过滤器(权重)和偏差值，一个训练周期由单次正向和反向传递完成。

我们的最后一层预测了类概率和边界框坐标，我们将边界框宽度和高度标准化为图像宽度和高度，使它们落在0和1之间。我们将边界框x和y坐标参数化为特定网格单元位置的偏移量所以它们也在0到1之间。

我们对最终层使用线性激活函数，所有其他层使用以下泄漏整流线性激活：

作为本发明的一个实施例，所述根据所述边界框数据与类概率，输出图像识别结果的步骤具体为：

根据所述边界框数据与类概率，拟合出与预设事件集合相对应的目标图像区域；

将所述目标图像区域作为图像识别结果输出。

卷积层的作用是从前一层的输出中检测的局部特征，不同的是，采样层的作用是把含义相似的特征合并成相同特征，以及把位置上相邻的特征合并到更接近的位置。由于形成特定主题的每个特征的相对位置可能发生微小变化，因此可以通过采样的方法输入特征图中强度最大的位置，减小了中间表示的维度(即特征图的尺寸)，从而，即使局部特征发生了一定程度的位移或者扭曲，模型仍然可以检测到这个特征。梯度计算和参数训练过程和常规深度网络相同，训练的是卷积核中的所有参数。

实施例二：

本发明实施例提供了一种基于深度学习的图像识别装置，详述如下。

本装置主要用于：

获取待检测图像。

将所述待检测图像用网格进行划分，每个网格为一个图像单元，通过单个轻量级深度神经网络计算并生成所述图像单元的边界框数据与类概率，其中，所述轻量级深度神经网络由深度可分离卷积构建而成。

根据所述边界框数据与类概率，输出图像识别结果，根据该输出结果可以直接进行特定行为预测，例如识别拍摄影像中的人是否发生纠纷，或是交通路口是否产生车祸等情况，均有助于在事故发生的第一时间做记录，并且联络相关人员前往处理。

在本发明的一个实施例中，影像设备(如监控设备)上得到的图像或影像数据，可以上传到服务器上，服务器做了第一步动作就是获取这些数据，也即待检测图像。优选的，在进入下一步处理之前，可以先对待检测图像作一些处理，比如去均值(把输入数据各个维度都中心化为0，避免数据过多偏差，影响训练效果)、归一化(把所有的数据都归一到同样的范围)、PCA/白化等等。

在本发明的一个实施例中，对于深度学习，其本质是在大数据支持下的多层人工神经网络系统，一个深度学习模型通常包含数以百万计甚至千万计的参数和十几层甚至几十层的网络，巨量的参数带来性能提升的同时，也带来网络体量巨大、运算缓慢等缺点，不利于深度学习模型向运算资源有限的设备和应用中嵌入。另一方面，深度神经网络又常常是过参数化的。尤其是对于特定的任务而言，有相当部分的神经元和连接权重对模型的性能没有实质性的影响，或这些影响可以借由再训练方法由其他神经元填补。因此，本发明实施例提出的构建轻量级深度神经网络不但具有必要性，也具有可能性。首先，尽管神经网络通常是深度越深，效果越好，但针对具体的应用场景和需求，适当深度和参数数目的网络即能够满足。盲目加深网络复杂度所带来的微弱性能提升在许多应用场合意义并不大。其次，神经网络常常存在过参数化的问题，网络神经元的功能具有较大的重复性，即使在网络性能敏感的场景，大部分网络也可以被“安全地”压缩而不影响其性能。

将所述图像单元作卷积处理，以进行特征提取与重组，形成中间特征数据集合；

将所述中间特征数据集合经过多次数据采样与卷积处理后，得到一全连接特征数据集合；

将所述全连接特征数据集合进行特征进行计算，形成并输出所述边界框数据与类概率。

一般的，深度神经网络包括输入层、卷积层、池化层(也称作采样层)、全连接层等，上文中提到的中间特征数据集合可以指在输入层到全连接层之间的任何一个经过卷积处理的卷积层或经过采样处理的池化层，在其他环境下也叫特征图(Feature Map)。

将所述目标图像区域作为图像识别结果输出。

本发明提供了一种基于深度学习的图像识别装置，通过构建深度可分离卷积构建轻量级深度神经网络来对图像进行识别，能够有效分辨出图像中的物体，智能程度与精确度高；特别是应用于安保系统的影像识别，其可以有效识别或预测影像中正在或即将发生的事件，并为人们提供相应的提示，可以避免很多犯罪的发生，有力地保障了人们的生命、财产安全。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上所述实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种基于深度学习的影像识别方法，其特征在于，所述方法包括：

获取待检测图像；

根据所述边界框数据与类概率，输出图像识别结果。

2.如权利要求1所述的方法，其特征在于，所述通过单个轻量级深度神经网络计算并生成所述图像单元的边界框数据与类概率的步骤具体为：

3.如权利要求2所述的方法，其特征在于，所述将所述全连接特征数据集合进行特征进行计算，形成并输出所述边界框数据与类概率的步骤具体为：

4.如权利要求2所述的方法，其特征在于，构建所述轻量级深度神经网络的深度可分离卷积的深度为3×3。

5.如权利要求2所述的方法，其特征在于，所述根据所述边界框数据与类概率，输出图像识别结果的步骤具体为：

根据所述边界框数据与类概率，拟合出目标图像区域；

将所述目标图像区域作为图像识别结果输出。

6.一种基于深度学习的影像识别装置，其特征在于，所述装置用于：

获取待检测图像；

根据所述边界框数据与类概率，输出图像识别结果。

7.如权利要求6所述的装置，其特征在于，所述装置还用于：

8.如权利要求7所述的装置，其特征在于，所述装置还用于：

9.如权利要求7所述的装置，其特征在于，构建所述轻量级深度神经网络的深度可分离卷积的深度为3×3。

10.如权利要求7所述的装置，其特征在于，所述装置还用于：

根据所述边界框数据与类概率，拟合出目标图像区域；

将所述目标图像区域作为图像识别结果输出。