CN111539462B

CN111539462B - 模仿生物视觉神经元的图像分类方法、系统、装置及介质

Info

Publication number: CN111539462B
Application number: CN202010294149.0A
Authority: CN
Inventors: 吴亚; 魏守卫
Original assignee: Suzhou Wangao Computer Technology Co ltd
Current assignee: Suzhou Wangao Computer Technology Co ltd
Priority date: 2020-04-15
Filing date: 2020-04-15
Publication date: 2023-09-19
Anticipated expiration: 2040-04-15
Also published as: CN111539462A

Abstract

本发明提供了模仿生物视觉神经元的图像分类方法、系统、装置及介质，能够更好的模仿视觉神经元，其通过权值不共享的方式取代卷积运算，且实现方式比卷积操作更节省内存空间，包括：设定输入图像和学习权值，学习权值的卷积核高度、卷积核宽度分别与输入图像的图像高度、图像宽度相同；将输入图像的图像通道维度上的数据扁平化到图像高度和图像宽度的维度上；将经扁平化处理得到的输入图像的张量使用滑动窗口进行提取处理；对学习权值进行稀疏化处理；将经提取处理得到的输入图像的张量与经稀疏化处理得到学习权值的张量进行矩阵乘法运算，得到的计算结果作为输出的特征图，并对输出的特征图采用非线性激活函数处理。

Description

模仿生物视觉神经元的图像分类方法、系统、装置及介质

技术领域

本发明涉及计算机视觉领域，特别涉及模仿生物视觉神经元的图像分类方法、系统、装置及介质。

背景技术

图像分类是一个热门的研究领域，有着巨大的商业价值，多用于辅助图像识别技术，例如人脸识别、车牌识别、图像检测、图像搜索等。目前，有不少研究人员在图像分类方面进行了大量的研究，深度学习被引入图像分类，并在广泛的应用中受到越来越多的关注。

但是深度学习已知的缺陷依然存在，如：需要太多经过标注的数据、模型训练需要占用太多昂贵的资源、对数据细微的抖动，出现算法失效的情况等。

如图3所示，Hubel和Wiesel两位博士在1958年的猫视觉皮层实验中，首次观察到视觉初级皮层的神经元对移动的边缘刺激敏感，并定义了简单和复杂细胞，发现了视功能视野逐渐变化现象，出现了视觉纹状皮质现象。

发明人一直主张人工智能要从神经生物学受启发，也阅读了国外大量视觉神经元“视觉纹状皮质现象”的研究，认为这种现象与特征的稳定识别有关。目前CNN网络对于旋转、缩放、平移等变化的同一类物体识别效果都不好，这与缺乏稳定识别有关。受哺乳动物视觉神经元研究启发，在视觉皮层通路中，偏好刺激的特征从同心圆、线条、角、纹理、星形、复杂特征再到物体，虽然视觉底层特征与位置无关，但是高层特征一般与位置有关，比如在对人脸识别中，人的面部双眼、鼻子、嘴巴，这些是高层特征，它们的相对位置如果变化，代表的就不是人的面部；在传统的CNN网络中，往往是通过权值共享的方式实现的，但是权值共享的计算方式是与位置无关的，其显然是存在缺陷的，

发明内容

针对上述问题，本发明提供了模仿生物视觉神经元的图像分类方法、系统、装置及介质，能够更好的模仿视觉神经元，其通过权值不共享的方式取代卷积运算，且实现方式比卷积操作更节省内存空间。

其技术方案是这样的：一种模仿生物视觉神经元的图像分类方法，包括对待分类的图像进行预处理；基于CNN网络构建分类模型，分类模型至少包括卷积层、池化层；对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果，其特征在于，在CNN网络的卷积层中按如下步骤运行：

步骤1：设定输入图像和学习权值，学习权值的卷积核高度、卷积核宽度分别与输入图像的图像高度、图像宽度相同；

步骤2：将输入图像的图像通道维度上的数据扁平化到图像高度和图像宽度的维度上；

步骤3：将经扁平化处理得到的输入图像的张量使用滑动窗口进行提取处理；

步骤4：对学习权值进行稀疏化处理；

步骤5：将经提取处理得到的输入图像的张量与经稀疏化处理得到学习权值的张量进行矩阵乘法运算，得到的计算结果作为输出的特征图，并对输出的特征图采用非线性激活函数处理。

进一步的，在步骤1中，设定输入图像，表示为X(batch，height_x，width_x，in_channels)，X的4个维度分别表示为样本数、图像高度、图像宽度、图像通道；设定学习权值，表示为W(height_x，width_x，height_w×width_w，out_channels)，学习权值W的四个维度分别表示为卷积核高度、卷积核宽度、输入通道数、输出通道数，其中，学习权值W的卷积核高度与输入图像X的图像高度相同，学习权值W的卷积核宽度与输入图像X的图像宽度相同。

进一步的，在步骤2中，将输入图像X在图像通道上的数据扁平化到图像高度和图像宽度的维度上，扁平化处理后得到的张量表示为

进一步的，在步骤3中，将经扁平化处理得到的张量X_flatten使用(height_w，width_w)的滑动窗口进行提取处理，按照如下公式计算：

其中，stride是移动步长，k_size＝height_w＝width_w，height_w、width_w分别为变量，提取后的张量为

进一步的，在步骤4中，将学习权值W进行稀疏化处理，处理后的张量表示为

进一步的，在步骤5中，将步骤3得到的输入图像的张量X_ext与步骤4得到学习权值的张量W_scatter进行矩阵乘法运算，得到的计算结果作为输出的特征图，输出的特征图采用非线性激活函数处理。

进一步的，非线性激活函数采用ReLU或Leaky-ReLU非线性激活函数。

一种模仿生物视觉神经元的图像分类系统，包括：神经网络单元，用于对待分类的图像进行预处理，基于CNN网络构建分类模型，分类模型至少包括卷积层、池化层，对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果，其特征在于：所述神经网络单元包括：

设定模块，用于设定输入图像和学习权值，学习权值的卷积核高度、卷积核宽度分别与输入图像的图像高度、图像宽度相同；

扁平化模块，用于将输入图像的图像通道维度上的数据扁平化到图像高度和图像宽度的维度上；

提取模块，用于将经扁平化模块处理得到的输入图像的张量使用滑动窗口进行提取处理；

稀疏化模块，用于对学习权值进行稀疏化处理；

矩阵乘法运算模块，用于将提取模块的得到的输入图像的张量与稀疏化模块得到学习权值的张量进行矩阵乘法运算，得到计算结果作为输出的特征图，并对输出的特征图采用非线性激活函数处理。

一种模仿生物视觉神经元的图像分类装置，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如上述的模仿生物视觉神经元的图像分类方法。

一种计算机可读存储介质，其上存储有程序，其特征在于：所述程序被处理器执行时实现如上述的模仿生物视觉神经元的图像分类方法。

在本发明的模仿生物视觉神经元的图像分类方法，模仿生物视觉神经元组织方式，将输入神经元的图像的图像通道维度上的数据扁平化到图像高度和图像宽度的维度上，将经扁平化处理得到的输入图像的张量使用滑动窗口进行提取处理，并对学习权值进行稀疏化处理；再将经提取处理的输入图像的张量与经稀疏化处理的学习权值的张量进行矩阵乘法运算，将矩阵乘法运算得到的计算结果作为输出的特征图，通过上述步骤，本发明不再采用传统的CNN网络中一个权值矩阵像卷积按照stride、padding参数扫描输入特征，而是通过采用矩阵乘法，相当于前一层不同区域使用的是同一个权值矩阵W的不同部分进行运算，从而实现了权值不共享的方案代替卷积计算，同时比卷积更节约内层空间；此外，采用本发明的模仿生物视觉神经元的图像分类方法得到的权值权值图中，会出现纹状皮质特征，“纹状皮质特征”会让识别效果更好，结果更稳定，不会因为物体的平移、缩放、形状变化、视角变化导致识别错误，解决了目前CNN网络中一直存在的这些问题。

附图说明

图1为本发明的一种模仿生物视觉神经元的图像分类方法的主要流程图；

图2为本发明的一种模仿生物视觉神经元的图像分类方法在CNN网络中表现的结构示意图；

图3为Hubel和Wiesel实验图中视觉纹状皮质现象的示意图；

图4通过为本发明的一种模仿生物视觉神经元的图像分类方法得到的学习权值图；

图5为本发明的一种模仿生物视觉神经元的图像分类系统的组成框图。

具体实施方式

见图1、2，本发明的一种模仿生物视觉神经元的图像分类方法，包括对待分类的图像进行预处理；基于CNN网络构建分类模型，分类模型至少包括卷积层、池化层；对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果在CNN网络的卷积层中按如下步骤运行：

步骤4：对学习权值进行稀疏化处理；

具体在步骤1中，设定输入图像，表示为X(batch，height_x，width_x，in_channels)，X的4个维度分别表示为样本数、图像高度、图像宽度、图像通道；设定学习权值，表示为W(height_x，width_x，height_w×width_w，out_channels)，学习权值W的四个维度分别表示为卷积核高度、卷积核宽度、输入通道数、输出通道数，其中，学习权值W的卷积核高度与输入图像X的图像高度相同，学习权值W的卷积核宽度与输入图像X的图像宽度相同。

具体在步骤2中，将输入图像X在图像通道上的数据扁平化到图像高度和图像宽度的维度上，扁平化处理后得到的张量表示为

具体在步骤3中，将经扁平化处理得到的张量X_flatten使用(height_w，width_w)的滑动窗口进行提取处理，按照如下公式计算：

具体在步骤4中，将学习权值W进行稀疏化处理，处理后的张量表示为

具体在步骤5中，将步骤3得到的输入图像的张量X_ext与步骤4得到学习权值的张量W_scatter进行矩阵乘法运算，得到的计算结果作为输出的特征图，输出的特征图采用ReLU或Leaky-ReLU非线性激活函数处理。

本实施例中的模仿生物视觉神经元的图像分类方法中，如CNN网络采用ResNet或Inception系列，其中，步骤1至步骤5所执行的内容分别是在CNN网络的每个卷积层中的运算，其用于取代原有的卷积运算，而在于CNN网络的其他层中的运算，可以参考网络模型的具体结构去执行，本方案并未在其它层的设置中做出改变，故在此不再赘述。

在步骤3中进行提取处理时，内存扩大倍数记为对比卷积的内存扩大倍数为filter_size×filter_size，filter_size为卷积核的大小，可见节省内存。

图3为Hubel和Wiesel实验图中视觉纹状皮质现象的示意图；图3中左侧是方向选择性的条纹颜色示例，在彩图中是以不同颜色代表不同方向刺激，图3的黑白图片中可以以灰度区分，图3中右侧同一种颜色的带状区域对同一个方向的刺激敏感，可以发现这些区域有一个特点是方向逐渐变化特征，也就是说不存在，水平方向区域和竖直方向区域相邻情况，都是逐渐变化的方向区域相邻；

将本实施例中的模仿生物视觉神经元的图像分类方法中的权值表示为Weight(H，W，In，Out)，将Weight变形Reshape为然后连接为二维的可视化权值，如图4所示，其给出了本发明的条纹状权值图，其出现了Hubel和Wiesel博士实验的视皮层的纹状皮质特征，权值图是使用cifarl0数据集训练了采用了本发明的模仿生物视觉神经元的图像分类方法的ResNet网络得到的；将每一层的权值可视化打印出来后如图4所示，它的特点是条纹状的，类似生物学研究。而打印常规卷积网络的权值图，并没有这种特征。

以下给出一个具体案例说明本发明的模仿生物视觉神经元的图像分类方法，包括对待分类的图像进行预处理；基于CNN网络构建分类模型，选择一种用于图像识别任务的神经网络模型ResNet，分类模型至少包括卷积层、池化层；对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果，在CNN网络的卷积层中按如下步骤运行：

步骤1：设定：输入为X(batch，height_x，width_x，in_channels)，学习权值定义为W(height_x，width_x，height_w×width_w，out_channels)，假如其中一层的具体数值为X(128，32，32，16)、W(32，32，9×9，64)。

步骤2：扁平化X：将X(128，32，32，16)最后一维in_channels上的数据压扁到中间2个维度hetght_x和width_x上，计算得到X_flatten(128，32×4，32×4，1)。

步骤3：提取第1步的X_flatten：先按照公式其中：stride是移动步长；/>k_size＝height_w＝width_w，计算得到rate＝2，filter_window＝9，然后使用(9，9)的滑动窗口提取X_flatten，计算得到X_ext(128，32×4，32×4，1×9×9)。

步骤4：稀疏化W：将W(32，32，9×9，64)进行稀疏化处理，计算得到W_scatter(32，32，9×9×16，64)。

步骤5：矩阵乘法：将X_ext(128，32×4，32×4，1×9×9)进行转置和变换获得X_t(32，32，128，9×9×16)，并将结果和W_scatter(32，32，9×9×16，64)进行矩阵乘法运算F＝X_tW_scatter，张量形状为F(32，32，128，64)。最后将F的转置Out(128，32，32，64)作为该计算层的输出。

在本发明的实施例中，还给出了CNN中进行卷积操作的对比案例，具体如下

①对神经元的输入X(batch，height_x，width_x，in_channels)使用ksizes(height_w，width_w)的滑动窗口进行提取(extract)处理，提取后的张量为X_ext(batch，height_x，width_x，height_w×width_w×in_channels)。

②将学习权值W(height_w，width_w，in_channels，out_channels)进行矩阵变换后W_t(height_w×widthw×in_channels，out_channels)。

③卷积操作的输出为X_ext和W_t的矩阵乘法运算。

当filter_size＝3，heightw＝widthw＝9，out_channels＝81时，

在步骤3中进行提取处理时，内存扩大倍数记为计算等于对比卷积的内存扩大倍数为filter_size×filter_size，filter_size×filter_size＝3×3；本发明的技术方案对比卷积操作节省了(3x3)/(2x2)倍的内存空间。

在本发明的模仿生物视觉神经元的图像分类方法，模仿生物视觉神经元组织方式，将输入神经元的图像的图像通道维度上的数据扁平化到图像高度和图像宽度的维度上，将经扁平化处理得到的输入图像的张量使用滑动窗口进行提取处理，并对学习权值进行稀疏化处理；再将经提取处理的输入图像的张量与经稀疏化处理的学习权值的张量进行矩阵乘法运算，将矩阵乘法运算得到的计算结果作为输出的特征图，通过上述步骤，本发明不再采用传统的CNN网络中一个权值矩阵像卷积按照stride、padding参数扫描输入特征，而是通过采用矩阵乘法，相当于前一层不同区域使用的是同一个权值矩阵W的不同部分进行运算，从而实现了权值不共享的方案代替卷积计算，同时比卷积更节约内层空间。

见图5，在本发明的实施例中，还给出了一种模仿生物视觉神经元的图像分类系统，包括：神经网络单元，用于对待分类的图像进行预处理，基于CNN网络构建分类模型，分类模型至少包括卷积层、池化层，对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果，神经网络单元包括：

设定模块1，用于设定输入图像和学习权值，学习权值的卷积核高度、卷积核宽度分别与输入图像的图像高度、图像宽度相同；

扁平化模块2，用于将输入图像的图像通道维度上的数据扁平化到图像高度和图像宽度的维度上；

提取模块3，用于将经扁平化模块处理得到的输入图像的张量使用滑动窗口进行提取处理；

稀疏化模块4，用于对学习权值进行稀疏化处理；

矩阵乘法运算模块5，用于将提取模块的得到的输入图像的张量与稀疏化模块得到学习权值的张量进行矩阵乘法运算，得到计算结果作为输出的特征图，并对输出的特征图采用非线性激活函数处理。

在本发明的实施例中，还给出了一种模仿生物视觉神经元的图像分类装置，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现如上述的模仿生物视觉神经元的图像分类方法。

在上述模仿生物视觉神经元的图像分类装置的实现中，存储器和处理器之间直接或间接地电性连接，以实现数据的传输或交互。例如，这些元件相互之间可以通过一条或者多条通信总线或信号线实现电性连接，如可以通过总线连接。存储器中存储有实现数据访问控制方法的计算机执行指令，包括至少一个可以软件或固件的形式存储于存储器中的软件功能模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-Only Memory，简称：EPROM)，电可擦除只读存储器(Flectric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

在本发明的实施例中，还给出了一种计算机可读存储介质，其上存储有程序，程序被处理器执行时实现如上述的模仿生物视觉神经元的图像分类方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、系统、装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、系统、装置和计算机程序产品的流程图和/或方框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图中指定的功能的步骤。

以上对本发明所提供的模仿生物视觉神经元的图像分类方法、模仿生物视觉神经元的图像分类系统、模仿生物视觉神经元的图像分类装置和一种计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上，本说明书内容不应理解为对本发明的限制。

Claims

1.一种模仿生物视觉神经元的图像分类方法，包括对待分类的图像进行预处理；基于CNN网络构建分类模型，分类模型至少包括卷积层、池化层；对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果，其特征在于，在CNN网络的卷积层中按如下步骤运行：

步骤4：对学习权值进行稀疏化处理；

步骤5：将经提取处理得到的输入图像的张量与经稀疏化处理得到学习权值的张量进行矩阵乘法运算，得到的计算结果作为输出的特征图，并对输出的特征图采用非线性激活函数处理；

在步骤1中，设定输入图像，表示为X(batch，height_x，width_x，in_channels)，X的4个维度分别表示为样本数、图像高度、图像宽度、图像通道；设定学习权值，表示为W(height_x，width_x，height_w×width_w，out_channels)，学习权值W的四个维度分别表示为卷积核高度、卷积核宽度、输入通道数、输出通道数，其中，学习权值W的卷积核高度与输入图像X的图像高度相同，学习权值W的卷积核宽度与输入图像X的图像宽度相同；

在步骤2中，将输入图像X在图像通道上的数据扁平化到图像高度和图像宽度的维度上，扁平化处理后得到的张量表示为

在步骤3中，将经扁平化处理得到的张量X_flatten使用(height_w，width_w)的滑动窗口进行提取处理，按照如下公式计算：

2.根据权利要求1所述的一种模仿生物视觉神经元的图像分类方法，其特征在于：在步骤4中，将学习权值W进行稀疏化处理，处理后的张量表示为

3.根据权利要求2所述的一种模仿生物视觉神经元的图像分类方法，其特征在于：在步骤5中，将步骤3得到的输入图像的张量X_ext与步骤4得到学习权值的张量W_scatter进行矩阵乘法运算，得到的计算结果作为输出的特征图，输出的特征图采用非线性激活函数处理。

4.根据权利要求3所述的一种模仿生物视觉神经元的图像分类方法，其特征在于：非线性激活函数采用ReLU或Leaky-ReLU非线性激活函数。

5.一种模仿生物视觉神经元的图像分类系统，包括：神经网络单元，用于对待分类的图像进行预处理，基于CNN网络构建分类模型，分类模型至少包括卷积层、池化层，对分类模型进行训练，得到训练好的分类模型；通过训练好的分类模型进行图像分类，获得分类结果，其特征在于：所述神经网络单元包括：

稀疏化模块，用于对学习权值进行稀疏化处理；

矩阵乘法运算模块，用于将提取模块的得到的输入图像的张量与稀疏化模块得到学习权值的张量进行矩阵乘法运算，得到计算结果作为输出的特征图，并对输出的特征图采用非线性激活函数处理；

在设定模块中，设定输入图像，表示为X(batch，height_x，width_x，in_channels)，X的4个维度分别表示为样本数、图像高度、图像宽度、图像通道；设定学习权值，表示为W(height_x，width_x，height_w×width_w，out_channels)，学习权值W的四个维度分别表示为卷积核高度、卷积核宽度、输入通道数、输出通道数，其中，学习权值W的卷积核高度与输入图像X的图像高度相同，学习权值W的卷积核宽度与输入图像X的图像宽度相同；

在扁平化模块中，将输入图像X在图像通道上的数据扁平化到图像高度和图像宽度的维度上，扁平化处理后得到的张量表示为

在提取模块中，将经扁平化处理得到的张量X_flatten使用(height_w，width_w)的滑动窗口进行提取处理，按照如下公式计算：

6.一种模仿生物视觉神经元的图像分类装置，其特征在于，包括存储器、处理器以及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如权利要求1所述的模仿生物视觉神经元的图像分类方法。

7.一种计算机可读存储介质，其上存储有程序，其特征在于：所述程序被处理器执行时实现如权利要求1所述的模仿生物视觉神经元的图像分类方法。