CN112396077A

CN112396077A - 全连接卷积神经网络图像处理方法与电路系统

Info

Publication number: CN112396077A
Application number: CN201910755575.7A
Authority: CN
Inventors: 吴俊樟; 陈世泽
Original assignee: Realtek Semiconductor Corp
Current assignee: Realtek Semiconductor Corp
Priority date: 2019-08-15
Filing date: 2019-08-15
Publication date: 2021-02-23

Abstract

本申请公开一种全连接卷积神经网络图像处理方法与电路系统，所述方法运作于一全连接卷积神经网络中，由电路系统执行，先接收一影像，在一实施例中，接收一影像，取得影像之长度、宽度以及长宽比例，接着查询全连接卷积神经网络适用的多种参考影像尺寸建立的一对照表，得出对照表中最接近此影像的参考影像。之后，经缩放影像使之调整至参考影像的尺寸，再对影像执行一卷积运算，并经多次运算后，形成特征立方块，由特征立方块转换为一维特征值，接着输入一维特征值至全连接层，执行全连接运算，以产生全连接卷积神经网络的一输出数值。

Description

全连接卷积神经网络图像处理方法与电路系统

技术领域

本发明关于一种图像处理技术，特别是[h1]运用卷积神经网络的一种全连接卷积神经网络图像处理方法与电路系统。

背景技术

在人工智能(Artificial Intelligence，AI)的领域中应用了机器学习(machinelearning)的技术。在机器学习中，基础是通过算法来分析数据，以大量数据与算法学习数据特征，建立判断或预测现实世界的模型。

在机器学习中，使用的算法如一种卷积神经网络(Convolutional NeuralNetwork，简称CNN)，这是一种前馈神经网络，特别可以应用在图像处理的领域中，其中能运用深度学习(deep learning)执行影像辨识、对象检测、影像分割等处理。

所述卷积神经网络(CNN)实现的深度学习(deep learning)技术是机器学习进入人工智能领域的实际操作方法之一。在运用深度学习时，其中标准的卷积神经网络带有全连接层(fully connected layer)时，不过，实际操作上会遇到影像的输入尺寸的限制，输入长宽尺寸会被规范为同样大小，所常见的方法会将原始影像的长宽缩放到固定大小。

一个标准的卷积神经网络结构如图1，分为两个部分，前半部分为卷积运算10，后半部分为全连接(fully connection)运算12，或称为密集(dense)运算。全连接运算示意图如图2，对应图1的全连接运算12，如果左边有4096个神经元，右边也有4096个神经元，左边每个神经元跟右边每个神经元都有联机，也就是乘上一个权重，所以共有「4096x4096」条连接线。因此图1中，当一开始原始影像101输入大小为「224x224x3」，经过一些卷积操作后，如「55x55x96」、「27x27x256」、「13x13x384」、「13x13x384」，以及最后一个立方块103大小为「13x13x256」，因此第一个全连接操作需要将「13x13x256」拉成一条向量，也就是43264个值，再与后面的4096 个值做全连接层。在这种现有的模型下，如果影像输入长宽大小不固定时，运算就会在第一个全连接层发生错误，例如当影像变大时，卷积结果可能是「15x15x256」或「17x17x256」，全连接层的权重个数不相同，此时就没办法训练一个固定的网络。

现有的算法例如VGG，是一种提供大尺寸影像辨识用的深度学习算法(Very DeepConvolutional Networks for Large-Scale Image Recognition)或是GoogLeNet，这类方法将输入影像强迫缩放至固定长宽大小，但缩放的步骤可能会损失原来影像的几何特性。

另一种现有的方式是将全连接层删除，改用全卷积网络(Fully ConvolutionNetwork,FCN)，方法如Darknet19。此种方法因删除了全连接层，虽能让输入影像的长宽大小不固定，但会增加卷积运算的运算量，并可能降低帧率(frame rate)，且也丧失了全连接层的优点及特性。

发明内容

本申请公开一种全连接卷积神经网络图像处理方法，以及执行此方法的电路系统，此方法提出一个方案，可以套用于任何现有的神经网络模型，且不限制影像的输入大小，保有原始影像的几何特性。

根据实施例，全连接卷积神经网络图像处理方法包括：先接收一影像，其中影像符合预先设定的全连接卷积神经网络适用的多种参考影像尺寸之一，接着对此影像执行卷积运算，并经多次运算后，形成特征立方块，再由特征立方块转换为一维特征值，接着输入一维特征值至全连接层，执行全连接运算，能产生全连接卷积神经网络的一输出数值。

进一步地，在流程中形成的特征立方块包括由影像萃取出的影像特征，并继续执行一激励函数以得出影像中一或多个对象的形状特征。且经过卷积运算后形成一或多张特征图，可再经池化运算进行降维，而仍保留影像中重要信息。

较佳地，全连接卷积神经网络的输出数值可用于识别或分类影像。

在另一实施例中，全连接卷积神经网络图像处理方法包括：先接收影像，取得影像的长度与宽度，以及长宽比例，之后查询全连接卷积神经网络适用的多种参考影像尺寸建立的对照表，得出对照表中最接近影像的长度与宽度，或是长宽比例的其中之一输入影像，再缩放输入影像，使之调整至参考影像的尺寸，如可以尽量保持原始输入影像的长宽比例。接着即对影像执行卷积运算，并经多次运算后，形成特征立方块，由特征立方块转换为一维特征值，以及输入一维特征值至全连接层，执行全连接运算，之后产生全连接卷积神经网络的一输出数值。

本申请提出执行以上方法的电路系统，电路系统包括一或多个处理器以及内存，以一或多个处理器执行上述全连接卷积神经网络图像处理方法。

为使能更进一步了解本发明的特征及技术内容，请参阅以下有关本发明的详细说明与附图，然而所提供的附图仅用于提供参考与说明，并非用来对本发明加以限制。

附图说明

图1显示现有的卷积神经网络结构示意图；

图2显示现有的全连接运算示意图；

图3所示为逐点卷积运算的示意图；

图4示意表示全连接卷积神经网络图像处理方法的实施例；

图5显示全连接卷积神经网络图像处理方法的流程实施例之一；

图6显示全连接卷积神经网络图像处理方法的流程实施例之二；

图7运行全连接卷积神经网络图像处理方法的电路系统实施例示意图。

具体实施方式

以下是通过特定的具体实施例来说明本发明的实施方式，本领域技术人员可由本说明书所公开的内容了解本发明的优点与效果。本发明可通过其他不同的具体实施例加以施行或应用，本说明书中的各项细节也可基于不同观点与应用，在不悖离本发明的构思下进行各种修改与变更。另外，本发明的附图仅为简单示意说明，并非依实际尺寸的描绘，事先声明。以下的实施方式将进一步详细说明本发明的相关技术内容，但所公开的内容并非用以限制本发明的保护范围。

应当可以理解的是，虽然本文中可能会使用到“第一”、“第二”、“第三”等术语来描述各种组件或者信号，但这些组件或者信号不应受这些术语的限制。这些术语主要是用以区分一组件与另一组件，或者一信号与另一信号。另外，本文中所使用的术语“或”，应视实际情况可能包括相关联的列出项目中的任一个或者多个的组合。

卷积神经网络(CNN)在影像辨识应用上有很大的成果，且陆续开发出以卷积神经网络为基础的图像处理方法，但在图像处理的方法中，如执行影像识别或分类，若卷积神经网络模型带有全连接层，输入影像的条件是要固定长宽大小，如果输入长宽大小不固定，其中运算就会在第一个全连接层发生错误，使得全连接层的权重个数不相同，此时就没办法训练一个固定的网络。

然而，一般影像的长宽大小多半是长方形，甚至有长宽比例更大的狭长形，如16:10、16:9或比例更大的尺寸，若要符合卷积神经网络的适用而将影像缩放到长宽为一样大小，影像中的对象将可能失出原本的几何特性，而可能因此无法正确辨识出其中对象，例如影像中的人物、车辆、家电因为影像强制调整长宽比例而变得无法辨识。现有的具有全连接层的卷积神经网络需要输入固定长宽大小的方式将无法满足实际的需求。

如此，本申请提出一种全连接卷积神经网络图像处理方法与电路系统，其目的之一是要能尽量保有原始影像的比例特征进行训练，而不要求所有影像的长宽是固定大小。另外，所述全连接卷积神经网络图像处理方法可以套用任何已经存在的网络架构，让原来有限制输入影像长宽大小的网络可以有弹性的接收不同长宽大小的影像。

先参考图3所述的一种卷积(convolution)运算的示意图。

图3(A)中显示为逐点卷积运算的输入层，如一输入影像数据，以立方块显示这个输入层，其中显示由标示a、b、c、d为代表形成的第一层输入数值，如输入影像的画素值，此输入层显示为长(H)、宽(W)与深(C1)形成的一立方块，其中深度(C1)表示此输入层卷积核的数量(第一数量C1)。就输入影像而言，H与W如输入影像的长与宽，C1数值可为3，如红(Red)、绿(Green)与蓝(Blue) 三原色通道。

图3(B)接着示意显示卷积核实现的1*1筛选器(filter)，此例显示有第二数量C2个筛选器，卷积运算即以此筛选器在上一级输入层 (图1)以一移动窗口依照一步伐(strides)设定而逐一扫描计算，过程中为相乘再加总，最后得出如图3(C)显示的输出数值。

图3(C)显示的输出层为长(H)、宽(W)与深(C2)形成的立方块，深度(C2)为对照筛选器的数量(第二数量C2)而产生相同数量的特征图(feature map)，以此显示输出数值的数量，H*W*C2 表示输出数值的大小。

卷积核实现一个筛选机制，如图3(B)所示，所述卷积核中的每一个参数相当于神经网络中的权值参数，与对应的局部像素相连接，所述如移动窗口逐一扫描计算是将卷积核的各个参数与对应的局部像素值做乘法运算，最后再取总和，得到卷积层上的结果。使用卷积核可以提取影像中的特征，并进行特征映像(mapping)。

举例来说，当输入影像(input image)和一个筛选器(filter)做卷积运算，如图3(B)，此例显示的筛选器的大小为1*1，深度为3 (第一数量C1)，将输入数值与一个筛选器(1*1*3)相乘后，输出的特征图(feature map)显示是大小为H*W*1的输出数值。同理，当提出C2个筛选器(如图3(B))，将会产生C2张特征图，合并后即如图3(C)所示的立方块。也就是，输入数值与筛选器经过卷积运算后，形成图3(C)的输出层样态，合并之后大小即为H*W*C2，也就是输出数值(output data)的大小。

根据卷积运算，设有一个数量(第二数量C2，如图3(B))的筛选器(卷积核)，每个筛选器具有一个数量的值(第一数量C1，此例为3，如图3(B))和输入数值中每个位置上的相同数量的值(第一数量C1，此例为3，如图3(A))个别做乘法运算，最后再取总和，第二数量C2的筛选器经过卷积运算就会形成第二数量C2个特征图，合并后形成如图3(C)所示大小为H*W*C2的特征图，也就是卷积运算的输出数值。

图3描述的卷积运算即可运作于图4所示的全连接卷积神经网络图像处理方法中的卷积运算40上。

所述全连接卷积神经网络图像处理方法可以套用任何已经存在的网络架构，让网络入口可以不限制影像大小，其中主要概念是，最初输入的输入影像401被限定为长宽大小一样，如图4显示尺寸为「256x256x3」的输入影像401输入全连接卷积神经网络，在卷积运算40中经过多次(此例为5次)池化(pooling)处理，此例显示缩小(down scale)32倍到尺寸为「8x8x512」的特征立方块403，其中特征立方块 403包含的信息为由输入影像401萃取出的影像特征。在一实施例中，此时可继续执行激励函数(activation function)，如采用Relu函数，可通过去掉负值得出影像中一或多个对象的形状特征。

之后将特征立方块403表示的特征数值，以平坦化(flatten)运算后转换为一条向量，表示为图中显示的一维特征值405，此例显示为「32768」，即8乘8乘512的结果，之后再连接到全连接运算42的部分，就是将之前的结果平坦化后接到最基本的神经网络，如图2所示，用以建立一深度学习的卷积神经网络模型。

在全连接层中执行全连接运算42，此例显示左边有4096个神经元，右边也有4096个神经元，左边每个神经元跟右边每个神经元都有联机，用来将影像中萃取得出的特征综合起来，乘上一个权重，共有 4096x4096条连接线。其中显示的一维特征值405为输入影像401经过卷积运算40形成，要与全连接层中的4096个神经元进行全连接运算 42，此例显示最终神经网络输出数值为1000，在一实施例中，此数值表示影像类别，主要作用如用于影像分类。在全连接神经网络中，目的是要通过大量数据的训练得到更准确的影像识别率，以能分类影像。

根据以上实施例描述，当经过卷积运算40后形成特征立方块403 时，将特征数值转换为一维特征值405，整体形成的卷积神经网络可以表示为：256x256x3(输入影像401)-->8x8x512(最后一个特征立方块403)-->32768(一维特征值405)-->4096(第一个全连接层的输出)-->4096(第二个全连接层输出)-->1000(最终神经网络输出)。

在本申请提出的全连接卷积神经网络图像处理方法的实施方式中，主要概念是，不论输入影像401的尺寸如何，只要在最后特征立方块403经平坦化后形成的一维向量与执行此全连接卷积神经网络图像处理方法的系统提出的一维特征值405的长度一样时，就可以适用所提出的全连接卷积神经网络图像处理方法。

如此，如表1所示，表1显示是已经完成学习的全连接卷积神经网络适用的多种参考影像尺寸对照表，其中由符合特定数量(依照特定的一维特征值)的多种尺寸(长宽比例)的影像所建立，使得符合表中描述的各种尺寸的影像皆可适用其中建立的学习模型，且不论输入的影像的长与宽是否为固定比例，此例显示的参考影像有256x256x3、 128x512x3、64x1024x3、32x2048x3、512x128x3、1024x64x3以及 2048x32x3，都可适用的全连接卷积神经网络图像处理方法。之后，经过卷积运算后各自形成对应的特征立方块，此例显示为8x8x512、 4x16x512、2x32x512、1x64x512、16x4x512、32x2x512以及64x1x512，之后只要都可以形成一样的一维特征值，此例显示为32768，就不会影响此卷积神经网络(CNN)的学习。

表1：

全连接卷积神经网络图像处理方法的实施例可参考图5显示的流程图。

一开始，如步骤S501，电路系统接收一张如表1显示的长宽比例的输入影像，所接收的影像也是符合预先设定的全连接卷积神经网络适用的多种参考影像尺寸之一。接着，如步骤S503，以此影像执行卷积运算，卷积运算可将输入影像的与特定的筛选器(filter)做卷积运算，例如将输入影像依照设定的步伐(stride)扫描影像值，再与卷积核实现的筛选器进行乘加运算，每次卷积运算得到一张特征图 (feature map)，所述筛选器的目的就是萃取出影像中的特征。期间还可以Relu函数去掉负值，以筛掉不要的数值。卷积运算过程中执行步骤S505，经过卷积运算形成的一或多张特征图再通过池化运算，池化的目的为将影像数据量减少(降维)，但保留影像中的重要信息。其中，若采用最大值池化(MaxPooling)，就是挑出特征值中的最大值，最大值池化的目的之一可以在不影响判断下可以抵抗噪声，完成运算后，如步骤S507，形成一个具有深度的特征立方块。

所述池化演算可有效地降低特征图的尺度，形成多张池化后的特征图，之后，如步骤S509，经平坦化形成一维特征值。如表一所示，所述全连接卷积神经网络中预先设定的多个影像尺寸具有相同的一维特征值的数量，此数量指一维特征值的模型尺寸(modelsize)，模型尺寸受限于电路系统的处理能力，由一维特征值符合此模型尺寸的多个影像建立对照表，也就是符合此数量的多个影像建立了全连接卷积神经网络适用的多种参考影像尺寸的对照表。一维特征值接着输入全连接层，如步骤S511，执行全连接运算以使一维特征值接到最基本的神经网络，如步骤S513，之后输出结果，运算结果可以用来描述影像特征。

表2显示另一个实施范例，输入的参考影像为192x192x3，经卷积运算后形成特征立方块，大小为6x6x512，经平坦化形成一维特征值 18432，形成此例卷积神经网络的权重参数，使得全连接卷积神经网络图像处理方法还可扩大适用其他最后可形成此一维特征值18432的任何输入影像，至少如表2显示的参考影像尺寸128x288x3、96x384x3、 64x576x3、32x1152x3、288x128x3与1152x32x3。

表2：

全连接卷积神经网络图像处理方法的另一实施方式可弹性地接受与上述表1、表2或其类似的方案的输入影像，如图6显示之流程。

一开始，如步骤S601，当接收任何一张影像，先得出影像的长度与宽度，以及长宽比例，再如步骤S603，比对表1或表2等显示的各种参考影像长宽比例的对照表，如步骤S605，查询(如表1或表2等，但并不限定在这些对照表中)全连接卷积神经网络适用的多种参考影像尺寸建立的对照表，得出对照表中最接近输入影像长度与宽度，或是长宽比例的参考影像。举例来说，输入影像为368x1075，其比例最接近表1显示的128x512，因此，再如步骤S607，依照参考影像缩放输入影像，如此例调整到128x512，可尽可能地保有原始长宽比例。

之后，如步骤S609，即以调整后的输入影像执行卷积运算，将调整后输入影像的与适当的筛选器做乘加运算，经过多次卷积运算筛选影像特征，形成特征图(feature map)，再如步骤S611，执行池化运算处理噪声问题，之后，如步骤S613，形成特征立方块，经处理成一维特征值后，即如步骤S615，一维特征值输入全连接层，执行全连接运算，最终如步骤S617，输出卷积神经网络模型(CNN模型)。

在此一提的是，若要针对其他尺寸(如224x224x3)，或要更大尺寸的影像，当建立如表1与表2的对照表时，可以进行适当调整，将影像的尺寸调整到适合建立此对照表的尺寸，即可适用相关全连接神经网络的模型上。

根据以上描述的实施例以及表1与表2，可知所述全连接卷积神经网络图像处理方法适用的输入影像长宽尺寸和入口影像大小的因子个数有关，可以扩大适用的影像范围。如表1显示的范例，从原始影像(256x256x3)的长或宽256缩小32倍后，成为长或宽为8的特征立方块(8x8x512)，以H表示为原始影像的长与宽，原始影像尺寸为 HxH，则后改后可能的入口影像大小可能性有(H/32)*(H/32)的因子个数，若以s作为降维的倍数，则可适用的输入影像尺寸可能性有 (H/s)*(H/s)的因子个数。当希望适用的影像尺寸更多样性，只要在可接受大小的限制下因子个数((H/s)*(H/s))即可。

上述实施例所描述的全连接卷积神经网络图像处理方法实施于一电路系统中，如集成电路(IC)实现的图像处理芯片，或是特定处理应用上，如网络摄影机(IP Cam)，其中实现的卷积神经网络模型可用于执行影像辨识、分类等目的，相关的电路系统实施例示意图可参考图7。

图中显示有一计算机系统70，其中具备一或多个处理器，图中以处理器701表示，可实现一电路系统，相关外围组件有内存703、接收输入影像数据71的输入接口705，影像经输入接口705接收后，暂存至内存703中，期间运行的卷积运算、池化运算、平坦化与全连接运算所产生的数据将同样地暂存至内存703中，例如卷积运算中得出的特征图、特征立方块、一维特征值。最后将输出结果72经输出接口707 输出。

其中处理器701运行上述全连接卷积神经网络图像处理方法，经收影像数据71后，可以先查询事先建立的卷积神经网络模型，得出或是调整到适用的输入影像条件，接着执行卷积运算与全连接运算，萃取出影像特征，形成输出结果72，以图像处理为例，输出结果72可进行影像识别与分类。

综上所述，在现有的技术利用卷积运算执行图像处理时，如果输入影像大小不固定时，会产生错误；若是强制将影像缩放到固定大小，如方形，又可能发生影像识别准确度下降、不易分类与失去影像长宽比例特征的缺点；或是有习知技术刻意删除全连接层，却也丧失了全连接层的优点。如此，本申请针对现有技术的缺点提出改善方案，即上述实施例所描述的全连接卷积神经网络图像处理方法与电路系统，利用预先设定的全连接神经网络适用的多种参考影像尺寸建立的对照表，使得此神经网络能弹性接收长宽比例不同的输入影像，并在实质保有原始影像比例特征下进行影像分类与识别。

以上所公开的内容仅为本发明的优选可行实施例，并非因此局限本发明的申请专利范围，所以凡是运用本发明说明书及图式内容所做的等效技术变化，均包含于本发明的申请专利范围内。

【符号说明】

卷积运算10

全连接运算12

原始影像101

立方块103

第一数量C1

第二数量C2

卷积运算40

全连接运算42

输入影像401

特征立方块403

一维特征值405

计算机系统70

处理器701

内存703

输入接口705

输出接口707

影像数据71

输出结果72

步骤S501～S513全连接卷积神经网络图像处理流程

步骤S601～S617全连接卷积神经网络图像处理流程

Claims

1.一种全连接卷积神经网络图像处理方法，运作于全连接卷积神经网络中，包括：

接收一影像，其中该影像符合预先设定的该全连接卷积神经网络适用的多种参考影像尺寸之一；

对该影像执行一卷积运算，并经多次运算后，形成一特征立方块；

由该特征立方块转换为一一维特征值；

输入该一维特征值至一全连接层，执行一全连接运算；以及

产生该全连接卷积神经网络的一输出数值。

2.如权利要求1所述的全连接卷积神经网络图像处理方法，其中该特征立方块包含由该影像萃取出的影像特征，并继续执行一激励函数以得出该影像中一或多个对象的形状特征。

3.如权利要求1所述的全连接卷积神经网络图像处理方法，其中，经过该卷积运算后形成一或多张特征图，再经一池化运算进行降维，而仍保留该影像中重要信息。

4.如权利要求1所述的全连接卷积神经网络图像处理方法，其中该全连接层包括有多个神经元，每个神经元彼此联机，用来将该影像中萃取得出的特征综合起来。

5.如权利要求4所述的全连接卷积神经网络图像处理方法，其中该全连接卷积神经网络的该输出数值用于识别或分类该影像。

6.如权利要求1至5中任一项所述的全连接卷积神经网络图像处理方法，其中，于形成该特征立方块时，以一平坦化运算得出该一维特征值。

7.如权利要求6所述的全连接卷积神经网络图像处理方法，其中该一维特征值包括一数量的模型尺寸，由一维特征值符合该数量的多个影像建立该全连接卷积神经网络适用的多种参考影像尺寸的一对照表。

8.一种全连接卷积神经网络图像处理方法，运作于一全连接卷积神经网络中，包括：

接收一影像，取得该影像之长度与宽度，以及一长宽比例；

查询一全连接卷积神经网络适用的多种参考影像尺寸建立的一对照表，得出该对照表中最接近该影像的长度与宽度，或该长宽比例的其中之一参考影像；

缩放该影像，使之调整至该参考影像的尺寸；

由该特征立方块转换为一一维特征值；

输入该一维特征值至一全连接层，执行一全连接运算；以及

产生该全连接卷积神经网络的一输出数值。

9.一种电路系统，包括：

一或多个处理器，电性连接一内存，以该一或多个处理器执行一全连接卷积神经网络图像处理方法，该全连接卷积神经网络图像处理方法运行于一全连接卷积神经网络中，包括以下步骤：

通过一输入接口接收一影像，取得该影像之长度与宽度，以及一长宽比例；

缩放该影像，使之调整至该参考影像的尺寸；

由该特征立方块转换为一一维特征值；

输入该一维特征值至一全连接层，执行一全连接运算；以及

产生该全连接卷积神经网络的一输出数值。

10.如权利要求9所述的电路系统，其中该特征立方块包含由该影像萃取出的影像特征，并继续执行一激励函数以得出该影像中一或多个对象的形状特征。