CN107784290A

CN107784290A - 一种停车位占用图像智能识别的方法

Info

Publication number: CN107784290A
Application number: CN201711067986.4A
Authority: CN
Inventors: 张烨; 许艇; 程康; 郭艺玲; 董敏; 刘齐齐
Original assignee: Zhejiang University of Technology ZJUT
Current assignee: Zhejiang University of Technology ZJUT
Priority date: 2017-11-03
Filing date: 2017-11-03
Publication date: 2018-03-09

Abstract

一种停车位占用图像智能识别的方法，包括如下步骤：获取对应停车位的实时影像，将图像灰度化；对灰度图像进行裁剪，并将图片缩放到固定的像素；将统一大小的图片，进行图片数据批量标准化处理；对标准化结果重新转换回二维数据并进行卷积、降维等操作；连接隐含层节点；设定输出层的节点数设置为类别数；预测分类结果与实际结果有所差距；不断地迭代，判定车位回归预测结果。本发明最大的益处是：根据对摄像机传输的图像进行直接的判断，不需要图像背景的预处理等复杂特征的提取工程，能够适应不同环境条件下的情况。只需要利用训练好的多层神经网络参数进行分类判断，输出结果，计算效率快，并且准确率很高。

Description

一种停车位占用图像智能识别的方法

技术领域

本发明涉及一种图像识别方法，特别涉及一种停车位占用图像智能识别的方法。

技术背景

近年来随着科学与技术的发展，特别是在计算机、数字化电子技术等方面取得了突飞猛进的发展。如今的停车场系统已经向智能化方向发展，不再需要人工手动监测，只需要监控设备(摄像机等)与计算机管理系统进行相关的关联操作，再结合信息的处理与运算就可实现智能化管理。一个先进的智能停车场管理系统最重要的是能够实时准确地判别一个车位的占用情况。

在当今社会，随着人们生活水平的提高，小轿车逐渐走进寻常百姓家，而公共场所的停车位资源有限，空闲与占用情况实时在变动，不能很好地利用。因此，人们想设计出一个实时有效的停车位监控系统，这样即使在复杂的大型停车场也能找到一个空车位，合理安排车位的停放。从用户的角度来看，大大节省了寻找空车位的时间，提高了进出效率；从管理员的角度来看，这是一种轻便、有效、准确、科学的管理方法，大大减少了人力、物力、财力的投入。

目前主要有以下几个方式的车位识别方法：一、申请号：201210184777.9申请日：2012-06-06的文件介绍了一种车位监控的方法，首先在停车场内设置多个边界和边界点标记不同停车位，获取停车位的分割图，将面积最大或者最清晰的图像作为监视的位点，将得到的分割图像经过图像识别；二、在申请号为：201510021156.2申请日为：2015-01-16的文件中，提到了用可移动机器人和机器人管理系统进行管理，机器人主要部分包括机器人本体、可行走的机器结构、蓄电池的组成、控制单元、应急单元和监控报警单元。其中行走结构用于驱动本体至电动汽车停放位置，蓄电池用于储存电池并供电，控制单元接收和执行管理系统发出的控制指令，应急单元用于发生故障时的应急措施，监控报警单元用于停车场发生火灾时的事故报警；三、在申请号：201620945857.5申请日：2016-08-26的文件介绍了压力感应的停车场车位检测，其系统包括：若干个传感节点、车位检测装置(存储器、压力传感器、控制器、计时器、RFID读写器、Zigbee收发器)、若干个汇聚节点。对于各个传感器节点的数据收发，其数据包括车辆信息、车主移动终端号码、记录的停车时间和车位地理坐标等。

以上提到的方法也存在不足之处，如方案一，需要标记车场内的边界线和边界点，对图片的清晰度要求很高；方案二，需要机器人的投入，大大加大了经费的投入，还需要机器人的定期保养和维修，成本较大；方案三，需要布置传感器的收发、汇聚节点，以及压力传感器等车位检测装置，传输距离有限，需要更多节点才能延长传输路线，成本投入也较大。

发明内容

为了解决现有技术的不足，提供一种一种停车位占用图像智能识别的方法，这种方法精准有效、成本低、智能化、操作简单。

为实现上述目的，本发明采用以下技术方案：

一种停车位占用图像智能识别的方法，包括如下步骤：

步骤一，通过视觉设备获取对应停车位的实时影像，将图像灰度化；

步骤二，在图片的指定位置对灰度图像进行裁剪，并将图片缩放到固定的像素：宽为W，高为H；

步骤三，将统一大小的图片，进行图片数据批量标准化处理，具体过程如下：

步骤3.1确定每次处理的图片数量为m张，每张图片包含有宽高的像素点信息，定义图片集合：

X＝[x₁,x₂,...x_i...,x_m]

其中，x_i为第i张图片的所有像素信息；

用以下表达式将每张二维图片像素信息按照从左往右，从上到下顺序平摊为一维像素信息：

其中η＝W*H，表示一张图片像素信息的总长度；x_il表示第i张图片的第l位置的一维像素信息；

通过将每张图片的一维像素信息缩放为0到1，得到白化处理的结果：

c_i＝x_i/255；

图片集合X的白化处理结果矩阵为：

C_X＝[c₁,c₂,...c_i,...c_m]

步骤3.2计算图片集合白化处理结果矩阵C_X的均值：

其中，K表示当前批次；E[c_i]表示当前批次中第i张图片白化处理结果的均值，即：

步骤3.3计算图片集合白化处理结果矩阵C_X的方差：

步骤3.4进行图片数据批量标准化处理，用于加快网络训练：

图片数据批量标准化处理结果用于神经网络的输入；

步骤四，对所述当前批次K的图片数据批量标准化结果重新转换回二维数据，即宽为W、高为H，进行卷积操作：

步骤4.1设定方形卷积核的边长大小值为size，设定卷积核核心起始位置为所述二维数据矩阵左上角第一个位置，设定卷积核滑动的距离为stride，设定滑动顺序为从左到右，从上到下；

步骤4.2设定隐含层神经元的节点个数Node₁，用于表示卷积核对所述当前批次二维数据进行卷积操作，实现加权求和，提取拥有节点个数的图片细节特征，卷积的计算公式为：

其中r为卷积核核心在二维数据矩阵的横坐标，c为卷积核核心在二维数据矩阵的纵坐标，Kernel_size×size表示设定的卷积核，bias表示实现加权求和的偏置；

步骤五，需要对卷积操作后的特征进行激活，有目的地将有用的图片特征信息表达出来，通过给定的Relu滤波器，将大于某阈值的有用信息进行激活处理，小于阈值的进行抑制，其Relu滤波器激活公式为：

Active_rc＝max(0,Conve_rc)

其中最终激活后的坐标数据矩阵记为Active，max(0,Conve_rc)为滤波激活函数，即矩阵中数值以所述阈值为0进行滤波，取当前值和阈值中的最大值；

步骤六，将激活后的Active数据矩阵进行池化降维操作，提高特征计算效率，池化降维操作采用最大池化操作，计算公式为：

其中kernel_Size×Size为设定的池化核，表示最大池化操作，将池化核内部矩阵中最大值输出，设定与卷积不同的边长Size，r'为池化核核心在激活后的Active二维数据矩阵的横坐标，c'为池化核核心在激活后的Active二维数据矩阵的纵坐标，设定不同滑动距离Stride，在所述激活后的二维Active矩阵上进行滑动，降维后的最大池化数据维度大小计算公式为：

W'＝W/Stride,H'＝H/Stride

其中W'为最大池化输出后的新宽度，H'为最大池化输出后的新高度；

步骤七，重复步骤四到步骤六两次，设定这两次的隐含层神经元节点数分别为Node₂和节点数Node₃，设定每次卷积核的大小和滑动距离等与步骤四同，设定池化核的大小和滑动距离与步骤六同，最后输出的节点大小为W”'＝W/Stride³,H”'＝H/Stride³；

步骤八，设置全连接层节点数为Node₄，用于连接隐含层节点，这时需要将二维Pool的W”'和H”'，重新调整形状到一维的[m,W”'*H”'*Node₄]大小；设定输入数据格式为：

{(x⁽¹⁾,y⁽¹⁾)...(x⁽ⁱ⁾,y⁽ⁱ⁾)...(x^(m),y^(m))},1≤i≤m

其中y⁽ⁱ⁾表示第i张图片准确的类别标签，标签取值为“0”或“1”，“0”表示当前该车位无车，“1”表示当前该车位有车，为p+1维向量(第一项“1”为加权偏置)，其中T表示转置，p＝W”'*H”'*Node₄表示该全连接层的纵向维度，表示第i张图片所对应p位置的像素信息处理后的数据；对于给定的输入样本信息设定对应位置的参数权值θ＝(θ₀,θ₁,θ₂,...,θ_p)^T，则加权公式：

其中，θ₀表示所述第一项加权偏置值，θ₁到θ_p表示到对应位置的权值；

步骤九，设定输出层的节点数设置为类别数，最后车位有无车辆停放的判断，是将该输出层权值求和归一化到1，即某一类预测的权值越大，所占分值比重越大，则概率越大，就表示归属于该类别；输出的结果即逻辑分类属于第几类的概率，这里的类别表示训练时的标签如空车位记为“0”，有车记为“1”，用于划分类别，将概率最高的评判为本次神经网络预测值，即输出分类结果；

步骤十，预测分类结果与实际结果有所差距，需要将预测的输出分类结果与实际的标签进行比较，从而得到反馈调节的误差；以下公式用于计算预测结果与实际结果的误差量：

步骤10.1误差的计算公式为：

其中h_θ(x⁽ⁱ⁾)为逻辑回归问题，即0/1的二分类问题，有：

其中表示回归分类为第“1”类有车的概率，表示回归分类为第“0”类没有车的概率；

步骤10.2那么对于第i组图片样本，所述假设函数表征正确的组合对数概率为：

其中，I{y⁽ⁱ⁾＝1}和I{y⁽ⁱ⁾＝0}代表示性函数，简单理解为{}内的条件成立时，取1，否则取0；那么对于m张图片样本而言，我们就可以得到模型对于整体训练样本的表现能力：

步骤10.3由式(2)表征正确的概率含义可知，其值大小表征模型对数据的表达能力；在参数更新或衡量模型优劣时需要一个能充分反映模型表现误差的损失函数，而且损失函数越小越好，所述损失函数计算公式为：

其中J(θ)为交叉熵损失函数，用于表示车位情况预测与所述准确类别标签y⁽ⁱ⁾的误差量，通过对交叉损失函数进行求导，可得反向传递误差，通过该反向传递误差来调整权值，进而缩小误差量；

将式(1-2)和(1-3)代入式(3)中，化简得到：

步骤十一，利用式(4)计算J(θ)对各神经网络层第j个权值参数分量θ_j求偏导，最后化简得到其表示反向传递误差，用于更新隐含层、全连接层的权值、偏置，得到如下的更新公式：

其中α表示设定的更新系数，即传统意义上的学习速率；

不断地迭代，调整权值、偏置，当满足J(θ)<ε时停止训练，其中ε为设定的误差大小，利用步骤十输出的概率最高的一类判定为车位回归预测结果。

本发明最大的益处是：根据对摄像机传输的图像进行直接的判断，不需要图像背景的预处理等复杂特征的提取工程，能够适应不同环境条件下的情况，包括黑夜、白天、雨雪天气等。只需要利用训练好的多层神经网络参数进行分类判断，输出结果，计算效率快，并且准确率很高。

附图说明

图1是滑动距离stride为1，size为3的卷积过程。

图2是采用的Relu滤波激活函数。

图3是滑动距离Stride为2，Size为2的最大池化过程。

图4是多层神经网络的节点联接结构简图。

图5是多层神经网络的训练输出概率结果。

图6是多层神经网络的训练过程。

图7是多层神经网络权值更新过程。

图8是实际应用的流程图。

图中标记：1、方形卷积核；2、卷积核核心；3、扩充操作；4、加权求和操作；5、池化核；6、最大池化操作；7、神经网络的输入层；8、Node₁隐含层；9、Node₂隐含层；10、Node₃隐含层；11、全连接层；12、输出层。

具体实施方式

本发明提出的一种停车位占用图像智能识别的方法，包括图片的产生、停车位附近图片的随机裁剪、白化操作、标准化操作、多层神经网络模型的训练、卷积激活操作、最大池化操作(有的地方也称为下采样操作)、模型参数的保存和后期的实际应用；

实施例一

参照附图，一种停车位占用图像智能识别的方法，步骤如下：

步骤二，在所述灰度图像指定的位置指定位置(0，0)、(10，10)、(20，20)、(30，30)、(40，40)、(50，50)裁剪大小600×600，对其进行裁剪，并将图片缩放到固定的像素：宽为W＝400，高为H＝400；

步骤三，将统一大小的图片，经过图片数据批量标准化处理，具体过程如下：

步骤3.1确定每次处理的图片数量为m＝50张，每张图片包含有宽高的像素点信息，定义图片集合为：

X＝[x₁,x₂,...x_i...,x₅₀]

其中X为当前要处理的图片集合，x_i为第i张图片的所有像素信息；以下表达式用于将每张二维图片像素信息按照从左往右，从上到下顺序平摊为一维像素信息：

x_i＝[x_i1,x_i2,...,x_il...,x_iη],1≤i≤50，1≤l≤η

其中η＝400*400＝160000，表示一张图片像素信息的总长度，x_il表示第i张图片的一维像素信息所对应图片的第l位置像素信息；

通过将每张图片的一维像素信息缩放为0到1，得到浮点型的白化处理结果：

c_i＝x_i/255

其中c_i就表示所述第i张图片的白化处理结果；

图片集合X的白化处理结果矩阵为：

C_X＝[c₁,c₂,...c_i,...c₅₀]

步骤3.2计算所述图片集合白化处理结果矩阵C_X的均值：

其中表示为当前批次K的图片集合白化处理结果均值，如第一批次的

E[c_i]表示当前批次中第i张图片白化处理结果的均值，如第一批次中：

步骤3.3计算图片集合白化处理结果矩阵C_X的方差，如第一批次中：

步骤3.4进行图片数据批量标准化处理，用于加快网络训练：

图片数据批量标准化处理结果用于神经网络的输入层7；

步骤四，对所述当前批次K图片数据批量标准化结果重新转换回二维数据：宽W＝400，高H＝400，进行卷积操作：

步骤4.1设定所述方形卷积核1的边长大小size＝3，设定卷积核核心2起始位置为所述二维数据矩阵左上角第一个位置，注意到卷积后的结果是有损的，要得到原先一模一样的大小，必须先扩充操作3，即在上下左右各填充一行或一列的数据(这里填充白色255)。设定卷积核滑动的距离stride＝1，设定滑动顺序为从左到右，从上到下；卷积核内的初始化权值Weight设定为N(0,1)，即服从正态分布，即

步骤4.2设定隐含层8神经元的节点个数Node₁＝32，用于表示卷积核对所述当前批次二维数据进行卷积操作，实现加权求和4，提取32种图片特征，卷积的计算公式为：

其中r为所述卷积核核心在二维数据矩阵的横坐标，c为所述卷积核核心在二维数据矩阵的纵坐标，Conve_rc为对应坐标位置的卷积操作结果，Kernel_3×3表示设定的卷积核，bias表示实现加权求和的偏置，偏置bias＝0.2；

步骤五，需要对卷积操作后的特征进行激活，有目的地将有用的图片特征信息表达出来，通过给定的Relu滤波器，将大于某阈值的有用信息进行激活，小于阈值的进行抑制，其Relu滤波器激活公式为：

Active_rc＝max(0,Conve_rc)

其中Active_rc为激活后的对应坐标特征数据，最终激活后的坐标数据矩阵记为Active，max(0,Conve_rc)为激活函数，即矩阵中数值以所述阈值为0进行滤波，取当前值和阈值中的最大值，这样更符合人体机制信号刺激与抑制特点；

步骤六，将激活后的Active数据矩阵进行池化降维操作，提高特征计算效率，池化降维操作采用最大池化操作，如第一批次的左上角数据为：

其中kernel_Size×Size为设定的池化核5，表示最大池化操作6，将池化核5内部矩阵中最大值输出，设定与卷积不同的边长Size＝2，r'为池化核核心在激活后的Active二维数据矩阵的横坐标，c'为池化核核心在激活后的Active二维数据矩阵的纵坐标，设定不同滑动距离Stride＝2，在所述激活后的二维Active矩阵上进行滑动，降维后的最大池化数据维度大小计算公式为：

W'＝W/Stride＝400/2＝200,

H'＝H/Stride＝400/2＝200,

步骤七，重复步骤四到步骤六两次，设定这两次的隐含层9和10神经元节点数分别为Node₂＝64和节点数Node₃＝128，设定每次卷积核的大小和滑动距离等与步骤四同，设定池化核的大小和滑动距离与步骤六同，最后输出的节点大小为W”'＝W/Stride³＝400/2³＝50,H”'＝400/2³＝50；

步骤八，设置全连接层11节点数为Node₄＝256，用于连接隐含层10节点，这时需要将二维Pool的W”'和H”'，重新调整形状到一维的[50,50*50*256]大小，设定输入数据格式为：

{(x⁽¹⁾,y⁽¹⁾)...(x⁽ⁱ⁾,y⁽ⁱ⁾)...(x⁽⁵⁰⁾,y⁽⁵⁰⁾)},1≤i≤50

其中y⁽ⁱ⁾表示第i张图片准确的类别标签，标签取值为“0”或“1”，“0”表示当前该车位无车，“1”表示当前该车位有车，为p+1维向量(第一项“1”为加权偏置)，其中T表示转置，p＝50*50*256＝640000表示该全连接层的纵向维度，表示第i张图片所对应p位置的像素信息处理后的数据；对于给定的输入样本信息设定对应位置的参数权值θ＝(θ₀,θ₁,θ₂,...,θ_p)^T，则加权公式：

步骤九，设定输出层12的节点数为2，即类别数，最后车位有无车辆停放的判断，是将该输出层权值求和归一化到1，即某一类预测的权值越大，所占分值比重越大，则概率越大，就表示归属于该类别；输出的结果即逻辑分类属于第几类的概率，这里的类别表示训练时的标签如空车位记为“0”，有车记为“1”，用于划分类别，将概率最高的评判为本次神经网络预测值，即输出分类结果；

步骤10.1误差的计算公式为：

其中h_θ(x⁽ⁱ⁾)为逻辑回归问题，即0/1的二分类问题，有：

其中，计算出第批次样本的对数概率0.9768，I{y⁽ⁱ⁾＝1}和I{y⁽ⁱ⁾＝0}代表示性函数，简单理解为{}内的条件成立时，取1，否则取0；那么对于50张图片样本而言，我们就可以得到模型对于整体训练样本的表现能力：

将式(1-2)和(1-3)代入式(3)中，化简得到：

步骤十一，利用式(4)计算J(θ)对各神经网络层第j个权值参数分量θ_j求偏导，计算过程如下：

最后化简得到其表示反向传递误差，用于更新隐含层(8，9，10)、全连接层11的权值、偏置，得到如下的更新公式：

其中α＝0.0001表示设定的更新系数，即传统意义上的学习速率，一般取较小值，不宜过大，可以形象地理解为调整的步子跨度，若过大会错过目标函数值最小值点；

不断地迭代，调整权值、偏置，当满足J(θ)<ε时停止训练，其中ε＝1e^-5为设定的误差大小，利用步骤十输出的概率最高的一类判定为车位回归预测结果。如第一批次的50个图片样本输出为[1,1,1,0,...,0,1]，总共50个。

图8展示的是实际应用的场景，摄像机将每次拍摄到的图片发送到服务器的终端，计算机同样对图片进行白化和标准化操作，这里不需要随机裁剪和训练的过程，只需要调用多层神经网络的参数模型。其计算的速度非常快，参数是其图片对应的权值和偏置，能够判断这一个车位的轮廓内是否有车。当图片的轮廓内没有车时，其显示的空白地的信息，利用参数的回归判断是空车位的分类结果；当图片内是有车辆停放时，车位内显示的是车辆的轮廓信息，所以利用参数进行回归判断的是有车的分类回归结果。

因此，可以将空车位的情况反馈给LED大屏，让其显示当前这一个没有车辆的停车位。由于本发明只涉及一个停车位评判结果，所以马上就知道当前地理位置的车位下是没有车辆停放的，当然可以利用摄像机编号与停车位存储的对应关系判断地理位置坐标。然后可以用箭头在LED大屏显示规划的路线，引导车辆的行进。

本方案的优点在于可以有效避免过多的设备投入，降低了固定成本；并且图像智能识别简单，不需要额外的图片数据加工操作，即只需要传入摄像机的图片到服务器，流程简单；服务器将图片统一调整到固定的大小，白化、标准化等操作，调用模型的参数就能识别，操作简单；识别的速度非常快，只需要几毫秒就能够出结果，并且判别的结果准确率很高；避免了日常维护和人员监督的工作，降低了人员工资成本。

Claims

1.一种停车位占用图像智能识别的方法，包括如下步骤：

X＝[x₁,x₂,...x_i...,x_m]

其中，x_i为第i张图片的所有像素信息；

c_i＝x_i/255；

图片集合X的白化处理结果矩阵为：

C_X＝[c₁,c₂,...c_i,...c_m]

步骤3.2计算图片集合白化处理结果矩阵C_X的均值：

<mrow> <mi>E</mi> <mo>&lsqb;</mo> <msubsup> <mi>C</mi> <mi>X</mi> <mi>K</mi> </msubsup> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mi>E</mi> <mo>&lsqb;</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>&rsqb;</mo> </mrow>

其中，K表示当前批次；表示当前批次中第i张图片白化处理结果的均值，即：

<mrow> <mi>E</mi> <mo>&lsqb;</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mn>1</mn> <mi>&eta;</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>l</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>&eta;</mi> </munderover> <mfrac> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mi>l</mi> </mrow> </msub> <mn>255</mn> </mfrac> <mo>;</mo> </mrow>

步骤3.3计算图片集合白化处理结果矩阵C_X的方差：

<mrow> <mi>V</mi> <mi>a</mi> <mi>r</mi> <mo>&lsqb;</mo> <msubsup> <mi>C</mi> <mi>X</mi> <mi>K</mi> </msubsup> <mo>&rsqb;</mo> <mo>=</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>i</mi> </msub> <mo>-</mo> <mi>E</mi> <mo>&lsqb;</mo> <msubsup> <mi>C</mi> <mi>X</mi> <mi>K</mi> </msubsup> <mo>&rsqb;</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow>

步骤3.4进行图片数据批量标准化处理，用于加快网络训练：

图片数据批量标准化处理结果用于神经网络的输入；

<mrow> <msub> <mi>Conve</mi> <mrow> <mi>r</mi> <mi>c</mi> </mrow> </msub> <mo>=</mo> <munderover> <munder> <mi>&Sigma;</mi> <mrow> <mi>r</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <mrow> <mo>+</mo> <mi>s</mi> <mi>t</mi> <mi>r</mi> <mi>i</mi> <mi>d</mi> <mi>e</mi> <mo>,</mo> </mrow> <mi>W</mi> </munderover> <munderover> <munder> <mi>&Sigma;</mi> <mrow> <mi>c</mi> <mo>=</mo> <mn>1</mn> </mrow> </munder> <mrow> <mo>+</mo> <mi>s</mi> <mi>t</mi> <mi>r</mi> <mi>i</mi> <mi>d</mi> <mi>e</mi> </mrow> <mi>H</mi> </munderover> <mrow> <mo>(</mo> <msup> <mover> <mi>x</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>K</mi> <mo>)</mo> </mrow> </msup> <msub> <mi>&Theta;Kernel</mi> <mrow> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> <mo>&times;</mo> <mi>s</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> </msub> <mo>+</mo> <mi>b</mi> <mi>i</mi> <mi>a</mi> <mi>s</mi> <mo>)</mo> </mrow> </mrow>

Active_rc＝max(0,Conve_rc)

<mrow> <mi>P</mi> <mi>o</mi> <mi>o</mi> <mi>l</mi> <mo>=</mo> <mi>m</mi> <mi>a</mi> <mi>x</mi> <mrow> <mo>(</mo> <mi>A</mi> <mi>c</mi> <mi>t</mi> <mi>i</mi> <mi>v</mi> <mi>e</mi> <mo>&CircleTimes;</mo> <msub> <mi>kernel</mi> <mrow> <mi>S</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> <mo>&times;</mo> <mi>S</mi> <mi>i</mi> <mi>z</mi> <mi>e</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <msup> <mi>r</mi> <mo>&prime;</mo> </msup> <mo>&le;</mo> <mi>W</mi> <mo>,</mo> <mn>1</mn> <mo>&le;</mo> <msup> <mi>c</mi> <mo>&prime;</mo> </msup> <mo>&le;</mo> <mi>H</mi> </mrow>

W'＝W/Stride,H'＝H/Stride

{(x⁽¹⁾,y⁽¹⁾)...(x⁽ⁱ⁾,y⁽ⁱ⁾)...(x^(m),y^(m))},1≤i≤m

<mrow> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <msub> <mi>&theta;</mi> <mn>0</mn> </msub> <mo>+</mo> <msub> <mi>&theta;</mi> <mn>1</mn> </msub> <msubsup> <mi>x</mi> <mn>1</mn> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> <mo>+</mo> <mo>...</mo> <mo>+</mo> <msub> <mi>&theta;</mi> <mi>p</mi> </msub> <msubsup> <mi>x</mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msubsup> </mrow>

步骤10.1误差的计算公式为：

<mrow> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mo>=</mo> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mtable> <mtr> <mtd> <mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>)</mo> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>=</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mfrac> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mrow> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <mi>log</mi> <mrow> <mo>(</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mo>)</mo> </mrow> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>log</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <mo>-</mo> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> </mtable> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

其中h_θ(x⁽ⁱ⁾)为逻辑回归问题，即0/1的二分类问题，有：

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>0</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mrow> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> </mrow>

<mfenced open = "" close = ""> <mtable> <mtr> <mtd> <mrow> <mi>I</mi> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>}</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>1</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>+</mo> <mi>I</mi> <mo>{</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>0</mn> <mo>}</mo> <mi>log</mi> <mi> </mi> <mi>P</mi> <mrow> <mo>(</mo> <msup> <mover> <mi>y</mi> <mo>^</mo> </mover> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>=</mo> <mn>0</mn> <mo>|</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>;</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <mo>=</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>)</mo> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>log</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mo>)</mo> </mrow> </mtd> </mtr> </mtable> </mfenced>

<mrow> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&lsqb;</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> </mrow> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <msub> <mi>h</mi> <mi>&theta;</mi> </msub> <mo>(</mo> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>)</mo> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

将式(1-2)和(1-3)代入式(3)中，化简得到：

<mrow> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>=</mo> <mo>-</mo> <mfrac> <mn>1</mn> <mi>m</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>m</mi> </munderover> <mo>&lsqb;</mo> <msup> <mi>y</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> <mo>-</mo> <mi>l</mi> <mi>o</mi> <mi>g</mi> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mi>e</mi> <mrow> <msup> <mi>&theta;</mi> <mi>T</mi> </msup> <msup> <mi>x</mi> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </msup> </mrow> </msup> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

<mrow> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>=</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> <mo>-</mo> <mi>&alpha;</mi> <mfrac> <mo>&part;</mo> <mrow> <mo>&part;</mo> <msub> <mi>&theta;</mi> <mi>j</mi> </msub> </mrow> </mfrac> <mi>J</mi> <mrow> <mo>(</mo> <mi>&theta;</mi> <mo>)</mo> </mrow> <mo>,</mo> <mn>0</mn> <mo><</mo> <mi>&alpha;</mi> <mo><</mo> <mn>0.1</mn> </mrow>

其中α表示设定的更新系数，即传统意义上的学习速率；