CN110059677A

CN110059677A - 基于深度学习的数字表识别方法及设备

Info

Publication number: CN110059677A
Application number: CN201910301195.6A
Authority: CN
Inventors: 袁飞; 华仁红; 马向军; 孙文凤
Original assignee: Beijing Yida Turing Technology Co Ltd
Current assignee: Beijing Yida Turing Technology Co Ltd
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-07-26

Abstract

本发明实施例提供一种基于深度学习的数字表识别方法及设备，所述方法通过将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得；基于数字表识别模型的输出结果，获取待识别图像中数字表的数值，实现快速和准确进行数字表识别的技术效果。

Description

基于深度学习的数字表识别方法及设备

技术领域

本发明实施例涉及视频技术领域，尤其涉及一种基于深度学习的数字表识别方法及设备。

背景技术

随着数字化、智能化、信息化时代的到来，企业和社会的智能信息处理已经成为一种趋势，燃气表、水表、电表等各种数字表读数的自动识别成为其中重要组成部分。现有的表计识别方法主要采用机器学习、深度学习等技术，通过图像预处理、目标区域检测、读数识别等一系列的步骤实现表计读数识别。

现有技术首先对表计图像预处理得到有效区域，进而对有效区域进行图像分割，获得单个数字的图像。然后使用支持向量机模型对单个数字样本进行训练，用训练后的支持向量机模型为待识别的数字进行识别，从而完成数字表计的智能读取。

现有的方法都采用了机器学习或者深度学习等方法进行数字表计识别，但都存在缺陷，背景技术都需要对原始图片或者是对检测出来的表盘区域进行图像预处理，而且步骤繁琐，需要大量的图像处理知识，对专业知识要求较高，图片预处理的水平直接决定了读数的准确性，大大增加了数字表计读数识别的难度。而且图片预处理的方法受光照影响较大，算法的鲁棒性不高。

发明内容

本发明实施例提供一种基于深度学习的数字表识别方法及设备，用以解决现有技术中受光照影响较大，算法的鲁棒性不高的缺陷，实现数字表的高效精准识别。

本发明实施例提供一种基于深度学习的数字表识别方法，包括：

将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得；

基于数字表识别模型的输出结果，获取待识别图像中数字表的数值。

本发明实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述任一项所述数字表识别方法。

本发明实施例提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述数字表识别方法的步骤。

本发明实施例提供的基于深度学习的数字表识别方法及设备，所述通过将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得；基于数字表识别模型的输出结果，获取待识别图像中数字表的数值，实现快速和准确进行数字表识别的技术效果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习的数字表识别方法实施例整体流程示意图；

图2为本发明基于深度学习的数字表识别设备实施例整体结构示意图；

图3为本发明电子设备实施例结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

现有的数字表识别受光照的影响较大，并且不同的特征提取方法对数字表识别方案的鲁棒性也有影响。为解决上述问题，本发明实施例提供一种基于深度学习的数字表识别方法。如图1，示出本发明实施例一种基于深度学习的数字表识别方法整体流程示意图。该方法的执行主体可以是智能手机、智能手环等便携智能终端，还可以是云端服务器，本发明对此不作具体限定。该方法包括：

步骤S1，将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得。

具体的，待识别图像为包含需要被识别是否有数字表的图像。数字表可以为设置于燃气表、水表或电表等设备上，用于显示具体数字的仪表设备。待识别图像可以是通过摄像装置实时获取的图像，也可以是预先获取并存储在特定存储器或服务器中的图像。进一步，待识别图像可以是单帧的静态图片图像，也可以是动态的视频图像。图片图像的格式可以为：BMP、TIFF、EPS、JPEG、GIF、PSD和PDF等；视频图像的格式可以为MPEG、MPG、AVI、MOV、RMVB和FLV等。

进一步，数字表识别模型为基于预先标注的图像样本和深度卷积神经网络训练获得。需要说明的是，深度卷积神经网络(Convolutional NeuralNetworks,CNN)是一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。由于卷积神经网络能够进行平移不变分类(shift-invariant classification)，因此也被称为“平移不变人工神经网络(Shift-InvariantArtificial NeuralNetworks,SIANN)”。深度卷积神经网络在大量学习数据时有稳定的表现，对于一般的大规模图像分类问题，深度卷积神经网络可用于构建阶层分类器，也可以在精细分类识别(fine-grained recognition)中用于提取图像的判别特征以供其它分类器进行学习。对于后者，特征提取可以人为地将图像的不同部分分别输入卷积神经网络，也可以由卷积神经网络通过非监督学习自行提取。

其中，步骤S1前需要首先获取一定数量的图像样本，图像样本可以为摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。作为深度卷积神经网络训练的前期准备工作，图像样本的标注是一项基础的工作。图像样本的标注可以通过现有技术中的LabelMe软件，标注人员在样本图像中包含数字表的图像区域，通过手动绘制矩形或多边形的方式实现图像标注，数字表区域的标签即为数字表的读数；也可以使用ByLabel软件，通过自动提取图像边缘，手动选取边缘并编组的方式实现图像标注。关于图像样本的具体标注方式本发明实施例不作具体限定。

进一步，基于预先标注的图像样本和深度卷积神经网络训练获得所述数字表识别模型的过程，可以采用现有技术中的训练方式，也可以采用本发明下述实施例中的训练方式。其中，现有技术中的训练方式例如包括：首先，深度卷积神经网络进行权值的初始化；其次，将标注的图像样本输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；再次，求出深度卷积神经网络的输出值与目标值之间的误差；再次，当误差大于期望值时，将误差传回深度卷积神经网络中，依次求得全连接层，下采样层，卷积层的误差。各层的误差可以理解为对于深度卷积神经网络的总误差，深度卷积神经网络应承担多少；当误差等于或小于期望值时，结束训练。最后，根据求得误差进行权值更新。本发明实施例不对数字表识别模型的训练方法作具体限定。

步骤S2，基于数字表识别模型的输出结果，获取待识别图像中数字表的数值。

具体地，举个具体实例来对步骤S2的实现步骤进行说明。步骤S2实现过程的第一步基于卷积层实现，卷积层执行了以下几个步骤。首先，将待识别图像分解成一系列重叠的m*m像素的拼图，其中m≥2，且为正整数。之后，基于一个简单的单层神经网络运行这些拼图，权重保持不变。将拼图排列组合，当保持每个重叠后的拼图尺寸是小的(m*m)时，数字表识别模型需要处理它们保证可控与小型化。然后，将以数字表示照片中每个区域的内容的数组进行输出值排列，其中坐标轴表示颜色，宽度和高度。下一步是池化层。采用这些3或4维阵列，并与空间维度一起应用下采样功能。结果输出一个池数组，其中仅包含重要的图像部分，同时丢弃剩余部分，这最大限度地减少了需要完成的计算量，同时也避免了过度拟合问题。采用下采样阵列作为常规全连接神经网络的输入。最后一步的输出待识别图像中对于各拼图中包含各数字表的概率值(确信值)。其中，本发明实施例不对步骤S2的具体实现方法作具体限定。

本发明实施例提供的数字表识别方法，通过将待识别图像输入预先构建的数字表识别模型；基于数字表识别模型的输出结果，获取待识别图像中数字表的数值。解决了现有技术中数字表识别方案受光照的影响较大，并且不同的特征提取方法对算法的鲁棒性也有影响的技术问题，实现快速和准确进行数字表识别的技术效果。

基于上述实施例，将待识别图像输入预先构建的数字表识别模型，之前还包括：

获取第一图像样本集，并对第一图像样本集进行标注；

基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型。

其中，首先一定数量的图像样本，图像样本中能够为摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。作为深度卷积神经网络训练的前期准备工作，图像样本的标注是一项基础的工作。图像样本的标注可以通过现有技术中的LabelMe软件，在通过标注人员在样本图像中包含数字表的图像区域手动绘制矩形或多边形的方式实现图像标注，数字表区域的标签即为数字表的读数；也可以使用ByLabel软件，自动提取图像边缘，手动选取边缘并编组的方式实现图像标注。关于图像样本的具体标注方式本发明实施例不作具体限定，将标注后的图像样本作为第一图像样本集。

进一步，基于第一图像样本集中预先标注的图像样本和深度卷积神经网络训练获得所述数字表识别模型的过程可以采用现有技术中的训练方式，也可以采用本发明下述实施例中的训练方式。其中，现有技术中的训练方式例如包括：首先，深度卷积神经网络进行权值的初始化；其次，将标注的图像样本输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；再次，求出网络的输出值与目标值之间的误差；再次，当误差大于我们的期望值时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差。各层的误差可以理解为对于网络的总误差，网络应承担多少；当误差等于或小于我们的期望值时，结束训练。最后，根据求得误差进行权值更新。本发明实施例不对数字表识别模型的训练方法作具体限定。

本发明实施例提供的数字表识别方法，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型。解决了现有技术中数字表识别方案受光照的影响较大，并且不同的特征提取方法对算法的鲁棒性也有影响的技术问题，实现快速和准确进行数字表识别的技术效果。

基于上述任一实施例，深度卷积神经网络中包括层残差层、规范层、激励层和LSTM层。

考虑到残差神经网络在图像特征提取上优异的表现，此处采用残差神经网络提取特征，经过多个残差层提取后的特征图再送入LSTM学习特征，LSTM的输出作为CTC loss损失函数的输入，最终输出文字识别结果。作为优选，可以采用5个残差层、5个规范层(BN层)、1个LSTM层的深度卷积神经网络。这样设计卷积层可以快速高效的提取特征。本发明实施例提供的数字表识别方法，基于标注的第一图像样本集和残差神经网络训练获得数字表识别模型。解决了现有技术中数字表识别方案受光照的影响较大，并且不同的特征提取方法对算法的鲁棒性也有影响的技术问题，实现快速和准确进行数字表识别的技术效果。

基于上述任一实施例，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，之前还包括：设置CTC loss损失函数作为深度卷积神经网络的目标函数。

其中，CTC loss(Connectionist Temporal Classification)是现有技术中一种处理深度学习中正负样本不均衡的损失函数。该实施例中多层卷积神经网络的目标函数采用CTC loss损失函数，根据目标函数得到的loss值判断是否需要对当前的多层卷积神经网络的结构进行调整，最终得到目标多层卷积神经网络。

损失函数(loss function)是将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的“风险”或“损失”的函数。在应用中，损失函数通常作为学习准则与优化问题相联系，即通过最小化损失函数求解和评估模型。例如在统计学和机器学习中被用于模型的参数估计。

进一步，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，包括：基于标注的第一图像样本集对深度卷积神经网络进行训练，直至loss不再下降为止，获得数字表识别模型。

本发明实施例提供的基于深度学习的数字表识别方法，通过在数字表识别模型中加入CTC loss，解决了正负样本比例严重失衡的问题。

在本发明任一上述具体实施例的基础上，提供一种基于深度学习的数字表识别方法，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，包括：

基于标注的第一图像样本集对深度卷积神经网络进行训练，直至loss不再下降为止，获得数字表识别模型。

本发明实施例提供的基于深度学习的数字表识别方法，通过在数字表识别模型中加入CTC loss，基于标注的第一图像样本集对深度卷积神经网络进行训练，直至loss不再下降为止，获得数字表识别模型，解决了正负样本比例严重失衡的问题。

S21，设置深度卷积神经网络的层数、卷积核大小和每层的卷积核数目，获得深度卷积神经网络；

S22，基于标注的第一图像样本集和误差反向传播算法对深度卷积神经网络进行训练，获得数字表识别模型。

需要说明的是，每个深度卷积神经网络内包含多个卷层，每个卷积层内包含多个卷积核，卷积核大小必须大于1才有提升感受野的作用；其中感受野为卷积神经网络特征所能看到输入图像的区域，特征输出受感受野区域内的像素点的影响。步骤S21用于预先设置深度卷积神经网络的层数、卷积核大小和每层的卷积核数目。

其中，误差反向传播法，即BP法(error BackPropagation)影响广泛，也称BP算法。BP算法是自动控制上最重要、应用最多的有效算法。BP算法的基本思想是，学习过程由信号的正向传播与误差的反向传播两个过程组成。

正向传播：输入样本→输入层→各隐层(处理)→输出层。

误差反向传播：输出误差(某种形式)→隐层(逐层)→输入层。其主要目的是通过将输出误差反传，将误差分摊给各层所有单元，从而获得各层单元的误差信号，进而修正各单元的权值(其过程，是一个权值调整的过程)。

本发明实施例提供的数字表识别方法，基于标注的第一图像样本集和误差反向传播算法对深度卷积神经网络进行训练，获得数字表识别模型，使得数字表识别模型的训练过程更加高效。

在本发明任一上述具体实施例的基础上，提供一种基于深度学习的数字表识别方法，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，还包括：

重复步骤S21和步骤S22；

每次执行步骤S21时，在先前深度卷积神经网络中增加残差层得到新的深度卷积神经网络；

基于步骤S22对新的深度卷积神经网络进行训练；

当训练后获得的深度卷积神经网络的loss值不再变化，且loss值小于预设阈值时，以当前的训练后获得的深度卷积神经网络作为数字表识别模型。

在本发明任一上述具体实施例的基础上，提供一种基于深度学习的数字表识别方法，

基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，还包括：

从每次执行步骤S21和步骤S22训练后获得的深度卷积神经网络中，选择loss值较小的n个；n≥2，且为整数；

基于验证集对n个训练后获得的深度卷积神经网络进行验证，测试数字表识别的精度，选取识别误差最小的为数字表识别模型。

本发明实施例提供的数字表识别方法，通过将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得；基于数字表识别模型的输出结果，获取待识别图像中数字表的数值。解决了现有技术中数字表识别方案受光照的影响较大，并且不同的特征提取方法对算法的鲁棒性也有影响的技术问题，实现快速和准确进行数字表识别的技术效果。

在本发明任一上述具体实施例的基础上，提供一种基于深度学习的数字表识别方法，第一图像样本集包括摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。

如图2，在本发明任一上述具体实施例的基础上，提供一种基于深度学习的数字表识别设备，包括：

输入模块201，用于将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得。

具体的，待识别图像为包含需要被识别是否有数字表的图像。待识别图像可以是通过摄像装置实时获取的图像，也可以是预先获取并存储在特定存储器或服务器中的图像。进一步，待识别图像可以是单帧的静态图片图像，也可以是动态的视频图像。图片图像的格式可以为：BMP、TIFF、EPS、JPEG、GIF、PSD和PDF等；视频图像的格式可以为MPEG、MPG、AVI、MOV、RMVB和FLV等。

其中，输入模块201执行上述步骤之前需要首先获取一定数量的图像样本，图像样本可以为摄像设备采集的图片、网上下载的公共图片和经过图像处理技术扩充的图片。作为深度卷积神经网络训练的前期准备工作，图像样本的标注是一项基础的工作。图像样本的标注可以通过现有技术中的LabelMe软件，标注人员在样本图像中包含数字表的图像区域手动绘制矩形或多边形的方式实现图像标注,数字表区域的标签即为数字表的读数；也可以使用ByLabel软件，自动提取图像边缘，标注人员手动选取边缘并编组的方式实现图像标注。关于图像样本的具体标注方式本发明实施例不作具体限定。

进一步，基于预先标注的图像样本和深度卷积神经网络训练获得所述数字表识别模型的过程可以采用现有技术中的训练方式，也可以采用本发明下述实施例中的训练方式。其中，现有技术中的训练方式例如包括：首先，深度卷积神经网络进行权值的初始化；其次，将标注的图像样本输入数据经过卷积层、下采样层、全连接层的向前传播得到输出值；再次，求出深度卷积神经网络的输出值与目标值之间的误差；再次，当误差大于的期望值时，将误差传回网络中，依次求得全连接层，下采样层，卷积层的误差。各层的误差可以理解为对于深度卷积神经网络的总误差，深度卷积神经网络应承担多少；当误差等于或小于期望值时，结束训练。最后，根据求得误差进行权值更新。本发明实施例不对数字表识别模型的训练方法作具体限定。

获取模块202，用于基于数字表识别模型的输出结果，获取待识别图像中数字表的数值。

具体地，举个具体实例对获取模块202所实现的步骤进行说明。获取模块02所实现的步骤的第一步基于卷积层实现，卷积层执行了以下几个步骤。首先，将待识别图像分解成一系列重叠的m*m像素的拼图，其中m≥2，且为正整数。之后，基于一个简单的单层神经网络运行这些拼图，权重保持不变。将拼图排列组合，当保持每个拼图尺寸是小的(m*m)时，数字表识别模型需要处理它们保证可控与小型化。然后，将以数字表示照片中每个区域的内容的数组进行输出值排列，其中坐标轴表示颜色，宽度和高度。下一步是池化层。它采用这些3或4维阵列，并与空间维度一起应用下采样功能。结果是一个池数组，其中仅包含重要的图像部分，同时丢弃剩余部分，这最大限度地减少了需要完成的计算量，同时也避免了过度拟合问题。采用下采样阵列作为常规全连接神经网络的输入。最后一步的输出待识别图像中对于各拼图中包含各数字表的概率值(确信值)。其中，本发明实施例不对获取模块202所执行步骤的具体实现方法作具体限定。

图3示例了一种电子设备的实体结构示意图，如图3所示，该电子设备可以包括：处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304，其中，处理器301，通信接口302，存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令，以执行如下方法：将待识别图像输入预先构建的数字表识别模型；其中，所述数字表识别模型基于预先标注的图像样本和深度卷积神经网络训练获得；基于数字表识别模型的输出结果，获取待识别图像中数字表的数值。

此外，上述的存储器303中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种基于深度学习的数字表识别方法，其特征在于，包括：

2.根据权利要求1所述的数字表识别方法，其特征在于，将待识别图像输入预先构建的数字表识别模型，之前还包括：

获取第一图像样本集，并对第一图像样本集进行标注；

3.根据权利要求2所述的数字表识别方法，其特征在于，深度卷积神经网络中包括层残差层、规范层、激励层和LSTM层。

4.根据权利要求3所述的数字表识别方法，其特征在于，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，之前还包括：设置CTC loss损失函数作为深度卷积神经网络的目标函数。

5.根据权利要求4所述的数字表识别方法，其特征在于，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，包括：

6.根据权利要求5所述的数字表识别方法，其特征在于，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，包括：

7.根据权利要求6所述的数字表识别方法，其特征在于，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，还包括：

重复步骤S21和步骤S22；

基于步骤S22对新的深度卷积神经网络进行训练；

8.根据权利要求7所述的数字表识别方法，其特征在于，基于标注的第一图像样本集和深度卷积神经网络训练获得数字表识别模型，还包括：

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至8任一项所述数字表识别方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至8任一项所述数字表识别方法的步骤。