CN112508015A

CN112508015A - 一种铭牌识别方法、计算机设备、存储介质

Info

Publication number: CN112508015A
Application number: CN202011472493.0A
Authority: CN
Inventors: 段恩悦; 周洪超; 杜晓炜
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2021-03-16

Abstract

本发明涉及一种铭牌识别方法、计算机设备、存储介质，所述方法包括：将待识别图像送入分类网络模型得到待识别图像方向角度，并对待识别图像做方向矫正；通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测，得到标注好文本图像区域的铭牌图片；通过文本识别模块对标注好文本图像区域的铭牌图片进行文本识别。本发明可以自动识别图像方向。本发明可以提高不同拍摄角度下的文本识别率。本发明文本识别部分全部使用卷积网络，速度大约是CRNN文本识别网络的1.5倍，并且准确率更高。

Description

一种铭牌识别方法、计算机设备、存储介质

技术领域

本发明涉及一种铭牌识别方法、计算机设备、存储介质，属于自然文本识别技术领域。

背景技术

目前每个发动机都有其独有的铭牌，在检测和维修中，需要通过铭牌上的编号和发动机参数等确定型号以便于管理，有针对性的维护。目前，这一工作主要以来人工识别录入系统，发动机工作环境复杂，拍摄的图片大多受到环境影响，无法拍摄出清晰，易于识别的照片，人工识别的速度和准确度受到很大影响。

随着人工智能领域的发展，通过机器自动识别文本，在速度和准确度上相对于人工有了很大的优势。但是现有文本识别技术对于背景复杂，拍摄角度多变，模糊等文本图像识别效果较差。

中国专利文献CN110059694A公开了一种铭牌文本检测方法、装置、计算机设备和存储介质，所述方法通过定位待检测图像中的铭牌区域，并对铭牌区域进行检测，以得到铭牌区域中若干个文本区域的轮廓，进而确定文本区域的若干个轮廓点中的特征点，对特征点进行特征映射以得到对应文本区域的目标顶点，并根据特征点和目标顶点对文本区域进行透视校正，以得到校正后的铭牌区域中的各文本区域。但是，该专利中存在以下缺陷或不足：(1)如果待检测的铭牌图像不是水平方向，则最终得到的铭牌文字区域图像也不是水平方向，不利于下一步的识别文字内容；(2)检测文本区域使用的PSENet是一种基于分割的检测模型，铭牌图像中文本大多扭曲程度不高，相对自然文本图像场景来说文本信息也不密集，使用PSENet会降低模型的识别速度，而识别准确度提升不是很大；(3)该专利只有文本区域检测的部分，不包含后续的文本内容识别。

发明内容

针对现有技术的不足，本发明提供一种铭牌自动识别方法。

本发明还提供了一种计算机设备及一种存储介质。

术语解释：

1、霍夫曼直线检测器，主要用来从图像中分离出具有某种相同特征的几何形状(如，直线，圆等)。霍夫变换寻找直线与圆的方法相比与其它方法可以更好的减少噪声干扰。

2、聚类，将角度相差不大的边框线归为同一类，具体来说，选取两个角度相差最大的边框线作为两个聚类中心，将剩余边框线划分给离自身角度最接近的聚类中心，将两类边框线平均角度作为下一次的聚类中心，反复迭代使聚类后的边框线角度均方差最小，最终将边框线分为两类。

3、VGG16分类模型，常用的神经网络基础结构，用于图像分类任务或者用于神经网络模型的特征提取阶段。

4、BatchSize，神经网络训练阶段，同时送入网络的小批量数据的数量。

5、双向LSTM，LSTM指长短期记忆人工神经网络。长短期记忆网络(LSTM，LongShort-Term Memory)是一种时间循环神经网络，将数据沿着时间轴正向和反向送入两个LSTM中，最后将两个LSTM的隐藏状态结合得到最终的输出。

6、Anchors，目标检测任务中一个个按照固定比例(长宽、大小)预定义的框，再此基础上网络输出基础框的位置和大小的调整量，使其包含待检测的目标。

7、非极大值抑制算法(NMS)，基于Anchors的目标检测方法，会产生大量重合的检测框，使用NMS算法对检测框去重。

8、文本线构造算法，将相邻的目标检测框连接成一个文本检测框。

9、卷积神经网络，一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一。

10、STN(SpatialTransformerNetwork)，空间变换网络，显式地赋予网络对于平移、旋转、伸缩、尺度等变换的不变性。

11、Droupout，一种神经网络训练策略，在训练阶段，随机使部分神经元失活，可以增加网络的泛化能力。

12、扩张卷积，卷积的一种，根据扩张系数对卷积核进行0填充，能有效扩大神经网络的感受野。

13、层标准化，使用一个训练样本上的一层上的均值和标准差对深度神经网络的隐藏层输入附加标准化操作，可以有效地提升训练速度。

14、全连接，全连接层的每一个结点都与上一层的所有结点相连，用来把前边提取到的特征综合起来。

本发明的技术方案如下：

一种铭牌自动识别方法，所述方法包括：

将待识别图像送入分类网络模型得到待识别图像方向角度，并对待识别图像做方向矫正；所述分类网络模型的生成方法包括：将获取的若干铭牌图片调整至水平；随机旋转若干个固定角度；通过标注了旋转固定角度的铭牌图片训练得到分类网络模型；

通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测，得到标注好文本图像区域的铭牌图片，标注好文本图像区域的铭牌图片是指顺时针标注出包含文本的四边形区域的四个顶点的坐标的待检测图像；所述文本区域检测模块的生成方法包括：对调整至水平若干铭牌图片；标注每个铭牌图片中文本区域的四个顶点的坐标值作为标签；通过包括有该标签的铭牌图片训练得到文本区域检测模块；

通过文本识别模块对标注好文本图像区域的铭牌图片进行文本识别，得到文本图像区域对应的文本；文本识别模块的生成方法包括：将上述标注好文本图像区域的铭牌图片进行透视变换，得到矩形文本图像，并人工标注文本图像对应的文本标签；训练得到文本识别模块。

根据本发明优选的，分类网络模型为VGG16分类模型。由卷积、激活函数、最大池化、全连接组成。

根据本发明优选的，文本区域检测模块是指CTPN(ConnectionistTextProposalNetwork)网络，CTPN结合CNN与LSTM深度网络，能有效的检测出复杂场景的横向分布的文字，通过包括有该标签的铭牌图片训练得到文本区域检测模块，是指：

首先，使用VGG16分类模型提取特征，获得大小为N×C×H×W的特征图；N、C、H、W分别是指BatchSize、特征图通道数、特征图高度、特征图宽度；在N×C×H×W的特征图上做3×3的滑动窗口，得到N×(9*C)×H×W的特征图的输出，每个点(沿着高度和宽度的方向上的每个位置)都结合3×3区域特征，将N×(9*C)×H×W的特征图重塑为(N*H)×W×(9*C)的特征图；

然后，以N*H为BatchSize、时间长度为W输入到双向LSTM网络，学习序列特征；经过全连接层得到文本区域提议，即每个特征点包含10个等宽度不同高度的Anchors，使用非极大值抑制算法过滤多余的边界框；

最后，使用文本线构造算法最终获得文本检测框。

文本区域检测模块的结构、连接关系如图2所示，包含文本的概率用来判断文本框是否包含待检测文本，文本框坐标修正和高度修正用来对检测框进行微调；

根据本发明优选的，所述文本识别模块包括依次连接的STN空间变换网络、特征提取模块及时间卷积网络；

STN空间变换网络用于抵消图像因拍摄角度不正的影响，所述特征提取模块用于提取文本图像的视觉特征，所述时间卷积模块提取文本图像对应得文本语义特征。

根据本发明优选的，训练得到文本识别模块，包括步骤如下：

首先，对于标注好文本图像区域的铭牌图片，将其缩放到32×320，利用STN(SpatialTransformerNetwork)空间变换网络对缩放到32×320标准尺寸的文本图像做自适应仿射变换，具体是指：利用定位网络得到仿射变换参数矩阵，输入到网格生成器，通过矩阵运算，计算目标图中每个位置对应原图中的坐标位置，采样器根据网格生成器得到的坐标信息在原图上采样；

然后，通过特定的卷积神经网络提取图像特征，具体是：输入网络图像尺寸为N×3×32×320，N为BatchSize大小，32为图像高度，320为图像宽度，通过四次卷积核大小为3×3的卷积层、ReLU激活函数、最大池化层，其中，最大池化层高度方向的步长分别为2、2、2、2，宽度方向的步长分别为2、2、1、1，卷积层的通道数为256，得到特征图的尺寸为N×256×1×80；

接着，使用时间卷积网络TCN提取文本的序列信息，时间卷积网络TCN使用若干不同扩张系数的时间卷积块级联从而感知整个输入序列，具体是指：时间卷积网络TCN由四个时间卷积块级联组成，时间卷积块包括卷积核大小为3×1、扩张系数为1、2、4、8的扩张卷积，层标准化，ReLU激活函数，Dropout，以及将输入与输出相加的短链接，此时输出的特征图尺寸为N×256×1×80，将其尺寸重塑为(80*N)×256；

最后，通过全连接网络将特征信息转换为字符分类概率矩阵；全连接网络是指使用一个尺寸为256×L的参数矩阵W，将其与上一步骤得到的特征图相乘，得到字符分类概率矩阵(80*N)×L，将其尺寸重塑为N×80×L，取字符概率相乘最大的一串字符作为识别结果，L指文本字符的种类数。

进一步优选的，若干个固定角度包括0°,45°,90°,135°,180°,225°,270°,315°。

根据本发明优选的，对待识别图像做方向矫正，是指：铭牌图像中都有表格边框线，首先，利用霍夫曼直线检测器检测铭牌图像中的边框线，然后，对待识别图像中直线做聚类，计算出现次数最多且直线角度在45°-135°内的直线平均角度，最后，按照该直线平均角度对待识别图像做进一步方向矫正。例如，此时得到的平均角度为75°，则将待识别图像顺时针旋转15°，使大多数直线处于水平方向。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现铭牌自动识别方法的步骤。

一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现铭牌自动识别方法的步骤。

本发明的有益效果在于：

1、本发明可以自动识别图像方向。

2、本发明可以提高不同拍摄角度下的文本识别率。

3、本发明文本识别部分全部使用卷积网络，速度大约是CRNN文本识别网络的1.5倍，并且准确率更高。

附图说明

图1为本发明分类网络模型的结构示意图；

图2为本发明文本区域检测模块的训练过程示意图；

图3为本发明文本识别模块的训练过程示意图；

图4为本发明STN空间变换网络的结构示意图；

图5为本发明时间卷积网络的结构示意图；

具体实施方式

下面通过实施例并结合附图对本发明做进一步说明，但不限于此。

实施例1

一种铭牌自动识别方法，包括：

将待识别图像送入分类网络模型得到待识别图像方向角度，并对待识别图像做方向矫正；分类网络模型的生成方法包括：将获取的若干铭牌图片调整至水平(获取训练使用的铭牌图像，由用户自行拍摄，由于图像采集过程中，受环境因素影响，可能无法固定拍摄角度，获取到的铭牌图像会出现模糊、变形等情况；将待识别图像中的铭牌部分人工调整至水平得到训练数据集)；随机旋转若干个固定角度；通过标注了旋转固定角度的铭牌图片训练得到分类网络模型；若干个固定角度包括0°,45°,90°,135°,180°,225°,270°,315°。通常，铭牌图像中都有表格边框线，利用图像中的边框线，可以进一步矫正图像的方向。首先对输入图片进行高斯模糊处理，对处理后的图像进行灰度化，基于canny算法提取图像的边缘，对提取出的边缘利用霍夫曼直线检测器检测图像中的边框线，然后对待识别图像中直线做聚类，计算出现次数最多，并且直线角度在45°-135°内的直线平均角度，对待识别图像做进一步方向矫正。

通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测，得到标注好文本图像区域的铭牌图片，标注好文本图像区域的铭牌图片是指顺时针标注出包含文本的四边形区域的四个顶点的坐标的待检测图像；文本区域检测模块的生成方法包括：对调整至水平若干铭牌图片；标注每个铭牌图片中文本区域的四个顶点的坐标值作为标签；通过包括有该标签的铭牌图片训练得到文本区域检测模块；

分类网络模型为VGG16分类模型。由卷积、激活函数、最大池化、全连接组成。如图1所示，输出的分类信息为图像的方向。

实施例2

根据实施例1所述的一种铭牌自动识别方法，其区别在于：

如图2所示，文本区域检测模块是指CTPN(ConnectionistTextProposalNetwork)网络，CTPN结合CNN与LSTM深度网络，能有效的检测出复杂场景的横向分布的文字，通过包括有该标签的铭牌图片训练得到文本区域检测模块，是指：

最后，使用文本线构造算法最终获得文本检测框。将各文本区域按照先左后右，再从上到下的顺序排序。

实施例3

根据实施例1或2所述的一种铭牌自动识别方法，其区别在于：

如图3所示，文本识别模块包括依次连接的STN空间变换网络、特征提取模块及时间卷积网络；

STN空间变换网络用于抵消图像因拍摄角度不正的影响，特征提取模块用于提取文本图像的视觉特征，时间卷积模块提取文本图像对应得文本语义特征。

训练得到文本识别模块，包括步骤如下：

首先，对于标注好文本图像区域的铭牌图片，将其缩放到32×320，利用STN(SpatialTransformerNetwork)空间变换网络对缩放到32×320标准尺寸的文本图像做自适应仿射变换，如图4所示，具体是指：利用定位网络得到仿射变换参数矩阵，输入到网格生成器，通过矩阵运算，计算目标图中每个位置对应原图中的坐标位置，采样器根据网格生成器得到的坐标信息在原图上采样；定位网络包括卷积层、激活函数、全连接层，用于生成仿射变换用的6个参数，网格生成器利用如下仿射变换公式计算出自适应仿射变换前、后的坐标对应关系，采样器根据坐标对应关系在原图上采样得到仿射变换后的文本图像，仿射变换公式如式(Ⅰ)所示：

式(Ⅰ)中，θ为定位网络输出的参数，s代表原图，t代表仿射变换后的图像。

接着，使用时间卷积网络TCN提取文本的序列信息，时间卷积网络TCN使用若干不同扩张系数的时间卷积块级联从而感知整个输入序列，具体是指：时间卷积网络TCN由四个时间卷积块级联组成，时间卷积块结构如图5，包括卷积核大小为3×1、扩张系数为1、2、4、8的扩张卷积，层标准化，ReLU激活函数，Dropout，以及将输入与输出相加的短链接，此时输出的特征图尺寸为N×256×1×80，将其尺寸重塑为(80*N)×256；

最后，通过全连接网络将特征信息转换为字符分类概率矩阵；是指：全连接网络是指使用一个尺寸为256×L的参数矩阵W，将其与上一步骤得到的特征图相乘，得到字符分类概率矩阵(80*N)×L，将其尺寸重塑为N×80×L，取字符概率相乘最大的一串字符作为识别结果，L指文本字符的种类数。

实施例4

一种计算机设备，包括存储器和处理器，存储器存储有计算机程序，处理器执行计算机程序时实现实施例1-3任一铭牌自动识别方法的步骤。

实施例5

一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现实施例1-3任一铭牌自动识别方法的步骤。

对比例

利用现有的装置CRNN网络识别文本信息。

环境，python3.6，tensorflow1.15，ubuntu18.04，GeForceGTX 2080ti。

实施例3的方法在使用过程中的表现、或自身的性能，与对比例的装置或方法做对比实验，结果如表1所示：

表1

	准确率	运行时间
			CRNN	79％	1.8s
CRNN+STN	85％	1.9s
			STN+TCN	87％	1.1s

由表1可知，本发明文本识别部分全部使用卷积网络，速度大约是CRNN文本识别网络的1.5倍，并且准确率更高。

Claims

1.一种铭牌自动识别方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种铭牌自动识别方法，其特征在于，文本区域检测模块是指CTPN网络，通过包括有该标签的铭牌图片训练得到文本区域检测模块，是指：

首先，使用VGG16分类模型提取特征，获得大小为N×C×H×W的特征图；N、C、H、W分别是指BatchSize、特征图通道数、特征图高度、特征图宽度；在N×C×H×W的特征图上做3×3的滑动窗口，得到N×(9*C)×H×W的特征图的输出，每个点都结合3×3区域特征，将N×(9*C)×H×W的特征图重塑为(N*H)×W×(9*C)的特征图；

最后，使用文本线构造算法最终获得文本检测框。

3.根据权利要求1所述的一种铭牌自动识别方法，其特征在于，所述文本识别模块包括依次连接的STN空间变换网络、特征提取模块及时间卷积网络；

4.根据权利要求1所述的一种铭牌自动识别方法，其特征在于，训练得到文本识别模块，包括步骤如下：

首先，对于标注好文本图像区域的铭牌图片，将其缩放到32×320，利用STN空间变换网络对缩放到32×320标准尺寸的文本图像做自适应仿射变换，具体是指：利用定位网络得到仿射变换参数矩阵，输入到网格生成器，通过矩阵运算，计算目标图中每个位置对应原图中的坐标位置，采样器根据网格生成器得到的坐标信息在原图上采样；

接着，使用时间卷积网络TCN提取文本的序列信息，时间卷积网络TCN使用若干不同扩张系数的时间卷积块级联从而感知整个输入序列，输出的特征图尺寸为N×256×1×80，将其尺寸重塑为(80*N)×256；

5.根据权利要求1所述的一种铭牌自动识别方法，其特征在于，对待识别图像做方向矫正，是指：利用霍夫曼直线检测器检测铭牌图像中的边框线，然后，对待识别图像中直线做聚类，计算出现次数最多且直线角度在45°-135°内的直线平均角度，最后，按照该直线平均角度对待识别图像做进一步方向矫正。

6.根据权利要求1所述的一种铭牌自动识别方法，其特征在于，若干个固定角度包括0°,45°,90°,135°,180°,225°,270°,315°。

7.根据权利要求1所述的一种铭牌自动识别方法，其特征在于，分类网络模型为VGG16分类模型。

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1-7任一所述铭牌自动识别方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任一铭牌自动识别方法的步骤。