CN112508015A - 一种铭牌识别方法、计算机设备、存储介质 - Google Patents
一种铭牌识别方法、计算机设备、存储介质 Download PDFInfo
- Publication number
- CN112508015A CN112508015A CN202011472493.0A CN202011472493A CN112508015A CN 112508015 A CN112508015 A CN 112508015A CN 202011472493 A CN202011472493 A CN 202011472493A CN 112508015 A CN112508015 A CN 112508015A
- Authority
- CN
- China
- Prior art keywords
- text
- image
- nameplate
- network
- feature map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 45
- 238000001514 detection method Methods 0.000 claims abstract description 38
- 238000012937 correction Methods 0.000 claims abstract description 11
- 230000009466 transformation Effects 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 23
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 14
- 238000004422 calculation algorithm Methods 0.000 claims description 11
- 238000011176 pooling Methods 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 230000004913 activation Effects 0.000 claims description 8
- 230000006870 function Effects 0.000 claims description 8
- 238000013145 classification model Methods 0.000 claims description 7
- 238000010586 diagram Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 238000013527 convolutional neural network Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 4
- 230000001629 suppression Effects 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 claims description 3
- 238000001914 filtration Methods 0.000 claims description 3
- 238000005070 sampling Methods 0.000 claims description 3
- 230000000007 visual effect Effects 0.000 claims description 3
- 102100032202 Cornulin Human genes 0.000 abstract description 6
- 101000920981 Homo sapiens Cornulin Proteins 0.000 abstract description 6
- 238000013528 artificial neural network Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 5
- 230000000052 comparative effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000010339 dilation Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/24—Aligning, centring, orientation detection or correction of the image
- G06V10/243—Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种铭牌识别方法、计算机设备、存储介质,所述方法包括:将待识别图像送入分类网络模型得到待识别图像方向角度,并对待识别图像做方向矫正;通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测,得到标注好文本图像区域的铭牌图片;通过文本识别模块对标注好文本图像区域的铭牌图片进行文本识别。本发明可以自动识别图像方向。本发明可以提高不同拍摄角度下的文本识别率。本发明文本识别部分全部使用卷积网络,速度大约是CRNN文本识别网络的1.5倍,并且准确率更高。
Description
技术领域
本发明涉及一种铭牌识别方法、计算机设备、存储介质,属于自然文本识别技术领域。
背景技术
目前每个发动机都有其独有的铭牌,在检测和维修中,需要通过铭牌上的编号和发动机参数等确定型号以便于管理,有针对性的维护。目前,这一工作主要以来人工识别录入系统,发动机工作环境复杂,拍摄的图片大多受到环境影响,无法拍摄出清晰,易于识别的照片,人工识别的速度和准确度受到很大影响。
随着人工智能领域的发展,通过机器自动识别文本,在速度和准确度上相对于人工有了很大的优势。但是现有文本识别技术对于背景复杂,拍摄角度多变,模糊等文本图像识别效果较差。
中国专利文献CN110059694A公开了一种铭牌文本检测方法、装置、计算机设备和存储介质,所述方法通过定位待检测图像中的铭牌区域,并对铭牌区域进行检测,以得到铭牌区域中若干个文本区域的轮廓,进而确定文本区域的若干个轮廓点中的特征点,对特征点进行特征映射以得到对应文本区域的目标顶点,并根据特征点和目标顶点对文本区域进行透视校正,以得到校正后的铭牌区域中的各文本区域。但是,该专利中存在以下缺陷或不足:(1)如果待检测的铭牌图像不是水平方向,则最终得到的铭牌文字区域图像也不是水平方向,不利于下一步的识别文字内容;(2)检测文本区域使用的PSENet是一种基于分割的检测模型,铭牌图像中文本大多扭曲程度不高,相对自然文本图像场景来说文本信息也不密集,使用PSENet会降低模型的识别速度,而识别准确度提升不是很大;(3)该专利只有文本区域检测的部分,不包含后续的文本内容识别。
发明内容
针对现有技术的不足,本发明提供一种铭牌自动识别方法。
本发明还提供了一种计算机设备及一种存储介质。
术语解释:
1、霍夫曼直线检测器,主要用来从图像中分离出具有某种相同特征的几何形状(如,直线,圆等)。霍夫变换寻找直线与圆的方法相比与其它方法可以更好的减少噪声干扰。
2、聚类,将角度相差不大的边框线归为同一类,具体来说,选取两个角度相差最大的边框线作为两个聚类中心,将剩余边框线划分给离自身角度最接近的聚类中心,将两类边框线平均角度作为下一次的聚类中心,反复迭代使聚类后的边框线角度均方差最小,最终将边框线分为两类。
3、VGG16分类模型,常用的神经网络基础结构,用于图像分类任务或者用于神经网络模型的特征提取阶段。
4、BatchSize,神经网络训练阶段,同时送入网络的小批量数据的数量。
5、双向LSTM,LSTM指长短期记忆人工神经网络。长短期记忆网络(LSTM,LongShort-Term Memory)是一种时间循环神经网络,将数据沿着时间轴正向和反向送入两个LSTM中,最后将两个LSTM的隐藏状态结合得到最终的输出。
6、Anchors,目标检测任务中一个个按照固定比例(长宽、大小)预定义的框,再此基础上网络输出基础框的位置和大小的调整量,使其包含待检测的目标。
7、非极大值抑制算法(NMS),基于Anchors的目标检测方法,会产生大量重合的检测框,使用NMS算法对检测框去重。
8、文本线构造算法,将相邻的目标检测框连接成一个文本检测框。
9、卷积神经网络,一类包含卷积计算且具有深度结构的前馈神经网络(Feedforward Neural Networks),是深度学习(deep learning)的代表算法之一。
10、STN(SpatialTransformerNetwork),空间变换网络,显式地赋予网络对于平移、旋转、伸缩、尺度等变换的不变性。
11、Droupout,一种神经网络训练策略,在训练阶段,随机使部分神经元失活,可以增加网络的泛化能力。
12、扩张卷积,卷积的一种,根据扩张系数对卷积核进行0填充,能有效扩大神经网络的感受野。
13、层标准化,使用一个训练样本上的一层上的均值和标准差对深度神经网络的隐藏层输入附加标准化操作,可以有效地提升训练速度。
14、全连接,全连接层的每一个结点都与上一层的所有结点相连,用来把前边提取到的特征综合起来。
本发明的技术方案如下:
一种铭牌自动识别方法,所述方法包括:
将待识别图像送入分类网络模型得到待识别图像方向角度,并对待识别图像做方向矫正;所述分类网络模型的生成方法包括:将获取的若干铭牌图片调整至水平;随机旋转若干个固定角度;通过标注了旋转固定角度的铭牌图片训练得到分类网络模型;
通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测,得到标注好文本图像区域的铭牌图片,标注好文本图像区域的铭牌图片是指顺时针标注出包含文本的四边形区域的四个顶点的坐标的待检测图像;所述文本区域检测模块的生成方法包括:对调整至水平若干铭牌图片;标注每个铭牌图片中文本区域的四个顶点的坐标值作为标签;通过包括有该标签的铭牌图片训练得到文本区域检测模块;
通过文本识别模块对标注好文本图像区域的铭牌图片进行文本识别,得到文本图像区域对应的文本;文本识别模块的生成方法包括:将上述标注好文本图像区域的铭牌图片进行透视变换,得到矩形文本图像,并人工标注文本图像对应的文本标签;训练得到文本识别模块。
根据本发明优选的,分类网络模型为VGG16分类模型。由卷积、激活函数、最大池化、全连接组成。
根据本发明优选的,文本区域检测模块是指CTPN(ConnectionistTextProposalNetwork)网络,CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,通过包括有该标签的铭牌图片训练得到文本区域检测模块,是指:
首先,使用VGG16分类模型提取特征,获得大小为N×C×H×W的特征图;N、C、H、W分别是指BatchSize、特征图通道数、特征图高度、特征图宽度;在N×C×H×W的特征图上做3×3的滑动窗口,得到N×(9*C)×H×W的特征图的输出,每个点(沿着高度和宽度的方向上的每个位置)都结合3×3区域特征,将N×(9*C)×H×W的特征图重塑为(N*H)×W×(9*C)的特征图;
然后,以N*H为BatchSize、时间长度为W输入到双向LSTM网络,学习序列特征;经过全连接层得到文本区域提议,即每个特征点包含10个等宽度不同高度的Anchors,使用非极大值抑制算法过滤多余的边界框;
最后,使用文本线构造算法最终获得文本检测框。
文本区域检测模块的结构、连接关系如图2所示,包含文本的概率用来判断文本框是否包含待检测文本,文本框坐标修正和高度修正用来对检测框进行微调;
根据本发明优选的,所述文本识别模块包括依次连接的STN空间变换网络、特征提取模块及时间卷积网络;
STN空间变换网络用于抵消图像因拍摄角度不正的影响,所述特征提取模块用于提取文本图像的视觉特征,所述时间卷积模块提取文本图像对应得文本语义特征。
根据本发明优选的,训练得到文本识别模块,包括步骤如下:
首先,对于标注好文本图像区域的铭牌图片,将其缩放到32×320,利用STN(SpatialTransformerNetwork)空间变换网络对缩放到32×320标准尺寸的文本图像做自适应仿射变换,具体是指:利用定位网络得到仿射变换参数矩阵,输入到网格生成器,通过矩阵运算,计算目标图中每个位置对应原图中的坐标位置,采样器根据网格生成器得到的坐标信息在原图上采样;
然后,通过特定的卷积神经网络提取图像特征,具体是:输入网络图像尺寸为N×3×32×320,N为BatchSize大小,32为图像高度,320为图像宽度,通过四次卷积核大小为3×3的卷积层、ReLU激活函数、最大池化层,其中,最大池化层高度方向的步长分别为2、2、2、2,宽度方向的步长分别为2、2、1、1,卷积层的通道数为256,得到特征图的尺寸为N×256×1×80;
接着,使用时间卷积网络TCN提取文本的序列信息,时间卷积网络TCN使用若干不同扩张系数的时间卷积块级联从而感知整个输入序列,具体是指:时间卷积网络TCN由四个时间卷积块级联组成,时间卷积块包括卷积核大小为3×1、扩张系数为1、2、4、8的扩张卷积,层标准化,ReLU激活函数,Dropout,以及将输入与输出相加的短链接,此时输出的特征图尺寸为N×256×1×80,将其尺寸重塑为(80*N)×256;
最后,通过全连接网络将特征信息转换为字符分类概率矩阵;全连接网络是指使用一个尺寸为256×L的参数矩阵W,将其与上一步骤得到的特征图相乘,得到字符分类概率矩阵(80*N)×L,将其尺寸重塑为N×80×L,取字符概率相乘最大的一串字符作为识别结果,L指文本字符的种类数。
进一步优选的,若干个固定角度包括0°,45°,90°,135°,180°,225°,270°,315°。
根据本发明优选的,对待识别图像做方向矫正,是指:铭牌图像中都有表格边框线,首先,利用霍夫曼直线检测器检测铭牌图像中的边框线,然后,对待识别图像中直线做聚类,计算出现次数最多且直线角度在45°-135°内的直线平均角度,最后,按照该直线平均角度对待识别图像做进一步方向矫正。例如,此时得到的平均角度为75°,则将待识别图像顺时针旋转15°,使大多数直线处于水平方向。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现铭牌自动识别方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现铭牌自动识别方法的步骤。
本发明的有益效果在于:
1、本发明可以自动识别图像方向。
2、本发明可以提高不同拍摄角度下的文本识别率。
3、本发明文本识别部分全部使用卷积网络,速度大约是CRNN文本识别网络的1.5倍,并且准确率更高。
附图说明
图1为本发明分类网络模型的结构示意图;
图2为本发明文本区域检测模块的训练过程示意图;
图3为本发明文本识别模块的训练过程示意图;
图4为本发明STN空间变换网络的结构示意图;
图5为本发明时间卷积网络的结构示意图;
具体实施方式
下面通过实施例并结合附图对本发明做进一步说明,但不限于此。
实施例1
一种铭牌自动识别方法,包括:
将待识别图像送入分类网络模型得到待识别图像方向角度,并对待识别图像做方向矫正;分类网络模型的生成方法包括:将获取的若干铭牌图片调整至水平(获取训练使用的铭牌图像,由用户自行拍摄,由于图像采集过程中,受环境因素影响,可能无法固定拍摄角度,获取到的铭牌图像会出现模糊、变形等情况;将待识别图像中的铭牌部分人工调整至水平得到训练数据集);随机旋转若干个固定角度;通过标注了旋转固定角度的铭牌图片训练得到分类网络模型;若干个固定角度包括0°,45°,90°,135°,180°,225°,270°,315°。通常,铭牌图像中都有表格边框线,利用图像中的边框线,可以进一步矫正图像的方向。首先对输入图片进行高斯模糊处理,对处理后的图像进行灰度化,基于canny算法提取图像的边缘,对提取出的边缘利用霍夫曼直线检测器检测图像中的边框线,然后对待识别图像中直线做聚类,计算出现次数最多,并且直线角度在45°-135°内的直线平均角度,对待识别图像做进一步方向矫正。
通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测,得到标注好文本图像区域的铭牌图片,标注好文本图像区域的铭牌图片是指顺时针标注出包含文本的四边形区域的四个顶点的坐标的待检测图像;文本区域检测模块的生成方法包括:对调整至水平若干铭牌图片;标注每个铭牌图片中文本区域的四个顶点的坐标值作为标签;通过包括有该标签的铭牌图片训练得到文本区域检测模块;
通过文本识别模块对标注好文本图像区域的铭牌图片进行文本识别,得到文本图像区域对应的文本;文本识别模块的生成方法包括:将上述标注好文本图像区域的铭牌图片进行透视变换,得到矩形文本图像,并人工标注文本图像对应的文本标签;训练得到文本识别模块。
分类网络模型为VGG16分类模型。由卷积、激活函数、最大池化、全连接组成。如图1所示,输出的分类信息为图像的方向。
实施例2
根据实施例1所述的一种铭牌自动识别方法,其区别在于:
如图2所示,文本区域检测模块是指CTPN(ConnectionistTextProposalNetwork)网络,CTPN结合CNN与LSTM深度网络,能有效的检测出复杂场景的横向分布的文字,通过包括有该标签的铭牌图片训练得到文本区域检测模块,是指:
首先,使用VGG16分类模型提取特征,获得大小为N×C×H×W的特征图;N、C、H、W分别是指BatchSize、特征图通道数、特征图高度、特征图宽度;在N×C×H×W的特征图上做3×3的滑动窗口,得到N×(9*C)×H×W的特征图的输出,每个点(沿着高度和宽度的方向上的每个位置)都结合3×3区域特征,将N×(9*C)×H×W的特征图重塑为(N*H)×W×(9*C)的特征图;
然后,以N*H为BatchSize、时间长度为W输入到双向LSTM网络,学习序列特征;经过全连接层得到文本区域提议,即每个特征点包含10个等宽度不同高度的Anchors,使用非极大值抑制算法过滤多余的边界框;
最后,使用文本线构造算法最终获得文本检测框。将各文本区域按照先左后右,再从上到下的顺序排序。
文本区域检测模块的结构、连接关系如图2所示,包含文本的概率用来判断文本框是否包含待检测文本,文本框坐标修正和高度修正用来对检测框进行微调;
实施例3
根据实施例1或2所述的一种铭牌自动识别方法,其区别在于:
如图3所示,文本识别模块包括依次连接的STN空间变换网络、特征提取模块及时间卷积网络;
STN空间变换网络用于抵消图像因拍摄角度不正的影响,特征提取模块用于提取文本图像的视觉特征,时间卷积模块提取文本图像对应得文本语义特征。
训练得到文本识别模块,包括步骤如下:
首先,对于标注好文本图像区域的铭牌图片,将其缩放到32×320,利用STN(SpatialTransformerNetwork)空间变换网络对缩放到32×320标准尺寸的文本图像做自适应仿射变换,如图4所示,具体是指:利用定位网络得到仿射变换参数矩阵,输入到网格生成器,通过矩阵运算,计算目标图中每个位置对应原图中的坐标位置,采样器根据网格生成器得到的坐标信息在原图上采样;定位网络包括卷积层、激活函数、全连接层,用于生成仿射变换用的6个参数,网格生成器利用如下仿射变换公式计算出自适应仿射变换前、后的坐标对应关系,采样器根据坐标对应关系在原图上采样得到仿射变换后的文本图像,仿射变换公式如式(Ⅰ)所示:
式(Ⅰ)中,θ为定位网络输出的参数,s代表原图,t代表仿射变换后的图像。
然后,通过特定的卷积神经网络提取图像特征,具体是:输入网络图像尺寸为N×3×32×320,N为BatchSize大小,32为图像高度,320为图像宽度,通过四次卷积核大小为3×3的卷积层、ReLU激活函数、最大池化层,其中,最大池化层高度方向的步长分别为2、2、2、2,宽度方向的步长分别为2、2、1、1,卷积层的通道数为256,得到特征图的尺寸为N×256×1×80;
接着,使用时间卷积网络TCN提取文本的序列信息,时间卷积网络TCN使用若干不同扩张系数的时间卷积块级联从而感知整个输入序列,具体是指:时间卷积网络TCN由四个时间卷积块级联组成,时间卷积块结构如图5,包括卷积核大小为3×1、扩张系数为1、2、4、8的扩张卷积,层标准化,ReLU激活函数,Dropout,以及将输入与输出相加的短链接,此时输出的特征图尺寸为N×256×1×80,将其尺寸重塑为(80*N)×256;
最后,通过全连接网络将特征信息转换为字符分类概率矩阵;是指:全连接网络是指使用一个尺寸为256×L的参数矩阵W,将其与上一步骤得到的特征图相乘,得到字符分类概率矩阵(80*N)×L,将其尺寸重塑为N×80×L,取字符概率相乘最大的一串字符作为识别结果,L指文本字符的种类数。
实施例4
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1-3任一铭牌自动识别方法的步骤。
实施例5
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1-3任一铭牌自动识别方法的步骤。
对比例
利用现有的装置CRNN网络识别文本信息。
环境,python3.6,tensorflow1.15,ubuntu18.04,GeForceGTX 2080ti。
实施例3的方法在使用过程中的表现、或自身的性能,与对比例的装置或方法做对比实验,结果如表1所示:
表1
准确率 | 运行时间 | |
CRNN | 79% | 1.8s |
CRNN+STN | 85% | 1.9s |
STN+TCN | 87% | 1.1s |
由表1可知,本发明文本识别部分全部使用卷积网络,速度大约是CRNN文本识别网络的1.5倍,并且准确率更高。
Claims (9)
1.一种铭牌自动识别方法,其特征在于,所述方法包括:
将待识别图像送入分类网络模型得到待识别图像方向角度,并对待识别图像做方向矫正;所述分类网络模型的生成方法包括:将获取的若干铭牌图片调整至水平;随机旋转若干个固定角度;通过标注了旋转固定角度的铭牌图片训练得到分类网络模型;
通过文本区域检测模块对方向矫正后的铭牌图片进行文本区域检测,得到标注好文本图像区域的铭牌图片,标注好文本图像区域的铭牌图片是指顺时针标注出包含文本的四边形区域的四个顶点的坐标的待检测图像;所述文本区域检测模块的生成方法包括:对调整至水平若干铭牌图片;标注每个铭牌图片中文本区域的四个顶点的坐标值作为标签;通过包括有该标签的铭牌图片训练得到文本区域检测模块;
通过文本识别模块对标注好文本图像区域的铭牌图片进行文本识别,得到文本图像区域对应的文本;文本识别模块的生成方法包括:将上述标注好文本图像区域的铭牌图片进行透视变换,得到矩形文本图像,并人工标注文本图像对应的文本标签;训练得到文本识别模块。
2.根据权利要求1所述的一种铭牌自动识别方法,其特征在于,文本区域检测模块是指CTPN网络,通过包括有该标签的铭牌图片训练得到文本区域检测模块,是指:
首先,使用VGG16分类模型提取特征,获得大小为N×C×H×W的特征图;N、C、H、W分别是指BatchSize、特征图通道数、特征图高度、特征图宽度;在N×C×H×W的特征图上做3×3的滑动窗口,得到N×(9*C)×H×W的特征图的输出,每个点都结合3×3区域特征,将N×(9*C)×H×W的特征图重塑为(N*H)×W×(9*C)的特征图;
然后,以N*H为BatchSize、时间长度为W输入到双向LSTM网络,学习序列特征;经过全连接层得到文本区域提议,即每个特征点包含10个等宽度不同高度的Anchors,使用非极大值抑制算法过滤多余的边界框;
最后,使用文本线构造算法最终获得文本检测框。
3.根据权利要求1所述的一种铭牌自动识别方法,其特征在于,所述文本识别模块包括依次连接的STN空间变换网络、特征提取模块及时间卷积网络;
STN空间变换网络用于抵消图像因拍摄角度不正的影响,所述特征提取模块用于提取文本图像的视觉特征,所述时间卷积模块提取文本图像对应得文本语义特征。
4.根据权利要求1所述的一种铭牌自动识别方法,其特征在于,训练得到文本识别模块,包括步骤如下:
首先,对于标注好文本图像区域的铭牌图片,将其缩放到32×320,利用STN空间变换网络对缩放到32×320标准尺寸的文本图像做自适应仿射变换,具体是指:利用定位网络得到仿射变换参数矩阵,输入到网格生成器,通过矩阵运算,计算目标图中每个位置对应原图中的坐标位置,采样器根据网格生成器得到的坐标信息在原图上采样;
然后,通过特定的卷积神经网络提取图像特征,具体是:输入网络图像尺寸为N×3×32×320,N为BatchSize大小,32为图像高度,320为图像宽度,通过四次卷积核大小为3×3的卷积层、ReLU激活函数、最大池化层,其中,最大池化层高度方向的步长分别为2、2、2、2,宽度方向的步长分别为2、2、1、1,卷积层的通道数为256,得到特征图的尺寸为N×256×1×80;
接着,使用时间卷积网络TCN提取文本的序列信息,时间卷积网络TCN使用若干不同扩张系数的时间卷积块级联从而感知整个输入序列,输出的特征图尺寸为N×256×1×80,将其尺寸重塑为(80*N)×256;
最后,通过全连接网络将特征信息转换为字符分类概率矩阵;是指:全连接网络是指使用一个尺寸为256×L的参数矩阵W,将其与上一步骤得到的特征图相乘,得到字符分类概率矩阵(80*N)×L,将其尺寸重塑为N×80×L,取字符概率相乘最大的一串字符作为识别结果,L指文本字符的种类数。
5.根据权利要求1所述的一种铭牌自动识别方法,其特征在于,对待识别图像做方向矫正,是指:利用霍夫曼直线检测器检测铭牌图像中的边框线,然后,对待识别图像中直线做聚类,计算出现次数最多且直线角度在45°-135°内的直线平均角度,最后,按照该直线平均角度对待识别图像做进一步方向矫正。
6.根据权利要求1所述的一种铭牌自动识别方法,其特征在于,若干个固定角度包括0°,45°,90°,135°,180°,225°,270°,315°。
7.根据权利要求1所述的一种铭牌自动识别方法,其特征在于,分类网络模型为VGG16分类模型。
8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-7任一所述铭牌自动识别方法的步骤。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-7任一铭牌自动识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011472493.0A CN112508015A (zh) | 2020-12-15 | 2020-12-15 | 一种铭牌识别方法、计算机设备、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011472493.0A CN112508015A (zh) | 2020-12-15 | 2020-12-15 | 一种铭牌识别方法、计算机设备、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112508015A true CN112508015A (zh) | 2021-03-16 |
Family
ID=74973258
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011472493.0A Pending CN112508015A (zh) | 2020-12-15 | 2020-12-15 | 一种铭牌识别方法、计算机设备、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112508015A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378838A (zh) * | 2021-06-30 | 2021-09-10 | 北京邮电大学 | 一种基于深度学习的互感器铭牌文本区域检测方法 |
CN113673519A (zh) * | 2021-08-24 | 2021-11-19 | 平安科技(深圳)有限公司 | 基于文字检测模型的文字识别方法及其相关设备 |
CN113792677A (zh) * | 2021-09-17 | 2021-12-14 | 日立楼宇技术(广州)有限公司 | 一种表格识别方法、装置、计算机设备和存储介质 |
CN113920497A (zh) * | 2021-12-07 | 2022-01-11 | 广东电网有限责任公司东莞供电局 | 一种铭牌识别模型的训练、铭牌的识别方法及相关装置 |
CN113963339A (zh) * | 2021-09-02 | 2022-01-21 | 泰康保险集团股份有限公司 | 一种信息提取方法和装置 |
CN114494678A (zh) * | 2021-12-02 | 2022-05-13 | 国家计算机网络与信息安全管理中心 | 文字识别方法和电子设备 |
CN114596566A (zh) * | 2022-04-18 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 文本识别方法及相关装置 |
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN115689994A (zh) * | 2022-09-14 | 2023-02-03 | 优层智能科技(上海)有限公司 | 一种铭牌和条码缺陷检测方法、设备和存储介质 |
CN116189187A (zh) * | 2022-12-29 | 2023-05-30 | 无锡物联网创新中心有限公司 | 应用于厂区监控场景的铭牌颜色和文本一体化检测方法 |
CN116863482A (zh) * | 2023-09-05 | 2023-10-10 | 华立科技股份有限公司 | 一种互感器检测方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110796082A (zh) * | 2019-10-29 | 2020-02-14 | 上海眼控科技股份有限公司 | 铭牌文本检测方法、装置、计算机设备和存储介质 |
CN110956171A (zh) * | 2019-11-06 | 2020-04-03 | 广州供电局有限公司 | 铭牌自动识别方法、装置、计算机设备和存储介质 |
CN111553344A (zh) * | 2020-04-17 | 2020-08-18 | 携程旅游信息技术(上海)有限公司 | 文本图像的倾斜校正方法、系统、设备和存储介质 |
-
2020
- 2020-12-15 CN CN202011472493.0A patent/CN112508015A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109271967A (zh) * | 2018-10-16 | 2019-01-25 | 腾讯科技(深圳)有限公司 | 图像中文本的识别方法及装置、电子设备、存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
CN110796082A (zh) * | 2019-10-29 | 2020-02-14 | 上海眼控科技股份有限公司 | 铭牌文本检测方法、装置、计算机设备和存储介质 |
CN110956171A (zh) * | 2019-11-06 | 2020-04-03 | 广州供电局有限公司 | 铭牌自动识别方法、装置、计算机设备和存储介质 |
CN111553344A (zh) * | 2020-04-17 | 2020-08-18 | 携程旅游信息技术(上海)有限公司 | 文本图像的倾斜校正方法、系统、设备和存储介质 |
Non-Patent Citations (3)
Title |
---|
ARMANDOVIEIRA等: "《深度学习商业应用开发指南 从对话机器人到医疗图像处理》", 31 August 2019, 北京航空航天大学出版社 * |
张裕星: "低辨识度条件下的车牌识别算法研究", 《中国优秀博硕士学位论文全文数据库(硕士)工程科技Ⅱ辑》 * |
黄泽涛: "基于字符的文档图像方向矫正研究", 《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》 * |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113378838A (zh) * | 2021-06-30 | 2021-09-10 | 北京邮电大学 | 一种基于深度学习的互感器铭牌文本区域检测方法 |
CN113673519B (zh) * | 2021-08-24 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于文字检测模型的文字识别方法及其相关设备 |
CN113673519A (zh) * | 2021-08-24 | 2021-11-19 | 平安科技(深圳)有限公司 | 基于文字检测模型的文字识别方法及其相关设备 |
CN113963339A (zh) * | 2021-09-02 | 2022-01-21 | 泰康保险集团股份有限公司 | 一种信息提取方法和装置 |
CN113792677A (zh) * | 2021-09-17 | 2021-12-14 | 日立楼宇技术(广州)有限公司 | 一种表格识别方法、装置、计算机设备和存储介质 |
CN113792677B (zh) * | 2021-09-17 | 2023-10-17 | 日立楼宇技术(广州)有限公司 | 一种表格识别方法、装置、计算机设备和存储介质 |
CN114494678A (zh) * | 2021-12-02 | 2022-05-13 | 国家计算机网络与信息安全管理中心 | 文字识别方法和电子设备 |
CN113920497A (zh) * | 2021-12-07 | 2022-01-11 | 广东电网有限责任公司东莞供电局 | 一种铭牌识别模型的训练、铭牌的识别方法及相关装置 |
CN114596566A (zh) * | 2022-04-18 | 2022-06-07 | 腾讯科技(深圳)有限公司 | 文本识别方法及相关装置 |
CN114937277A (zh) * | 2022-05-18 | 2022-08-23 | 北京百度网讯科技有限公司 | 基于图像的文本获取方法、装置、电子设备及存储介质 |
CN115689994B (zh) * | 2022-09-14 | 2023-08-04 | 优层智能科技(上海)有限公司 | 一种铭牌和条码缺陷检测方法、设备和存储介质 |
CN115689994A (zh) * | 2022-09-14 | 2023-02-03 | 优层智能科技(上海)有限公司 | 一种铭牌和条码缺陷检测方法、设备和存储介质 |
CN115661828A (zh) * | 2022-12-08 | 2023-01-31 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN115661828B (zh) * | 2022-12-08 | 2023-10-20 | 中化现代农业有限公司 | 一种基于动态分层嵌套残差网络的文字方向识别方法 |
CN116189187A (zh) * | 2022-12-29 | 2023-05-30 | 无锡物联网创新中心有限公司 | 应用于厂区监控场景的铭牌颜色和文本一体化检测方法 |
CN116863482A (zh) * | 2023-09-05 | 2023-10-10 | 华立科技股份有限公司 | 一种互感器检测方法、装置、设备及存储介质 |
CN116863482B (zh) * | 2023-09-05 | 2023-12-19 | 华立科技股份有限公司 | 一种互感器检测方法、装置、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112508015A (zh) | 一种铭牌识别方法、计算机设备、存储介质 | |
CN109583483B (zh) | 一种基于卷积神经网络的目标检测方法和系统 | |
CN109903331B (zh) | 一种基于rgb-d相机的卷积神经网络目标检测方法 | |
CN109446889B (zh) | 基于孪生匹配网络的物体追踪方法及装置 | |
CN109815956B (zh) | 一种基于自适应位置分割的车牌字符识别方法 | |
CN108805076B (zh) | 环境影响评估报告书表格文字的提取方法及系统 | |
CN109086714A (zh) | 表格识别方法、识别系统及计算机装置 | |
CN107480585B (zh) | 基于dpm算法的目标检测方法 | |
CN106408039A (zh) | 一种基于形变方法进行数据扩展的脱机手写汉字识别方法 | |
CN112085024A (zh) | 一种罐表面字符识别方法 | |
CN108010082B (zh) | 一种几何匹配的方法 | |
CN113592923B (zh) | 一种基于深度局部特征匹配的批图像配准方法 | |
CN110781882A (zh) | 一种基于yolo模型的车牌定位和识别方法 | |
CN113888461A (zh) | 基于深度学习的小五金件缺陷检测方法、系统及设备 | |
CN111553845B (zh) | 一种基于优化的三维重建的快速图像拼接方法 | |
CN110633640A (zh) | 优化PointNet对于复杂场景的识别方法 | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 | |
CN116363535A (zh) | 基于卷积神经网络的无人机航拍影像中的船舶检测方法 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN115409789A (zh) | 基于图像语义分割的输电线路工程缺陷检测方法 | |
CN113436251B (zh) | 一种基于改进的yolo6d算法的位姿估计系统及方法 | |
CN113627481A (zh) | 一种面向智慧园林的多模型组合的无人机垃圾分类方法 | |
CN117789109A (zh) | 一种工业场景下无人值守的异常行为检测方法和系统 | |
CN110580462B (zh) | 一种基于非局部网络的自然场景文本检测方法和系统 | |
CN114359948B (zh) | 基于重叠滑窗机制与yolov4的电网接线图图元识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210316 |