CN114003671A - 一种地图图幅编码识别的方法及其识别系统 - Google Patents
一种地图图幅编码识别的方法及其识别系统 Download PDFInfo
- Publication number
- CN114003671A CN114003671A CN202111229612.4A CN202111229612A CN114003671A CN 114003671 A CN114003671 A CN 114003671A CN 202111229612 A CN202111229612 A CN 202111229612A CN 114003671 A CN114003671 A CN 114003671A
- Authority
- CN
- China
- Prior art keywords
- target
- map
- image
- model
- character area
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种地图图幅编码的识别的方法,包括:一种地图图幅编码的识别方法,包括:采集待识别地图图像;将所述待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;将所述目标文字区域图像输入目标CRNN模型中,使用目标CRNN模型对所述目标文字区域图像中的附图编号进行识别,并输出所述待识别地图的图幅编码。因此,本申请对地图图幅编码图像中的文字区域进行定位,在改进CRNN模型的基础上,结合YOLO模型设计了一个轻量级的图幅编码识别模型,相对于基础的CRNN模型,在提升准确率的前提下,有效压缩了文本检测模型的大小,极大提升了图幅编码的识别速度。
Description
技术领域
本申请属于图像处理领域,具体涉及一种地图图幅编码识别的方法及其识别系统。
背景技术
地图图幅识别是地图的归档、抽取、分发的关键环节,现有的人工登记方式费时费力、迫切需要一个自动化的智能手段。地图图幅编码识别是自然场景文字识别的一个应用方向,将其理解为文字识别的计算机视觉问题就是一个可行的智能化解决方案。场景文字识别(英文:Scene Text Recognition,简写:STR)是指以自然场景图像为研究对象,对其中的文字信息进行提取。
针对地图图幅编码的识别问题,研究学者们提出将数图设备和专业相机相结合,调整光照、拍摄角度和拍摄时长间隔,对图纸编码进行拍摄,但拍摄得到的图像中图幅编码部分倾斜,字迹模糊,且地图纸张弯曲,数据集尺寸大,字符区域占比小。
由于地图图幅编码的识别存在数据集背景复杂,编码位置定位不准确等问题,是影响编码识别准确度的主要因素,而传统的模板匹配算法无法利用图幅编码的特征信息,采取扩大模板库的方法在一定程度可以提高准确度,同时也会增加识别耗时,难以满足图幅编码识别高准确度、低耗时的要求。
因此,目前亟需一种对地图图幅编码进行识别的方法,能够准高效的地图图幅编码进行识别。
发明内容
本申请实施例提供一种地图图幅编码的识别方法及其地图图幅编码的识别系统,能够提高地图图幅编码的效率和准确性。
第一方面,提供一种地图图幅编码的识别方法,包括:采集待识别地图图像;将待识别地图图像输入目标只看一次(英文:You Only Look Once,简写:YOLO)模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;将所述目标文字区域图像输入目标CRNN模型中,使用目标循环卷积神经网络(英文:Convolutional and Recurrent Neural Network,简写:CRNN)模型对所述目标文字区域图像中的附图编号进行识别,并输出所述待识别地图的图幅编码。
结合第一方面,在第一方面的第一种可能的实现方式中,所述方法还包括:构建所述目标YOLO模型的训练集,所述训练集包括多张地图图像、所述多张地图中每张地图图幅的坐标框、目标训练类别;使用所述训练集训练得到所述目标YOLO模型。
结合第一方面及其上述实现方式,在第一方面的第二种可能的实现方式中,所述将待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,包括:将从所述目标YOLO模型中输出的预处理图像进行裁剪和旋转,得到所述目标文字区域图像,所述目标文字区域图像的高度为预设值,所述目标文字区域图像为单通道灰度图,所述预设值由所述目标CRNN模型卷积核大小决定。
结合第一方面及其上述实现方式,在第一方面的第三种可能的实现方式中,所述目标CRNN模型的循环层为包括两个目标长短期记忆(英文:Long Short Term Memory,简写:LSTM)神经网络的BiLSTM结构,所述目标LSTM包括内存单元、输入门、输出门和遗忘门。
结合第一方面及其上述实现方式,在第一方面的第四种可能的实现方式中,所述BiLSTM结构包括注意力转移链(英文:Attention Transition Chain,简写:ATC)模块。
结合第一方面及其上述实现方式,在第一方面的第五种可能的实现方式中,所述目标CRNN模型的卷积神经网络采用VGG的网络结构,所示VGG的网络结构包括7个卷积层、4个最大池化层和2个批标准化层。
其中,第三个最大池化层和第四个最大池化层的步长为1×2,所述卷积层中第五个和第六个卷积层后均排布的是批标准化层。
结合第一方面及其上述实现方式,在第一方面的第六种可能的实现方式中,所述方法还包括:采用连续时序分类(英文:Connectionist Temporal Classification,简写:CTC)计算方法对所述目标CRNN循环层输出的特征序列进行转录。
第二方面,提供一种地图图幅编码的识别系统,包括:获取单元,所述获取单元用于:采集待识别地图图像;处理单元,所述处理单元用于:将所述待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;所述处理单元还用于:将所述目标文字区域图像输入目标CRNN模型中,使用目标CRNN模型对所述目标文字区域图像中的附图编号进行识别采集待识别地图图像;所述输出单元用于:输出所述待识别地图的图幅编码。
可选地,地图图幅编码的识别系统能够实现第一方面或第一方面任一种可能的实现方式。
第三方面,提供一种地图图幅编码的识别的装置,包括:包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面或第一方面任一项所述的地图图幅编码的识别方法的步骤。
第四方面,提供一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面或第一方面任一项所述的地图图幅编码的识别方法的步骤。
因此,本申请对地图图幅编码图像中的文字区域进行定位,在改进CRNN模型的基础上,结合YOLO模型设计了一个轻量级的图幅编码识别模型,相对于基础的CRNN模型,在提升准确率的前提下,有效压缩了文本检测模型的大小,极大提升了图幅编码的识别速度,提高了算法的实际场景应用。
因此,本申请将目标识别网络YOLO模型和文本检测网络CRNN模型相结合的方法,在改进CRNN模型的基础上,结合YOLO模型设计了一个轻量级的图幅编码识别模型,相对于基础的CRNN模型,在提升准确率的前提下,有效压缩了文本检测模型的大小,极大提升了图幅编码的识别速度,提高了算法的实际场景应用。
进一步地,同时在改进CRNN模型加入注意力机制,利用深度学习网络的特征挖掘能力,提取编码中具有辨识度的信息,从而增强模型识别编码位置的能力,实现在提高字符识别准确度的同时,将耗时的增加控制在可接受范围内。
附图说明
图1示出了本申请一个实施例的地图图幅编码的识别方法的示意性流程图。
图2示出了本申请另一实施例的地图图幅编码的识别方法的示意性流程图。
图3示出了本申请一个实施例的CRNN模型的结构示意图。
图4示出了本申请一个实施例的卷积神经网络输出时序的示意图。
图5提供了本申请一个实施例的LSTM的网络结构的示意性结构图。
图6提供了本申请一个实施例的地图图幅编码的识别系统的示意性结构图。
图7提供了本申请一个实施例提供的一种电子设备的示意性结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的一种地图图幅编码的识别方法进行详细地说明。
图1示出了本申请一个实施例的地图图幅编码的识别方法的示意性流程图,如图1所示,该一种地图图幅编码的识别方法100包括:
步骤110,采集待识别地图图像;
步骤120,将所述待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;
步骤120,将所述目标文字区域图像输入目标CRNN模型中,使用目标CRNN模型对所述目标文字区域图像中的附图编号进行识别采集待识别地图图像,并输出所述待识别地图的图幅编码。
在步骤110中,在安装有相机和灯光装置的专业数图设备上对地图图纸拍摄,采集待识别地图图像,具体地,调整数图设备数图频率及相机拍照快门设置,实现对每张图纸的单次拍摄,克服气流扰动等因素,得到清晰图像。
可选地,作为本申请一个实施例,所述方法还包括:构建所述目标YOLO模型的训练集,所述训练集包括多张地图图像、所述多张地图中每张地图图幅的坐标框、目标训练类别;使用所述训练集训练得到所述目标YOLO模型。
应理解,上述多张地图可以为上百张,上千张,具体数量不做限定,其中目标训练类别指的是对地图图幅中的编码进行识别。
可选地,作为本申请一个实施例,所述将待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,包括:将从所述目标YOLO模型中输出的预处理图像进行裁剪和旋转,得到所述目标文字区域图像,所述目标文字区域图像的高度为预设值,所述目标文字区域图像为单通道灰度图,所述预设值由所述目标CRNN模型卷积核大小决定。
具体地,裁剪的区域是识别出来的字符区域,通过旋转将文字区域旋转为水平,然后对该文字区域统一作像素变换,本申请中将文字区域统一变换为高度32像素。
可选地,作为本申请一个实施例,所述目标CRNN模型的循环层为包括两个目标LSTM神经网络的BiLSTM结构,所述目标LSTM包括内存单元、输入门、输出门和遗忘门。
可选地,作为本申请一个实施例,所述循环层包括链式ATC模块。
可选地,作为本申请一个实施例,所述目标CRNN模型的卷积神经网络采用VGG的网络结构,所示VGG的网络结构包括7个卷积层、4个最大池化层和2个批标准化层。
可选地,第三个最大池化层和第四个最大池化层的步长为1×2,所述卷积层中第五个和第六个卷积层后均排布的是批标准化层。
可选地,作为本申请一个实施例,所述方法还包括:采用连续时序分类CTC计算方法对所述目标CRNN循环层输出的特征序列进行转录。
图2示出了本申请另一实施例的地图图幅编码的识别方法的示意性流程图。如图2所示,该方法包括:
步骤210,输入数据集,也就是采集待识别地图的图像;
步骤220,将待识别地图的图像输入YOLO模型中,具体地,需要预先构建训练集,训练集包括上百张张地图图像、所述多张地图中每张地图图幅的坐标框、目标训练类别;使用所述训练集训练得到步骤220使用的YOLO模型;
步骤230,判断是否识别到文字区域,当YOLO模型没有识别文字区域时,结束任务,执行步骤270;当YOLO模型识别到文字区域时,执行步骤240;
步骤240,对YOLO模型中输出的预处理图像进行裁剪和旋转,得到所述目标文字区域图像,所述目标文字区域图像的高度为预设值,所述目标文字区域图像为单通道灰度图。
具体地,由于CRNN模型对输入图像的高度有严格要求,其输入为W×32的单通道灰度图,即图像高度需为32,因此需要对步骤220输出的图像进行像素变换。
步骤250,将从步骤240处理后输出的图像输入到CRNN模型中;
步骤260,判断是否检测到文本;
步骤270,输出结果。
具体地,在步骤250中,采用的CRNN模型的结构如图3所示,CRNN模型在图像的序列识别上表现出较好效果,其主要分为三个部分:卷积层(Convolutional Layer)、循环层(Recurrent Layer)和翻译层(Transcription Layer),首先卷积层提取图像的序列特征,再经由循环层输出特征序列的预测结果,最后翻译层将结果转换为标签序列。
MCRNN模型对输入图像的高度有严格要求,其输入为W×32的单通道灰度图,即图像高度需为32。模型的卷积层部分采用VGG的网络结构,并将第三个和第四个最大池化层的步长由2×2改为1×2,在第五个和第六个卷积层后增加批标准化层的处理,有利于将特征图的宽度进行保留,同时加速模型的训练。输入图像经过卷积层处理后得到特征尺度为W'×1的特征序列,每一列特征对应原图的一个矩形区域,如图4所示。
特征序列输入循环层进行下一步计算,循环层建立有深度双向递归神经网络,可以根据标签预测序列的概率分布,同时具有在序列中捕捉上下文信息的能力,可以利用上下文线索进行基于图像的序列识别,难以预测的字符经过上下文判断可以得到区分,明显优于单一字符的识别处理,此外,信号经RNN层反向传播至卷积层,有助于网络进行端对端的训练。循环层将池化步长设为1×2使得感受野具有较窄的宽度,有助于识别“I”,“1”等字符。
长短期记忆(LSTM,Long ShortTerm Memory)是一种特殊的循环神经网络,由一个内存单元、输入门、输出门和遗忘门组成,可以解决长序列训练过程中的梯度消失和梯度爆炸问题,其结构如下图5所示。其中内存单元负责存储上下文信息,输入门和输出门有助于其进行长时间的信息存储,遗忘门使得内存可以进行更新。
首先,遗忘门进行信息的筛选,它决定上一时刻的单元状态有多少保存在当前状态。遗忘门的值zf可定义为式(1)。
zf=σ(Wt-1ht-1+bt-1) (1)
最终输入门选择存入细胞状态的信息为:
最后,通过LSTM网络得到输出状态为:
yt=σ(W0(Ct,xt)+b0) (4)
并通过激活函数tanh和sigmoid得到的输出相乘,从而得到模型的最终结果:
循环层使用向前及向后两个LSTM组成双向LSTM,并进行堆叠组成BiLSTM结构。循环层作为解码模块对卷积层中的特征序列进行解码并输出预测结果,但固定长度的向量会导致解码过程受到限制,产生过拟合问题,因此MCRNN模型在BiLSTM结构中加入注意力机制,使其更易获得与出相关的特征序列,以获得更好的识别效果。
翻译层是将循环层得到的预测结果转化为标签序列的过程,在基于词典的条件下,通过选择后验概率最高的标签序列进行预测,在进行文本结果输出时,会产生神经网络输出与真实值长度不一致的问题,导致损失函数无法计算,故MCRNN的标签序列采用Graves等人提出的连续时序分类(CTC Loss)。
CTC是一种不需要对齐的损失计算方法,通过选择最优路径进行解码,对LSTM网络的输出进行转录,实现端到端的识别。CTC的主要特点是引入空字符。数据从循环层输入到转录层,令输入序列为x,序列的长度为L,则输出序列y的条件概率为:
概率定义为:
由于输出路径不唯一,所以需要选择条件概率最高的序列进行识别:
I*=B[argmax(p(π|x))] (8)
损失函数定义为真实样本序列的条件概率的最小负对数似然值:
其中Ii是训练图像数据,Ji是真实的样本序列,xi是由卷积层和循环层从输入图像Ii中提取得到的特征序列。
通过叠加全连接和下采样交错的模块,CNN部分可以捕获到图幅编码最深层次的特征向量,但受图像背景、灯光照射及拍摄角度的影响,CNN会提取出许多无关的特征向量。所以为了更有效的提取特征,实现不定长图幅编码的识别,在模型中引入链式ATC模块。注意力链式结构不仅将期望特征的注意力传入自身CNN模块,还可以传入下一个CNN模块,使得下一个CNN模块在提取特征时,对持续关注点达到很好的促进,同时对不重要的特征保持持续抑制。在反向传播过程中,加入ATC模块的模型可以把注意力集中到提取图幅编码的特征上。
MCRNN模型最后采用Adam随机梯度下降法自适应调节学习率,神经网络通过不断对损失函数进行优化,训练得到一个最优的网络模型。
因此,本申请将目标识别网络YOLO模型和文本检测网络CRNN模型相结合的方法,在改进CRNN模型的基础上,结合YOLO模型设计了一个轻量级的图幅编码识别模型,相对于基础的CRNN模型,在提升准确率的前提下,有效压缩了文本检测模型的大小,极大提升了图幅编码的识别速度,提高了算法的实际场景应用。
进一步地,同时在改进CRNN模型加入注意力机制,利用深度学习网络的特征挖掘能力,提取编码中具有辨识度的信息,从而增强模型识别编码位置的能力,实现在提高字符识别准确度的同时,将耗时的增加控制在可接受范围内。
需要说明的是,本申请实施例提供的方法,执行主体可以为地图图幅编码的识别系统。本申请实施例中以地图图幅编码的识别系统执行上述方法为例,说明本申请实施例提供的地图图幅编码的识别系统。
图6示出了本申请一种地图图幅编码的识别系统,该系统600包括:
获取单元610,所述获取单元610用于:采集待识别地图图像;
处理单元620,所述处理单元620用于:将所述待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;
所述处理单元620还用于:将所述目标文字区域图像输入目标CRNN模型中,使用目标CRNN模型对所述目标文字区域图像中的附图编号进行识别采集待识别地图图像;
所述输出单元630用于:输出所述待识别地图的图幅编码。
具体地,本申请中的获取单元610可以为数图设备,通过调整数图设备数图频率及相机拍照快门设置,实现对每张图纸的单次拍摄,克服气流扰动等因素,得到清晰图像。
本发明实施例提供的地图图幅编码的识别系统能够实现上消息处理方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本发明实施例提供的地图图幅编码的识别系统与本发明实施例提供的地图图幅编码的识别方法基于同一发明构思,实现相同的有益效果,因此该实施例的具体实施可以参见前述网络资源的配置方法的实施和有益效果,重复之处不再赘述。
图7为本申请一个实施例提供的一种电子设备的示意性结构图。请参考图7,在硬件层面,该电子设备包括处理器,可选地还包括内部总线、网络接口、存储器。其中,存储器可能包含内存,例如高速随机存取存储器(Random-Access Memory,RAM),也可能还包括非易失性存储器(non-volatile memory),例如至少1个磁盘存储器等。当然,该电子设备还可能包括其他业务所需要的硬件。
处理器、网络接口和存储器可以通过内部总线相互连接,该内部总线可以是ISA(Industry Standard Architecture,工业标准体系结构)总线、PCI(PeripheralComponent Interconnect,外设部件互连标准)总线或EISA(Extended Industry StandardArchitecture,扩展工业标准结构)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图5中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
存储器,用于存放程序。具体地,程序可以包括程序代码,所述程序代码包括计算机操作指令。存储器可以包括内存和非易失性存储器,并向处理器提供指令和数据。
处理器从非易失性存储器中读取对应的计算机程序到内存中然后运行,在逻辑层面上形成数据采集装置。处理器,执行存储器所存放的程序,并具体用于执行图1至图4实施例提供的方法。
本发明实施例提供的电子设备应,能够实现上消息处理方法对应的实施例中的各个过程,为避免重复,这里不再赘述。
需要说明的是,本发明实施例提供的电子设备应用于数据传输的发送端,与本发明实施例提供的数据传输方法基于同一发明构思,实现相同的有益效果,因此该实施例的具体实施可以参见前述网络资源的配置方法的实施和有益效果,重复之处不再赘述。
本申请实施例还提供一种可读存储介质,所述可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述图1至图3实施例提供的方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种地图图幅编码的识别方法,其特征在于,包括:
采集待识别地图图像;
将所述待识别地图图像输入目标只看一次YOLO模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;
将所述目标文字区域图像输入目标卷积和循环神经网络CRNN模型中,使用所述目标CRNN模型对所述目标文字区域图像中的附图编号进行识别,并输出所述待识别地图的图幅编码。
2.根据权利要求1所述的识别方法,其特征在于,所述方法还包括:
构建所述目标YOLO模型的训练集,所述训练集包括多张地图图像、所述多张地图中每张地图图幅的坐标框、目标训练类别;
使用所述训练集训练得到所述目标YOLO模型。
3.根据权利要求2所述的方法,其特征在于,所述将待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,包括:
将从所述目标YOLO模型中输出的预处理图像进行裁剪和旋转,得到所述目标文字区域图像,所述目标文字区域图像的高度为预设值,所述目标文字区域图像为单通道灰度图,所述预设值由所述目标CRNN模型卷积核大小决定。
4.根据权利要求3所述的方法,其特征在于,所述目标CRNN模型的循环层为包括两个目标LSTM神经网络的BiLSTM结构,所述目标LSTM包括内存单元、输入门、输出门和遗忘门。
5.根据权利要求4所述的方法,其特征在于,所述循环层包括链式ATC模块。
6.根据权利要求5所述的方法,其特征在于,所述目标CRNN模型的卷积神经网络采用VGG的网络结构,所示VGG的网络结构包括7个卷积层、4个最大池化层和2个批标准化层。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
采用连续时序分类CTC计算方法对所述目标CRNN循环层输出的特征序列进行转录。
8.一种地图图幅编码的识别系统,其特征在于,包括:
获取单元,所述获取单元用于:采集待识别地图图像;
处理单元,所述处理单元用于:将所述待识别地图图像输入目标YOLO模型中,获取所述待识别地图的目标文字区域图像,所述目标文字区域内包括所述待识别地图图像的图幅编码;
所述处理单元还用于:将所述目标文字区域图像输入目标CRNN模型中,使用目标CRNN模型对所述目标文字区域图像中的附图编号进行识别采集待识别地图图像;
所述输出单元用于:输出所述待识别地图的图幅编码。
9.一种地图图幅编码的识别的装置,其特征在于,包括:包括处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的地图图幅编码的识别方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的地图图幅编码的识别方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111229612.4A CN114003671A (zh) | 2021-10-21 | 2021-10-21 | 一种地图图幅编码识别的方法及其识别系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111229612.4A CN114003671A (zh) | 2021-10-21 | 2021-10-21 | 一种地图图幅编码识别的方法及其识别系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114003671A true CN114003671A (zh) | 2022-02-01 |
Family
ID=79923569
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111229612.4A Pending CN114003671A (zh) | 2021-10-21 | 2021-10-21 | 一种地图图幅编码识别的方法及其识别系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114003671A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115346205A (zh) * | 2022-10-17 | 2022-11-15 | 广州简悦信息科技有限公司 | 一种页面信息的识别方法、装置及电子设备 |
CN115909351A (zh) * | 2023-02-08 | 2023-04-04 | 江苏金恒信息科技股份有限公司 | 一种基于深度学习的容器编号识别方法及装置 |
-
2021
- 2021-10-21 CN CN202111229612.4A patent/CN114003671A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115346205A (zh) * | 2022-10-17 | 2022-11-15 | 广州简悦信息科技有限公司 | 一种页面信息的识别方法、装置及电子设备 |
CN115909351A (zh) * | 2023-02-08 | 2023-04-04 | 江苏金恒信息科技股份有限公司 | 一种基于深度学习的容器编号识别方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20210398294A1 (en) | Video target tracking method and apparatus, computer device, and storage medium | |
US10671855B2 (en) | Video object segmentation by reference-guided mask propagation | |
WO2019100723A1 (zh) | 训练多标签分类模型的方法和装置 | |
Xu et al. | Learning deep structured multi-scale features using attention-gated crfs for contour prediction | |
CN111950453B (zh) | 一种基于选择性注意力机制的任意形状文本识别方法 | |
WO2019100724A1 (zh) | 训练多标签分类模型的方法和装置 | |
CN110647829A (zh) | 一种票据的文本识别方法及系统 | |
CN110969129B (zh) | 一种端到端税务票据文本检测与识别方法 | |
TWI747120B (zh) | 深度模型訓練方法及裝置、電子設備及儲存介質 | |
US20220230282A1 (en) | Image processing method, image processing apparatus, electronic device and computer-readable storage medium | |
CN114003671A (zh) | 一种地图图幅编码识别的方法及其识别系统 | |
CN113159023A (zh) | 基于显式监督注意力机制的场景文本识别方法 | |
CN112052808A (zh) | 细化深度图的人脸活体检测方法、装置、设备及存储介质 | |
Li et al. | Treat samples differently: Object tracking with semi-supervised online covboost | |
Shah et al. | Efficient portable camera based text to speech converter for blind person | |
Zhong et al. | Improved localization accuracy by locnet for faster r-cnn based text detection | |
Li et al. | Robust detection of farmed fish by fusing YOLOv5 with DCM and ATM | |
Wu et al. | STR transformer: a cross-domain transformer for scene text recognition | |
CN111242114B (zh) | 文字识别方法及装置 | |
CN113888425A (zh) | 基于多帧融合的工业质检图像文字匹配方法及系统 | |
CN112991281A (zh) | 视觉检测方法、系统、电子设备及介质 | |
CN115797952B (zh) | 基于深度学习的手写英文行识别方法及系统 | |
CN117315752A (zh) | 人脸情绪识别网络模型的训练方法、装置、设备和介质 | |
Kurama et al. | Image semantic segmentation using deep learning | |
CN114283431B (zh) | 一种基于可微分二值化的文本检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |