CN112818949A - 一种产证文字的识别方法及系统 - Google Patents
一种产证文字的识别方法及系统 Download PDFInfo
- Publication number
- CN112818949A CN112818949A CN202110256783.XA CN202110256783A CN112818949A CN 112818949 A CN112818949 A CN 112818949A CN 202110256783 A CN202110256783 A CN 202110256783A CN 112818949 A CN112818949 A CN 112818949A
- Authority
- CN
- China
- Prior art keywords
- image
- map
- probability
- production
- certificate
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 37
- 238000004519 manufacturing process Methods 0.000 claims abstract description 50
- 238000013528 artificial neural network Methods 0.000 claims abstract description 27
- 238000001514 detection method Methods 0.000 claims abstract description 27
- 230000000306 recurrent effect Effects 0.000 claims abstract description 21
- 238000012545 processing Methods 0.000 claims abstract description 16
- 238000013527 convolutional neural network Methods 0.000 claims description 12
- 238000013518 transcription Methods 0.000 claims description 12
- 230000035897 transcription Effects 0.000 claims description 12
- 125000004122 cyclic group Chemical group 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 description 18
- 238000012015 optical character recognition Methods 0.000 description 18
- 230000000694 effects Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 6
- 230000008569 process Effects 0.000 description 6
- 230000002457 bidirectional effect Effects 0.000 description 4
- 238000007781 pre-processing Methods 0.000 description 4
- 238000009826 distribution Methods 0.000 description 3
- 210000002569 neuron Anatomy 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000011218 segmentation Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 238000004458 analytical method Methods 0.000 description 2
- 238000012937 correction Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000013519 translation Methods 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Geometry (AREA)
- Computer Graphics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及一种产证文字的识别方法即系统。所述方法包括获取产证图像;采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域;采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。本发明能快速精确的在离线状态下识别出产证图片上的文字。
Description
技术领域
本发明涉及文字识别领域,特别是涉及一种产证文字的识别方法及系统。
背景技术
复杂背景下的光学字符识别(Optical Character Recognition,OCR)技术涉及的图像处理与模式识别技术比通用的OCR技术更为复杂。由于图像中的文字通常叠加在复杂的图像背景之上,背景成分的干扰使得现有的OCR技术难以识别出文字。
根据OCR技术的应用场景而言,我们可以大致分成识别特定场景下的专用OCR技术以及识别多种场景下的通用OCR技术。就前者而言,证件识别以及车牌识别就是专用OCR技术的典型案例。针对特定场景进行设计、优化以达到最好的特定场景下的效果展示。那通用的OCR技术就是使用在更多、更复杂的场景下,拥有比较好的泛性。在这个过程中由于场景的不确定性,比如:图片背景极其丰富、亮度不均衡、光照不均衡、残缺遮挡、文字扭曲和字体多样等等问题,会带来极大的挑战。
典型的OCR技术路线为输入、图像预处理、文字检测、文本识别和输出,其中OCR技术的关键路径在于文字检测和文本识别部分,这也是目前技术可以充分发挥功效的地方。当然现在的OCR技术已经比较成熟了,但像百度和图鉴等提供的识别大多都是线上识别,离线识别技术是比较匮乏的。比如Tessract-OCR这一门传统的OCR离线识别技术,对于背景单一、数据场景简单(word文档截图)的情况,它还能达到比较好的效果,但在复杂背景(现场拍摄图片)的情况下识别率上却大打折扣,和理想识别率有较大差距,即使对图像做了一些二值化处理,缺乏自然语言处理能力,受光线、清晰度影响较大,在干扰因素较多的情况下它的文本检测和文字切割等算法(连通域分析和垂直投影)会出现较大误差,导致识别率不高。
传统OCR技术按处理方式划分为三个阶段:预处理阶段、识别阶段和后处理阶段。首先文本定位,接着进行倾斜文本矫正,分割出单字后,使用人工特征HOG或者CNN特征,结合分类模型对单字进行识别,最后基于统计语言模型(如隐马尔科夫链,HMM)或者规则进行语义纠错,其中关键在于预处理阶段,预处理阶段的质量直接决定了最终的识别效果。
传统OCR技术发展至今,已经解决了大部分简单场景,并且取得很好效果,但是在一些复杂场景,传统OCR技术面临了巨大的挑战,精度很难满足实际应用需求。
发明内容
本发明的目的是提供一种产证文字的识别方法及系统,能快速精确的在离线状态下识别出产证图片上的文字。
为实现上述目的,本发明提供了如下方案:
一种产证文字的识别方法,包括:
获取产证图像;
采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域;
采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。
可选的,所述采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域,具体包括:
采用不同的设定比例分别对所述产证图像进行特征提取,得到多个特征图,不同的设定比例对应不同的特征图;
将多个所述特征图进行融合得到目标特征图;
确定所述目标特征图的概率图和阈值图;
根据所述阈值图和所述概率图得到二值图;
对所述二值图进行轮廓提取得到文字区域。
可选的,所述根据所述阈值图和所述概率图得到二值图,具体为:
可选的,所述确定所述目标特征图的概率图和阈值图,具体包括:
采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图;
采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。
可选的,所述卷积递归神经网络包括:依次连接的卷积神经网络层、循环神经网络层和转录层。
一种产证文字的识别系统,包括:
获取模块,用于获取产证图像;
文字检测模块,用于采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域;
文本识别模块,用于采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。
可选的,所述文字检测模块,具体包括:
特征提取单元,用于采用不同的设定比例分别对所述产证图像进行特征提取,得到多个特征图,不同的设定比例对应不同的特征图;
特征融合单元,用于将多个所述特征图进行融合得到目标特征图;
概率阈值确定单元,用于确定所述目标特征图的概率图和阈值图;
二值图确定单元,用于根据所述阈值图和所述概率图得到二值图;
文字检测单元,用于对所述二值图进行轮廓提取得到文字区域。
可选的,所述二值图确定单元,具体为:
可选的,所述概率阈值确定单元,具体包括:
概率图确定子单元,用于采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图;
阈值图确定子单元,用于采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。
可选的,所述卷积递归神经网络包括:依次连接的卷积神经网络层、循环神经网络层和转录层。
根据本发明提供的具体实施例,本发明公开了以下技术效果:本发明通过将可微分二值化处理算法和卷积递归神经网络相结合对产证图像进行处理可以快速精确地在离线状态下识别出产证图片上的文字。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种产证文字的识别方法的流程图;
图2为本发明实施例提供的DB算法的流程图;
图3为本发明实施例提供的生成DB标签的流程图;
图4为本发明实施例提供的卷积递归神经网络的结构图
图5为本发明实施例提供的卷积层到循环层的示意图;
图6为本发明实施例提供的LSTM神经元的结构示意图;
图7为本发明实施例提供的双向RNN的结构示意图;
图8为本发明实施例提供的转录层的识别效果图;
图9为本发明实施例提供的第一张产证识别效果图;
图10为本发明实施例提供的第二张产证识别效果图;
图11为本发明实施例提供的产证文字的识别系统的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
在各种文本检测算法中,基于分割的检测算法可以更好地处理弯曲等不规则形状文本,因此往往能取得更好的检测效果。但分割法后处理步骤中将分割结果转化为检测框的流程复杂,耗时严重。因此本实施例使用了一个可微的二值化模块(DifferentiableBinarization,DB),将二值化阈值加入训练中学习,可以获得更准确的检测边界,从而简化后处理流程。DB算法最终在5个数据集上达到了最新的效果和性能。为实现上述效果,本实施例提供了一种产证文字的识别方法,如图1所示,所述方法,包括:
101:获取产证图像。
102:采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域。
103:采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。
在实际应用中,102具体包括:
采用不同的设定比例分别对所述产证图像进行特征提取,得到多个特征图,不同的设定比例对应不同的特征图。
将多个所述特征图进行融合得到目标特征图。
确定所述目标特征图的概率图和阈值图。
根据所述阈值图和所述概率图得到二值图。
对所述二值图进行轮廓提取得到文字区域。
在实际应用中,所述根据所述阈值图和所述概率图得到二值图,具体为:
根据公式(1)得到二值图,其中为二值图,Ti,j为阈值图,Pi,j为概率图,k是放大倍数,(i,j)是图中每个坐标点的坐标,exp()为以e为底的指数函数。在试验中k取值为50。这个函数的曲线与标准二值方法曲线具有较高的近似度,而且还是可微的。该可微二值化方法不仅可以区分文本区域和背景,而且可以分离紧密相连的文本实例。
在实际应用中,所述确定所述目标特征图的概率图和阈值图,具体包括:
采用Vatti clipping(图形学多边形裁剪)算法根据预设缩略比例对所述目标特征图进行缩略得到概率图。
采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。
在实际应用中,所述卷积递归神经网络包括:依次连接的卷积神经网络层、循环神经网络层和转录层。
针对上述方法提供了一个更加具体的产证文字的识别方法:
步骤1:对产证图像进行特征提取,利用融合算法进行特征信息累加,然后利用特征图预测概率图和阈值图处理,然后用二值化处理得到文本框位置处的图片。
DB算法流程图解析如图2所示:
首先,“1/2”、“1/4”……“1/32”表示与输入图像相比的比例,输入的图像经过不同比例阶段的采样之后获得不同大小的特征图。
之后由这些特征图构建特征金字塔,特征金字塔将不同尺度的特征图进行融合让最终进行回归的特征图获得不同尺度的特征信息以处理不同尺寸大小的文字实例,融合使用的方法为元素对应乘积求和的方法,就是逐个特征信息相加;然后通过特征图预测概率图和阈值图。最后,通过概率图和阈值图使用公式(1)生成近似的二值图,经过cv2提取轮廓得到文字框位置处的图片,cv2为opencv一个计算机视觉库。
参见图3由图像得到多边形缩小和扩张,然后分别得到概率图和阈值图,图像中文本多边形的注释用中间实线框选。缩小后的多边形和放大后的多边形分别用内部虚线和外部虚线框选。
概率图生成:参考PSENet,使用Vatti clipping算法,使用Polygon库计算多边形区域的周长和面积,通过pyclipper这个库,将中间实线缩减到内部虚线。
阈值图生成:使用生成概率图一样的方法,向外进行扩张,得到内部虚线和外部虚线中间的区域,根据到中间实线的距离制作标签,(设置thresh_max=0.7),其他区域使用thresh_min=0.3进行填充。传入比例后会计算多边形的周长面积差,扩张情况下传入正的周长面积差,缩小会传入负的周长面积差。
步骤2:将步骤1文本框位置的图片作为神经网络的输入,进行翻译识别,得到识别结果。
在得到上面检索的文本位置的图片后,使用CRNN(Convolutional RecurrentNeural Network)即卷积递归神经网络,结构如图4所示,用于识别图像中的序列式对象,与CTC loss(转录层)配合使用,进行文字识别,可以直接从文本词级或行级的标注中学习,不需要详细的字符级的标注,将图片输入到卷积层,在卷积层进行卷积特征图提取,然后输入循环层,进行特征序列的提取和经过LSTM神经元和双向RNN处理,然后输入转录层进行序列的识别和输出,卷积层到循环层的过程如图5所示。
文字识别是对序列的预测方法,CRNN采用了对序列预测的RNN网络。通过CNN将图片的特征提取出来后采用RNN对序列进行预测,最后通过一个CTC的转录层得到最终结果。
CNN该组件用于从输入图像中提取连续的特征表示。在输入网络之前,所有的图像都需要缩放到相同的高度。然后从卷积层组件生成的特征图中提取出一系列的特征向量,卷积层组件是循环层的输入。
具体来说,特征序列的每个特征向量在特征图上按列从左到右生成。这意味着第i个特征向量是所有映射的第i列的串联。在本实施例的设置中,每一列的宽度固定为单个像素。由于卷积层、最大池层和元素激活函数层作用于局部区域,所以它们是平移不变的。因此,特征图的每一列对应于原始图像的一个矩形区域(称为接受域),并且这些矩形区域从左到右与特征图上对应的列顺序相同。
CNN是对于卷积层的操作,而RNN则是在卷积层的顶部建立一个深度双向递归神经网络,称为递归层。递归层对CNN中得到的特征序列中每帧的标签分布进行预测。这里采用了LSTM神经单元作为RNN的单元。本实施例认为对于序列的预测,序列的前向信息和后向信息都有助于序列的预测,所以这里采用了双向RNN网络。LSTM神经元的结构如图6所示,双向RNN结构如图7所示。
CTC(转录层)在RNN预测后会给出一个输出序列,与之前CNN传给它的输入序列形成一种关系,但输入和输出序列中的值的长度和比例都是可能发生变化的,对应的关系也不一定是严格的1:1,而转录层就可以解决这个问题。
CTC中有一种特殊的对齐方式,对于一个给定的输入,它可以计算对应所有可能的输出的概率分布。通过该概率分布,可以预测最大概率对应的输出或者某个特定输出的概率。CTC算法引入了一个特殊的字符——占位符,它表示一个占位,不对应任何字符,在最终的输出时要将其删除。具体效果如图8所示。
如图9和10所示,就是产证识别的效果图,产证上的信息大致都能识别出来,识别率也有着较高的保证。
如图11所示,本实施例还提供了一种与上述方法对应的产证文字的识别系统,包括:
获取模块A1,用于获取产证图像。
文字检测模块A2,用于采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域。
文本识别模块A3,用于采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。
作为一种可选的实施方式,所述文字检测模块,具体包括:
特征提取单元,用于采用不同的设定比例分别对所述产证图像进行特征提取,得到多个特征图,不同的设定比例对应不同的特征图。
特征融合单元,用于将多个所述特征图进行融合得到目标特征图。
概率阈值确定单元,用于确定所述目标特征图的概率图和阈值图。
二值图确定单元,用于根据所述阈值图和所述概率图得到二值图。
文字检测单元,用于对所述二值图进行轮廓提取得到文字区域。
作为一种可选的实施方式,所述二值图确定单元,具体为:
作为一种可选的实施方式,所述概率阈值确定单元,具体包括:
概率图确定子单元,用于采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图。
阈值图确定子单元,用于采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。
作为一种可选的实施方式,所述卷积递归神经网络包括:依次连接的卷积神经网络层、循环神经网络层和转录层。
所述系统可以部署在业务机上用于识别,使用时只需将图片以http请求格式发送到服务端,后台会进行一系列处理,最终返回结果集,配合高拍仪拍摄图片。除此之外,也可在windows或者linux上实时部署,支持docker容器虚拟化部署,已集成了现成的docker镜像,通过下载docker镜像即可快速实施部署。目前的识别模型也是较为轻量级的,同时提供了多种文本检测算法和文本识别算法。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明能快速精确的在离线状态下本地OCR快速识别出业务机上高拍仪拍摄的房产证图片,快速锁定其中要检索的信息,无需其他操作方便快捷,能便捷方便的识别文字释放劳动力和时间成本,能更准确的识别出目标文字,在识别率上有着良好的保证。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。
Claims (10)
1.一种产证文字的识别方法,其特征在于,包括:
获取产证图像;
采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域;
采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。
2.根据权利要求1所述的一种产证文字的识别方法,其特征在于,所述采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域,具体包括:
采用不同的设定比例分别对所述产证图像进行特征提取,得到多个特征图,不同的设定比例对应不同的特征图;
将多个所述特征图进行融合得到目标特征图;
确定所述目标特征图的概率图和阈值图;
根据所述阈值图和所述概率图得到二值图;
对所述二值图进行轮廓提取得到文字区域。
4.根据权利要求2所述的一种产证文字的识别方法,其特征在于,所述确定所述目标特征图的概率图和阈值图,具体包括:
采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图;
采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。
5.根据权利要求1所述的一种产证文字的识别方法,其特征在于,所述卷积递归神经网络包括:依次连接的卷积神经网络层、循环神经网络层和转录层。
6.一种产证文字的识别系统,其特征在于,包括:
获取模块,用于获取产证图像;
文字检测模块,用于采用可微分二值化处理算法对所述产证图像进行文字检测得到文字区域;
文本识别模块,用于采用卷积递归神经网络对所述文字区域进行文本识别得到所述产证图像的文本识别结果。
7.根据权利要求6所述的一种产证文字的识别系统,其特征在于,所述文字检测模块,具体包括:
特征提取单元,用于采用不同的设定比例分别对所述产证图像进行特征提取,得到多个特征图,不同的设定比例对应不同的特征图;
特征融合单元,用于将多个所述特征图进行融合得到目标特征图;
概率阈值确定单元,用于确定所述目标特征图的概率图和阈值图;
二值图确定单元,用于根据所述阈值图和所述概率图得到二值图;
文字检测单元,用于对所述二值图进行轮廓提取得到文字区域。
9.根据权利要求7所述的一种产证文字的识别系统,其特征在于,所述概率阈值确定单元,具体包括:
概率图确定子单元,用于采用Vatti clipping算法根据预设缩略比例对所述目标特征图进行缩略得到概率图;
阈值图确定子单元,用于采用Vatti clipping算法根据预设扩张比例对所述目标特征图进行扩张得到阈值图。
10.根据权利要求6所述的一种产证文字的识别系统,其特征在于,所述卷积递归神经网络包括:依次连接的卷积神经网络层、循环神经网络层和转录层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110256783.XA CN112818949A (zh) | 2021-03-09 | 2021-03-09 | 一种产证文字的识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110256783.XA CN112818949A (zh) | 2021-03-09 | 2021-03-09 | 一种产证文字的识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112818949A true CN112818949A (zh) | 2021-05-18 |
Family
ID=75863167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110256783.XA Pending CN112818949A (zh) | 2021-03-09 | 2021-03-09 | 一种产证文字的识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112818949A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343967A (zh) * | 2021-05-27 | 2021-09-03 | 山东师范大学 | 光学字符快速识别方法及系统 |
CN113723252A (zh) * | 2021-08-23 | 2021-11-30 | 上海财联社金融科技有限公司 | 一种表格型文本图片的识别方法和系统 |
CN114462539A (zh) * | 2022-02-10 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种内容分类模型的训练方法、内容分类的方法及装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110781967A (zh) * | 2019-10-29 | 2020-02-11 | 华中科技大学 | 一种基于可微分二值化的实时文本检测方法 |
CN111401372A (zh) * | 2019-12-20 | 2020-07-10 | 国家电网有限公司 | 一种扫描文档图文信息提取与鉴别的方法 |
CN111444876A (zh) * | 2020-04-08 | 2020-07-24 | 证通股份有限公司 | 一种图文处理方法、系统以及计算机可读存储介质 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN111832423A (zh) * | 2020-06-19 | 2020-10-27 | 北京邮电大学 | 一种票据信息识别方法、装置及系统 |
-
2021
- 2021-03-09 CN CN202110256783.XA patent/CN112818949A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109447078A (zh) * | 2018-10-23 | 2019-03-08 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN111476067A (zh) * | 2019-01-23 | 2020-07-31 | 腾讯科技(深圳)有限公司 | 图像的文字识别方法、装置、电子设备及可读存储介质 |
CN110647829A (zh) * | 2019-09-12 | 2020-01-03 | 全球能源互联网研究院有限公司 | 一种票据的文本识别方法及系统 |
CN110781967A (zh) * | 2019-10-29 | 2020-02-11 | 华中科技大学 | 一种基于可微分二值化的实时文本检测方法 |
CN111401372A (zh) * | 2019-12-20 | 2020-07-10 | 国家电网有限公司 | 一种扫描文档图文信息提取与鉴别的方法 |
CN111444876A (zh) * | 2020-04-08 | 2020-07-24 | 证通股份有限公司 | 一种图文处理方法、系统以及计算机可读存储介质 |
CN111832423A (zh) * | 2020-06-19 | 2020-10-27 | 北京邮电大学 | 一种票据信息识别方法、装置及系统 |
Non-Patent Citations (1)
Title |
---|
蔡鑫鑫等: "基于分割的任意形状场景文本检测", 《计算机系统应用》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113343967A (zh) * | 2021-05-27 | 2021-09-03 | 山东师范大学 | 光学字符快速识别方法及系统 |
CN113343967B (zh) * | 2021-05-27 | 2022-10-25 | 山东师范大学 | 光学字符快速识别方法及系统 |
CN113723252A (zh) * | 2021-08-23 | 2021-11-30 | 上海财联社金融科技有限公司 | 一种表格型文本图片的识别方法和系统 |
CN114462539A (zh) * | 2022-02-10 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种内容分类模型的训练方法、内容分类的方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020221298A1 (zh) | 文本检测模型训练方法、文本区域、内容确定方法和装置 | |
CN109117777B (zh) | 生成信息的方法和装置 | |
WO2019192397A1 (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN109858488B (zh) | 一种基于样本增强的手写样本识别方法与系统 | |
CN112818949A (zh) | 一种产证文字的识别方法及系统 | |
CN111738251A (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN109885796B (zh) | 一种基于深度学习的网络新闻配图匹配性检测方法 | |
CN110210480B (zh) | 文字识别方法、装置、电子设备和计算机可读存储介质 | |
CN112861842A (zh) | 基于ocr的案件文本识别方法及电子设备 | |
CN112766255A (zh) | 一种光学文字识别方法、装置、设备及存储介质 | |
Yang et al. | MIDI passage retrieval using cell phone pictures of sheet music | |
CN113205047A (zh) | 药名识别方法、装置、计算机设备和存储介质 | |
CN113657370B (zh) | 一种文字识别方法及其相关设备 | |
Khallouli et al. | Leveraging transfer learning and GAN models for OCR from engineering documents | |
CN113033269A (zh) | 一种数据处理方法及装置 | |
KR101705584B1 (ko) | 얼굴 정렬을 위한 특징점별 특징을 추출하기 위한 서술자 생성 시스템 및 이를 이용한 특징점별 서술자 생성 방법 | |
CN110580462B (zh) | 一种基于非局部网络的自然场景文本检测方法和系统 | |
KR102043693B1 (ko) | 기계 학습 기반의 문서 관리 시스템 | |
CN110610177A (zh) | 字符识别模型的训练方法、字符识别方法及装置 | |
Lei et al. | Noise-robust wagon text extraction based on defect-restore generative adversarial network | |
CN112380970B (zh) | 基于局部区域搜索的视频目标检测方法 | |
Mohammed et al. | Real Time Mobile Cloud Audio Reading System for Blind Persons | |
CN114387600A (zh) | 文本特征识别方法、装置、计算机设备和存储介质 | |
CN108021918B (zh) | 文字识别方法及装置 | |
CN115004261A (zh) | 文本行检测 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210518 |