CN112085022B - 一种用于识别文字的方法、系统及设备 - Google Patents
一种用于识别文字的方法、系统及设备 Download PDFInfo
- Publication number
- CN112085022B CN112085022B CN202010942927.2A CN202010942927A CN112085022B CN 112085022 B CN112085022 B CN 112085022B CN 202010942927 A CN202010942927 A CN 202010942927A CN 112085022 B CN112085022 B CN 112085022B
- Authority
- CN
- China
- Prior art keywords
- text
- target
- detected
- image
- text box
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 32
- 238000001514 detection method Methods 0.000 claims abstract description 26
- 238000012216 screening Methods 0.000 claims abstract description 18
- 230000015654 memory Effects 0.000 claims description 20
- 230000006870 function Effects 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000010586 diagram Methods 0.000 claims description 9
- 238000007781 pre-processing Methods 0.000 claims description 8
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 125000004122 cyclic group Chemical group 0.000 claims description 3
- 238000004458 analytical method Methods 0.000 abstract description 5
- 230000001105 regulatory effect Effects 0.000 abstract 1
- 238000004590 computer program Methods 0.000 description 4
- 230000005291 magnetic effect Effects 0.000 description 4
- 238000012015 optical character recognition Methods 0.000 description 4
- 238000002372 labelling Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000006403 short-term memory Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000000342 Monte Carlo simulation Methods 0.000 description 1
- 201000005625 Neuroleptic malignant syndrome Diseases 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000005764 inhibitory process Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Character Discrimination (AREA)
Abstract
本申请的目的是提供一种用于识别文字的方法、系统及设备,本申请通过检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字,并保证了图像内容解析的完整性,避免了文字的漏识别。
Description
技术领域
本申请涉及计算机领域,尤其涉及一种用于识别文字的方法、系统及设备。
背景技术
目前光学字符识别(OCR)的应用场景主要分为以下三个方面:自然场景下多形态文本检测与识别、手写体文本检测与识别、文档的文本检测与识别(版面分析等)。现有的主流自然场景OCR模型为文字检测结合文字识别均有其局限性和缺陷,例如:
(1)CTPN(基于Faster RCNN):目前比较成熟的文本检测框架,精确度较好,但是检测时间较长,有很大的优化空间;
(2)TextBoxes、TextBoxes++(基于SSD):适用于文字细长的特点,但针对小文本会有漏检;
(3)SegLink(CTPN+SSD):通常用于自然场景下,检测多角度文本;
(4)DMPNet:采用非矩形四边形选定Anchor进行检测,通过Monte-Carlo方法计算标注区域于矩形候选框和旋转候选框的重合度后重新计算顶点坐标,得到非矩形四边形的顶点坐标。适用于自然场景下文本检测;
(5)EAST:采取FCN思路,做特征提取和特征融合,局部感知NMS阶段完成检测,网络的简洁使得检测准确率和速度都有进一步提升;
(6)CNN(如Densenet)+CTC:效果一般,泛化能力较差;
(7)Tesserocr(Tesseract):使用比较广泛的一种开源识别框架,支持多语言多平台,在识别清晰的标准中文字体效果还行,稍微复杂的情况很糟糕(多字体等),且耗时较长。
发明内容
本申请的一个目的是提供一种用于识别文字的方法、系统及设备,解决现有技术中光学字符识别模型耗时长、精度低、完整性差以及应用场景单一的问题。
根据本申请的一个方面,提供了一种用于识别文字的方法,该方法包括:
检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;
对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;
根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;
将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。
进一步地,所述从所述多个文本框中筛选出目标文本框,包括:
根据所述目标待检测图像生成所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标;
将所有文本框的真实坐标一一进行置信度计算,以确定每个文本框对应的置信度,基于所述置信度筛选所有文本框以确定目标文本框。
进一步地,所述检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,包括:
获取所述待检测图像,使用预设检测模型检测所述待检测图像中的文字方向,根据所述文字方向将所述待检测图像旋转至正向。
进一步地,所述根据所述目标待检测图像生成所有文本框对应的特征图包括:
使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标,根据所有文本框的预测坐标确定特征图。
进一步地,所述计算所述特征图以确定所有文本框的真实坐标包括:
使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标。
进一步地,所述基于所述置信度筛选所有文本框以确定目标文本框,包括:
根据每一个文本框对应的置信度计算确定每一个文本框的分值,判断所述分值是否大于预设得分阈值,若是,则将所述分值对应的文本框合并为目标文本框。
进一步地,所述根据所述目标文本框生成序列化的卷积特征图,包括:
根据所述目标文本框计算确定对应的卷积特征图,根据所述卷积特征图中的指定列上的数据信息生成序列化的卷积特征图。
进一步地,所述计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息,包括:
使用双向循环神经网络计算所述序列化的卷积特征图以确定对应的矩阵,根据所述矩阵确定所述目标文本框中的文字信息。
根据本申请的另一个方面,还提供了一种用于识别文字的系统,其中,所述系统包括预处理模块、过滤模块、识别模块和解码模块,其中,
所述预处理模块用于检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;
所述过滤模块用于对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;
所述识别模块用于根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;
所述解码模块用于将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。
根据本申请的再一个方面,还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如前述任一项所述的方法。
根据本申请的又一个方面,还提供了一种用于识别文字的设备,其中,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如前述任一项所述方法的操作。
与现有技术相比,本申请通过检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字,并保证了图像内容解析的完整性,避免了文字的漏识别。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请的一个方面提供的一种用于识别文字的方法流程示意图;
图2示出根据本申请的一个方面提供的一种用于识别文字的系统框架结构示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出根据本申请的一个方面提供的一种用于识别文字的方法流程示意图,所述方法包括:步骤S11~S14,其中,步骤S11,检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;步骤S12,对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;步骤S13,根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;步骤S14,将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字,并保证了图像内容解析的完整性,避免了文字的漏识别。
具体地,步骤S11,检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像。在此,获取待检测图像并检测所述待检测图像中的文字方向,所述文字方向为文字的朝向,可以由文字与对应的字表中的字体的夹角来定义,也可以由文字与预设坐标轴的夹角来定义。在实际应用场景中,可以基于待检测图像计算所有的文字角度对应的概率值,取概率值最大的文字角度作为所述文字方向。接着,根据所述检测的结果调整所述待检测图像的方向,将所述待检测图像的方向调整至指定方向,例如将所述待检测图像的方向调整至与对应字表中的字体角度相一致,以便于对待检测图像进行高效精确的文字识别。
步骤S12,对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框。在此,可以将所述目标待检测图像以指定尺寸进行分割处理确定多个文本框,其中,所述多个文本框均指代真实的文本框区域。接着,可以使用卷积神经网络从所述多个文本框中筛选出目标文本框,以便于提高文字识别的覆盖率,避免漏识别以及错识别的发生,同时提高文字识别的效率。
步骤S13,根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息。在此,根据所述目标文本框的坐标信息生成序列化的卷积特征图,例如通过卷积神经网络计算所述目标文本框的坐标信息得到卷积特征图,将所述卷积特征图序列化以计算所述目标文本框中的文字对应的数据,例如所述目标文本框中的文字对应的矩阵,以精确地识别目标文本框中的文字。
步骤S14,将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。在此,计算所述目标文本框中的文字信息的概率值,将所述文字信息对应的最大概率的文字类别确定为所述目标文本框中的文字类别信息,基于所述目标文本框中的文字类别信息进行对应的汉字表解码以确定所述目标文本框中的文字。通过汉字表解码可以快速准确地识别目标文本框中的文字。
在本申请一优选实施例中,在步骤S12中,根据所述目标待检测图像生成所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标;将所有文本框的真实坐标一一进行置信度计算,以确定每个文本框对应的置信度,基于所述置信度筛选所有文本框以确定目标文本框。在此,根据所述目标待检测图像通过计算生成所有文本框对应的特征图,例如使用卷积神经网络将所述目标待检测图像计算后得到所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标,其中,所述文本框的真实坐标为文本框的四个角点的真实坐标。接着,将所有文本框的真实坐标一一进行置信度计算,当所述置信度高于某个值时,该置信度对应的文本框为目标文本框。
在本申请一优选实施例中,在步骤S11中,获取所述待检测图像,使用预设检测模型检测所述待检测图像中的文字方向,根据所述文字方向将所述待检测图像旋转至正向。在此,所述预设检测模型可以为YOLO_v3,使用YOLO_v3检测所述待检测图像,将所述待检测图像经过YOLO_v3中的卷积神经网络计算后确定文字方向,根据所述文字方向将所述待检测图像旋转至正向,以便于高效精确地完成对文字的识别处理。
在本申请一优选实施例中,获取待检测图像并检测所述待检测图像中的文字方向,剪切图像边缘,将图像变成(224,224,3)的固定尺寸,使用YOLO_v3检测所述待检测图像,通过vgg16卷积神经网络以及softmax逻辑回归模型预测待检测图像中的文字朝向,可以使用softmax逻辑回归模型把文字朝向对应的每一个角度计算对应的概率值,取概率最大的那个角度作为预测的文字朝向,基于所述预测的文字朝向将待检测图像旋转至正向。还可以根据所述预测的文字朝向确定文字的倾斜角度,调整所述文字的倾斜角度直至与最后的字表中的文字方向相一致,以便于进行文本识别。
在本申请一优选实施例中,在步骤S12中,使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标,根据所有文本框的预测坐标确定特征图。在此,使用卷积神经网络计算所述特征图以确定每个文本框的多个预测坐标,也就是确定每个文本框的多个预测文本框的位置,根据每个文本框的多个预测坐标来确定所有文本框的真实坐标,其中,所述文本框的真实坐标为文本框的四个角点的真实坐标。接着,基于所述所有文本框的预测坐标来确定或更新特征图。
在本申请一优选实施例中,在步骤S12中,使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标。在此,使用损失函数(loss function)计算所有的预测坐标以确定每一个预测坐标是否正确,例如,当使用损失函数计算的预测坐标得到的损失小于损失阈值,则表示该预测坐标是正确的,此时将该预测坐标作为文本框的真实坐标。
在本申请一优选实施例中,在步骤S12中,根据每一个文本框对应的置信度计算确定每一个文本框的分值,判断所述分值是否大于预设得分阈值,若是,则将所述分值对应的文本框合并为目标文本框。在此,可以使用YOLO_v3将每一个文本框对应的置信度计算为每一个文本框的分值。接着,过滤所述分值小于预设得分阈值的文本框,也就是进行非极大抑制,以滤除重复的文本框,将所述分值大于预设得分阈值的文本框合并为目标文本框以便于高效地进行对所述目标文本框的文字识别处理。
在本申请一优选实施例中,通过YOLO_v3中的yolo_head分支将经过损失函数计算后的每一个文本框(box)的长短宽高四个量转换成真实坐标,并计算对应的置信度(box_confidence)以确定每一个文本框的分值(box_score),计算过程可以为:box_score=box_confidence*box_class_probs,其中,box_class_probs为文本框的检测概率;当置信度为0或1时,将box中位于待检测图像外的坐标换成在图像中对应的边缘点,所述边缘点的坐标为(m,4),所述4是box的真实坐标(x1,y1,x2,y2),分值为(m,1)。
在本申请一优选实施例中,在步骤S13中,根据所述目标文本框计算确定对应的卷积特征图,根据所述卷积特征图中的指定列上的数据信息生成序列化的卷积特征图。在此,基于所述目标文本框的坐标计算对应的卷积特征图。例如,将所述目标文本框使用CRNN进行计算得到对应的卷积特征图,接着使用卷积神经网络(CNN)将所述卷积特征图中的高度变为1,去除该维度,将宽度作为长短期记忆人工神经网络(LSTM)的时间,也就是将卷积特征图中的每一列或者每几列作为一个时间序列输入特征,生成了序列化的卷积特征图。
在本申请一优选实施例中,在步骤S13中,使用双向循环神经网络计算所述序列化的卷积特征图以确定对应的矩阵,根据所述矩阵确定所述目标文本框中的文字信息。在此,所述双向循环神经网络优选为双向长短期记忆人工神经网络(BiLSTM),以精确地确定所述目标文本框中的文字信息。
在本申请一优选实施例中,使用YOLO_v3检测待检测图像的文字朝向,根据所述文字方向调整文字识别倾斜角度。将待检测图像压缩变成(224,224,3)的尺寸,通过vgg16以及softmax预测文字朝向,在此,将所有可能的文字朝向对应的角度都试一遍,对每个角度返回一个概率值,取概率最大的那个角度作为预测的角度,根据预测的角度预测文字朝向,根据预测的文字朝向将待检测图像旋转至正向。
接着,待检测图像中文字的标注是范围框选确定的,在每个标注框中对其进行宽为8,高为文本框单位高度的分割,将每一个小框作为真实的文本框区域,并标记true_boxes的标签。预设输入卷积神经网络的待检测图像尺寸为256*256,计算得到的特征图(feature map)为[y1,y2,y3],预测的文本框由1个主体目标框和4个存在一定偏移误差的框组成,将true_boxes的标签变成与预测锚框(anchor box)相同的格式标签y_true。然后将预测的特征图feature map[y1,y2,y3]与y_true输入损失函数(loss function)以判断预测是否准确,loss function的损失越低,代表预测的越准确。通过yolo_head分支将所有文本框的长短宽高四个量转换成真实坐标并计算置信度(box_confidence)。根据置信度计算每一个文本框的分值(box_score),计算过程为:box_score=box_confidence*box_class_probs。当box_confidence为0或者1时,将box中超出所述待检测图像的尺寸的坐标换成在所述待检测图像中对应的边缘点box.shape=(m,4),4是box的真实坐标(x1,y1,x2,y2),分值为(m,1)。
接着过滤掉分值小于预设最小分值的文本框,通过非极大抑制剔除掉重复的文本框,将剩余的文本框合并成为目标文本框,也就是连接文本区域变成文本行,得到所述目标文本框的坐标[len(bboxes),[x1,y1,x2,y2,x3,y3,x4,y4]]。
接上述实施例,将目标文本框灰度化后,使用卷积神经网络(CNN)进行文本识别。在此,对待检测图像按比例裁剪,裁剪出高为32的图片,处理后的图片尺寸为[1,1,32,scale×w]。接着,输入CNN中得到特征图,CNN输出时将高度变成1,把宽度当做长短期记忆人工神经网络(LSTM)的时间,也就是将特征图中的每一列或者每几列作为一个时间序列生成序列化的特征图,将所述序列化的特征图输入双向长短期记忆人工神经网络(BiLSTM),最后得到包含文字信息的矩阵[T,b,n_class],其中,n_class对应了字库中字的数量,在本实施例中n_class对应的字库中含有5530个汉字,文字识别预测结果为[16,1,5530]。然后,取5530类汉字中概率最大的类别[16,1],将所述文字信息矩阵[16,1]用汉字表进行解码以确定所述目标文本框中的文字。
图2示出根据本申请的一个方面提供的一种用于识别文字的系统框架结构示意图,其中,所述系统包括预处理模块100、过滤模块200、识别模块300和解码模块400,其中,所述预处理模块100用于检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;所述过滤模块200用于对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;所述识别模块300用于根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;所述解码模块400用于将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。从而快速精确识别待检测图像中的文字,并保证了图像内容解析的完整性,避免了文字的漏识别。
需要说明的是,预处理模块100、过滤模块200、识别模块300和解码模块400执行的内容分别与上述步骤S11、S12、S13和S14中的内容相同或相应相同,为简明起见,在此不再赘述。
此外,本申请实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述一种用于识别文字的方法。
根据本申请再一个方面,还提供了一种用于识别文字的设备,其中,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行前述的一种用于识别文字的方法的操作。
例如,计算机可读指令在被执行时使所述一个或多个处理器:检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
Claims (5)
1.一种用于识别文字的方法,其中,所述方法包括:
检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;
对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;
根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;
将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字;
其中,检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,包括:
获取所述待检测图像,使用YOLO_v3检测所述待检测图像中的文字方向,根据所述文字方向将所述待检测图像旋转至正向;
其中,从所述多个文本框中筛选出目标文本框,包括:
根据所述目标待检测图像生成所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标;
将所有文本框的真实坐标一一进行置信度计算,以确定每个文本框对应的置信度,基于所述置信度筛选所有文本框以确定目标文本框;
其中,根据所述目标待检测图像生成所有文本框对应的特征图包括:
使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标,根据所有文本框的预测坐标确定特征图;
其中,计算所述特征图以确定所有文本框的真实坐标包括:
使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标;
其中,根据所述目标文本框生成序列化的卷积特征图,包括:
根据所述目标文本框计算确定对应的卷积特征图,根据所述卷积特征图中的指定列上的数据信息生成序列化的卷积特征图;
其中,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息,包括:
使用双向循环神经网络计算所述序列化的卷积特征图以确定对应的矩阵,根据所述矩阵确定所述目标文本框中的文字信息。
2.根据权利要求1所述的方法,其中,所述基于所述置信度筛选所有文本框以确定目标文本框,包括:
根据每一个文本框对应的置信度计算确定每一个文本框的分值,判断所述分值是否大于预设得分阈值,若是,则将所述分值对应的文本框合并为目标文本框。
3.一种用于识别文字的系统,其中,所述系统包括预处理模块、过滤模块、识别模块和解码模块,其中,
所述预处理模块用于检测获取到的待检测图像中的文字方向,根据检测的结果调整所述待检测图像的方向,得到目标待检测图像;
所述过滤模块用于对所述目标待检测图像进行分割处理确定多个文本框,从所述多个文本框中筛选出目标文本框;
所述识别模块用于根据所述目标文本框生成序列化的卷积特征图,计算所述序列化的卷积特征图以确定所述目标文本框中的文字信息;
所述解码模块用于将所述目标文本框中的文字信息进行汉字表解码以确定所述目标文本框中的文字;
其中,所述预处理模块用于获取所述待检测图像,使用YOLO_v3检测所述待检测图像中的文字方向,根据所述文字方向将所述待检测图像旋转至正向;
其中,所述过滤模块用于根据所述目标待检测图像生成所有文本框对应的特征图,计算所述特征图以确定所有文本框的真实坐标,将所有文本框的真实坐标一一进行置信度计算,以确定每个文本框对应的置信度,基于所述置信度筛选所有文本框以确定目标文本框;
其中,所述过滤模块用于使用卷积神经网络根据所述目标待检测图像生成所有文本框的多个预测坐标,根据所有文本框的预测坐标确定特征图;
其中,所述过滤模块用于使用损失函数计算所有文本框的预测坐标以确定所有文本框的真实坐标;
其中,所述识别模块用于根据所述目标文本框计算确定对应的卷积特征图,根据所述卷积特征图中的指定列上的数据信息生成序列化的卷积特征图;
其中,所述识别模块用于使用双向循环神经网络计算所述序列化的卷积特征图以确定对应的矩阵,根据所述矩阵确定所述目标文本框中的文字信息。
4.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1或2所述的方法。
5.一种用于识别文字的设备,其中,所述设备包括:
一个或多个处理器;以及
存储有计算机可读指令的存储器,所述计算机可读指令在被执行时使所述处理器执行如权利要求1或2所述方法的操作。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010942927.2A CN112085022B (zh) | 2020-09-09 | 2020-09-09 | 一种用于识别文字的方法、系统及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010942927.2A CN112085022B (zh) | 2020-09-09 | 2020-09-09 | 一种用于识别文字的方法、系统及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112085022A CN112085022A (zh) | 2020-12-15 |
CN112085022B true CN112085022B (zh) | 2024-02-13 |
Family
ID=73732957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010942927.2A Active CN112085022B (zh) | 2020-09-09 | 2020-09-09 | 一种用于识别文字的方法、系统及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112085022B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112580655B (zh) * | 2020-12-25 | 2021-10-08 | 特赞(上海)信息科技有限公司 | 基于改进craft的文本检测方法及装置 |
CN112883818A (zh) * | 2021-01-26 | 2021-06-01 | 上海西井信息科技有限公司 | 文本图像识别方法、系统、设备及存储介质 |
CN113065423A (zh) * | 2021-03-19 | 2021-07-02 | 国网电子商务有限公司 | 一种基于深度学习的票证关键信息提取方法和装置 |
CN113269183A (zh) * | 2021-05-21 | 2021-08-17 | 上海蜜度信息技术有限公司 | 一种用于确定文字图片的方法与设备 |
CN115019310B (zh) * | 2022-08-05 | 2022-11-29 | 上海蜜度信息技术有限公司 | 图文识别方法及设备 |
CN115830613A (zh) * | 2023-01-09 | 2023-03-21 | 广州佰锐网络科技有限公司 | 文档智能采集分拣方法、调取方法、存储介质和系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110210581A (zh) * | 2019-04-28 | 2019-09-06 | 平安科技(深圳)有限公司 | 一种手写文本识别方法及装置、电子设备 |
CN110674804A (zh) * | 2019-09-24 | 2020-01-10 | 上海眼控科技股份有限公司 | 文本图像的检测方法、装置、计算机设备和存储介质 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
WO2020113412A1 (zh) * | 2018-12-04 | 2020-06-11 | 深圳大学 | 一种目标检测方法和系统 |
WO2020133442A1 (zh) * | 2018-12-29 | 2020-07-02 | 华为技术有限公司 | 一种识别文本的方法及终端设备 |
CN111401371A (zh) * | 2020-06-03 | 2020-07-10 | 中邮消费金融有限公司 | 一种文本检测识别方法、系统及计算机设备 |
CN111401354A (zh) * | 2020-03-24 | 2020-07-10 | 南京红松信息技术有限公司 | 一种基于端到端自适应的垂直粘连字符的识别方法 |
CN111563505A (zh) * | 2019-02-14 | 2020-08-21 | 北京奇虎科技有限公司 | 一种基于像素分割合并的文字检测方法及装置 |
-
2020
- 2020-09-09 CN CN202010942927.2A patent/CN112085022B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020113412A1 (zh) * | 2018-12-04 | 2020-06-11 | 深圳大学 | 一种目标检测方法和系统 |
WO2020133442A1 (zh) * | 2018-12-29 | 2020-07-02 | 华为技术有限公司 | 一种识别文本的方法及终端设备 |
US10671878B1 (en) * | 2019-01-11 | 2020-06-02 | Capital One Services, Llc | Systems and methods for text localization and recognition in an image of a document |
CN111563505A (zh) * | 2019-02-14 | 2020-08-21 | 北京奇虎科技有限公司 | 一种基于像素分割合并的文字检测方法及装置 |
CN110097049A (zh) * | 2019-04-03 | 2019-08-06 | 中国科学院计算技术研究所 | 一种自然场景文本检测方法及系统 |
CN110210581A (zh) * | 2019-04-28 | 2019-09-06 | 平安科技(深圳)有限公司 | 一种手写文本识别方法及装置、电子设备 |
CN110674804A (zh) * | 2019-09-24 | 2020-01-10 | 上海眼控科技股份有限公司 | 文本图像的检测方法、装置、计算机设备和存储介质 |
CN111401354A (zh) * | 2020-03-24 | 2020-07-10 | 南京红松信息技术有限公司 | 一种基于端到端自适应的垂直粘连字符的识别方法 |
CN111401371A (zh) * | 2020-06-03 | 2020-07-10 | 中邮消费金融有限公司 | 一种文本检测识别方法、系统及计算机设备 |
Non-Patent Citations (2)
Title |
---|
weakly supervised text attention network for generating text proposals in scene images;Li Rong;2017 14th IAPR International Conference on Document Analysis and Recognition;324-330 * |
基于深度神经网络损失函数融合的文本检测;罗时婷;顾磊;;计算机工程与应用;第56卷(第16期);90-96 * |
Also Published As
Publication number | Publication date |
---|---|
CN112085022A (zh) | 2020-12-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112085022B (zh) | 一种用于识别文字的方法、系统及设备 | |
CN110827247A (zh) | 一种识别标签的方法及设备 | |
CN110348360B (zh) | 一种检测报告识别方法及设备 | |
CN111507330B (zh) | 习题识别方法、装置、电子设备及存储介质 | |
CN110276295B (zh) | 车辆识别号码检测识别方法及设备 | |
CN112926469B (zh) | 基于深度学习ocr与版面结构的证件识别方法 | |
CN111191649A (zh) | 一种识别弯曲多行文本图像的方法与设备 | |
CN113591746B (zh) | 一种文档表格结构检测方法及装置 | |
CN110879972B (zh) | 一种人脸检测方法及装置 | |
CN113505781B (zh) | 目标检测方法、装置、电子设备及可读存储介质 | |
CN111507332A (zh) | 车辆vin码检测方法与设备 | |
CN110796078A (zh) | 车辆的灯光检测方法、装置、电子设备及可读存储介质 | |
CN111415364A (zh) | 一种计算机视觉中图像分割样本的转换方法、系统及存储介质 | |
CN111652144A (zh) | 基于目标区域融合的题目分割方法、装置、设备和介质 | |
CN110765963A (zh) | 车辆制动检测方法、装置、设备及计算机可读存储介质 | |
CN110728193B (zh) | 一种脸部图像丰富度特征的检测方法及设备 | |
CN111563505A (zh) | 一种基于像素分割合并的文字检测方法及装置 | |
CN116597466A (zh) | 一种基于改进YOLOv5s的工程图纸文字检测识别方法及系统 | |
CN116342525A (zh) | 基于Lenet-5模型的SOP芯片引脚缺陷检测方法及系统 | |
CN114882204A (zh) | 船名自动识别方法 | |
CN115019310B (zh) | 图文识别方法及设备 | |
CN112434585A (zh) | 一种车道线的虚实识别方法、系统、电子设备及存储介质 | |
CN111488846A (zh) | 一种识别水位的方法及设备 | |
CN110826488A (zh) | 一种针对电子文档的图像识别方法、装置及存储设备 | |
CN111818557B (zh) | 网络覆盖问题识别方法、装置及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
CB02 | Change of applicant information | ||
CB02 | Change of applicant information |
Address after: Room 301ab, No.10, Lane 198, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai 201204 Applicant after: Shanghai Mido Technology Co.,Ltd. Address before: Room 301ab, No.10, Lane 198, zhangheng Road, Pudong New Area pilot Free Trade Zone, Shanghai 201204 Applicant before: SHANGHAI MDATA INFORMATION TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |