CN111860479B - 光学字符识别方法、装置、电子设备及存储介质 - Google Patents
光学字符识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN111860479B CN111860479B CN202010550694.1A CN202010550694A CN111860479B CN 111860479 B CN111860479 B CN 111860479B CN 202010550694 A CN202010550694 A CN 202010550694A CN 111860479 B CN111860479 B CN 111860479B
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- region
- line
- text region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000012015 optical character recognition Methods 0.000 title claims abstract description 24
- 238000000605 extraction Methods 0.000 claims description 48
- 238000012545 processing Methods 0.000 claims description 45
- 230000004044 response Effects 0.000 claims description 27
- 238000010586 diagram Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 21
- 238000001514 detection method Methods 0.000 claims description 18
- 238000012549 training Methods 0.000 claims description 13
- 238000004458 analytical method Methods 0.000 claims description 8
- 238000010801 machine learning Methods 0.000 claims description 7
- 239000000758 substrate Substances 0.000 claims 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 2
- 238000013135 deep learning Methods 0.000 abstract description 2
- 238000004364 calculation method Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000013461 design Methods 0.000 description 4
- 101001018259 Homo sapiens Microtubule-associated serine/threonine-protein kinase 1 Proteins 0.000 description 3
- 101000693728 Homo sapiens S-acyl fatty acid synthase thioesterase, medium chain Proteins 0.000 description 3
- 102100025541 S-acyl fatty acid synthase thioesterase, medium chain Human genes 0.000 description 3
- 238000013527 convolutional neural network Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000001629 suppression Effects 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000004883 computer application Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 239000013585 weight reducing agent Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/082—Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/26—Techniques for post-processing, e.g. correcting the recognition result
- G06V30/262—Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2210/00—Indexing scheme for image generation or computer graphics
- G06T2210/12—Bounding box
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Mathematical Physics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Computer Graphics (AREA)
- Databases & Information Systems (AREA)
- Geometry (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了光学字符识别方法、装置、电子设备及存储介质,涉及人工智能领域和深度学习领域,其中的方法可包括:针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从待识别的图片中提取出文本区域图片;确定出文本区域图片中的文本行的包围框,根据所述包围框从文本区域图片中提取出文本行图片;对文本行图片进行文本序列识别,得到识别结果。应用本申请所述方案,可提升识别速度等。
Description
技术领域
本申请涉及计算机应用技术,特别人工智能和深度学习领域的光学字符识别方法、装置、电子设备及存储介质。
背景技术
光学字符识别(OCR,Optical Character Recognition)技术在工业界有着广泛的应用,如证件识别等。目前的OCR实现方法通常都比较复杂,从而导致识别速度较慢等。
发明内容
本申请提供了光学字符识别方法、装置、电子设备及存储介质。
一种光学字符识别方法,包括:
针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;
确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;
对所述文本行图片进行文本序列识别,得到识别结果。
一种光学字符识别装置,包括:第一图片处理模块、第二图片处理模块以及文本识别模块;
所述第一图片处理模块,用于针对待识别的图片,确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;
所述第二图片处理模块,用于确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;
所述文本识别模块,用于对所述文本行图片进行文本序列识别,得到识别结果。
一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如以上所述的方法。
一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
上述申请中的一个实施例具有如下优点或有益效果:可首先对待识别的图片进行文本区域提取,之后可从文本区域中进一步提取出文本行,进而可对文本行进行文本序列识别,从而得到识别结果,在保证较高识别精度的前提下,具有逻辑简单、计算量小等特点,从而提升了识别速度,可在GPU及CPU等各种计算环境下运行,具有广泛适用性。应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1为本申请所述光学字符识别方法实施例的流程图;
图2为本申请所述光学字符识别方法的整体实现过程示意图;
图3为本申请所述光学字符识别装置实施例30的组成结构示意图;
图4为根据本申请实施例所述方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
图1为本申请所述光学字符识别方法实施例的流程图。如图1所示,包括以下具体实现方式。
在101中,针对待识别的图片,确定出其中的文本区域的包围框,根据包围框从待识别的图片中提取出文本区域图片。
在102中,确定出文本区域图片中的文本行的包围框,根据包围框从文本区域图片中提取出文本行图片。
在103中,对文本行图片进行文本序列识别,得到识别结果。
上述方法具有逻辑简单、计算量小等特点,从而可提升识别速度,并可在图形处理器(GPU,Graphics Processing Unit)及中央处理器(CPU,Central Processing Unit)等各种计算环境下运行,具有广泛适用性。
在确定出文本区域图片中的文本行的包围框之前,还可确定出文本区域图片的调整方式,并可按照确定出的调整方式对文本区域图片进行尺寸调整。
在实际应用中,可能从待识别的图片中确定出一个文本区域,也可能确定出多个文本区域,当为多个文本区域时,各文本区域可按照相同的方式进行处理。
在同一图片中,文本的尺寸变化可能非常大,对于一些尺寸过大或过小的文本,单模型、单尺度的检测往往很难精确地检测到完整的文本行。传统的处理方式是,对于一张输入图片,先将其按比例缩放到几种不同的尺寸,缩放后的图片再分别输入文本检测器进行检测,最后通过后处理策略如非极大值抑制(NMS,Non Maximum Suppression)等,将不同输入尺寸下的检测结果整合在一起得到最终的检测结果。这种方式建立在一个假设上,即经过不同尺寸的缩放,每个文本行都会有至少一次被缩放到文本检测器较为适合检测的尺寸。但这种处理方式至少存在以下问题:1)由于需要处理多张不同尺寸的输入整图,而整图级别的计算量是相当可观的,因此效率低下,而且,如果缩放尺寸选择不合适,文本行并没有被缩放到合适的尺寸,势必会造成计算资源的浪费;2)对于同一文本行,如果在多个尺寸下均被文本检测器检测出来,那么需要通过一定的先验规则来选择保留哪个结果,而这种人工设计的先验规则往往鲁棒性不佳,会造成精度的损失等。
针对上述问题,本实施例中提出,可将待识别的图片输入预先训练得到的轻量级文本尺度预判模型,得到输出的单通道的文本区域掩膜(TM,Text Mask)图以及文本尺度(TS,Text Scale)图,其中,文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率,文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值,文本行的边包括宽和高,通常来说,相比于宽,高的尺寸会更小。相应地,可根据文本区域掩膜图确定出待识别的图片中的文本区域的包围框,可根据文本尺度图确定出文本区域图片的调整方式。
轻量级文本尺度预判模型中可包括:第一特征提取模块、第一预测模块以及第二预测模块,其中,第一特征提取模块用于对输入的图片进行特征提取,第一预测模块用于根据特征提取结果生成文本区域掩膜图,第二预测模块用于根据特征提取结果生成文本尺度图。
轻量级文本尺度预判模型可为一个全卷积网络,第一特征提取模块可为一个小型的卷积神经网络(CNN,Convolutional Neural Network),基于第一特征提取模块的特征提取结果,第一预测模块可对图片中的文本区域进行分割,第二预测模块可预测每个文本区域中的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值(比例)。第一预测模块和第二预测模块中可分别包含3个卷机层。相应地,轻量级文本尺度预判模型的最终输出为两个单通道的分割图,即文本区域掩膜图以及文本尺度图。在文本区域掩膜图中,各像素点的取值分别表示对应像素点属于文本区域的概率,所述概率可为0到1之间的值,在文本尺度图中,各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值。
训练阶段,对于文本区域掩膜图,背景区域即非文本区域中的各像素点的取值可为0,而文本区域中的各像素点的取值可为1,对于文本尺度图,各像素点的取值即为对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值。最佳尺寸可以是一个超参数,具体取值可根据实际需要而定。在损失函数的选取方面,第一预测模块可选用dice-loss,第二预测模块可选用smooth-L1 loss。
预测阶段,将待识别的图片输入轻量级文本尺度预判模型,得到输出的文本区域掩膜图以及文本尺度图,之后,可通过连通域分析,确定出文本区域掩膜图中的所有文本连通域,每个文本连通域分别表示一个单独的文本区域,针对任一文本连通域,即针对每个文本连通域,可分别确定出待识别的图片中包含该文本连通域的最小矩形,作为该文本连通域对应的文本区域的包围框,进而可根据所述包围框从待识别的图片中提取出文本区域图片。
针对每个文本区域图片,可分别确定出该文本区域图片中的各像素点在文本尺度图中的取值,该文本区域图片中的各像素点在文本尺度图中的取值相同,也就是说,本实施例中,假定同一文本区域中的各文本行的尺寸相同,如同一文本区域中的各文本行的高的尺寸相同,相比于宽,高的尺寸通常较小。那么,对于每个文本区域图片,其对应的调整方式可为:在保留该文本区域图片的宽高比的前提下,对该文本区域图片的宽和高的尺寸进行调整,使得调整后的文本行的最短边的尺寸等于所述最佳尺寸。
通过上述处理方式,可基于轻量级文本尺度预判模型输出的文本区域掩膜图以及文本尺度图,快速准确地确定出待识别的图片中的文本区域,并可直接将文本区域图片的尺寸调整为适合的尺寸,从而方便了后续处理,提升了后续处理结果的准确性,并避免了传统方式中将图片缩放为多个不同尺寸所造成的效率低下及精度损失等问题。
针对每个文本区域图片,可分别确定出该文本区域图片中的各文本行的包围框,并可根据所述包围框从文本区域图片中提取出各文本行图片。
可将文本区域图片输入预先训练得到的轻量级文本检测模型,得到输出的单通道的文本中心线(TCL,Text Center Line)响应图以及四通道的文本边界区域偏移(TBO,TextBorder Offset)图。其中,文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率,文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离。
轻量级文本检测模型中可包括:第二特征提取模块、第三预测模块以及第四预测模块,其中,第二特征提取模块用于对输入的图片进行特征提取,第三预测模块用于根据特征提取结果生成文本中心线响应图,第四预测模块用于根据特征提取结果生成文本边界区域偏移图。
轻量级文本检测模型可以是在现有的单发任意形状文本(SAST,Single-ShotArbitrarily-Shaped Text)模型的基础上进行适当简化得到的,其中的第二特征提取模块可采用轻量级的深度残差网络,如Resnet-18,从而将特征提取的计算量尽量降低,并可将SAST的四个预测分支简化为两个分支,即上述第三预测模块和第四预测模块,第三预测模块和第四预测模块可分别包含4个卷积层。因此,轻量级文本检测模型为一个全卷积网络,最终的输出包括文本中心线响应图和文本边界区域偏移图,文本中心线响应图为单通道的,其中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率,所述概率可为0到1之间的值,文本边界区域偏移图为四通道的,其中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离,也就是说,对于任一像素点的取值来说,分别表示对应像素点距离其所属文本行的上边界的水平距离、距离其所属文本行的上边界的垂直距离、距离其所属文本行的下边界的水平距离以及距离其所属文本行的下边界的垂直距离。
训练阶段,可沿用SAST的配置,文本中心线响应图可采用dice-loss进行监督,文本边界区域偏移图可采用smooth-L1 loss进行监督。
预测阶段,将文本区域图片输入轻量级文本检测模型,得到输出的文本中心线响应图以及文本边界区域偏移图,之后,可结合文本中心线响应图以及文本边界区域偏移图确定出文本区域图片中的文本行的包围框。优选地,可通过对文本中心线响应图进行连通域分析,确定出各文本行的中心线,对于每条中心线,可分别结合中心线上的像素点在文本边界区域偏移图中的取值等确定出该中心线对应的文本行的包围框,并可将所述包围框对应到文本区域图片中,进而可根据所述包围框从文本区域图片中提取出文本行图片。
通过上述处理方式,可基于轻量级文本检测模型输出的文本中心线响应图以及文本边界区域偏移图,快速准确地确定出文本区域图片中的文本行,而且,针对获取到的各文本区域图片,可并行地进行处理,从而进一步提升了处理速度。
针对获取到的各文本行图片,可分别对其进行文本序列识别,得到识别结果。优选地,可将文本行图片输入预先训练得到的轻量级文本序列识别模型,从而得到输出的识别结果。具体地,针对输入的文本行图片,轻量级文本序列识别模型可首先经过一个特征提取卷积网络得到文本行图片的特征,进而可将该特征序列化为若干帧后,输入双向门控循环单元(GRU,Gated Recurrent Unit)对各帧分别进行分类预测等,具体实现为现有技术。训练阶段,可采用经典的ctc loss来对文本序列识别进行监督。
对于轻量级文本序列识别模型的上述结构,特征提取部分的卷积网络的计算量占了整个模型的计算量的很大部分,为了让模型的计算开销更低,可采用更轻量的特征提取卷积网络结构。
本实施例中,可摒弃传统的手工设计网络结构的方式,而是可采用自动机器学习(AutoML,Automated Machine Learning)技术,通过自动搜索的方式来得到网络结构,也就是说,轻量级文本序列识别模型中的特征提取卷积网络结构可采用自动机器学习模型搜索方式确定。
具体地,整个网络搜索任务可由一个可以预测网络配置的循环神经网络(RNN,Recurrent Neural Network)控制器来控制,通过强化学习的方式,以模型精度和预测耗时共同作为训练目标来优化该控制器,并通过该控制器来选择最优的网络结构。搜索空间方面,可将整个特征提取卷积网络划分为若干个子模块,出于模型轻量化考虑,子模块的数量可为3,各子模块的结构相同,每个子模块均可由若干层组成,每一层由多个运算符构成,如卷积,池化,捷径(shortcut)连接等。那么该网络搜索任务的搜索空间即可包括:每个子模块中使用的层的具体配置(如运算符的选择以及连接方式等),以及每个子模块中包含的层的数量等。
相比于手工设计网络结构的方式,上述方式可大大降低人力成本,而且,具有更高的精度,另外,由于精度有了保证,在进行文本序列识别时,可采用简单的时序分类(CTC,Connectionist Temporal Classification)解码逻辑进行文本识别解码,从而降低了实现复杂度,进而进一步提升了处理速度等。
基于上述介绍,图2为本申请所述光学字符识别方法的整体实现过程示意图,具体实现请参照前述相关说明,不再赘述。
综上,本实施例中提出了一种由轻量级文本尺度预判模型+轻量级文本检测模型+轻量级文本序列识别模型等组成的轻量级通用光学字符识别方法,在保证较高识别精度的前提下,具有逻辑简单、计算量小等特点,从而提升了识别速度,并可在GPU及CPU等各种计算环境下运行,具有广泛适用性等。
需要说明的是,对于前述的方法实施例,为了简单描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
以上是关于方法实施例的介绍,以下通过装置实施例,对本申请所述方案进行进一步说明。
图3为本申请所述光学字符识别装置实施例30的组成结构示意图。如图3所示,包括:第一图片处理模块301、第二图片处理模块302以及文本识别模块303。
第一图片处理模块301,用于针对待识别的图片,确定出其中的文本区域的包围框,根据包围框从待识别的图片中提取出文本区域图片。
第二图片处理模块302,用于确定出文本区域图片中的文本行的包围框,根据包围框从文本区域图片中提取出文本行图片。
文本识别模块303,用于对文本行图片进行文本序列识别,得到识别结果。
针对提取出的文本区域图片,第一图片处理模块301还可确定出文本区域图片的调整方式,并按照确定出的调整方式对文本区域图片进行尺寸调整。
第一图片处理模块301可将待识别的图片输入预先训练得到的轻量级文本尺度预判模型,得到输出的单通道的文本区域掩膜图以及文本尺度图;其中,文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率,文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值。进一步地,第一图片处理模块301可根据文本区域掩膜图确定出待识别的图片中的文本区域的包围框,根据文本尺度图确定出文本区域图片的调整方式。
具体地,第一图片处理模块301可通过连通域分析确定出文本区域掩膜图中的文本连通域,针对任一文本连通域,可分别确定出待识别的图片中包含该文本连通域的最小矩形,作为该文本连通域对应的文本区域的包围框。
第一图片处理模块301还可针对任一文本区域图片,分别确定出该文本区域图片中的各像素点在文本尺度图中的取值,该文本区域图片中的各像素点在文本尺度图中的取值相同。相应地,确定出的该文本区域图片的调整方式可包括:在保留该文本区域图片的宽高比的前提下,对该文本区域图片的宽和高的尺寸进行调整,使得调整后的文本行的最短边的尺寸等于最佳尺寸。
轻量级文本尺度预判模型中可包括:第一特征提取模块、第一预测模块以及第二预测模块,其中,第一特征提取模块用于对输入的图片进行特征提取,第一预测模块用于根据特征提取结果生成文本区域掩膜图,第二预测模块用于根据特征提取结果生成文本尺度图。
第二图片处理模块302可将文本区域图片输入预先训练得到的轻量级文本检测模型,得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图;其中,文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率,文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离。相应地,第二图片处理模块302可结合文本中心线响应图以及文本边界区域偏移图确定出文本区域图片中的文本行的包围框。
具体地,第二图片处理模块302可通过对文本中心线响应图进行连通域分析,确定出各文本行的中心线,针对任一中心线,可分别结合该中心线上的像素点在文本边界区域偏移图中的取值确定出该中心线对应的文本行的包围框,并将所述包围框对应到文本区域图片中。
轻量级文本检测模型中可包括:第二特征提取模块、第三预测模块以及第四预测模块,其中,第二特征提取模块用于对输入的图片进行特征提取,第三预测模块用于根据特征提取结果生成文本中心线响应图,第四预测模块用于根据特征提取结果生成文本边界区域偏移图。
文本识别模块303可将文本行图片输入预先训练得到的轻量级文本序列识别模型,得到输出的识别结果;其中,轻量级文本序列识别模型中的特征提取卷积网络结构可采用自动机器学习模型搜索方式确定。
图3所示装置实施例的具体工作流程请参照前述方法实施例中的相关说明,不再赘述。
总之,采用本申请装置实施例所述方案,可采用由轻量级文本尺度预判模型+轻量级文本检测模型+轻量级文本序列识别模型等组成的轻量级通用光学字符识别方式来进行光学字符识别,在保证较高识别精度的前提下,具有逻辑简单、计算量小等特点,从而提升了识别速度,并可在GPU及CPU等各种计算环境下运行,具有广泛适用性等;另外,可基于轻量级文本尺度预判模型输出的文本区域掩膜图以及文本尺度图,快速准确地确定出待识别的图片中的文本区域,并可直接将文本区域图片的尺寸调整为适合的尺寸,从而方便了后续处理,提升了后续处理结果的准确性,并避免了传统方式中将图片缩放为多个不同尺寸所造成的效率低下及精度损失等问题;再有,可基于轻量级文本检测模型输出的文本中心线响应图以及文本边界区域偏移图,快速准确地确定出文本区域图片中的文本行,而且,针对获取到的各文本区域图片,可并行地进行处理,从而进一步提升了处理速度;再有,可采用自动机器学习模型搜索方式确定出轻量级文本序列识别模型中的特征提取卷积网络结构,摒弃了传统的手工设计网络结构的方式,从而大大降低了人力成本,且具有更高的精度等。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图4所示,是根据本申请实施例所述方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图4所示,该电子设备包括:一个或多个处理器Y01、存储器Y02,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示图形用户界面的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图4中以一个处理器Y01为例。
存储器Y02即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的方法。
存储器Y02作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的方法对应的程序指令/模块。处理器Y01通过运行存储在存储器Y02中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的方法。
存储器Y02可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据电子设备的使用所创建的数据等。此外,存储器Y02可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器Y02可选包括相对于处理器Y01远程设置的存储器,这些远程存储器可以通过网络连接至电子设备。上述网络的实例包括但不限于互联网、企业内部网、区块链网络、局域网、移动通信网及其组合。
电子设备还可以包括:输入装置Y03和输出装置Y04。处理器Y01、存储器Y02、输入装置Y03和输出装置Y04可以通过总线或者其他方式连接,图4中以通过总线连接为例。
输入装置Y03可接收输入的数字或字符信息,以及产生与电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置Y04可以包括显示设备、辅助照明装置和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器、发光二极管显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用集成电路、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,阴极射线管或者液晶显示器监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网、广域网、区块链网络和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (20)
1.一种光学字符识别方法,其特征在于,包括:
将待识别的图片输入预先训练得到的轻量级文本尺度预判模型,得到输出的单通道的文本区域掩膜图,所述文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率;
针对所述待识别的图片,根据所述文本区域掩膜图确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;
将所述文本区域图片输入预先训练得到的轻量级文本检测模型,得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图,其中,所述文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率,所述文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离;
结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;
对所述文本行图片进行文本序列识别,得到识别结果。
2.根据权利要求1所述的方法,其特征在于,
该方法进一步包括:在确定出所述文本区域图片中的文本行的包围框之前,确定出所述文本区域图片的调整方式,并按照确定出的调整方式对所述文本区域图片进行尺寸调整。
3.根据权利要求2所述的方法,其特征在于,
该方法进一步包括:输出所述文本区域掩膜图的同时,输出文本尺度图,所述文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值;
所述确定出所述文本区域图片的调整方式包括:根据所述文本尺度图确定出所述文本区域图片的调整方式。
4.根据权利要求1所述的方法,其特征在于,
所述根据所述文本区域掩膜图确定出所述待识别的图片中的文本区域的包围框包括:
通过连通域分析确定出所述文本区域掩膜图中的文本连通域;
针对任一文本连通域,分别确定出所述待识别的图片中包含所述文本连通域的最小矩形,作为所述文本连通域对应的文本区域的包围框。
5.根据权利要求3所述的方法,其特征在于,
所述根据所述文本尺度图确定出所述文本区域图片的调整方式包括:
针对任一文本区域图片,分别确定出所述文本区域图片中的各像素点在所述文本尺度图中的取值,所述文本区域图片中的各像素点在所述文本尺度图中的取值相同;
所述文本区域图片的调整方式包括:在保留所述文本区域图片的宽高比的前提下,对所述文本区域图片的宽和高的尺寸进行调整,使得调整后的文本行的最短边的尺寸等于所述最佳尺寸。
6.根据权利要求3所述的方法,其特征在于,
所述轻量级文本尺度预判模型中包括:第一特征提取模块、第一预测模块以及第二预测模块;其中,所述第一特征提取模块用于对输入的图片进行特征提取,所述第一预测模块用于根据特征提取结果生成所述文本区域掩膜图,所述第二预测模块用于根据所述特征提取结果生成所述文本尺度图。
7.根据权利要求1所述的方法,其特征在于,
所述结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框包括:
通过对所述文本中心线响应图进行连通域分析,确定出各文本行的中心线;
针对任一中心线,分别结合所述中心线上的像素点在所述文本边界区域偏移图中的取值确定出所述中心线对应的文本行的包围框,并将所述包围框对应到所述文本区域图片中。
8.根据权利要求1所述的方法,其特征在于,
所述轻量级文本检测模型中包括:第二特征提取模块、第三预测模块以及第四预测模块;其中,所述第二特征提取模块用于对输入的图片进行特征提取,所述第三预测模块用于根据特征提取结果生成所述文本中心线响应图,所述第四预测模块用于根据所述特征提取结果生成所述文本边界区域偏移图。
9.根据权利要求1所述的方法,其特征在于,
所述对所述文本行图片进行文本序列识别,得到识别结果包括:将所述文本行图片输入预先训练得到的轻量级文本序列识别模型,得到输出的识别结果;其中,所述轻量级文本序列识别模型中的特征提取卷积网络结构采用自动机器学习模型搜索方式确定。
10.一种光学字符识别装置,其特征在于,包括:第一图片处理模块、第二图片处理模块以及文本识别模块;
所述第一图片处理模块,用于将待识别的图片输入预先训练得到的轻量级文本尺度预判模型,得到输出的单通道的文本区域掩膜图,所述文本区域掩膜图中的各像素点的取值分别表示对应像素点属于文本区域的概率;针对所述待识别的图片,根据所述文本区域掩膜图确定出其中的文本区域的包围框,根据所述包围框从所述待识别的图片中提取出文本区域图片;
所述第二图片处理模块,用于将所述文本区域图片输入预先训练得到的轻量级文本检测模型,得到输出的单通道的文本中心线响应图以及四通道的文本边界区域偏移图,其中,所述文本中心线响应图中的各像素点的取值分别表示对应像素点属于文本行中心线区域的概率,所述文本边界区域偏移图中的各像素点的取值分别表示对应像素点距离其所属文本行的上边界的水平和垂直方向距离以及距离其所属文本行的下边界的水平和垂直方向距离;结合所述文本中心线响应图以及所述文本边界区域偏移图确定出所述文本区域图片中的文本行的包围框,根据所述包围框从所述文本区域图片中提取出文本行图片;
所述文本识别模块,用于对所述文本行图片进行文本序列识别,得到识别结果。
11.根据权利要求10所述的装置,其特征在于,
所述第一图片处理模块进一步用于,确定出所述文本区域图片的调整方式,按照确定出的调整方式对所述文本区域图片进行尺寸调整。
12.根据权利要求11所述的装置,其特征在于,
所述第一图片处理模块进一步用于,输出所述文本区域掩膜图的同时,输出文本尺度图,所述文本尺度图中的各像素点的取值分别表示对应像素点所属的文本行的最短边的尺寸与预先设定的最佳尺寸之间的比值;
所述第一图片处理模块根据所述文本尺度图确定出所述文本区域图片的调整方式。
13.根据权利要求10所述的装置,其特征在于,
所述第一图片处理模块通过连通域分析确定出所述文本区域掩膜图中的文本连通域,针对任一文本连通域,分别确定出所述待识别的图片中包含所述文本连通域的最小矩形,作为所述文本连通域对应的文本区域的包围框。
14.根据权利要求12所述的装置,其特征在于,
所述第一图片处理模块针对任一文本区域图片,分别确定出所述文本区域图片中的各像素点在所述文本尺度图中的取值,所述文本区域图片中的各像素点在所述文本尺度图中的取值相同;
所述文本区域图片的调整方式包括:在保留所述文本区域图片的宽高比的前提下,对所述文本区域图片的宽和高的尺寸进行调整,使得调整后的文本行的最短边的尺寸等于所述最佳尺寸。
15.根据权利要求12所述的装置,其特征在于,
所述轻量级文本尺度预判模型中包括:第一特征提取模块、第一预测模块以及第二预测模块;其中,所述第一特征提取模块用于对输入的图片进行特征提取,所述第一预测模块用于根据特征提取结果生成所述文本区域掩膜图,所述第二预测模块用于根据所述特征提取结果生成所述文本尺度图。
16.根据权利要求10所述的装置,其特征在于,
所述第二图片处理模块通过对所述文本中心线响应图进行连通域分析,确定出各文本行的中心线,针对任一中心线,分别结合所述中心线上的像素点在所述文本边界区域偏移图中的取值确定出所述中心线对应的文本行的包围框,并将所述包围框对应到所述文本区域图片中。
17.根据权利要求10所述的装置,其特征在于,
所述轻量级文本检测模型中包括:第二特征提取模块、第三预测模块以及第四预测模块;其中,所述第二特征提取模块用于对输入的图片进行特征提取,所述第三预测模块用于根据特征提取结果生成所述文本中心线响应图,所述第四预测模块用于根据所述特征提取结果生成所述文本边界区域偏移图。
18.根据权利要求10所述的装置,其特征在于,
所述文本识别模块将所述文本行图片输入预先训练得到的轻量级文本序列识别模型,得到输出的识别结果;其中,所述轻量级文本序列识别模型中的特征提取卷积网络结构采用自动机器学习模型搜索方式确定。
19.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9中任一项所述的方法。
20.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行权利要求1-9中任一项所述的方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550694.1A CN111860479B (zh) | 2020-06-16 | 2020-06-16 | 光学字符识别方法、装置、电子设备及存储介质 |
EP21162073.7A EP3926526A3 (en) | 2020-06-16 | 2021-03-11 | Optical character recognition method and apparatus, electronic device and storage medium |
US17/199,072 US11694461B2 (en) | 2020-06-16 | 2021-03-11 | Optical character recognition method and apparatus, electronic device and storage medium |
KR1020210076790A KR20210156228A (ko) | 2020-06-16 | 2021-06-14 | 광학 문자 인식 방법, 장치, 전자기기 및 기록매체 |
JP2021099856A JP7217313B2 (ja) | 2020-06-16 | 2021-06-16 | 光学文字識別方法、装置、電子デバイス及び記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010550694.1A CN111860479B (zh) | 2020-06-16 | 2020-06-16 | 光学字符识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111860479A CN111860479A (zh) | 2020-10-30 |
CN111860479B true CN111860479B (zh) | 2024-03-26 |
Family
ID=72987291
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010550694.1A Active CN111860479B (zh) | 2020-06-16 | 2020-06-16 | 光学字符识别方法、装置、电子设备及存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US11694461B2 (zh) |
EP (1) | EP3926526A3 (zh) |
JP (1) | JP7217313B2 (zh) |
KR (1) | KR20210156228A (zh) |
CN (1) | CN111860479B (zh) |
Families Citing this family (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11954932B2 (en) * | 2020-10-16 | 2024-04-09 | Bluebeam, Inc. | Systems and methods for automatic detection of features on a sheet |
CN113762234A (zh) * | 2021-01-26 | 2021-12-07 | 北京沃东天骏信息技术有限公司 | 一种确定文本行区域的方法和装置 |
CN113486828B (zh) * | 2021-07-13 | 2024-04-30 | 杭州睿胜软件有限公司 | 图像处理方法、装置、设备和存储介质 |
CN113903036B (zh) * | 2021-11-10 | 2023-11-03 | 北京百度网讯科技有限公司 | 一种文本识别方法、装置、电子设备、介质及产品 |
CN114187435A (zh) * | 2021-12-10 | 2022-03-15 | 北京百度网讯科技有限公司 | 文本识别方法、装置、设备以及存储介质 |
CN114492733A (zh) * | 2021-12-29 | 2022-05-13 | 北京百度网讯科技有限公司 | 一种文本检测方法、装置、设备及存储介质 |
CN114359932B (zh) * | 2022-01-11 | 2023-05-23 | 北京百度网讯科技有限公司 | 文本检测方法、文本识别方法及装置 |
CN114494686A (zh) * | 2022-01-28 | 2022-05-13 | 北京百度网讯科技有限公司 | 文本图像矫正方法、装置、电子设备以及存储介质 |
KR102420617B1 (ko) * | 2022-02-11 | 2022-07-13 | 주식회사 팀플랫 | 뉴럴 네트워크 기반의 의료 기기 데이터베이스 구축 시스템 |
CN114550177B (zh) * | 2022-02-25 | 2023-06-20 | 北京百度网讯科技有限公司 | 图像处理的方法、文本识别方法及装置 |
WO2024063346A1 (ko) * | 2022-09-20 | 2024-03-28 | 삼성전자주식회사 | 텍스트를 표시하기 위한 전자 장치 및 그 방법 |
CN115578735B (zh) * | 2022-09-29 | 2023-09-15 | 北京百度网讯科技有限公司 | 文本检测方法和文本检测模型的训练方法、装置 |
CN115984865B (zh) * | 2022-12-23 | 2024-02-27 | 成方金融科技有限公司 | 文本识别方法、装置、电子设备和存储介质 |
CN116129456B (zh) * | 2023-02-09 | 2023-07-25 | 广西壮族自治区自然资源遥感院 | 一种产权权属信息识别录入方法及系统 |
CN116630979B (zh) * | 2023-04-10 | 2024-04-30 | 雄安创新研究院 | 一种ocr识别方法、系统、存储介质和边缘设备 |
CN116958981B (zh) * | 2023-05-31 | 2024-04-30 | 广东南方网络信息科技有限公司 | 一种文字识别方法及装置 |
CN118172777B (zh) * | 2024-05-16 | 2024-07-12 | 成都航空职业技术学院 | 一种基于图像处理的互动虚拟教具实现方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1418354A (zh) * | 2000-03-14 | 2003-05-14 | 英特尔公司 | 通用的图像中的文本定位 |
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110321886A (zh) * | 2018-03-30 | 2019-10-11 | 高德软件有限公司 | 一种文字区域识别方法及装置 |
CN110942067A (zh) * | 2019-11-29 | 2020-03-31 | 上海眼控科技股份有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5201011A (en) * | 1991-11-19 | 1993-04-06 | Xerox Corporation | Method and apparatus for image hand markup detection using morphological techniques |
US6909805B2 (en) | 2001-01-31 | 2005-06-21 | Matsushita Electric Industrial Co., Ltd. | Detecting and utilizing add-on information from a scanned document image |
US10191889B2 (en) * | 2014-07-29 | 2019-01-29 | Board Of Regents, The University Of Texas System | Systems, apparatuses and methods for generating a user interface by performing computer vision and optical character recognition on a graphical representation |
EP3459005A4 (en) * | 2016-05-18 | 2020-01-22 | Nokia Technologies Oy | APPARATUS, METHOD AND COMPUTER PROGRAM PRODUCT FOR RETRIEVING AN EDITABLE SLIDE |
FR3098328B1 (fr) * | 2019-07-01 | 2022-02-04 | Amadeus Sas | Procédé pour extraire automatiquement d’un document des informations d’un type prédéfini |
CN111539438B (zh) * | 2020-04-28 | 2024-01-12 | 北京百度网讯科技有限公司 | 文本内容的识别方法、装置及电子设备 |
-
2020
- 2020-06-16 CN CN202010550694.1A patent/CN111860479B/zh active Active
-
2021
- 2021-03-11 US US17/199,072 patent/US11694461B2/en active Active
- 2021-03-11 EP EP21162073.7A patent/EP3926526A3/en not_active Withdrawn
- 2021-06-14 KR KR1020210076790A patent/KR20210156228A/ko active IP Right Grant
- 2021-06-16 JP JP2021099856A patent/JP7217313B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1418354A (zh) * | 2000-03-14 | 2003-05-14 | 英特尔公司 | 通用的图像中的文本定位 |
US8009928B1 (en) * | 2008-01-23 | 2011-08-30 | A9.Com, Inc. | Method and system for detecting and recognizing text in images |
CN110321886A (zh) * | 2018-03-30 | 2019-10-11 | 高德软件有限公司 | 一种文字区域识别方法及装置 |
WO2019192397A1 (zh) * | 2018-04-04 | 2019-10-10 | 华中科技大学 | 一种任意形状的场景文本端到端识别方法 |
CN110309824A (zh) * | 2019-07-02 | 2019-10-08 | 北京百度网讯科技有限公司 | 文字检测方法、装置以及终端 |
CN110942067A (zh) * | 2019-11-29 | 2020-03-31 | 上海眼控科技股份有限公司 | 文本识别方法、装置、计算机设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
Realtime multi-scale scene text detection with s cale-based r egion p roposal n etwork;Wenhao He;《Pattern Recognition》;20190903;全文 * |
Also Published As
Publication number | Publication date |
---|---|
JP7217313B2 (ja) | 2023-02-02 |
CN111860479A (zh) | 2020-10-30 |
EP3926526A2 (en) | 2021-12-22 |
KR20210156228A (ko) | 2021-12-24 |
EP3926526A3 (en) | 2022-02-16 |
US11694461B2 (en) | 2023-07-04 |
JP2021197190A (ja) | 2021-12-27 |
US20210390296A1 (en) | 2021-12-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111860479B (zh) | 光学字符识别方法、装置、电子设备及存储介质 | |
US11841921B2 (en) | Model training method and apparatus, and prediction method and apparatus | |
KR20220113829A (ko) | 차량 추적 방법, 장치 및 전자 기기 | |
CN111860506A (zh) | 识别文字的方法和装置 | |
CN112528976B (zh) | 文本检测模型的生成方法和文本检测方法 | |
US11775845B2 (en) | Character recognition method and apparatus, electronic device and computer readable storage medium | |
CN111488925B (zh) | 一种数据标注方法、装置、电子设备及存储介质 | |
EP3852008A2 (en) | Image detection method and apparatus, device, storage medium and computer program product | |
CN112990204B (zh) | 目标检测方法、装置、电子设备及存储介质 | |
CN110968718B (zh) | 目标检测模型负样本挖掘方法、装置及电子设备 | |
CN113591573A (zh) | 多任务学习深度网络模型的训练及目标检测方法、装置 | |
CN111539347B (zh) | 用于检测目标的方法和装置 | |
CN110717933B (zh) | 针对运动物体漏检的后处理方法、装置、设备和介质 | |
CN112541332B (zh) | 表单信息抽取方法、装置、电子设备及存储介质 | |
CN113642583B (zh) | 用于文本检测的深度学习模型训练方法及文本检测方法 | |
KR102508860B1 (ko) | 이미지에서의 키 포인트 위치의 인식 방법, 장치, 전자기기 및 매체 | |
CN112560772B (zh) | 人脸的识别方法、装置、设备及存储介质 | |
US20220004812A1 (en) | Image processing method, method for training pre-training model, and electronic device | |
CN114882315B (zh) | 样本生成方法、模型训练方法、装置、设备及介质 | |
CN114511743B (zh) | 检测模型训练、目标检测方法、装置、设备、介质及产品 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN111932530B (zh) | 三维对象检测方法、装置、设备和可读存储介质 | |
CN112270169B (zh) | 对白角色预测方法、装置、电子设备及存储介质 | |
US11462013B2 (en) | Method and apparatus for recognizing target object, electronic device and storage medium | |
CN112001369B (zh) | 船舶烟囱的检测方法、装置、电子设备及可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |