CN111476227B - 基于ocr的目标字段识别方法、装置及存储介质 - Google Patents
基于ocr的目标字段识别方法、装置及存储介质 Download PDFInfo
- Publication number
- CN111476227B CN111476227B CN202010186614.9A CN202010186614A CN111476227B CN 111476227 B CN111476227 B CN 111476227B CN 202010186614 A CN202010186614 A CN 202010186614A CN 111476227 B CN111476227 B CN 111476227B
- Authority
- CN
- China
- Prior art keywords
- picture
- information
- identified
- target
- template
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012015 optical character recognition Methods 0.000 claims abstract description 70
- 238000013507 mapping Methods 0.000 claims description 28
- 239000011159 matrix material Substances 0.000 claims description 12
- 230000009466 transformation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 11
- 238000004458 analytical method Methods 0.000 claims description 10
- 238000000605 extraction Methods 0.000 claims description 10
- 238000012545 processing Methods 0.000 abstract description 6
- 238000012216 screening Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
Abstract
本发明涉及图像处理领域,揭露了一种基于OCR的目标字段识别方法,该方法包括:接收目标字段识别指令后,根据待识别图片的图片类型确定对应的模板信息,对待识别图片进行OCR识别,基于识别结果及模板信息依次确定待识别图片的目标锚点区域、定位图案区域,并根据目标锚点区域及定位图案区域确定目标字段区域,根据确定的目标字段区域及识别结果确定待识别的目标字段。本发明还揭露了一种电子装置及计算机存储介质。利用本发明,可以提高基于OCR的目标字段识别的效率及准确性。
Description
技术领域
本发明涉及图像识别领域,尤其涉及一种基于OCR的目标字段识别方法、电子装置及计算机可读存储介质。
背景技术
光学字符识别(OCR)是一种提取输入图片中文字并反馈的有效算法,广泛应用于各种业务场景。传统的OCR具体分为两个方向:通用识别和特定场景下的专用识别。通用识别可将图片中的每一段文字都识别出来,但这种方法在准确率不够高的同时,输出的文字缺少位置信息,也无法智能地获取各字段的含义。而特定场景下的识别,比如对驾驶证、身份证、银行卡等,通常准确率比较高,各字段也被赋予含义,相应地,这些类型需要逐一字段进行检测和识别的训练,开发周期比较长。如何快速、有效地提取不同类型的图片中的文字,成为了OCR的新挑战。
因此,如何实现快速准确从图片中识别目标字段成为了亟待解决的问题。
发明内容
鉴于以上内容,本发明提供一种基于OCR的目标字段识别方法、电子装置及计算机可读存储介质,其主要目的在于提高目标字段识别效率及准确性。
为实现上述目的,本发明提供一种基于OCR的目标字段识别方法,该方法包括:
接收步骤:接收并响应用户发出的目标字段识别指令,所述目标字段识别指令包括待识别图片、所述待识别图片的图片类型及待识别目标字段标识;
模板确定步骤:从预设存储路径中读取预设的图片类型与模板信息的映射数据,根据所述待识别图片的图片类型及所述映射数据确定与所述待识别图片对应的目标模板信息;
第一识别步骤:对所述待识别图片进行OCR识别,得到多个文本框及所述多个文本框对应的文本信息;
第一区域确定步骤:将所述多个文本框对应的文本信息中与所述待识别目标字段标识对应的文本信息作为目标锚点信息,根据所述目标锚点信息对应的文本框确定所述待识别图片的目标锚点区域;
第二区域确定步骤:基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域;
第三区域确定步骤:根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域;及
第二识别步骤:从所述多个文本框中筛选出与所述目标字段区域匹配的文本框,对应的文本信息中筛选出与所述目标字段区域匹配的文本信息,作为目标字段,并向用户展示所述目标字段。
此外,为实现上述目的,本发明还提供一种电子装置,该装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的基于OCR的目标字段识别程序,所述基于OCR的目标字段识别程序被所述处理器执行时可实现如上所述基于OCR的目标字段识别方法中的任意步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中包括基于OCR的目标字段识别程序,所述基于OCR的目标字段识别程序被处理器执行时,可实现如上所述基于OCR的目标字段识别方法中的任意步骤。
本发明提出的基于OCR的目标字段识别方法、电子装置及计算机可读存储介质,接收目标字段识别指令后,根据待识别图片的图片类型确定对应的模板信息,对待识别图片进行OCR识别,基于识别结果及模板信息依次确定待识别图片的目标锚点区域、定位图案区域,并根据目标锚点区域及定位图案区域确定目标字段区域,根据确定的目标字段区域及识别结果确定待识别的目标字段。通过预先确定不同类型图片的模板信息,保存图片类型与模板信息及相对信息的映射数据,后续对某一种类型的图片的目标字段进行识别时,调用与图片类型对应的模板信息进行分析计算及字段提取,每种类型的图片只需要一张标准样本,即可完成后续图片的字段识别,提高了目标字段识别提取的效率及准确性;基于锚点文字及定位图案综合分析目标字段对应的区域,有助于提高目标字段区域识别的准确性,从而提高目标字段提取的准确性;在确定待识别图案的定位图案过程中,通过缩小搜索区域并确定与待识别图片对应的滑动窗口大小,提高定位图案识别的效率,为快速提取目标字段奠定基础。
附图说明
图1为本发明基于OCR的目标字段识别方法较佳实施例的流程图;
图2为本发明电子装置较佳实施例的示意图;
图3为图2中基于OCR的目标字段识别程序较佳实施例的程序模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明提供一种基于OCR的目标字段识别方法。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。
参照图1所示,为本发明基于OCR的目标字段识别方法较佳实施例的流程图。
在本发明基于OCR的目标字段识别方法一较佳实施例中,所述基于OCR的目标字段识别方法包括:步骤S1-步骤S7。
步骤S1,接收并响应用户发出的目标字段识别指令,所述目标字段识别指令包括:待识别图片、所述待识别图片的图片类型及待识别目标字段标识。
以下以电子装置作为执行主体对本发明各实施例进行说明。用户通过客户端上的APP发送目标字段识别指令的同时,需要上传待识别图片,从预设图片类型范围中选择待识别图片的图片类型及待识别目标字段标识。电子装置接收客户端发送的指令后,根据指令中携带的待识别图片进行图片识别及目标字段提取操作。需要说明的是,可供用户选择的图片类型范围是预先确定的,若预设图片类型范围中不包括待识别图片的图片类型,则无法进行识别。
在本实施例中,上述待识别图片的图片类型包括发票、结婚证件、身份证件等固定模板的图片类型;上述待识别目标字段标识可以包括:发票中的金额、货物或应税劳务、服务名称等、结婚证中的结婚证字号等,上述待识别目标字段为与待识别目标字段标识对应的信息。
步骤S2,从预设存储路径中读取预设的图片类型与模板信息的映射数据,根据所述待识别图片的图片类型及所述映射数据确定与所述待识别图片对应的目标模板信息。
在本实施例中,上述映射数据中每一种图片类型对应一条模板信息。将所述待识别图片的图片类型与所述映射数据进行匹配,确定所述映射数据中与所述待识别图片的图片类型相同的图片类型,并将匹配的图片类型对应的模板信息作为目标模板信息。
在其他实施例中,在步骤S1之前,需要预先确定多种图片类型分别对应的模板信息后,生成图片类型与模板信息的映射数据,将映射数据保存至预设存储路径中。所述映射数据通过以下步骤确定:
a1、获取多张模板图片,所述多张模板图片分别对应一个图片类型,所述多张模板图片中包括预设类型标注:锚点标注、定位图案标注及文本标注;
a2、分别确定所述模板图片中所述锚点标注、所述定位图案标注及所述文本标注对应的区域,记录所述锚点标注、所述定位图案标注及所述文本标注对应的区域的相对位置信息及相对大小信息;
a3、对所述锚点标注及所述文本标注对应的区域进行OCR识别,识别出所述模板图片的锚点信息及文本信息,对所述定位图案标注对应的区域进行特征提取,提取出所述定位图案标注对应的区域的特征数据,将提取的所述特征数据作为所述模板图片的定位图案信息;
a4、基于所述模板图片的所述锚点信息、所述定位图案信息、所述文本信息、所述相对位置信息及所述相对大小信息生成所述模板图片的模板信息;及
a5、根据每张所述模板图片、模板信息及对应的图片类型生成所述映射数据。
在本实施例中,上述获取的模板图片经过人为筛选确定的,并对模板图片进行预设类型标注。上述预设类型标注以矩形框的形式对模板图片进行标注。在确定各预设类型标注确定其对应的区域过程中,可生成各区域对应的坐标信息,便于后续进行OCR识别、计算相对位置信息及相对大小信息。例如,计算两个区域的相对位置信息时,以两个区域的某一个点的坐标计算相对位置,例如,左上角的坐标,或者,中心坐标等。
上述锚点标注用于标识某一图片类型固有的文字信息(表示文字固有、且文字的相对位置不变)。以“增值税专用发票”这一图片类型为例,锚点标注对应的锚点信息为:“开票日期”、“货物或应税劳务、服务名称”、“销售方”等。需要说明的是,锚点需要标注多个,且在图片中各锚点分布越开,检测出的模板信息越准确。
上述定位图案标注用于标识某一图片类型固有的图案,选中的图案需要有明显的特征。以“增值税专用发票”这一图片类型为例,定位图案可以包括:二维码、印章等,定位图案信息则为从二维码、印章中提取出的特征数据。在本实施例中,上述特征数据包括但不仅限于从定位图案中提取的SIFT(尺度不变特征变换(Scale-invariant featuretransform)特征。
上述文本标注用于标识某一图片类型固有的锚点信息对应的文本信息。该标注对应文本信息将是用户希望从图片中提取的文字内容,在标注的同时把每个字段的锚点信息也填上,这样在新图片的识别时也可把各个字段自动地分类。例如,把每个识别的字段的锚点信息对应,例如,身份证上的“何嘉欣”对应锚点信息“姓名”。
步骤S3,第一识别步骤:对所述待识别图片进行OCR识别,得到多个文本框及所述多个文本框对应的文本信息;
例如,对待识别图片进行OCR识别的识别结果包括:文本框1及对应的文本信息1,文本框2及对应的文本信息2,文本框3及对应的文本信息3,…。鉴于现有技术中已经有成熟的OCR识别技术,故在此不作赘述。
在本实施例中,从待识别图片中识别出文本框的区域的同时还确定各文本框的坐标信息,以供后续进行相对位置计算。
步骤S4,将所述多个文本框对应的文本信息中与所述待识别目标字段标识对应的文本信息作为目标锚点信息,根据所述目标锚点信息对应的文本框确定所述待识别图片的目标锚点区域;
上述待识别目标字段标识即为待识别目标字段对应的锚点信息。
假如识别结果包括:文本框1及对应的文本信息1,文本框2及对应的文本信息2,文本框3及对应的文本信息3,…,当识别结果中存在与待识别目标字段标识对应的文本信息时,例如,文本信息3,则将文本信息3作为待识别图片中的目标锚点信息,并根据文本信息3对应的文本框3确定目标锚点信息对应的目标锚点区域。在本实施例中,目标锚点区域的数量与待识别目标字段标识的数量一致。
步骤S5,基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域;
在本实施例中,所述目标模板信息包括:模板图片的锚点信息、定位图案信息及第一相对位置信息,所述基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域,包括:
b1、从所述目标模板信息中获取所述模板图片的锚点信息、定位图案信息及第一相对位置信息;
b2、根据所述模板图片的锚点信息、定位图案信息及第一相对位置信息确定所述待识别图片的搜索区域及滑动窗口;
b3、将所述滑动窗口按照预设步长在所述待识别图片的搜索区域滑动,得到多个待选区域,分别提取所述多个待选区域的特征得到所述多个待选区域对应的特征数据;及
b4、分别计算所述定位图案信息与所述多个待选区域对应的特征数据的匹配度,将匹配度最高的待选区域作为所述待识别图片的定位图案区域。
在检测出待识别图片的目标锚点区域后,为了快速确定定位图案区域,需将搜索区域从整张待识别图片缩小到一定范围。在本实施例中,所述待识别图片的搜索区域的生成步骤包括:
c1、从所述目标模板信息中获取与所述待识别目标字段标识对应的锚点信息及所述第一相对位置信息;例如,目标模板信息中与所述待识别目标字段标识对应的锚点信息为模板图片中的锚点信息A,第一相对位置信息为模板图片中锚点信息A与定位图案的相对位置。
c2、根据所述待识别图片的目标锚点区域的中心点及所述第一相对位置信息,确定所述待识别图片中定位图案的中心点,并以所述定位图案的中心点确定预设大小的区域作为所述搜索区域。例如,在确定待识别图片中定位图案的中心点后,以该中心点划出一个面积为模板图片中定位图案大小的2到3倍的矩形框,作为搜索区域。
在本实施例中,所述滑动窗口的生成步骤包括:
d1、根据所述待识别图片的目标锚点区域及所述模板图片中与所述目标锚点区域对应的锚点区域,计算透视变换矩阵;根据模板图片与待识别图片的多个锚点的对应关系,得到透视变换矩阵。
d2、根据所述模板图片的定位图案区域的坐标及所述透视变换矩阵,计算得到所述模板图片的定位图案区域在所述待识别图片中的坐标,确定滑动窗口。由模板图片中定位图案区域的坐标乘以变换矩阵,得到其在待识别图片中对应的坐标,根据计算得到的坐标即可确定滑动窗口。
确定滑动窗口及搜索区域后,用滑动窗口以一定步长从左到右、从上到下进行滑动扫描,每一次滑动都会得到一个待选区域,分别提取每一个待选区域对应的SIFT特征,并将其与目标模板信息中的定位图案信息(模板图片中定位图案对应的SIFT特征)进行匹配度计算,例如,计算相似度。可以理解的是,待选区域对应的相似度越高,其为待识别图片中的定位图案的可能性越大,因此,选择相似度最高的候选区域作为待识别图片的定位图案区域。
步骤S6,根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域;
在本实施例中,所述目标模板信息还包括:第二相对位置信息及相对大小信息,所述根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域,包括:
e1、分别确定所述目标锚点区域及所述定位图案区域的中心点;
e2、基于所述目标锚点区域、所述定位图案区域的中心点及所述第二相对位置信息计算所述待识别目标字段对应的中心点;
e3、根据所述目标锚点区域的大小及所述相对大小信息,计算所述待识别目标字段对应的区域大小;及
e4、根据所述待识别目标字段对应的中心点及区域大小生成所述目标字段区域。
其中,所述第二相对位置信息包括:模板图片中与所述目标锚点区域对应的锚点区域、定位图案区域及与所述目标锚点区域对应的锚点区域对应的文本区域的相对位置关系。
在其他实施例中,通过上述步骤确定待识别图片的目标锚点区域及定位图案区域后,结合模板与待识别图片中各自锚点文字、定位图案与目标字段的对应关系,求得透视变换的矩阵,由模板图片中目标字段的边框坐标,乘以变换矩阵,得到目标字段在待识别图片中的位置坐标,并把该区域作为目标字段区域。
步骤S7,从所述多个文本框中筛选出与所述目标字段区域匹配的文本框,对应的文本信息中筛选出与所述目标字段区域匹配的文本信息,作为目标字段,并向用户展示所述目标字段。
确定目标字段区域后,将目标字段区域内的文本框的文本信息作为目标字段输出。具体地,将所述多个文本框的位置信息与所述目标字段区域进行比对,从多个文本框中筛选出在目标字段区域范围内的文本框,并将其对应的文本信息作为最终识别出的目标字段,并将所述目标字段反馈给用户。
上述实施例提出的基于OCR的目标字段识别方法,接收目标字段识别指令后,根据待识别图片的图片类型确定对应的模板信息,对待识别图片进行OCR识别,基于识别结果及模板信息依次确定待识别图片的目标锚点区域、定位图案区域,并根据目标锚点区域及定位图案区域确定目标字段区域,根据确定的目标字段区域及识别结果确定待识别的目标字段。通过预先确定不同类型图片的模板信息,保存图片类型与模板信息及相对信息的映射数据,后续对某一种类型的图片的目标字段进行识别时,调用与图片类型对应的模板信息进行分析计算及字段提取,相较于传统的训练模型识别目标字段,每种类型的图片只需要一张标准样本,即可完成后续图片的字段识别,提高了目标字段识别提取的效率及准确性;基于锚点文字及定位图案综合分析目标字段对应的区域,有助于提高目标字段区域识别的准确性,从而提高目标字段提取的准确性;在确定待识别图案的定位图案过程中,通过缩小搜索区域并确定与待识别图片对应的滑动窗口大小,提高定位图案识别的效率,为快速提取目标字段奠定基础。
本发明还提出一种电子装置。参照图2所示,为本发明电子装置较佳实施例的示意图。
在本实施例中,电子装置1可以是服务器、智能手机、平板电脑、便携计算机、桌上型计算机等具有数据处理功能的终端设备,所述服务器可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器。
该电子装置1包括存储器11、处理器12及网络接口13。
其中,存储器11至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、磁性存储器、磁盘、光盘等。存储器11在一些实施例中可以是所述电子装置1的内部存储单元,例如该电子装置1的硬盘。存储器11在另一些实施例中也可以是所述电子装置1的外部存储设备,例如该电子装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括该电子装置1的内部存储单元也包括外部存储设备。
存储器11不仅可以用于存储安装于该电子装置1的应用软件及各类数据,例如,基于OCR的目标字段识别程序10等,还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,用于运行存储器11中存储的程序代码或处理数据,例如,基于OCR的目标字段识别程序10等。
网络接口13可选的可以包括标准的有线接口、无线接口(如WI-FI接口),通常用于在该电子装置1与其他电子设备之间建立通信连接,例如,客户端(图中未标识)。电子装置1的组件11-13通过通信总线相互通信。
图2仅示出了具有组件11-13的电子装置1,本领域技术人员可以理解的是,图2示出的结构并不构成对电子装置1的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
可选地,该电子装置1还可以包括用户接口,用户接口可以包括显示器(Display)、输入单元比如键盘(Keyboard),可选的用户接口还可以包括标准的有线接口、无线接口。
可选地,在一些实施例中,显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及有机发光二极管(Organic Light-Emitting Diode,OLED)触摸器等。其中,显示器也可以称为显示屏或显示单元,用于显示在电子装置1中处理的信息以及用于显示可视化的用户界面。
在图2所示的电子装置1实施例中,作为一种计算机存储介质的存储器11中存储基于OCR的目标字段识别程序10的程序代码,处理器12执行基于OCR的目标字段识别程序10的程序代码时,实现如下步骤:
接收步骤:接收并响应用户发出的目标字段识别指令,所述目标字段识别指令包括:待识别图片、所述待识别图片的图片类型及待识别目标字段标识。
用户通过客户端上的APP发送目标字段识别指令的同时,需要上传待识别图片,从预设图片类型范围中选择待识别图片的图片类型及待识别目标字段标识。电子装置1接收客户端发送的指令后,根据指令中携带的待识别图片进行图片识别及目标字段提取操作。需要说明的是,可供用户选择的图片类型范围是预先确定的,若预设图片类型范围中不包括待识别图片的图片类型,则无法进行识别。
在本实施例中,上述待识别图片的图片类型包括发票、结婚证件、身份证件等固定模板的图片类型;上述待识别目标字段标识可以包括:发票中的金额、货物或应税劳务、服务名称等、结婚证中的结婚证字号等,上述待识别目标字段为与待识别目标字段标识对应的信息。
模板确定步骤:从预设存储路径中读取预设的图片类型与模板信息的映射数据,根据所述待识别图片的图片类型及所述映射数据确定与所述待识别图片对应的目标模板信息。
在本实施例中,上述映射数据中每一种图片类型对应一条模板信息。将所述待识别图片的图片类型与所述映射数据进行匹配,确定所述映射数据中与所述待识别图片的图片类型相同的图片类型,并将匹配的图片类型对应的模板信息作为目标模板信息。
需要说明的是,需要预先确定多种图片类型分别对应的模板信息后,生成图片类型与模板信息的映射数据,将映射数据保存至预设存储路径中。所述映射数据通过以下步骤确定:
a1、获取多张模板图片,所述多张模板图片分别对应一个图片类型,所述多张模板图片中包括预设类型标注:锚点标注、定位图案标注及文本标注;
a2、分别确定所述模板图片中所述锚点标注、所述定位图案标注及所述文本标注对应的区域,记录所述锚点标注、所述定位图案标注及所述文本标注对应的区域的相对位置信息及相对大小信息;
a3、对所述锚点标注及所述文本标注对应的区域进行OCR识别,识别出所述模板图片的锚点信息及文本信息,对所述定位图案标注对应的区域进行特征提取,提取出所述定位图案标注对应的区域的特征数据,将提取的所述特征数据作为所述模板图片的定位图案信息;
a4、基于所述模板图片的所述锚点信息、所述定位图案信息、所述文本信息、所述相对位置信息及所述相对大小信息生成所述模板图片的模板信息;及
a5、根据每张所述模板图片、模板信息及对应的图片类型生成所述映射数据。
在本实施例中,上述获取的模板图片经过人为筛选确定的,并对模板图片进行预设类型标注。上述预设类型标注以矩形框的形式对模板图片进行标注。在确定各预设类型标注确定其对应的区域过程中,可生成各区域对应的坐标信息,便于后续进行OCR识别、计算相对位置信息及相对大小信息。例如,计算两个区域的相对位置信息时,以两个区域的某一个点的坐标计算相对位置,例如,左上角的坐标,或者,中心坐标等。
上述锚点标注用于标识某一图片类型固有的文字信息(表示文字固有、且文字的相对位置不变)。以“增值税专用发票”这一图片类型为例,锚点标注对应的锚点信息为:“开票日期”、“货物或应税劳务、服务名称”、“销售方”等。需要说明的是,锚点需要标注多个,且在图片中各锚点分布越开,检测出的模板信息越准确。
上述定位图案标注用于标识某一图片类型固有的图案,选中的图案需要有明显的特征。以“增值税专用发票”这一图片类型为例,定位图案可以包括:二维码、印章等,定位图案信息则为从二维码、印章中提取出的特征数据。在本实施例中,上述特征数据包括但不仅限于从定位图案中提取的SIFT(尺度不变特征变换(Scale-invariant featuretransform)特征。
上述文本标注用于标识某一图片类型固有的锚点信息对应的文本信息。该标注对应文本信息将是用户希望从图片中提取的文字内容,在标注的同时把每个字段的锚点信息也填上,这样在新图片的识别时也可把各个字段自动地分类。例如,把每个识别的字段的锚点信息对应,例如,身份证上的“何嘉欣”对应锚点信息“姓名”。
第一识别步骤:对所述待识别图片进行OCR识别,得到多个文本框及所述多个文本框对应的文本信息。
例如,对待识别图片进行OCR识别的识别结果包括:文本框1及对应的文本信息1,文本框2及对应的文本信息2,文本框3及对应的文本信息3,…。鉴于现有技术中已经有成熟的OCR识别技术,故在此不作赘述。
在本实施例中,从待识别图片中识别出文本框的区域的同时还确定各文本框的坐标信息,以供后续进行相对位置计算。
第一区域确定步骤:将所述多个文本框对应的文本信息中与所述待识别目标字段标识对应的文本信息作为目标锚点信息,根据所述目标锚点信息对应的文本框确定所述待识别图片的目标锚点区域。
上述待识别目标字段标识即为待识别目标字段对应的锚点信息。
假如识别结果包括:文本框1及对应的文本信息1,文本框2及对应的文本信息2,文本框3及对应的文本信息3,…,当识别结果中存在与待识别目标字段标识对应的文本信息时,例如,文本信息3,则将文本信息3作为待识别图片中的目标锚点信息,并根据文本信息3对应的文本框3确定目标锚点信息对应的目标锚点区域。在本实施例中,目标锚点区域的数量与待识别目标字段标识的数量一致。
第二区域确定步骤:基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域。
在本实施例中,所述目标模板信息包括:模板图片的锚点信息、定位图案信息及第一相对位置信息,所述基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域,包括:
b1、从所述目标模板信息中获取所述模板图片的锚点信息、定位图案信息及第一相对位置信息;
b2、根据所述模板图片的锚点信息、定位图案信息及第一相对位置信息确定所述待识别图片的搜索区域及滑动窗口;
b3、将所述滑动窗口按照预设步长在所述待识别图片的搜索区域滑动,得到多个待选区域,分别提取所述多个待选区域的特征得到所述多个待选区域对应的特征数据;及
b4、分别计算所述定位图案信息与所述多个待选区域对应的特征数据的匹配度,将匹配度最高的待选区域作为所述待识别图片的定位图案区域。
在检测出待识别图片的目标锚点区域后,为了快速确定定位图案区域,需将搜索区域从整张待识别图片缩小到一定范围。在本实施例中,所述待识别图片的搜索区域的生成步骤包括:
c1、从所述目标模板信息中获取与所述待识别目标字段标识对应的锚点信息及所述第一相对位置信息;例如,目标模板信息中与所述待识别目标字段标识对应的锚点信息为模板图片中的锚点信息A,第一相对位置信息为模板图片中锚点信息A与定位图案的相对位置。
c2、根据所述待识别图片的目标锚点区域的中心点及所述第一相对位置信息,确定所述待识别图片中定位图案的中心点,并以所述定位图案的中心点确定预设大小的区域作为所述搜索区域。例如,在确定待识别图片中定位图案的中心点后,以该中心点划出一个面积为模板图片中定位图案大小的2到3倍的矩形框,作为搜索区域。
在本实施例中,所述滑动窗口的生成步骤包括:
d1、根据所述待识别图片的目标锚点区域及所述模板图片中与所述目标锚点区域对应的锚点区域,计算透视变换矩阵;根据模板图片与待识别图片的多个锚点的对应关系,得到透视变换矩阵。
d2、根据所述模板图片的定位图案区域的坐标及所述透视变换矩阵,计算得到所述模板图片的定位图案区域在所述待识别图片中的坐标,确定滑动窗口。由模板图片中定位图案区域的坐标乘以变换矩阵,得到其在待识别图片中对应的坐标,根据计算得到的坐标即可确定滑动窗口。
确定滑动窗口及搜索区域后,用滑动窗口以一定步长从左到右、从上到下进行滑动扫描,每一次滑动都会得到一个待选区域,分别提取每一个待选区域对应的SIFT特征,并将其与目标模板信息中的定位图案信息(模板图片中定位图案对应的SIFT特征)进行匹配度计算,例如,计算相似度。可以理解的是,待选区域对应的相似度越高,其为待识别图片中的定位图案的可能性越大,因此,选择相似度最高的候选区域作为待识别图片的定位图案区域。
第三区域确定步骤:根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域。
在本实施例中,所述目标模板信息还包括:第二相对位置信息及相对大小信息,所述根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域,包括:
e1、分别确定所述目标锚点区域及所述定位图案区域的中心点;
e2、基于所述目标锚点区域、所述定位图案区域的中心点及所述第二相对位置信息计算所述待识别目标字段对应的中心点;
e3、根据所述目标锚点区域的大小及所述相对大小信息,计算所述待识别目标字段对应的区域大小;及
e4、根据所述待识别目标字段对应的中心点及区域大小生成所述目标字段区域。
其中,所述第二相对位置信息包括:模板图片中与所述目标锚点区域对应的锚点区域、定位图案区域及与所述目标锚点区域对应的锚点区域对应的文本区域的相对位置关系。
第二识别步骤:从所述多个文本框中筛选出与所述目标字段区域匹配的文本框,对应的文本信息中筛选出与所述目标字段区域匹配的文本信息,作为目标字段,并向用户展示所述目标字段。
确定目标字段区域后,将目标字段区域内的文本框的文本信息作为目标字段输出。具体地,将所述多个文本框的位置信息与所述目标字段区域进行比对,从多个文本框中筛选出在目标字段区域范围内的文本框,并将其对应的文本信息作为最终识别出的目标字段,并将所述目标字段反馈给用户。
可选地,在其他的实施例中,基于OCR的目标字段识别程序10还可以被分割为一个或者多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器12所执行,以完成本发明,本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段。
例如,参照图3所示,为图2中基于OCR的目标字段识别程序10的程序模块示意图。
在所述基于OCR的目标字段识别程序10一实施例中,基于OCR的目标字段识别程序10包括:模块110-170,其中:
接收模块110,用于接收并响应用户发出的目标字段识别指令,所述目标字段识别指令包括待识别图片、所述待识别图片的图片类型及待识别目标字段标识;
模板确定模块120,用于从预设存储路径中读取预设的图片类型与模板信息的映射数据,根据所述待识别图片的图片类型及所述映射数据确定与所述待识别图片对应的目标模板信息;
第一识别模块130,用于对所述待识别图片进行OCR识别,得到多个文本框及所述多个文本框对应的文本信息;
第一区域确定模块140,用于将所述多个文本框对应的文本信息中与所述待识别目标字段标识对应的文本信息作为目标锚点信息,根据所述目标锚点信息对应的文本框确定所述待识别图片的目标锚点区域;
第二区域确定模块150,用于基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域;
第三区域确定模块160,用于根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域;及
第二识别模块170,用于从所述多个文本框中筛选出与所述目标字段区域匹配的文本框,对应的文本信息中筛选出与所述目标字段区域匹配的文本信息,作为目标字段,并向用户展示所述目标字段。
所述模块110-170所实现的功能或操作步骤均与上文类似,此处不再详述。
此外,本发明实施例还提出一种计算机可读存储介质,所述计算机可读存储介质中包括基于OCR的目标字段识别程序10,所述基于OCR的目标字段识别程序10被处理器执行时实现所述基于OCR的目标字段识别方法的任意步骤。本发明计算机可读存储介质的具体实施方式与上述方法实施例大致相同,在此不再赘述。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方法不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物品或者方法中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其它相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种基于OCR的目标字段识别方法,适用于电子装置,其特征在于,该方法包括:
接收步骤:接收并响应用户发出的目标字段识别指令,所述目标字段识别指令包括待识别图片、所述待识别图片的图片类型及待识别目标字段标识;
模板确定步骤:从预设存储路径中读取预设的图片类型与模板信息的映射数据,根据所述待识别图片的图片类型及所述映射数据确定与所述待识别图片对应的目标模板信息;
第一识别步骤:对所述待识别图片进行OCR识别,得到多个文本框及所述多个文本框对应的文本信息;
第一区域确定步骤:将所述多个文本框对应的文本信息中与所述待识别目标字段标识对应的文本信息作为目标锚点信息,根据所述目标锚点信息对应的文本框确定所述待识别图片的目标锚点区域;
第二区域确定步骤:基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域;
第三区域确定步骤:根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域;及
第二识别步骤:从所述多个文本框中筛选出与所述目标字段区域匹配的文本框,对应的文本信息中筛选出与所述目标字段区域匹配的文本信息,作为目标字段,并向用户展示所述目标字段;
其中,所述目标模板信息包括:模板图片的锚点信息、定位图案信息及第一相对位置信息;
所述基于预设分析规则、所述目标模板信息及所述待识别图片的目标锚点区域对所述待识别图片进行分析,得到所述待识别图片的定位图案区域,包括:从所述目标模板信息中获取所述模板图片的锚点信息、定位图案信息及第一相对位置信息;根据所述模板图片的锚点信息、定位图案信息及第一相对位置信息确定所述待识别图片的搜索区域及滑动窗口;将所述滑动窗口按照预设步长在所述待识别图片的搜索区域滑动,得到多个待选区域,分别提取所述多个待选区域的特征得到所述多个待选区域对应的特征数据;及分别计算所述定位图案信息与所述多个待选区域对应的特征数据的匹配度,将匹配度最高的待选区域作为所述待识别图片的定位图案区域。
2.根据权利要求1所述的基于OCR的目标字段识别方法,其特征在于,所述特征数据包括尺度不变特征变换特征。
3.根据权利要求1所述的基于OCR的目标字段识别方法,其特征在于,通过相似度计算公式计算所述定位图案信息与所述多个待选区域对应的特征数据的匹配度。
4.根据权利要求1所述的基于OCR的目标字段识别方法,其特征在于,所述根据所述模板图片的锚点信息、定位图案信息及第一相对位置信息确定所述待识别图片的搜索区域及滑动窗口,包括:
从所述目标模板信息中获取与所述待识别目标字段标识对应的锚点信息及所述第一相对位置信息;及
根据所述待识别图片的目标锚点区域的中心点及所述第一相对位置信息,确定所述待识别图片中定位图案的中心点,并以所述定位图案的中心点确定预设大小的区域作为所述搜索区域。
5.根据权利要求4所述的基于OCR的目标字段识别方法,其特征在于,所述根据所述模板图片的锚点信息、定位图案信息及第一相对位置信息确定所述待识别图片的搜索区域及滑动窗口,还包括:
根据所述待识别图片的目标锚点区域及所述模板图片中与所述目标锚点区域对应的锚点区域,计算透视变换矩阵;及
根据所述模板图片的定位图案区域的坐标及所述透视变换矩阵,计算得到所述模板图片的定位图案区域在所述待识别图片中的坐标,确定滑动窗口。
6.根据权利要求1至5中任意一项所述的基于OCR的目标字段识别方法,其特征在于,所述目标模板信息还包括:第二相对位置信息及相对大小信息,所述根据所述待识别图片的目标锚点区域、定位图案区域及所述目标模板信息,计算所述待识别图片中与所述待识别目标字段标识对应的目标字段区域,包括:
分别确定所述目标锚点区域及所述定位图案区域的中心点;
基于所述目标锚点区域、所述定位图案区域的中心点及所述第二相对位置信息计算所述待识别目标字段对应的中心点;
根据所述目标锚点区域的大小及所述相对大小信息,计算所述待识别目标字段对应的区域大小;及
根据所述待识别目标字段对应的中心点及区域大小生成所述目标字段区域。
7.根据权利要求1所述的基于OCR的目标字段识别方法,其特征在于,所述映射数据通过以下步骤确定:
获取多张模板图片,所述多张模板图片分别对应一个图片类型,所述多张模板图片中包括预设类型标注:锚点标注、定位图案标注及文本标注;
分别确定所述模板图片中所述锚点标注、所述定位图案标注及所述文本标注对应的区域,记录所述锚点标注、所述定位图案标注及所述文本标注对应的区域的相对位置信息及相对大小信息;
对所述锚点标注及所述文本标注对应的区域进行OCR识别,识别出所述模板图片的锚点信息及文本信息,对所述定位图案标注对应的区域进行特征提取,提取出所述定位图案标注对应的区域的特征数据,将提取的所述特征数据作为所述模板图片的定位图案信息;
基于所述模板图片的所述锚点信息、所述定位图案信息、所述文本信息、所述相对位置信息及所述相对大小信息生成所述模板图片的模板信息;及
根据每张所述模板图片的模板信息及对应的图片类型生成所述映射数据。
8.一种电子装置,其特征在于,该装置包括存储器及处理器,所述存储器中存储有可在所述处理器上运行的基于OCR的目标字段识别程序,所述基于OCR的目标字段识别程序被所述处理器执行时实现如权利要求1至7中任意一项所述的基于OCR的目标字段识别方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于OCR的目标字段识别程序,所述基于OCR的目标字段识别程序被处理器执行时,实现如权利要求1至7中任意一项所述的基于OCR的目标字段识别方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010186614.9A CN111476227B (zh) | 2020-03-17 | 2020-03-17 | 基于ocr的目标字段识别方法、装置及存储介质 |
PCT/CN2020/098984 WO2021184578A1 (zh) | 2020-03-17 | 2020-06-29 | 基于ocr的目标字段识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010186614.9A CN111476227B (zh) | 2020-03-17 | 2020-03-17 | 基于ocr的目标字段识别方法、装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111476227A CN111476227A (zh) | 2020-07-31 |
CN111476227B true CN111476227B (zh) | 2024-04-05 |
Family
ID=71748215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010186614.9A Active CN111476227B (zh) | 2020-03-17 | 2020-03-17 | 基于ocr的目标字段识别方法、装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN111476227B (zh) |
WO (1) | WO2021184578A1 (zh) |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112001331B (zh) * | 2020-08-26 | 2024-06-18 | 上海高德威智能交通系统有限公司 | 图像识别方法、装置、设备及存储介质 |
CN112132016B (zh) * | 2020-09-22 | 2023-09-15 | 平安科技(深圳)有限公司 | 票据信息提取方法、装置及电子设备 |
CN112200185A (zh) * | 2020-10-10 | 2021-01-08 | 航天科工智慧产业发展有限公司 | 一种文字反向定位图片的方法及装置、计算机储存介质 |
CN112836632B (zh) * | 2021-02-02 | 2023-04-07 | 浪潮云信息技术股份公司 | 自定义模板文字识别的实现方法及系统 |
CN112784932B (zh) * | 2021-03-01 | 2024-06-07 | 北京百炼智能科技有限公司 | 一种字体识别方法、装置和存储介质 |
CN113192607B (zh) * | 2021-04-13 | 2024-03-26 | 复旦大学附属中山医院 | 标注处理方法、装置、计算机设备和存储介质 |
CN113177541B (zh) * | 2021-05-17 | 2023-12-19 | 上海云扩信息科技有限公司 | 一种计算机程序提取pdf文档及图片中文字内容的方法 |
CN113269126A (zh) * | 2021-06-10 | 2021-08-17 | 上海云扩信息科技有限公司 | 一种基于坐标转换的关键信息提取方法 |
CN113672322B (zh) * | 2021-07-29 | 2024-05-24 | 浙江太美医疗科技股份有限公司 | 提供解释信息的方法及装置 |
CN113723347B (zh) * | 2021-09-09 | 2023-11-07 | 京东科技控股股份有限公司 | 信息提取的方法、装置、电子设备及存储介质 |
CN114494751A (zh) * | 2022-02-16 | 2022-05-13 | 国泰新点软件股份有限公司 | 证照信息识别方法、装置、设备及介质 |
CN114911963B (zh) * | 2022-05-12 | 2023-09-01 | 星环信息科技(上海)股份有限公司 | 一种模板图片分类方法、装置、设备、存储介质及产品 |
CN115543977A (zh) * | 2022-09-29 | 2022-12-30 | 河北雄安睿天科技有限公司 | 一种供水行业数据清洗方法 |
CN116012493B (zh) * | 2022-12-30 | 2024-05-24 | 壹沓科技(上海)有限公司 | 图像标注方法、装置、存储介质、计算机设备 |
CN116958996A (zh) * | 2023-07-24 | 2023-10-27 | 凯泰铭科技(北京)有限公司 | Ocr信息提取方法、系统及设备 |
CN117350264B (zh) * | 2023-12-04 | 2024-02-23 | 税友软件集团股份有限公司 | 一种ppt文件生成方法、装置、设备及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766809A (zh) * | 2017-10-09 | 2018-03-06 | 平安科技(深圳)有限公司 | 电子装置、票据信息识别方法和计算机可读存储介质 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109977935A (zh) * | 2019-02-27 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种文本识别方法及装置 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013080326A (ja) * | 2011-10-03 | 2013-05-02 | Sony Corp | 画像処理装置、画像処理方法及びプログラム |
CN109919014B (zh) * | 2019-01-28 | 2023-11-03 | 平安科技(深圳)有限公司 | Ocr识别方法及其电子设备 |
CN110008944B (zh) * | 2019-02-20 | 2024-02-13 | 平安科技(深圳)有限公司 | 基于模板匹配的ocr识别方法及装置、存储介质 |
CN110263616A (zh) * | 2019-04-29 | 2019-09-20 | 五八有限公司 | 一种文字识别方法、装置、电子设备及存储介质 |
CN110298353B (zh) * | 2019-07-03 | 2021-06-25 | 中国农业银行股份有限公司 | 一种字符识别方法及系统 |
-
2020
- 2020-03-17 CN CN202010186614.9A patent/CN111476227B/zh active Active
- 2020-06-29 WO PCT/CN2020/098984 patent/WO2021184578A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107766809A (zh) * | 2017-10-09 | 2018-03-06 | 平安科技(深圳)有限公司 | 电子装置、票据信息识别方法和计算机可读存储介质 |
CN108446621A (zh) * | 2018-03-14 | 2018-08-24 | 平安科技(深圳)有限公司 | 票据识别方法、服务器及计算机可读存储介质 |
CN109977935A (zh) * | 2019-02-27 | 2019-07-05 | 平安科技(深圳)有限公司 | 一种文本识别方法及装置 |
Non-Patent Citations (1)
Title |
---|
An End-to-End Trainable Neural Network for Image-based Sequence Recognition and Its Application to Scene Text Recognition;Shi Baoguang 等;《 arXiv:1507.05717 [cs.CV]》;20150721;正文第2-5页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111476227A (zh) | 2020-07-31 |
WO2021184578A1 (zh) | 2021-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
US10013643B2 (en) | Performing optical character recognition using spatial information of regions within a structured document | |
Yi et al. | Scene text recognition in mobile applications by character descriptor and structure configuration | |
US9626555B2 (en) | Content-based document image classification | |
US20170109610A1 (en) | Building classification and extraction models based on electronic forms | |
US20170147552A1 (en) | Aligning a data table with a reference table | |
WO2018233055A1 (zh) | 保单信息录入的方法、装置、计算机设备及存储介质 | |
CN110675940A (zh) | 病理图像标注方法、装置、计算机设备及存储介质 | |
US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
JP6795195B2 (ja) | 文字種推定システム、文字種推定方法、および文字種推定プログラム | |
CN111476271B (zh) | 图标识别的方法、装置、系统、计算机设备和存储介质 | |
CN111340020B (zh) | 一种公式识别方法、装置、设备及存储介质 | |
CN109871826A (zh) | 信息展示方法、装置、计算机可读存储介质和计算机设备 | |
CN111858977B (zh) | 票据信息采集方法、装置、计算机设备和存储介质 | |
CN113673500A (zh) | 证件图像识别方法、装置、电子设备及存储介质 | |
CN114005126A (zh) | 表格重构方法、装置、计算机设备及可读存储介质 | |
Xiong et al. | Text detection in stores using a repetition prior | |
CN112001389A (zh) | 一种多场景视频中文本信息识别方法、装置及电子设备 | |
CN112801099A (zh) | 一种图像处理方法、装置、终端设备及介质 | |
CN111414914A (zh) | 图像识别方法、装置、计算机设备和存储介质 | |
CN113780116A (zh) | 发票分类方法、装置、计算机设备和存储介质 | |
CN107168635A (zh) | 信息呈现方法和装置 | |
CN114529933A (zh) | 一种合同数据差异性的比对方法、装置、设备和介质 | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |