CN112528886A - Ocr信息检测识别方法、装置、终端及存储介质 - Google Patents
Ocr信息检测识别方法、装置、终端及存储介质 Download PDFInfo
- Publication number
- CN112528886A CN112528886A CN202011486201.9A CN202011486201A CN112528886A CN 112528886 A CN112528886 A CN 112528886A CN 202011486201 A CN202011486201 A CN 202011486201A CN 112528886 A CN112528886 A CN 112528886A
- Authority
- CN
- China
- Prior art keywords
- detection
- item
- frame
- input
- boxes
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 369
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 28
- 238000009432 framing Methods 0.000 claims description 14
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 6
- 238000007639 printing Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000750 progressive effect Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 210000000056 organ Anatomy 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012797 qualification Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种OCR信息检测识别方法、装置、终端及存储介质,其中方法包括:识别检测票证上的文字内容,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为项目名目的检测框,输入检测框为输入内容的检测框;依据项目检测框获取理论区域框,理论区域框为理论上用于输入内容的预设区域;通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框;计算目标理论区域框与目标输入检测框的偏移向量;通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。通过上述方式,本申请能够提高OCR识别的准确率。
Description
技术领域
本申请涉及图像识别技术领域,特别是涉及一种OCR信息检测识别方法、装置、终端及存储介质。
背景技术
票证具有权威性和防伪性,广泛应用于我国的国家机关、团体、企事业单位,票证识别在生活中的应用非常广泛,比如身份证、合格证、行驶证识别或者是涉及到最多的票据识别,但是目前还需要采用人工识别的办法来提取票证中所包含的目标字段,大量的人工识别耗费人力且效率低。
由于很多票证是有关部门监制印发,所以每张票证都有独一无二的校验码和盖章等信息以及各个条目的关键字,然后录入人员将这些内容空白的票证放入打印机再印上具体不同的各个条目对应的字段内容,比如姓名、金额、地址等等,就会引入错位的问题,也就是后面打印的具体人名、金额和地址内容等和对应的票证本身这些条目的关键字错位甚至重叠,输入错位的版面导致OCR分析、识别的难度很大,导致识别准确率低。
发明内容
本申请提供一种OCR信息检测识别方法、装置、终端及存储介质,以解决现有的OCR识别对于错位版面的识别准确率低的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种OCR信息检测识别方法,包括:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为框选项目名目的字段的检测框,输入检测框为框选项目名目的输入内容的字段的检测框;依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域;通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框;计算目标理论区域框与目标输入检测框的偏移向量;通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
作为本申请的进一步改进,对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,包括:对票证进行字段检测,获得检测框;对所有检测框进行文字识别,依据文字识别和预设的文本规则将检测框划分为项目检测框和输入检测框。
作为本申请的进一步改进,对票证进行字段检测,获得检测框,包括:利用预设的检测网络结合预设的输出要求对票证上的字段信息进行检测,以将票证上的字段信息通过检测框款选标注。
作为本申请的进一步改进,依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域,包括:依据项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取理论区域框。
作为本申请的进一步改进,依据项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取理论区域框,包括:依据项目检测框的文字识别获取匹配的至少一个输入检测框;获取至少一个输入检测框的参数信息,参数信息包括长宽、中心点、偏转方向;依据至少一个输入检测框的文字识别、参数信息获取预设区域;在预设方向上按预设区域进行投影获取理论区域框。
作为本申请的进一步改进,通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,包括:分别匹配每个项目检测框与每个输入检测框,得到多个匹配结果;从多组匹配结果中选取最大匹配结果对应的项目检测框和输入检测框作为目标项目检测框和目标输入检测框。
作为本申请的进一步改进,预设的文本规则包括关键字匹配和文本格式匹配。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种OCR信息检测识别装置,包括:检测模块,用于对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为框选项目名目的字段的检测框,输入检测框为框选项目名目的输入内容的字段的检测框;获取模块,用于依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域;识别模块,用于通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框;计算模块,用于计算目标理论区域框与目标输入检测框的偏移向量;确认模块,用于通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种终端,终端包括处理器、与处理器耦接的存储器,存储器中存储有程序指令,程序指令被处理器执行时,使得处理器执行上述中任一项的OCR信息检测识别方法的步骤。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述中任一项的OCR信息检测识别方法的程序文件。
本申请的有益效果是:本申请的OCR信息检测识别方法通过识别出一对对应的目标项目检测框和目标输入检测框之后,利用该目标项目检测框对应的目标理论区域框与目标输入检测框进行计算,从而得到目标输入检测框与目标理论区域框之间的偏移向量,而由于票证上所有输入检测框是统一错位偏移的,因此,通过项目检测框对应的理论区域框和偏移向量即可得到项目检测框对应的输入检测框,将输入检测框内的输入内容与项目名目进行对应,即可准确获取到每个项目名目的输入内容,提高了OCR识别准确率。
附图说明
图1是本申请第一实施例的OCR信息检测识别方法的流程示意图;
图2是本申请第二实施例的OCR信息检测识别方法的流程示意图;
图3是本申请第三实施例的OCR信息检测识别方法的流程示意图;
图4是本申请第四实施例的OCR信息检测识别方法的流程示意图;
图5是本申请实施例的OCR信息检测识别方法装置的功能模块示意图;
图6是本申请实施例的终端的结构示意图;
图7是本申请实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本申请第一实施例的OCR信息检测识别方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S11:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为框选项目名目的字段的检测框,输入检测框为框选项目名目的输入内容的字段的检测框。
在步骤S11中,票证具有权威性和防伪性,广泛应用于我国的国家机关、团体、企事业单位,由于很多票证是有关部门监制印发,所以同一类型、同一签发单位、同一用处的票证大部分具有固定的目标字段即项目名目、不同票证持有人的票证对于目标字段的输入内容不同,但是不论什么类型的票据,其相同类型目标字段的关键字及其对应的输入内容均具有一定的文字特征,如对于需要输入价格的目标字段,其关键字一般包括金额,其对应的输入内容一般为带有小数点的数字,且小数点后有两位。具体地,对于待识别的票证,其通常包括有多个项目检测框和多个输入检测框,其中,项目检测框和目标输入框的数目通常相同,在对所述票证上的文字内容进行识别检测时,可以预先设置文本规则,所述文本规则可以是关键字匹配、文字格式匹配等,对所述票证进行识别检测时,依据预设的文本规则识别到多个项目检测框和多个所述输入检测框,例如一张发票,其上通常都具有“合计(大写)”、“个人支付”、“现金支付”等字段,也具有“¥71.00”、“壹仟贰佰壹拾壹元整”、“¥21.00”等字段,按照本实施例中所述的文本规则,所述项目检测框框选的即为项目名目字段,则框选“合计(大写)”、“个人支付”、“现金支付”的检测框为项目检测框,而所述输入检测框框选的即为项目名目的输入内容,则框选“¥71.00”、“壹仟贰佰壹拾壹元整”、“¥21.00”的检测框为输入检测框。
优选地,本实施例中,预设的文本规则包括关键字匹配、文本格式匹配中的一种。
步骤S12:依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域。
在步骤S12中,对于不同版面的票证,在进行排版时,每一个项目名目理论上均对应有一个输入内容的区域,例如,一张发票上的“合计(大写)”项目名目,其对应的输入内容的区域可以在其右侧一定预设区域内,该预设区域是用于输入“壹仟贰佰壹拾壹元整”的,即该预设区域构成一个理论区域框,因此,可以理解的是,该理论区域框是用于输入项目名目的内容的理想位置,每一个项目检测框对应一个理论区域框,但在实际使用过程中,项目名目的输入内容不一定落入该理论区域框,例如,在打印发票时,由于发票摆放位置不准确,导致打印到发票上的内容出现位置偏差,出现项目名目对应的输入内容未落入到对应的理论区域框内的情况。
步骤S13:通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框。
在步骤S13中,票证上的内容通常具备一些容易识别的字段,例如,发票上的“合计(大写)”字段与“壹仟贰佰壹拾壹元整”字段就具备鲜明的特征,通过训练好的文本识别模型能够准确的检测出这两个字段,因此,针对于发票,即可以框选“合计(大写)”字段的检测框为目标项目检测框,以框选“壹仟贰佰壹拾壹元整”字段的检测框为目标项目检测框对应的目标输入检测框。
步骤S14:计算目标理论区域框与目标输入检测框的偏移向量。
在步骤S14中,目标输入检测框为实际的输入内容字段所在的位置,而目标理论区域框则为理论上的输入内容字段所在的位置,当打印票证正常时,目标输入检测框和目标理论区域框位置重合,当打印票证出现错位时,目标输入检测框和目标理论区域框位置不重合,将目标输入检测框和目标理论区域框放入同一坐标系之下,以目标输入检测框的中心点和目标理论区域框的中心点进行计算,即可得到目标输入检测框和目标理论区域框的偏移向量。
步骤S15:通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
在步骤S15中,由于录入人员将内容空白的票证放入打印机打印时,因为操作或者打印排版引起的输入错位通常是一致的,即每个项目名目对应的输入内容的偏移情况是一致的,故获取到所述理论区域框和偏移向量之后就可以准确的找到与项目检测框对应的输入检测框。
本申请第一实施例的OCR信息检测识别方法通过识别出一对对应的目标项目检测框和目标输入检测框之后,利用该目标项目检测框对应的目标理论区域框与目标输入检测框进行计算,从而得到目标输入检测框与目标理论区域框之间的偏移向量,而由于票证上所有输入检测框是统一错位偏移的,因此,通过项目检测框对应的理论区域框和偏移向量即可得到项目检测框对应的输入检测框,将输入检测框内的输入内容与项目名目进行对应,即可准确获取到每个项目名目的输入内容,提高了OCR识别准确率。
图2是本申请第二实施例的OCR信息检测识别方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:
步骤S21:对票证进行字段检测,获得检测框。
具体地,该检测框通常为以矩形框,用于检测出票证上的字段内容之后,框选出该字段内容。
进一步的,在一些实施例中,该步骤S21具体为:利用预设的检测网络结合预设的输出要求对票证上的字段信息进行检测,以将票证上的字段信息通过检测框款选标注。
具体地,按照不同任务要求,比如表格识别,发票识别,法规条款识别等。对应检测框可能输出要求为:按每个格子区域检测、按关键字段检测、按行检测。依据检测网络可以结合输出要求对所述票据进行字段检测,将所述票证上的字段信息用所述检测框进行框选标注。所述检测网络可以是渐进式尺度扩展网络(Progressive Scale ExpansionNetwork),Hybrid Task Cascade for Instance Segmentation等检测网络中的一种或者多种。
步骤S22:对所有检测框进行文字识别,依据文字识别和预设的文本规则将检测框划分为项目检测框和输入检测框。
在步骤S22中,通常利用上下文语义信息可以对所述检测框中的文字进行识别获得所述文字的关键字、文字特征等,然后将所述文字识别中的关键字,文字特征与预设文本规则进行比对,对于不同的输入,比如车架号、注册码、身份证号、公司名称,其文字特征基本不相同,如数字长短不同、数字字母组合要求不同等,如预设的文本规则为将包含关键字“金额”的字段识别为所述票证的项目名目,则将此文字对应的所述检测框划分为所述项目检测框,预设的文本规则为将包含文字特征为包含小数点的数字,且小数点后包括2位的字段识别为所述票证的输入金额,则将此文字对应的所述检测框划分为所述输入检测框。采用的识别模型可以是CTC(Connectionist temporal classification)模型、Attention模型中的一种或者多种。如An End-to-End Trainable Neural Network for Image-basedSequence Recognition and Its Application to Scene Text Recognition,Show,Attend and Read以及Multi-Aspect Non-local Network for Scene Text Recognition等。
步骤S23:依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域。
在本实施例中,图2中的步骤S23和图1中的步骤S12类似,为简约起见,在此不再赘述。
步骤S24:通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框。
在本实施例中,图2中的步骤S24和图1中的步骤S13类似,为简约起见,在此不再赘述。
步骤S25:计算目标理论区域框与目标输入检测框的偏移向量。
在本实施例中,图2中的步骤S25和图1中的步骤S14类似,为简约起见,在此不再赘述。
步骤S26:通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
在本实施例中,图2中的步骤S26和图1中的步骤S15类似,为简约起见,在此不再赘述。
本申请第二实施例的OCR信息检测识别方法在第一实施例的基础上,通过对所述票证进行检测、识别,并依据预设文本规则将所述检测框划分为所述项目检测框或所述输入检测框,可以将所述票证上的文字字段进行划分,针对所述输入检测框进行调整,使检测结果更加准确。
进一步的,在一些实施例中,该步骤S12具体为:依据项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取理论区域框。
具体地,对于所述票证上的不同项目名目,其对应的输入规则不同,本实施例中,所述输入规则可以包括输入位置、输入范围,所述输入位置即输入的文字字段在项目名目的所述项目检测框的哪个方位,如当输入位置在所述项目名目的右侧时,从左至右进行输入,或当输入位置在所述项目名目的下方时,从上至下进行输入,或当输入位置在所述项目名目的左侧时,从左至右进行输入,或当输入位置在所述项目名目的上方时,从上至下进行输入等,常见的输入位置是在所述项目名目的右侧,从左至右进行输入,所述输入范围为所述项目名目对应的输入字段占用的范围区域,例如金额的占用的范围区域通常小于身份证号的占用的范围区域,因此可以根据不同的输入文字的类型预先设置输入的范围,然后根据所述项目检测框的文字识别按对应的预设区域在预设方向上进行投影从而获得所述理论区域框。
图3是本申请第三实施例的OCR信息检测识别方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图3所示的流程顺序为限。如图3所示,该方法包括步骤:
步骤S31:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为框选项目名目的字段的检测框,输入检测框为框选项目名目的输入内容的字段的检测框。
在本实施例中,图3中的步骤S31和图1中的步骤S11类似,为简约起见,在此不再赘述。
步骤S32:依据项目检测框的文字识别获取匹配的至少一个输入检测框。
在步骤S32中,通过文字识别结果,对于某一项目条目获取可能与之匹配的文本的输出检测框。例如所述项目检测框文字识别后为“金额”的项目条目,那么可以通过所述输入检测框的文字识别获得内容为包含小数点且小数点后有两位的数字的至少一个所述输入检测框。其中,所述项目检测框、所述输入检测框的识别和匹配可以采用编辑距离、正则运算等确定。
步骤S33:获取至少一个输入检测框的参数信息,参数信息包括长宽、中心点、偏转方向。
在步骤S33中,先用shapely.geometry库和opencv库等对所述输入检测框进行分析。输出所述输入检测框的长宽、中心点、偏转方向等参数信息。
步骤S34:依据至少一个输入检测框的文字识别、参数信息获取预设区域。
在步骤S34中,对至少一个所述输入检测框的文字识别先归一化计算,然后依据所述输入检测框的参数信息计算文字识别出的各字段的平均长度、宽高比、偏移矢量矩阵、相对偏移角度矩阵等参数,再根据字段数量、各字段的平均长度、宽高比等确认预设区域的大小,通常地,预设区域的大小与输入检测框的达标接近。其中,归一化计算为以所述票证的至少一个所述输入检测框的高度来作为单位长度,对所有的高度除宽度来归一化,计算相对长宽,以每个所述至少一个所述输入检测框中的文本个数除以相对宽度,获取每个字段的单字单位长宽信息,和输入检测框单位长宽信息。所述预设区域为按所述票证的项目名目的输入字段计算对应内容的平均比例长宽。
步骤S35:在预设方向上按预设区域进行投影获取理论区域框。
在步骤S35中,在预设方向按预设区域生成所述理论区域框。通常地,一个项目检测框的上下左右四个方向理论上都可以生成理论区域框,当针对于单种版面,项目名目的输入内容通常是在其右侧或下方区域,本实施例中,可根据项目名目的内容预先指定预设方向,从而在确认预设区域的大小之后,在对应的预设方向上进行投影以获取理论区域框。
步骤S36:通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框。
在本实施例中,图3中的步骤S36和图1中的步骤S13类似,为简约起见,在此不再赘述。
步骤S37:计算目标理论区域框与目标输入检测框的偏移向量。
在本实施例中,图3中的步骤S37和图1中的步骤S14类似,为简约起见,在此不再赘述。
步骤S38:通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
在本实施例中,图3中的步骤S38和图1中的步骤S15类似,为简约起见,在此不再赘述。
本申请第三实施例的OCR信息检测识别方法在第一实施例的基础上,通过使用投影的所述理论区域框与所述输入检测框的IOU输入检测网络纠正检测网络的检测,可以通过反馈纠正前期步骤的误差,提高检测的准确率。
图4是本申请第四实施例的OCR信息检测识别方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图4所示的流程顺序为限。如图4所示,该方法包括步骤:
步骤S41:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为框选项目名目的字段的检测框,输入检测框为框选项目名目的输入内容的字段的检测框。
在本实施例中,图4中的步骤S41和图1中的步骤S11类似,为简约起见,在此不再赘述。
步骤S42:依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域。
在本实施例中,图4中的步骤S42和图1中的步骤S12类似,为简约起见,在此不再赘述。
步骤S43:分别匹配每个项目检测框与每个输入检测框,得到多个匹配结果。
在步骤S43中,对所述项目检测框、所述输入检测框的匹配关系使用匈牙利匹配算法,获得所述项目检测框与所述目标输入检测框的匹配结果。
步骤S44:从多组匹配结果中选取最大匹配结果对应的项目检测框和输入检测框作为目标项目检测框和目标输入检测框。
在步骤S44中,从多组匹配结果中选取最大匹配结果对应的所述项目检测框和所述输入检测框,再将该组项目检测框和输入检测框作为目标项目检测框和目标输入检测框,例如:当多组匹配结果中,项目名目“金额(大写)”与输入内容“壹仟贰佰壹拾壹元整”的匹配结果为最大匹配结果时,则将“金额(大写)”对应的项目检测框作为目标项目检测框,将“壹仟贰佰壹拾壹元整”对应的输入检测框作为目标输入检测框。
步骤S45:计算目标理论区域框与目标输入检测框的偏移向量。
在本实施例中,图4中的步骤S45和图1中的步骤S14类似,为简约起见,在此不再赘述。
步骤S46:通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
在本实施例中,图4中的步骤S46和图1中的步骤S15类似,为简约起见,在此不再赘述。
本申请第四实施例的OCR信息检测识别方法在第一实施例的基础上,通过利用匈牙利匹配算法来匹配每个项目检测框与每个输入检测框,得到多个匹配结果,再选取匹配结果最大的一组项目检测框和输入检测框作为目标项目检测框和目标输入检测框,使得获取到的目标项目检测框和目标输入检测框的准确,再进行后续的偏移向量计算,其降低了打印模糊、打印错位和字段残缺等问题带来的影响,提升了OCR识别的准确率。
图5是本申请实施例的OCR信息检测识别方法装置的功能模块示意图。如图5所示,该装置50包括检测模块51、获取模块52、识别模块53、计算模块54和确认模块55。
检测模块51,用于对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,项目检测框为框选项目名目的字段的检测框,输入检测框为框选项目名目的输入内容的字段的检测框。
获取模块52,用于依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域。
识别模块53,用于通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取目标项目检测框对应的目标理论区域框。
计算模块54,用于计算目标理论区域框与目标输入检测框的偏移向量。
确认模块55,用于通过偏移向量和每个理论区域框确认每个项目检测框与每个输入检测框的对应关系。
可选地,检测模块51对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框的操作可以为:对票证进行字段检测,获得检测框;对所有检测框进行文字识别,依据文字识别和预设的文本规则将检测框划分为项目检测框和输入检测框。
可选地,检测模块51对票证进行字段检测,获得检测框的操作可以为:利用预设的检测网络结合预设的输出要求对票证上的字段信息进行检测,以将票证上的字段信息通过检测框款选标注。
可选地,获取模块52依据项目检测框获取理论区域框,理论区域框为用于输入项目名目的内容的预设区域的操作还可以为:依据项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取理论区域框。
可选地,获取模块52依据项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取理论区域框的操作还可以为:依据项目检测框的文字识别获取匹配的至少一个输入检测框;获取至少一个输入检测框的参数信息,参数信息包括长宽、中心点、偏转方向;依据至少一个输入检测框的文字识别、参数信息获取预设区域;在预设方向上按预设区域进行投影获取理论区域框。
可选地,识别模块53通过预设匹配规则从多个项目检测框和多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框的操作还可以为:分别匹配每个项目检测框与每个输入检测框,得到多个匹配结果;从多组匹配结果中选取最大匹配结果对应的项目检测框和输入检测框作为目标项目检测框和目标输入检测框。
可选地,预设的文本规则包括关键字匹配和文本格式匹配。
关于上述实施例OCR信息检测识别装置中各模块实现技术方案的其他细节,可参见上述实施例中的OCR信息检测识别方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图6,图6为本申请实施例的终端的结构示意图。如图6所示,该终端60包括处理器61及和处理器61耦接的存储器62。
存储器62存储有程序指令,程序指令被处理器61执行时,使得处理器61执行上述实施例中的OCR信息检测识别方法的步骤。
其中,处理器61还可以称为CPU(Central Processing Unit,中央处理单元)。处理器61可能是一种集成电路芯片,具有信号的处理能力。处理器61还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图7,图7为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件71,其中,该程序文件71可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (10)
1.一种OCR信息检测识别方法,其特征在于,包括:
对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,所述项目检测框为框选项目名目的字段的检测框,所述输入检测框为框选所述项目名目的输入内容的字段的检测框;
依据所述项目检测框获取理论区域框,所述理论区域框为用于输入所述项目名目的内容的预设区域;
通过预设匹配规则从所述多个项目检测框和所述多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取所述目标项目检测框对应的目标理论区域框;
计算所述目标理论区域框与所述目标输入检测框的偏移向量;
通过所述偏移向量和每个所述理论区域框确认每个所述项目检测框与每个所述输入检测框的对应关系。
2.根据权利要求1所述的OCR信息检测识别方法,其特征在于,所述对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,包括:
对所述票证进行字段检测,获得检测框;
对所有所述检测框进行文字识别,依据文字识别和预设的文本规则将所述检测框划分为所述项目检测框和所述输入检测框。
3.根据权利要求2所述的OCR信息检测识别方法,其特征在于,所述对所述票证进行字段检测,获得检测框,包括:
利用预设的检测网络结合预设的输出要求对所述票证上的字段信息进行检测,以将所述票证上的字段信息通过所述检测框款选标注。
4.根据权利要求1所述的OCR信息检测识别方法,其特征在于,所述依据所述项目检测框获取理论区域框,所述理论区域框为用于输入所述项目名目的内容的预设区域,包括:
依据所述项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取所述理论区域框。
5.根据权利要求4所述的OCR信息检测识别方法,其特征在于,所述依据所述项目检测框的文字识别内容,在预设方向上按预设区域进行投影获取所述理论区域框,包括:
依据所述项目检测框的文字识别获取匹配的至少一个所述输入检测框;
获取至少一个所述输入检测框的参数信息,所述参数信息包括长宽、中心点、偏转方向;
依据所述至少一个所述输入检测框的文字识别、所述参数信息获取所述预设区域;
在预设方向上按预设区域进行投影获取所述理论区域框。
6.根据权利要求1所述的OCR信息检测识别方法,其特征在于,所述通过预设匹配规则从所述多个项目检测框和所述多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,包括:
分别匹配每个所述项目检测框与每个所述输入检测框,得到多个匹配结果;
从所述多组匹配结果中选取最大匹配结果对应的项目检测框和输入检测框作为所述目标项目检测框和所述目标输入检测框。
7.根据权利要求1所述的OCR信息检测识别方法,其特征在于,所述预设的文本规则包括关键字匹配和文本格式匹配。
8.一种OCR信息检测识别装置,其特征在于,包括:
检测模块,用于对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个输入检测框,所述项目检测框为框选项目名目的字段的检测框,所述输入检测框为框选所述项目名目的输入内容的字段的检测框;
获取模块,用于依据所述项目检测框获取理论区域框,所述理论区域框为用于输入所述项目名目的内容的预设区域;
识别模块,用于通过预设匹配规则从所述多个项目检测框和所述多个输入检测框中识别出一组对应的目标项目检测框和目标输入检测框,并获取所述目标项目检测框对应的目标理论区域框;
计算模块,用于计算所述目标理论区域框与所述目标输入检测框的偏移向量;
确认模块,用于通过所述偏移向量和每个所述理论区域框确认每个所述项目检测框与每个所述输入检测框的对应关系。
9.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项权利要求所述的OCR信息检测识别方法的步骤。
10.一种存储介质,其特征在于,存储有能够实现如权利要求1-7中任一项所述的OCR信息检测识别方法的程序文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011486201.9A CN112528886B (zh) | 2020-12-16 | 2020-12-16 | Ocr信息检测识别方法、装置、终端及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011486201.9A CN112528886B (zh) | 2020-12-16 | 2020-12-16 | Ocr信息检测识别方法、装置、终端及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112528886A true CN112528886A (zh) | 2021-03-19 |
CN112528886B CN112528886B (zh) | 2024-09-17 |
Family
ID=75000713
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011486201.9A Active CN112528886B (zh) | 2020-12-16 | 2020-12-16 | Ocr信息检测识别方法、装置、终端及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112528886B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743336B (zh) * | 2021-09-08 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于深度学习的发票信息识别方法、装置和计算机设备 |
CN118262375A (zh) * | 2024-03-01 | 2024-06-28 | 北京健康有益科技有限公司 | 一种医疗仪器的指标测量值的提取方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165978A (ja) * | 2003-12-05 | 2005-06-23 | Fuji Photo Film Co Ltd | 帳票ocrプログラム、方法及び装置 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN111679872A (zh) * | 2020-08-11 | 2020-09-18 | 国信电子票据平台信息服务有限公司 | 一种发票抬头信息填充方法、装置及电子设备和存储介质 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
-
2020
- 2020-12-16 CN CN202011486201.9A patent/CN112528886B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005165978A (ja) * | 2003-12-05 | 2005-06-23 | Fuji Photo Film Co Ltd | 帳票ocrプログラム、方法及び装置 |
CN110135424A (zh) * | 2019-05-23 | 2019-08-16 | 阳光保险集团股份有限公司 | 倾斜文本检测模型训练方法和票证图像文本检测方法 |
CN111709339A (zh) * | 2020-06-09 | 2020-09-25 | 北京百度网讯科技有限公司 | 一种票据图像识别方法、装置、设备及存储介质 |
CN111679872A (zh) * | 2020-08-11 | 2020-09-18 | 国信电子票据平台信息服务有限公司 | 一种发票抬头信息填充方法、装置及电子设备和存储介质 |
Non-Patent Citations (1)
Title |
---|
曹玉东;汪金涛;杜刚;: "银行票据图像中的文本区域定位算法", 辽宁工业大学学报(自然科学版), no. 05, pages 281 - 283 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743336B (zh) * | 2021-09-08 | 2023-06-20 | 平安科技(深圳)有限公司 | 基于深度学习的发票信息识别方法、装置和计算机设备 |
CN118262375A (zh) * | 2024-03-01 | 2024-06-28 | 北京健康有益科技有限公司 | 一种医疗仪器的指标测量值的提取方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN112528886B (zh) | 2024-09-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110569850B (zh) | 字符识别模板匹配方法、装置和文本识别设备 | |
CN111476227B (zh) | 基于ocr的目标字段识别方法、装置及存储介质 | |
US7886219B2 (en) | Automatic form generation | |
US7840890B2 (en) | Generation of randomly structured forms | |
CN111325110A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
EP0011388A1 (en) | System and method for processing documents | |
EP1914680A1 (en) | Document/image searching method and program, and document/image recording and searching device | |
JP4996940B2 (ja) | 帳票認識装置およびそのプログラム | |
CN111275880A (zh) | 票据识别方法、装置、设备和存储介质 | |
US20170293820A1 (en) | Image processing device | |
US9027833B2 (en) | Commodity information display apparatus and method for displaying commodity information in different forms | |
JP2000251012A (ja) | 帳票処理方法およびシステム | |
CN112800848A (zh) | 票据识别后信息结构化提取方法、装置和设备 | |
CN112528886B (zh) | Ocr信息检测识别方法、装置、终端及存储介质 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
KR101942468B1 (ko) | 정형 및 비정형 데이터 추출 시스템 및 방법 | |
CN112580108B (zh) | 签名和印章完整性验证方法及计算机设备 | |
KR20080006422A (ko) | 장표 인식 장치 및 장표 인식 프로그램 | |
CN112308046A (zh) | 图像的文本区域定位方法、装置、服务器及可读存储介质 | |
CN112528889B (zh) | Ocr信息检测修正方法、装置、终端及存储介质 | |
JP3491636B2 (ja) | 帳票処理方法およびシステム | |
WO2020230938A1 (ko) | 포스 단말기와 연동하여 고객이 구매한 상품들을 이용한 영수증 광고 추천 장치 | |
Liu et al. | Image-based form document retrieval | |
JP6683377B1 (ja) | 書類分類システム、書類分類装置、書類分類方法、書類分類プログラム | |
CN116563876A (zh) | 一种发票识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |