CN112528889B - Ocr信息检测修正方法、装置、终端及存储介质 - Google Patents

Ocr信息检测修正方法、装置、终端及存储介质 Download PDF

Info

Publication number
CN112528889B
CN112528889B CN202011489875.4A CN202011489875A CN112528889B CN 112528889 B CN112528889 B CN 112528889B CN 202011489875 A CN202011489875 A CN 202011489875A CN 112528889 B CN112528889 B CN 112528889B
Authority
CN
China
Prior art keywords
actual input
frames
frame
detection
boxes
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011489875.4A
Other languages
English (en)
Other versions
CN112528889A (zh
Inventor
梅栋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Property and Casualty Insurance Company of China Ltd
Original Assignee
Ping An Property and Casualty Insurance Company of China Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Property and Casualty Insurance Company of China Ltd filed Critical Ping An Property and Casualty Insurance Company of China Ltd
Priority to CN202011489875.4A priority Critical patent/CN112528889B/zh
Publication of CN112528889A publication Critical patent/CN112528889A/zh
Application granted granted Critical
Publication of CN112528889B publication Critical patent/CN112528889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)

Abstract

本申请公开了一种OCR信息检测修正方法、装置、终端及存储介质,其中方法包括:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框;比对项目检测框的数量与实际输入框的数量;当项目检测框的数量超过实际输入框的数量时,执行补全实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致;当实际输入框的数量超过项目检测框的数量时,执行合并实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。通过上述方式,本申请能够提高OCR识别的准确率。

Description

OCR信息检测修正方法、装置、终端及存储介质
技术领域
本申请涉及图像识别技术领域,特别是涉及一种OCR信息检测修正方法、装置、终端及存储介质。
背景技术
OCR(Optical Character Recognition,光学字符识别)是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。
一个OCR识别过程通常包括检测、识别、查表投票等过程,经过上述步骤后即完成识别,最终的识别率即为上述步骤的识别率的联合,当其中某个步骤识别率不高时,会使整个识别结果的正确性降低,现有技术中,检测过程通常依靠检测算法,但是单纯依靠检测算法,输出的文本框不一定准确,如有些票证里同一个字段间间隔很宽,而不同字段间反而间隔很窄,这会导致检测框要么检短或者连框,甚至漏检,对于送入识别网络的文本数据,在实际生产当中是检测步骤输出的小条图,这些小条图相对人工标注的数据,会有一些偏差,比如角度偏差、宽高偏差,甚至一些连框,因此导致联合检测结果的准确率降低。
发明内容
本申请提供一种OCR信息检测修正方法、装置、终端及存储介质,以解决现有的OCR检测识别准确率低的问题。
为解决上述技术问题,本申请采用的一个技术方案是:提供一种OCR信息检测修正方法,包括:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框;比对项目检测框的数量与实际输入框的数量;当项目检测框的数量超过实际输入框的数量时,执行补全实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致;当实际输入框的数量超过项目检测框的数量时,执行合并实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
作为本申请的进一步改进,执行补全实际输入框的操作,包括:判断每个项目检测框内的字段内容是否符合预设规则;当存在项目检测框的目标字段内容不符合预设规则时,将目标字段内容截断为符合预设规则的第一字段内容和不符合预设规则的第二字段内容,并以第一字段内容构建新的项目检测框,及以第二字段内容构建新的实际输入框。
作为本申请的进一步改进,判断每个项目检测框内的字段内容是否符合预设规则之后,还包括:当项目检测框内的字段内容均符合预设规则时,依据项目检测框获取理论输入框,理论输入框为用于输入项目名目的内容的预设区域;计算理论输入框与实际输入框的偏移向量;根据理论输入框和偏移向量分析多个项目检测框中未对应实际输入框的第二目标项目检测框;将第二目标项目检测框对应的第二目标理论输入框按偏移向量进行偏移后得到投影区域框,再以投影区域框作为第二目标项目检测框对应的第二目标实际输入框。
作为本申请的进一步改进,计算理论输入框与实际输入框的偏移向量,包括:通过预设匹配规则从多个项目检测框和多个实际输入框中识别出一组对应的第一目标项目检测框和第一目标实际输入框,并获取第一目标项目检测框对应的第一目标理论输入框;计算第一目标理论输入框与第一目标实际输入框的偏移向量。
作为本申请的进一步改进,执行合并实际输入框的操作,包括:将实际输入框按照偏移向量进行偏移,得到偏移后的实际输入框的位置;计算偏移后的实际输入框与理论输入框的交并比;当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,将至少两个实际输入框合并为一个新的实际输入框。
作为本申请的进一步改进,当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,将至少两个实际输入框合并为一个新的实际输入框,包括:当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,获取至少两个实际输入框内的字段内容;根据至少两个实际输入框的位置确定两段字段内容的顺序,并根据顺序将两段字段内容合并为一段新的字段内容;根据理论输入框和偏移向量,在相应区域生成框选新的字段内容的新的实际输入框。
作为本申请的进一步改进,保持实际输入框的数量与项目检测框的数量一致之后,还包括:根据理论输入框、偏移向量确定修正后的项目检测框与实际检测框的对应关系。
为解决上述技术问题,本申请采用的另一个技术方案是:提供一种OCR信息检测修正装置,包括:获取模块,用于对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框;比对模块,用于比对项目检测框的数量与实际输入框的数量;补全模块,用于当项目检测框的数量超过实际输入框的数量时,执行补全实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致;合并模块,用于当实际输入框的数量超过项目检测框的数量时,执行合并实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种终端,终端包括处理器、与处理器耦接的存储器,存储器中存储有程序指令,程序指令被处理器执行时,使得处理器执行上述中任一项权利要求的OCR信息检测修正方法的步骤。
为解决上述技术问题,本申请采用的再一个技术方案是:提供一种存储介质,存储有能够实现上述中任一项的OCR信息检测修正方法的程序文件。
本申请的有益效果是:本申请的OCR信息检测修正方法通过在获取到多个项目检测框和多个实际输入框之后,分析比对项目检测框的数目与实际输入框的数量是否一致,从而确定是否存在输入内容漏检、输入内容与项目名目连框、同一项目名目的输入内容被分割为多个实际输入框等情况,若存在,则进行修正,从而保证后续的OCR识别更为准确,提高了识别准确率。
附图说明
图1是本申请第一实施例的OCR信息检测修正方法的流程示意图;
图2是本申请第二实施例的OCR信息检测修正方法的流程示意图;
图3是本申请第三实施例的OCR信息检测修正方法的流程示意图;
图4是本申请实施例的OCR信息检测修正方法装置的功能模块示意图;
图5是本申请实施例的终端的结构示意图;
图6是本申请实施例的存储介质的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请中的术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隐含地包括至少一个该特征。本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1是本申请第一实施例的OCR信息检测修正方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括步骤:
步骤S101:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框。
在步骤S101中,票证具有权威性和防伪性,广泛应用于我国的国家机关、团体、企事业单位,由于很多票证是有关部门监制印发,所以同一类型、同一签发单位、同一用处的票证大部分具有固定的目标字段即项目名目、不同票证持有人的票证对于目标字段的输入内容不同,但是不论什么类型的票据,其相同类型目标字段的关键字及其对应的输入内容均具有一定的文字特征,如对于需要输入价格的目标字段,其关键字一般包括金额,其对应的输入内容一般为带有小数点的数字,且小数点后有两位。具体地,对于待识别的票证,其通常包括有多个项目检测框和多个实际输入框,其中,项目检测框和目标输入框的数目通常相同,在对所述票证上的文字内容进行识别检测时,可以预先设置文本规则,所述文本规则可以是关键字匹配、文字格式匹配等,对所述票证进行识别检测时,依据预设的文本规则识别到多个项目检测框和多个所述实际输入框,例如一张发票,其上通常都具有“合计(大写)”、“个人支付”、“现金支付”等字段,也具有“¥71.00”、“壹仟贰佰壹拾壹元整”、“¥21.00”等字段,按照本实施例中所述的文本规则,所述项目检测框框选的即为项目名目字段,则框选“合计(大写)”、“个人支付”、“现金支付”的检测框为项目检测框,而所述实际输入框框选的即为项目名目的输入内容,则框选“¥71.00”、“壹仟贰佰壹拾壹元整”、“¥21.00”的检测框为实际输入框。
步骤S102:比对项目检测框的数量与实际输入框的数量。当项目检测框的数量超过实际输入框的数量时,执行步骤S103;当实际输入框的数量超过项目检测框的数量时,执行步骤S104。
在步骤S102中,在获取到多个项目检测框和多个实际输入框之后,分析项目检测框与实际输入框之间的数量关系,当出现漏检输入的字段内容、输入的字段内容落入到项目检测框的区域内、输入的同一项目名目的字段内容因间隔较大而形成不同的实际输入框的情况时,项目检测框的数量与实际输入框的数量会出现不一致的情况,例如,当漏检输入的字段内容时,则会导致实际输入框的数量少于项目检测框的数量;当输入的字段内容落入到项目检测框的区域内时,会将该字段内容默认为项目名目字段的一部分,导致该字段内容不会形成实际输入框,进而导致实际输入框的数量少于项目检测框的数量;当输入的同一项目名目的字段内容的字段间隔较大时,则可能会导致形成两个实际输入框,进而导致实际输入框的数量多于项目检测框的数量,而项目检测框与实际输入框数量上的不一致则会进一步导致后续OCR识别出错。
步骤S103:执行补全实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
在步骤S103中,当所述项目检测框的数量超过所述实际输入框的数量时,则说明存在输入内容漏检或输入内容与项目名目在同一个框内的情况,因此,为了保证后续OCR识别准确,通过执行补全实际输入框的操作,从而使得项目检测框与实际输入框数量一致。
步骤S104:执行合并实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
在步骤S104中,当所述实际输入框的数量超过所述项目检测框的数量时,则说明存在同一名目的输入内容被分割开的情况,因此,为了保证后续OCR识别准确,通过执行合并所述实际输入框的操作,从而使得项目检测框与实际输入框数量一致。
本申请第一实施例的OCR信息检测修正方法通过在获取到多个项目检测框和多个实际输入框之后,分析比对项目检测框的数目与实际输入框的数量是否一致,从而确定是否存在输入内容漏检、输入内容与项目名目连框、同一项目名目的输入内容被分割为多个实际输入框等情况,若存在,则进行修正,从而保证后续的OCR识别更为准确,提高了识别准确率。
图2是本申请第二实施例的OCR信息检测修正方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图2所示的流程顺序为限。如图2所示,该方法包括步骤:
步骤S201:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框。
在本实施例中,图2中的步骤S201和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S202:比对项目检测框的数量与实际输入框的数量。当项目检测框的数量超过实际输入框的数量时,执行步骤S203-步骤S204;当实际输入框的数量超过项目检测框的数量时,执行步骤S205。
在本实施例中,图2中的步骤S202和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S203:判断每个项目检测框内的字段内容是否符合预设规则。当存在项目检测框的目标字段内容不符合预设规则时,执行步骤S204。
在步骤S203中,该预设规则预先设置,包括关键词、文本格式设置等,例如,发票上的“合计(大写)”项目名目,其对应的字段内容需要有“合计”或者“金额”,以及“大写”等关键词,当项目检测框内的字段仅包括这些关键词时,说明其符合预设规则;当项目检测框内的字段内容存在这些关键词以外的字段时,则说明该项目检测框内的字段内容时不符合预设规则的,例如,当“合计(大写)”项目名目的项目检测框内的字段内容为“合计(大写)壹仟贰佰壹拾壹元整”时,说明该项目检测框内的字段内容不符合预设规则;还例如,当“合计(大写)”项目名目的项目检测框中出现“167.50”的数字文本格式时,同样说明该项目检测框内的字段内容不符合预设规则。
步骤S204:将目标字段内容截断为符合预设规则的第一字段内容和不符合预设规则的第二字段内容,并以第一字段内容构建新的项目检测框,及以第二字段内容构建新的实际输入框。
在步骤S204中,当项目检测框的目标字段内容不符合预设规则时,将目标字段内容中符合预设规则的字段内容与另一部分字段内容分割开,从而得到符合预设规则的第一字段内容和不符合预设规则的第二字段内容,再根据第一字段内容生成新的项目检测框,根据第二字段内容生成新的实际输入框,从而解决项目名目与输入内容连框的问题,使得项目检测框与实际输入框的数量一致。
步骤S205:执行合并实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
在本实施例中,图2中的步骤S205和图1中的步骤S104类似,为简约起见,在此不再赘述。
进一步的,步骤S203之后,还包括:
步骤S206:当项目检测框内的字段内容均符合预设规则时,依据项目检测框获取理论输入框,理论输入框为用于输入项目名目的内容的预设区域。
在步骤S206中,对于不同版面的票证,在进行排版时,每一个项目名目理论上均对应有一个输入内容的区域,例如,一张发票上的“合计(大写)”项目名目,其对应的输入内容的区域可以在其右侧一定预设区域内,该预设区域是用于输入“壹仟贰佰壹拾壹元整”的,即该预设区域构成一个理论输入框,因此,可以理解的是,该理论输入框是用于输入项目名目的内容的理想位置,每一个项目检测框对应一个理论输入框,但在实际使用过程中,项目名目的输入内容不一定落入该理论输入框,例如,在打印发票时,由于发票摆放位置不准确,导致打印到发票上的内容出现位置偏差,出现项目名目对应的输入内容未落入到对应的理论输入框内的情况。
步骤S207:计算理论输入框与实际输入框的偏移向量。
在步骤S207中,偏移向量是指理论输入框与实际输入框之间偏移的距离、方向和旋转的角度。
进一步的,步骤S207包括:
1、通过预设匹配规则从多个项目检测框和多个实际输入框中识别出一组对应的第一目标项目检测框和第一目标实际输入框,并获取第一目标项目检测框对应的第一目标理论输入框。
具体地,票证上的内容通常具备一些容易识别的字段,例如,发票上的“合计(大写)”字段与“壹仟贰佰壹拾壹元整”字段就具备鲜明的特征,通过训练好的文本识别模型能够准确的检测出这两个字段,因此,针对于发票,即可以框选“合计(大写)”字段的检测框为目标项目检测框,以框选“壹仟贰佰壹拾壹元整”字段的检测框为目标项目检测框对应的目标实际输入框。
2、计算第一目标理论输入框与第一目标实际输入框的偏移向量。
具体地,目标实际输入框为实际的输入内容字段所在的位置,而目标理论输入框则为理论上的输入内容字段所在的位置,当打印票证正常时,目标实际输入框和目标理论输入框位置重合,当打印票证出现错位时,目标实际输入框和目标理论输入框位置不重合,将目标实际输入框和目标理论输入框放入同一坐标系之下,以目标实际输入框的中心点和目标理论输入框的中心点进行计算,即可得到目标实际输入框和目标理论输入框的偏移向量。
步骤S208:根据理论输入框和偏移向量分析多个项目检测框中未对应实际输入框的第二目标项目检测框。
在步骤S208中,在得到偏移向量后,根据项目检测框对应理论输入框,理论输入框利用偏移向量确定对应的实际输入框,从而分析出哪一个理论输入框未与实际输入框对应,再将该理论输入框对应的项目检测框作为第二目标项目检测框。
步骤S209:将第二目标项目检测框对应的第二目标理论输入框按偏移向量进行偏移后得到投影区域框,再以投影区域框作为第二目标项目检测框对应的第二目标实际输入框。
在步骤S209中,由于录入人员将内容空白的票证放入打印机打印时,因为操作或者打印排版引起的输入错位通常是一致的,即每个项目名目对应的输入内容的偏移情况是一致的,因此,在确定第二目标项目检测框之后,将其对应的第二目标理论输入框按照偏移向量进行偏移,得到一块投影区域框,而向第二目标项目检测框的项目名目的输入内容必定会落入到该投影区域框之内,再以该投影区域框作为第二目标项目检测框对应的第二目标实际输入框。
本申请第二实施例的OCR信息检测修正方法在第一实施例的基础上,通过分析项目检测框的目标字段内容是佛符合预设规则,将不符合预设规则的目标字段内容截断为符合预设规则的第一字段内容和不符合预设规则的第二字段内容,再分别根据第一字段内容生成新的项目检测框、根据第二字段内容生成新的实际输入框,从而将连框的项目名目与输入内容分割,使得项目检测框与实际输入框数目一致,保证后续的OCR识别更为准确。
图3是本申请第三实施例的OCR信息检测修正方法的流程示意图。需注意的是,若有实质上相同的结果,本申请的方法并不以图3所示的流程顺序为限。如图3所示,该方法包括步骤:
步骤S301:对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框。
在本实施例中,图3中的步骤S301和图1中的步骤S101类似,为简约起见,在此不再赘述。
步骤S302:比对项目检测框的数量与实际输入框的数量。当项目检测框的数量超过实际输入框的数量时,执行步骤S303;当实际输入框的数量超过项目检测框的数量时,执行步骤S304-步骤S306。
在本实施例中,图3中的步骤S302和图1中的步骤S102类似,为简约起见,在此不再赘述。
步骤S303:执行补全实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
在本实施例中,图3中的步骤S303和图1中的步骤S103类似,为简约起见,在此不再赘述。
步骤S304:将实际输入框按照偏移向量进行偏移,得到偏移后的实际输入框的位置。
步骤S305:计算偏移后的实际输入框与理论输入框的交并比。
在步骤S305中,交并比(Intersection over Union)是目标检测任务中非常重要的概念。交并比是指两个矩形框面积的交集和并集的比值,在用训练好的模型进行目标识别时,网络会预测出一系列的候选框,计算候选框与ground truth(真实标签)的IOU值,通常会规定当候选框和ground truth的IOU值大于预设阈值时,认为检测正确。本实施例中,计算偏移后的所述实际输入框与所述理论输入框的交并比,当交并比大于预设阈值时,可以认为实际输入框中的字段内容即理论输入框对应的输入字段,该预设阈值预先设定,本实施例中,该预设阈值优选为0.05。
步骤S306:当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,将至少两个实际输入框合并为一个新的实际输入框。
在步骤S306中,当存在至少两个所述实际输入框与同一个所述理论输入框的交并比均超过预设阈值时,说明该至少两个实际输入框均可能是同一个项目名目的输入内容,从而通过将至少两个实际输入框进行合并,从而保证项目检测框的数量与实际输入框的数量一致。
进一步的,步骤S306具体包括:
1、当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,获取至少两个实际输入框内的字段内容。
2、根据至少两个实际输入框的位置确定两段字段内容的顺序,并根据顺序将两段字段内容合并为一段新的字段内容。
具体地,在票证上,项目名目的输入内容通常是较为统一的,例如,发票上的“合计(大写)”项目名目,其对应的输入内容通常在其右侧,需要说明的是,票证上项目名目以及对应的输入内容的区域通常都是预先规划好的,因此,在获取到至少两个实际输入框的字段内容之后,通过可以根据其位置关系来确认至少两段字段内容的顺序,再根据该顺序将至少两段字段内容合并为一段新的字段内容。
3、根据理论输入框和偏移向量,在相应区域生成框选新的字段内容的新的实际输入框。
具体地,在新的字段内容所在区域生成框选新的字段内容的实际输入框,从而将多生成的实际输入框减少,以保持项目检测框与实际输入框的数量一致。
本申请第三实施例的OCR信息检测修正方法在第一实施例的基础上,通过将实际输入框按照偏移向量进行偏移,再计算偏移后的实际输入框与对应的理论输入框的交并比,再将交并比满足条件的两个实际输入框合并为一个新的实际输入框,从而将多出的实际输入框进行合并,以保证项目检测框的数量与实际输入框的数量一致,提高后续OCR识别的准确率。
进一步的,在上述实施例的基础上,其他实施例中,在步骤S3和步骤S4之后,还包括:根据理论输入框、偏移向量确定修正后的项目检测框与实际检测框的对应关系。
具体地,在对项目检测框和实际检测框的数量进行修正统一之后,再根据项目检测框对应的理论输入框和偏移向量来确定项目检测框与实际输入框的对应关系,方便进行检测识别。
图4是本申请实施例的OCR信息检测修正装置的功能模块示意图。如图4所示,该装置40包括获取模块41、比对模块42、补全模块43和合并模块44。
获取模块41,用于对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,项目检测框为框选项目名目的字段的检测框,实际输入框为框选项目名目的输入内容的字段的检测框。
比对模块42,用于比对项目检测框的数量与实际输入框的数量。
补全模块43,用于当项目检测框的数量超过实际输入框的数量时,执行补全实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
合并模块44,用于当实际输入框的数量超过项目检测框的数量时,执行合并实际输入框的操作,以保持实际输入框的数量与项目检测框的数量一致。
可选地,补全模块43执行补全实际输入框的操作可以为:判断每个项目检测框内的字段内容是否符合预设规则;当存在项目检测框的目标字段内容不符合预设规则时,将目标字段内容截断为符合预设规则的第一字段内容和不符合预设规则的第二字段内容,并以第一字段内容构建新的项目检测框,及以第二字段内容构建新的实际输入框。
可选地,补全模块43判断每个项目检测框内的字段内容是否符合预设规则的操作之后,还用于:当项目检测框内的字段内容均符合预设规则时,依据项目检测框获取理论输入框,理论输入框为用于输入项目名目的内容的预设区域;计算理论输入框与实际输入框的偏移向量;根据理论输入框和偏移向量分析多个项目检测框中未对应实际输入框的第二目标项目检测框;将第二目标项目检测框对应的第二目标理论输入框按偏移向量进行偏移后得到投影区域框,再以投影区域框作为第二目标项目检测框对应的第二目标实际输入框。
可选地,补全模块43计算理论输入框与实际输入框的偏移向量的操作可以为:通过预设匹配规则从多个项目检测框和多个实际输入框中识别出一组对应的第一目标项目检测框和第一目标实际输入框,并获取第一目标项目检测框对应的第一目标理论输入框;计算第一目标理论输入框与第一目标实际输入框的偏移向量。
可选地,合并模块44执行合并实际输入框的操作可以为:将实际输入框按照偏移向量进行偏移,得到偏移后的实际输入框的位置;计算偏移后的实际输入框与理论输入框的交并比;当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,将至少两个实际输入框合并为一个新的实际输入框。
可选地,合并模块44当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,将至少两个实际输入框合并为一个新的实际输入框可以为:当存在至少两个实际输入框与同一个理论输入框的交并比均超过预设阈值时,获取至少两个实际输入框内的字段内容;根据至少两个实际输入框的位置确定两段字段内容的顺序,并根据顺序将两段字段内容合并为一段新的字段内容;根据理论输入框和偏移向量,在相应区域生成框选新的字段内容的新的实际输入框。
可选地,其还包括确定模块45,用于在补全模块43和/或合并模块44保持实际输入框的数量与项目检测框的数量一致之后,根据理论输入框、偏移向量确定修正后的项目检测框与实际检测框的对应关系。
关于上述实施例OCR信息检测修正装置中各模块实现技术方案的其他细节,可参见上述实施例中的OCR信息检测修正方法中的描述,此处不再赘述。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
请参阅图5,图5为本申请实施例的终端的结构示意图。如图5所示,该终端50包括处理器51及和处理器51耦接的存储器52。
存储器52存储有程序指令,程序指令被处理器51执行时,使得处理器51执行上述实施例中的OCR信息检测修正方法的步骤。
其中,处理器51还可以称为CPU(Central Processing Unit,中央处理单元)。处理器51可能是一种集成电路芯片,具有信号的处理能力。处理器51还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
参阅图6,图6为本申请实施例的存储介质的结构示意图。本申请实施例的存储介质存储有能够实现上述所有方法的程序文件61,其中,该程序文件61可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。以上仅为本申请的实施方式,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (8)

1.一种OCR信息检测修正方法,其特征在于,包括:
对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,所述项目检测框为框选项目名目的字段的检测框,所述实际输入框为框选所述项目名目的输入内容的字段的检测框;
比对所述项目检测框的数量与所述实际输入框的数量;
当所述项目检测框的数量超过所述实际输入框的数量时,执行补全所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致;
当所述实际输入框的数量超过所述项目检测框的数量时,执行合并所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致;
所述执行补全所述实际输入框的操作,包括:
判断每个所述项目检测框内的字段内容是否符合预设规则;
当存在所述项目检测框的目标字段内容不符合预设规则时,将所述目标字段内容截断为符合所述预设规则的第一字段内容和不符合所述预设规则的第二字段内容,并以所述第一字段内容构建新的项目检测框,及以所述第二字段内容构建新的实际输入框;
所述判断每个所述项目检测框内的字段内容是否符合预设规则之后,还包括:
当所述项目检测框内的字段内容均符合所述预设规则时,依据所述项目检测框获取理论输入框,所述理论输入框为用于输入所述项目名目的内容的预设区域;
计算所述理论输入框与所述实际输入框的偏移向量;
根据所述理论输入框和所述偏移向量分析所述多个项目检测框中未对应所述实际输入框的第二目标项目检测框;
将所述第二目标项目检测框对应的第二目标理论输入框按所述偏移向量进行偏移后得到投影区域框,再以所述投影区域框作为所述第二目标项目检测框对应的第二目标实际输入框。
2.根据权利要求1所述的OCR信息检测修正方法,其特征在于,所述计算所述理论输入框与所述实际输入框的偏移向量,包括:
通过预设匹配规则从所述多个项目检测框和所述多个实际输入框中识别出一组对应的第一目标项目检测框和第一目标实际输入框,并获取所述第一目标项目检测框对应的第一目标理论输入框;
计算所述第一目标理论输入框与所述第一目标实际输入框的偏移向量。
3.根据权利要求1所述的OCR信息检测修正方法,其特征在于,所述执行合并所述实际输入框的操作,包括:
将所述实际输入框按照所述偏移向量进行偏移,得到偏移后的所述实际输入框的位置;
计算偏移后的所述实际输入框与所述理论输入框的交并比;
当存在至少两个所述实际输入框与同一个所述理论输入框的交并比均超过预设阈值时,将所述至少两个所述实际输入框合并为一个新的实际输入框。
4.根据权利要求3所述的OCR信息检测修正方法,其特征在于,所述当存在至少两个所述实际输入框与同一个所述理论输入框的交并比均超过预设阈值时,将所述至少两个所述实际输入框合并为一个新的实际输入框,包括:
当存在至少两个所述实际输入框与同一个所述理论输入框的交并比均超过预设阈值时,获取至少两个所述实际输入框内的字段内容;
根据至少两个所述实际输入框的位置确定两段所述字段内容的顺序,并根据所述顺序将两段所述字段内容合并为一段新的字段内容;
根据所述理论输入框和所述偏移向量,在相应区域生成框选所述新的字段内容的新的实际输入框。
5.根据权利要求1所述的OCR信息检测修正方法,其特征在于,所述保持所述实际输入框的数量与所述项目检测框的数量一致之后,还包括:
根据所述理论输入框、所述偏移向量确定修正后的所述项目检测框与实际检测框的对应关系。
6.一种OCR信息检测修正装置,其特征在于,包括:
获取模块,用于对待识别的票证上的文字内容进行识别检测,依据预设的文本规则获取到多个项目检测框和多个实际输入框,所述项目检测框为框选项目名目的字段的检测框,所述实际输入框为框选所述项目名目的输入内容的字段的检测框;
比对模块,用于比对所述项目检测框的数量与所述实际输入框的数量;
补全模块,用于当所述项目检测框的数量超过所述实际输入框的数量时,执行补全所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致;
合并模块,用于当所述实际输入框的数量超过所述项目检测框的数量时,执行合并所述实际输入框的操作,以保持所述实际输入框的数量与所述项目检测框的数量一致;
所述执行补全所述实际输入框的操作,包括:
判断每个所述项目检测框内的字段内容是否符合预设规则;
当存在所述项目检测框的目标字段内容不符合预设规则时,将所述目标字段内容截断为符合所述预设规则的第一字段内容和不符合所述预设规则的第二字段内容,并以所述第一字段内容构建新的项目检测框,及以所述第二字段内容构建新的实际输入框;
所述判断每个所述项目检测框内的字段内容是否符合预设规则之后,还包括:
当所述项目检测框内的字段内容均符合所述预设规则时,依据所述项目检测框获取理论输入框,所述理论输入框为用于输入所述项目名目的内容的预设区域;
计算所述理论输入框与所述实际输入框的偏移向量;
根据所述理论输入框和所述偏移向量分析所述多个项目检测框中未对应所述实际输入框的第二目标项目检测框;
将所述第二目标项目检测框对应的第二目标理论输入框按所述偏移向量进行偏移后得到投影区域框,再以所述投影区域框作为所述第二目标项目检测框对应的第二目标实际输入框。
7.一种终端,其特征在于,所述终端包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-5中任一项权利要求所述的OCR信息检测修正方法的步骤。
8.一种存储介质,其特征在于,存储有能够实现如权利要求1-5中任一项所述的OCR信息检测修正方法的程序文件。
CN202011489875.4A 2020-12-16 2020-12-16 Ocr信息检测修正方法、装置、终端及存储介质 Active CN112528889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011489875.4A CN112528889B (zh) 2020-12-16 2020-12-16 Ocr信息检测修正方法、装置、终端及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011489875.4A CN112528889B (zh) 2020-12-16 2020-12-16 Ocr信息检测修正方法、装置、终端及存储介质

Publications (2)

Publication Number Publication Date
CN112528889A CN112528889A (zh) 2021-03-19
CN112528889B true CN112528889B (zh) 2024-02-06

Family

ID=75000779

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011489875.4A Active CN112528889B (zh) 2020-12-16 2020-12-16 Ocr信息检测修正方法、装置、终端及存储介质

Country Status (1)

Country Link
CN (1) CN112528889B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113538291B (zh) * 2021-08-02 2024-05-14 广州广电运通金融电子股份有限公司 卡证图像倾斜校正方法、装置、计算机设备和存储介质
CN115359117B (zh) * 2022-08-30 2023-05-02 创新奇智(广州)科技有限公司 商品陈列位置确定方法、装置及可读存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840520A (zh) * 2017-11-24 2019-06-04 中国移动通信集团广东有限公司 一种发票关键信息识别方法及系统
CN110969129A (zh) * 2019-12-03 2020-04-07 山东浪潮人工智能研究院有限公司 一种端到端税务票据文本检测与识别方法
WO2020097909A1 (zh) * 2018-11-16 2020-05-22 北京比特大陆科技有限公司 文本检测方法、装置及存储介质
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN111860373A (zh) * 2020-07-24 2020-10-30 浙江商汤科技开发有限公司 目标检测方法及装置、电子设备和存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109840520A (zh) * 2017-11-24 2019-06-04 中国移动通信集团广东有限公司 一种发票关键信息识别方法及系统
WO2020097909A1 (zh) * 2018-11-16 2020-05-22 北京比特大陆科技有限公司 文本检测方法、装置及存储介质
WO2020155763A1 (zh) * 2019-01-28 2020-08-06 平安科技(深圳)有限公司 Ocr识别方法及其电子设备
CN110969129A (zh) * 2019-12-03 2020-04-07 山东浪潮人工智能研究院有限公司 一种端到端税务票据文本检测与识别方法
CN111860373A (zh) * 2020-07-24 2020-10-30 浙江商汤科技开发有限公司 目标检测方法及装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN112528889A (zh) 2021-03-19

Similar Documents

Publication Publication Date Title
CN110188755B (zh) 一种图像识别的方法、装置和计算机可读存储介质
US20230021040A1 (en) Methods and systems for automated table detection within documents
WO2020173008A1 (zh) 一种文本识别方法及装置
US10489672B2 (en) Video capture in data capture scenario
US7305129B2 (en) Methods and apparatus for populating electronic forms from scanned documents
CN112528889B (zh) Ocr信息检测修正方法、装置、终端及存储介质
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
WO2020220575A1 (zh) 证件识别方法和装置、电子设备、计算机可读存储介质
JP2016095753A (ja) 文字認識システム及び文字認識方法
CN108830275B (zh) 点阵字符、点阵数字的识别方法及装置
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
JP2012221183A (ja) レシートデータ認識装置およびそのプログラム
CN112308046A (zh) 图像的文本区域定位方法、装置、服务器及可读存储介质
CN112270222A (zh) 信息标准化处理方法、设备及计算机可读存储介质
CN114445079A (zh) 单据处理方法、装置、设备和存储介质
CN113469005A (zh) 一种银行回单的识别方法、相关装置及存储介质
CN112287936A (zh) 光学字符识别测试方法、装置、可读存储介质及终端设备
CN111079709B (zh) 一种电子单据的生成方法、装置、计算机设备和存储介质
CN112528886A (zh) Ocr信息检测识别方法、装置、终端及存储介质
JP4651876B2 (ja) パターン識別装置、パターン識別方法及びパターン識別用プログラム
CN114299509A (zh) 一种获取信息的方法、装置、设备及介质
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム
CN114419640B (zh) 文本处理方法、装置、电子设备及存储介质
WO2023042270A1 (ja) 文字認識プログラム、文字認識システム、及び文字認識方法
CN117456532B (zh) 一种药品金额的校正方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant