CN110728198B - 图像处理方法、装置、电子设备及可读存储介质 - Google Patents
图像处理方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN110728198B CN110728198B CN201910894667.3A CN201910894667A CN110728198B CN 110728198 B CN110728198 B CN 110728198B CN 201910894667 A CN201910894667 A CN 201910894667A CN 110728198 B CN110728198 B CN 110728198B
- Authority
- CN
- China
- Prior art keywords
- keywords
- character
- target image
- keyword
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Artificial Intelligence (AREA)
- Character Input (AREA)
Abstract
本发明公开了一种图像处理方法、装置、电子设备及可读存储介质,所述图像处理方法包括:将目标图像进行初步识别,将目标图像划分为文字区域和印章遮挡区域,并通过文字区域识别模型对文字区域进行识别,得到第一识别结果,通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果,根据第一识别结果和第二识别结果,得到最终识别结果。通过预先将目标图像分类为文字区域和印章遮挡区域,并使用与文字区域和印章遮挡区域相对应的文字区域识别模型和印章遮挡区域识别模型进行识别,能够提高识别速度和识别准确率。
Description
技术领域
本申请实施例涉及图像处理技术领域,尤其涉及一种图像处理方法、装置、电子设备及可读存储介质。
背景技术
在图像处理领域,经常会遇到获取证件图像中有效信息的情况。传统方法一般是通过人工识别证件上的内容,但人工处理证件速度慢、人力消耗大以及错误率高,整体效率很低。因此需要一种可以自动识别证件图片中有效信息的方法,代替或辅助人工完成这类工作。
而目前针对证件图像的识别方法,通常是先进行全局文字识别,再对识别结果进行后处理。这类方法存在以下缺陷:识别速度慢、识别结果易受噪声、版式错位、后处理易发生错误等,不能很好地解决证件图像识别问题。
发明内容
本申请实施例提供一种图像处理方法、装置、电子设备及可读存储介质,以对多种固定版式的证件图像内容进行识别,提高识别效率和准确率。
本申请实施例第一方面提供了一种图像处理方法,所述方法包括:
对目标图像进行区域划分,确定所述目标图像中的文字区域和印章遮挡区域;
通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果;
通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果;
根据所述第一识别结果和所述第二识别结果,得到最终识别结果。
可选地,对目标图像进行区域划分,确定所述目标图像中的文字区域,包括:
对所述目标图像进行关键字检测,获得所述目标图像中的关键字的位置信息;
根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域。
可选地,通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果,包括:
对所述文字区域进行文字行定位,确定所述文字区域中的文字行的位置信息;
根据所述目标图像中的关键字的位置信息和所述文字区域中的文字行的位置信息,建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系;
根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
可选地,所述目标图像中的关键字的数量是多个;根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域,包括:
根据所述目标图像中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
根据多个关键字包围框的中心点的垂直坐标和水平坐标,对所述目标图像中的多个关键字进行聚类,得到多类关键字;
针对所述目标图像中的每一类关键字,执行以下步骤:
确定该类关键字所形成的包围框的四个角点的坐标;
根据所述目标图像的尺寸,对该类关键字对应的四个角点的坐标进行修正,得到该类关键字对应的文字区域;
所述多类关键字对应的文字区域组成所述目标图像中的文字区域。
可选地,所述多类关键字中每一类关键字对应的文字区域中的文字行的数量是多个;建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系,包括:
针对所述多类关键字中每一类关键字,执行以下步骤:
根据该类关键字中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
根据该类关键字对应的文字区域中的多个文字行各自的位置信息,确定所述多个文字行各自所形成的文字行包围框;
针对每个文字行包围框,确定该文字行包围框与该类关键字中的各个关键字包围框之间的IOU,以及,建立该文字行包围框内的文字行与多个关键字包围框中IOU大于零且IOU最大的关键字包围框内的关键字之间的配对关系;
确定未配对的文字行所形成的文字行包围框与各个关键字包围框的垂直距离,建立该未配对的文字行与多个关键字包围框中垂直距离最小的关键字之间的配对关系;
在建立所述多类关键字各自对应的文字区域中的文字行与所述目标图像中的关键字之间的配对关系后,所述方法还包括:
根据所述目标图像的版式信息,对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整,得到最终配对关系。
可选地,在对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整之前,所述方法还包括:
根据已配对的文字行所形成的文字行包围框和与其配对的关键字所形成的关键字包围框的水平距离,过滤已配对文字行。
可选地,根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果,包括:
在所述目标图像中的关键字对应的文字行的类型是数字类型的情况下,通过数字识别模型对该关键字配对的文字行进行识别,得到第一识别结果;和/或
在所述目标图像中的关键字对应的文字行的类型是文本类型的情况下,通过文本识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
可选地,根据所述第一识别结果和所述第二识别结果,得到最终识别结果,包括:
对所述第一识别结果、所述第二识别结果以及所述目标图像的参数信息进行融合;
基于语义信息对融合后的结果进行校正,得到最终识别结果。
本申请实施例第二方面提供一种图像处理装置,所述装置包括:
区域划分模块,用于对目标图像进行区域划分,确定所述目标图像中的文字区域和印章遮挡区域;
第一识别模块,用于通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果;
第二识别模块,用于通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果;
获得模块,用于根据所述第一识别结果和所述第二识别结果,得到最终识别结果。
可选地,所述区域划分模块包括:
第一检测子模块,用于对所述目标图像进行关键字检测,获得所述目标图像中的关键字的位置信息;
确定子模块,用于根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域。
可选地,所述第一识别模块包括:
定位子模块,用于对所述文字区域进行文字行定位,确定所述文字区域中的文字行的位置信息;
配对子模块,用于根据所述目标图像中的关键字的位置信息和所述文字区域中的文字行的位置信息,建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系;
第一识别子模块,用于根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
可选地,所述目标图像中的关键字的数量是多个;所述确定子模块包括:
第一确定子单元,用于根据所述目标图像中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
聚类子单元,用于根据多个关键字包围框的中心点的垂直坐标和水平坐标,对所述目标图像中的多个关键字进行聚类,得到多类关键字;
针对所述目标图像中的每一类关键字,执行以下步骤:
第二确定子单元,用于确定该类关键字所形成的包围框的四个角点的坐标;
修正子单元,用于根据所述目标图像的尺寸,对该类关键字对应的四个角点的坐标进行修正,得到该类关键字对应的文字区域;
组成子单元,用于将所述多类关键字对应的文字区域组成所述目标图像中的文字区域。
可选地所述多类关键字中每一类关键字对应的文字区域中的文字行的数量是多个;所述配对子模块包括:
针对所述多类关键字中每一类关键字,执行以下步骤:
第三确定子单元,用于根据该类关键字中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
第四确定子单元,用于根据该类关键字对应的文字区域中的多个文字行各自的位置信息,确定所述多个文字行各自所形成的文字行包围框;
第一配对子单元,用于针对每个文字行包围框,确定该文字行包围框与该类关键字中的各个关键字包围框之间的IOU,以及,建立该文字行包围框内的文字行与多个关键字包围框中IOU大于零且IOU最大的关键字包围框内的关键字之间的配对关系;
第二配对子单元,用于确定未配对的文字行所形成的文字行包围框与各个关键字包围框的垂直距离,建立该未配对的文字行与多个关键字包围框中垂直距离最小的关键字之间的配对关系;
在建立所述多类关键字各自对应的文字区域中的文字行与所述目标图像中的关键字之间的配对关系后,所述装置还包括:
调整子单元,用于根据所述目标图像的版式信息,对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整,得到最终配对关系。
可选地在对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整之前,所述装置还包括:
过滤模块,用于根据已配对的文字行所形成的文字行包围框和与其配对的关键字所形成的关键字包围框的水平距离,过滤已配对文字行。
可选地,所述第一识别子模块包括:
第一识别子单元,用于在所述目标图像中的关键字对应的文字行的类型是数字类型的情况下,通过数字识别模型对该关键字配对的文字行进行识别,得到第一识别结果;和/或
在所述目标图像中的关键字对应的文字行的类型是文本类型的情况下,通过文本识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
可选地,所述获得模块包括:
融合子模块,用于对所述第一识别结果、所述第二识别结果以及所述目标图像的参数信息进行融合;
校正子模块,用于基于语义信息对融合后的结果进行校正,得到最终识别结果。
本申请实施例第三方面提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。
本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请第一方面所述的方法的步骤。
采用本申请实施例提供的图像处理方法,先将目标图像进行初步识别,将目标图像划分为文字区域和印章遮挡区域,并通过文字区域识别模型对文字区域进行识别,得到第一识别结果,通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果,根据第一识别结果和第二识别结果,得到最终识别结果。通过预先将目标图像分类为文字区域和印章遮挡区域,并使用与文字区域和印章遮挡区域相对应的文字区域识别模型和印章遮挡区域识别模型进行识别,能够提高识别速度和识别准确率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提出的一种图像处理方法的流程图;
图2是本申请一实施例提出的一种确定文字区域的流程图;
图3是本申请一实施例提出的一种关键字和文字行配对的流程图;
图4是本申请一实施例提供的一种图像处理装置的示意图;
图5是本申请一实施例提供的一种图像处理方法的证件参考示意图;
图6是本申请另一实施例提出的一种图像处理方法的流程图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参考图1,图1是本申请一实施例提出的一种图像处理方法的流程图。如图1所示,该方法包括以下步骤:
步骤S101:对目标图像进行区域划分,确定所述目标图像中的文字区域和印章遮挡区域。在具体实施过程中,在执行此步骤之前,可以预先获取证件的版式信息,证件的版式信息可以是在上传证件图像时确定的。例如,在上传时,便区分了证件的版式,证件的版式包括但不限于:营业执照、食品经营许可证和身份证等。又例如,利用前置的证件分类算法对证件进行分类,确定证件的版式。
在本实施例中,可先对目标图像进行整体识别,并根据识别结果对目标图像进行区域的划分,将目标图像划分为文字区域和印章遮挡区域,可采用预先训练好的目标检测模型,例如Faster-RCNN,SSD等,对目标图像进行划分。
在一种可行的实施方式中,所述步骤S101可包括以下子步骤:
步骤S101-1:对所述目标图像进行关键字检测,获得所述目标图像中的关键字的位置信息。
在本实施例中,目标图像为商家上传的证件图像,结合证件的版式信息,采用预先训练好的目标检测模型,例如Faster-RCNN,SSD等,对证件图像进行检测,以选取出其中的关键字以及关键字在图像中的位置信息。
参考图5,图5是本申请一实施例提供的一种图像处理方法的证件参考示意图,如图5所示,若证件图像为营业执照,相应的关键字包括:名称、类型、营业场所、负责人、成立日期、营业期限和经营范围等,关键字的位置信息为关键字的中心点坐标以及关键字在水平方向和垂直方向的最大和最小坐标。
步骤S101-2:根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域。
在本实施例中,版式信息可以为证件的版式类型,证件的图像的尺寸,版式内容排列等,根据不同的证件图像的版式信息和获取的相应的关键字的位置信息,从而确定出证件图像中的文字区域,以便于对其中的文字进行识别。
参考图2,图2是本申请一实施例提出的一种确定文字区域的流程图。如图2所示,步骤S101-2可以包括步骤S201-步骤S205。
步骤S201:根据所述目标图像中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框。
参考图5,根据各个关键字的四个角点坐标,即各个关键字在水平方向和垂直方向的最大和最小坐标,按照顺时针或者逆时针方向依次连线,形成各自的关键字包围框。
步骤S202:根据多个关键字包围框的中心点的垂直坐标和水平坐标,对所述目标图像中的多个关键字进行聚类,得到多类关键字。
每个关键字都有各自的中心点坐标,即每个关键字包围框的中心点的垂直坐标和水平坐标,对所有的关键字的中心点坐标,采用聚类算法,对多个关键字进行聚类。具体地,聚类算法会利用关键字的中心点坐标,对关键字进行排序,由于现有的证件中的关键字都是垂直排列的,聚类算法便根据关键字的垂直坐标,对关键字进行排序,对于两个排序中邻近的关键字,如果它们之间的距离显著高于平均距离,则对其进行分割,将两个关键字分割为不同的类别,反之,则聚类为同一类别。
如图5所示,其中的名称、类型、营业场所、负责人、成立日期、营业期限和经营范围这些关键字,它们之间的垂直方向的距离大致相同,所以将它们全部聚为一类关键字。
步骤S203:针对所述目标图像中的每一类关键字,确定该类关键字所形成的包围框的四个角点的坐标。
对于所有的关键字聚类,将每一类关键字形成的包围框的四个角点的坐标确定出来,即每一类关键字在水平方向和垂直方向的最大和最小坐标,具体的该类关键字所形成的包围框如图5所示。
步骤S204:针对所述目标图像中的每一类关键字,根据所述目标图像的尺寸,对该类关键字对应的四个角点的坐标进行修正,得到该类关键字对应的文字区域;
根据目标图像的尺寸信息,对每一类关键字对应的四个角点的坐标进行扩大,扩大后的四个角点坐标所围区域则为该类关键字对应的文字区域,该文字区域能够尽量保留所有有效的文字信息,且尽量去除干扰情况,如国徽或者其它不重要的文字信息等干扰,具体的由关键字聚类的包围框经修正后所形成的对应的文字区域请参照图5中所示例的文字区域。
步骤S205:所述目标图像中的各类关键字各自对应的文字区域组成所述目标图像中的文字区域。
每一类关键字能够得到一个对应的文字区域,所有的文字区域就组成了所需要文字识别的目标图像的文字区域。
在本实施例中,利用关键字的位置信息,采用聚类算法对关键字进行聚类,再根据图像的版式信息,即图像的尺寸信息等,确定出每一类关键词的对应的文字区域,从而能够在保留有效文字信息的情况下,尽可能的减少干扰信息以及其它的无效文字,从而能够使最终的文字识别更加的准确。
步骤S102:通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果。
划分出文字区域后,可通过预先训练好的文字区域识别模型对文字区域进行识别,以识别出文字区域的所有文字内容,作为第一识别结果,文字区域识别模型包括文字行检测模型和文字行识别模型,文字行识别模型包括文本识别模型和数字识别模型等。
在一种可行的实施方式中,所述步骤S102可包括以下子步骤:
步骤S102-1:对所述文字区域进行文字行定位,确定所述文字区域中的文字行的位置信息。
对于目标图像的文字区域,采用训练好的文字行检测模型,如ctpn、seg-link、pixel-link等,对文字区域中的文字信息进行文字行定位,得到每一个文字行的位置信息,如图5所示,其中的“XX有限公司XX街XX店”以及“外商投资企业分公司”等每一行文字则组成一个文字行。
步骤S102-2:根据所述目标图像中的关键字的位置信息和所述文字区域中的文字行的位置信息,建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系。
根据每个关键字的位置信息和每个文字行的位置信息,利用匹配算法,进行关键字和文字行的配对,将属于该关键字的文字行配对到相应的关键字。
参考图3,图3是本申请一实施例提出的一种关键字和文字行配对的流程图。如图3所示,步骤S102-2可以包括步骤S301-步骤S305。
步骤S301:针对所述多类关键字中每一类关键字,根据该类关键字中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框。
对于聚类后的每一类关键字中包含的多个关键字,根据各个关键字的四个角点坐标,即各个关键字在水平方向和垂直方向的最大和最小坐标,按照顺时针或者逆时针方向依次连线,形成各自的关键字包围框每个关键字的包围框请参考图5所示的关键字包围框。
步骤S302:针对所述多类关键字中每一类关键字,根据该类关键字对应的文字区域中的多个文字行各自的位置信息,确定所述多个文字行各自所形成的文字行包围框。
根据各个文字行的位置信息,如文字行在水平方向和垂直方向的最大和最小坐标,将其按照顺时针或逆时针方向依次连接,形成各个文字行对应的文字行包围框,每个文字行各自所形成的包围框请参考图5中的文字行包围框。
步骤S303:针对所述多类关键字中每一类关键字,针对每个文字行包围框,确定该文字行包围框与该类关键字中的各个关键字包围框之间的IOU,以及,建立该文字行包围框内的文字行与多个关键字包围框中IOU大于零且IOU最大的关键字包围框内的关键字之间的配对关系。
其中,IOU指重合度,针对上述步骤S302中形成的文字行包围框,计算该文字行包围框与该类关键字中的各个关键字包围框在垂直方向上的IOU,若该文字行包围框内的文字行与其中一个关键字包围框中IOU大于零且IOU最大,则该文字行的文字信息是与该关键字相应的内容,则建立该文字行和该关键字之间的配对关系。参考图5,对于文字行“2015年08月07日”其形成的文字行包围框与“营业期限”这个关键字所形成的包围框的IOU大于零且IOU最大,所以建立文字行“2015年08月07日”与关键字“营业期限”之间的配对关系。
步骤S304:针对所述多类关键字中每一类关键字,确定未配对的文字行所形成的文字行包围框与各个关键字包围框的垂直距离,建立该未配对的文字行与多个关键字包围框中垂直距离最小的关键字之间的配对关系。
由于某些关键字对应的文字行不止一个,所以还需要寻找该关键字剩余的文字行,对于该类关键字中的多个关键字,从该类关键字对应的文字区域中的多个文字行寻找,计算出其中未配对的文字行所形成的文字行包围框与各个关键字包围框的垂直距离,将未配对的文字行分配给与其垂直距离最小的关键字,建立其与对应关键字之间的配对关系。
参考图5,经过步骤S304,已经建立了文字行“经营中西餐饮、制作各式餐厅食品和冷”与关键字“经营范围”之间的配对关系,而文字行“热饮料、售卖相关促销礼品及纪念品;”和文字行“酒类零售;预包装食品零售。”还并没有配对,文字行“热饮料、售卖相关促销礼品及纪念品;”和文字行“酒类零售;预包装食品零售。”所形成的包围框与关键字“经营范围”所形成的包围框的垂直距离最小,所以建立文字行“热饮料、售卖相关促销礼品及纪念品;”和文字行“酒类零售;预包装食品零售。”与关键字“经营范围”之间的配对关系。
在建立所述多类关键字各自对应的文字区域中的文字行与所述目标图像中的关键字之间的配对关系后,还包括:
步骤S305:针对所述多类关键字中每一类关键字,根据所述目标图像的版式信息,对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整,得到最终配对关系。
通过执行上述步骤S301-304,在将所有的文字行与关键字建立配对关系之后,再根据目标图像的版式信息,对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整。例如:证件中的许可证编号只有一行,如果与其配对的文字行超过一行的话,就只保留和其IOU大于零且IOU最大的一行,其它的去掉,从而得到最终的配对关系。
在本实施例中,根据关键字聚类后的结果,将聚类后的多类关键字分别与其对应的文字区域进行关键字和文字行的配对,利用关键字和文字行的位置信息,对其进行配对,并利用证件的版式信息对配对后的结果进行调整,从而能够提高关键字和文字行之间的配对的速率以及配对的准确率。
在一种可选的方式中,在步骤S305之前,还包括:
根据已配对的文字行所形成的文字行包围框和与其配对的关键字所形成的关键字包围框的水平距离,过滤已配对文字行。
在所确定的文字区域中,可能存在不属于任何关键字的文字行,如果将其与其中的关键字进行了配对,在后面的文字行识别时,会影响识别的准确性,所以通过对现有证件的版式信息进行分析,文字行包围框与其相应的关键字包围框的水平距离是相同的,所以,根据已配对的文字行所形成的文字行包围框和与其配对的关键字所形成的关键字包围框的水平距离,过滤掉已配对文字行中距离不同的文字行,以提高配对的准确率,从而提高证件的文字识别准确率。
参考图5,文字行“统一社会信用代码91300250M00010DGX9”在配对时会与关键字“名称”进行配对,但其并不属于关键字“名称”所对应的内容,文字行“统一社会信用代码91300250M00010DGX9”所形成的包围框到关键字的水平距离明显不同于其它的文字行所形成的包围框到关键字的水平距离,所以将其从关键字“名称”的配对关系中过滤掉。
步骤S102-3:根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
通过对识别出的目标图像的关键字进行分析,能够确定出关键字的类型,从而能够分析得出与该关键字相匹配的文字行的类型,根据文字行的类型,选出相应的文字识别模型对其进行识别,得到第一识别结果。
在一种可选的实施方式中,步骤S102-3可具体包括:
在所述目标图像中的关键字对应的文字行的类型是数字类型的情况下,通过数字识别模型对该关键字配对的文字行进行识别,得到第一识别结果;和/或
在所述目标图像中的关键字对应的文字行的类型是文本类型的情况下,通过文本识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
通过对识别出的目标图像的关键字进行分析,能够确定出关键字的类型,从而能够分析得出与该关键字相匹配的文字行的类型,若目标图像中的关键字对应的文字行的类型是数字类型,则使用数字识别模型对该关键字配对的文字行进行识别,得到第一识别结果;如果目标图像中的关键字对应的文字行的类型是文本类型,则使用文本识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
例如:在营业执照中,“注册号”关键字对应的文字行采用数字识别模型,“经营场所”关键字对应的文字行采用文本识别模型。此处采用的识别模型包括但不限于CRNN、ASTER等。
在具体的实施过程中,选用的识别模型还可以更加的细化,比如姓名和地址等也分别采用专门有针对性的识别模型,本申请对此不作具体限定,能够达到更加快速准确的识别效果。
步骤S103:通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果。
划分出印章遮挡区域后,可通过预先训练好的印章遮挡区域识别模型对印章遮挡区域的文字进行识别,作为第二识别结果。
步骤S104:根据所述第一识别结果和所述第二识别结果,得到最终识别结果。
得到第一识别结果和第二识别结果之后,将第一识别结果和第二识别结果进行结合,得到完整的图像内容识别结果,作为最终的识别结果。
在一种可行的实施方式中,步骤S104可包括以下子步骤:
步骤S104-1:对所述第一识别结果、所述第二识别结果以及所述目标图像的参数信息进行融合。
将识别后的关键字和对应的文字行的文字信息按照目标图像的尺寸等版式信息进行配合排版,再将印章区域的识别内容加上进行排版,从而得到需要的证件信息。
步骤S104-2:基于语义信息对融合后的结果进行校正,得到最终识别结果。
利用NLP技术对可能识别错误的文字内容进行进一步的修正,使获得的证件信息更加准确。
在本方案的实施方式中,先将目标图像进行初步识别,将目标图像划分为文字区域和印章遮挡区域,并通过文字区域识别模型对文字区域进行识别,得到第一识别结果,通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果,根据第一识别结果和第二识别结果,得到最终识别结果。通过预先将目标图像分类为文字区域和印章遮挡区域,并使用与文字区域和印章遮挡区域相对应的文字区域识别模型和印章遮挡区域识别模型进行识别,能够提高识别速度和识别准确率。
更加具体的流程可参照图6,图6是本申请另一实施例提出的一种图像处理方法的流程图,如图6所示,通过目标检测模型对输入的证件图像进行检测,检测获取关键字、二维码和印章信息,通过获取的关键字信息来获取主要的文字区域,再对文字区域中的文字行进行定位,进而建立关键字和文字行之间的关联关系,通过不同的关键字类型,选取不同的识别模型对文字行进行识别,通过获取的印章信息确定印章遮挡区域,再进行印章遮挡区域的文字定位和识别,将输入图像时直接获取的信息和识别的关键字及其对应的文字信息以及印章遮挡区域识别的文字信息进行融合,最后经过语义后处理,输出结果。
在本实施例中,先对关键字进行识别,再利用关键字的位置信息确认文字区域,从而确定文字区域中的文字行信息,并将文字行与关键字进行配对,对不同的文字行类型采用不同的识别模型进行识别,能够加快识别速率及识别的准确率,而且同时对印章遮挡区域进行识别,通过对应的识别模型对印章遮挡区域的文字信息进行识别,将识别后的所有结果结合证件的版式信息进行整合排版,从而得到所有所需要识别的证件信息。
基于同一发明构思,本申请一实施例提供一种图像处理装置。参考图4,图4是本申请一实施例提供的一种图像处理装置的示意图。如图4所示,该装置包括:
区域划分模块401,用于对目标图像进行区域划分,确定所述目标图像中的文字区域和印章遮挡区域;
第一识别模块402,用于通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果;
第二识别模块403,用于通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果;
获得模块404,用于根据所述第一识别结果和所述第二识别结果,得到最终识别结果。
可选地,所述区域划分模块包括:
第一检测子模块,用于对所述目标图像进行关键字检测,获得所述目标图像中的关键字的位置信息;
确定子模块,用于根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域。
可选地,所述第一识别模块包括:
定位子模块,用于对所述文字区域进行文字行定位,确定所述文字区域中的文字行的位置信息;
配对子模块,用于根据所述目标图像中的关键字的位置信息和所述文字区域中的文字行的位置信息,建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系;
第一识别子模块,用于根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
可选地,所述目标图像中的关键字的数量是多个;所述确定子模块包括:
第一确定子单元,用于根据所述目标图像中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
聚类子单元,用于根据多个关键字包围框的中心点的垂直坐标和水平坐标,对所述目标图像中的多个关键字进行聚类,得到多类关键字;
针对所述目标图像中的每一类关键字,执行以下步骤:
第二确定子单元,用于确定该类关键字所形成的包围框的四个角点的坐标;
修正子单元,用于根据所述目标图像的尺寸,对该类关键字对应的四个角点的坐标进行修正,得到该类关键字对应的文字区域;
组成子单元,用于将所述多类关键字对应的文字区域组成所述目标图像中的文字区域。
可选地所述多类关键字中每一类关键字对应的文字区域中的文字行的数量是多个;所述配对子模块包括:
针对所述多类关键字中每一类关键字,执行以下步骤:
第三确定子单元,用于根据该类关键字中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
第四确定子单元,用于根据该类关键字对应的文字区域中的多个文字行各自的位置信息,确定所述多个文字行各自所形成的文字行包围框;
第一配对子单元,用于针对每个文字行包围框,确定该文字行包围框与该类关键字中的各个关键字包围框之间的IOU,以及,建立该文字行包围框内的文字行与多个关键字包围框中IOU大于零且IOU最大的关键字包围框内的关键字之间的配对关系;
第二配对子单元,用于确定未配对的文字行所形成的文字行包围框与各个关键字包围框的垂直距离,建立该未配对的文字行与多个关键字包围框中垂直距离最小的关键字之间的配对关系;
在建立所述多类关键字各自对应的文字区域中的文字行与所述目标图像中的关键字之间的配对关系后,所述装置还包括:
调整子单元,用于根据所述目标图像的版式信息,对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整,得到最终配对关系。
可选地在对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整之前,所述装置还包括:
过滤模块,用于根据已配对的文字行所形成的文字行包围框和与其配对的关键字所形成的关键字包围框的水平距离,过滤已配对文字行。
可选地,所述第一识别子模块包括:
第一识别子单元,用于在所述目标图像中的关键字对应的文字行的类型是数字类型的情况下,通过数字识别模型对该关键字配对的文字行进行识别,得到第一识别结果;和/或
在所述目标图像中的关键字对应的文字行的类型是文本类型的情况下,通过文本识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
可选地,所述获得模块包括:
融合子模块,用于对所述第一识别结果、所述第二识别结果以及所述目标图像的参数信息进行融合;
校正子模块,用于基于语义信息对融合后的结果进行校正,得到最终识别结果。
基于同一发明构思,本申请另一实施例提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。
基于同一发明构思,本申请另一实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
本领域内的技术人员应明白,本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此,本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上,使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种图像处理方法、装置、存储介质和电子设备,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种图像处理方法,其特征在于,所述方法包括:
对目标图像进行区域划分,确定所述目标图像中的文字区域和印章遮挡区域;
通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果;
通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果;
根据所述第一识别结果和所述第二识别结果,得到最终识别结果;
其中,对目标图像进行区域划分,确定所述目标图像中的文字区域,包括:
根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域;
其中,所述目标图像中的关键字的数量是多个;根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域,包括:
根据所述目标图像中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
根据多个关键字包围框的中心点的垂直坐标和水平坐标,对所述目标图像中的多个关键字进行聚类,得到多类关键字;
针对所述目标图像中的每一类关键字,执行以下步骤:
确定该类关键字所形成的包围框的四个角点的坐标;
根据所述目标图像的尺寸,对该类关键字对应的四个角点的坐标进行修正,得到该类关键字对应的文字区域;
所述多类关键字对应的文字区域组成所述目标图像中的文字区域。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
对所述目标图像进行关键字检测,获得所述目标图像中的关键字的位置信息。
3.根据权利要求2所述的方法,其特征在于,通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果,包括:
对所述文字区域进行文字行定位,确定所述文字区域中的文字行的位置信息;
根据所述目标图像中的关键字的位置信息和所述文字区域中的文字行的位置信息,建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系;
根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
4.根据权利要求3所述的方法,其特征在于,所述多类关键字中每一类关键字对应的文字区域中的文字行的数量是多个;建立所述文字区域中的文字行与所述目标图像中的关键字之间的配对关系,包括:
针对所述多类关键字中每一类关键字,执行以下步骤:
根据该类关键字中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
根据该类关键字对应的文字区域中的多个文字行各自的位置信息,确定所述多个文字行各自所形成的文字行包围框;
针对每个文字行包围框,确定该文字行包围框与该类关键字中的各个关键字包围框之间的IOU,以及,建立该文字行包围框内的文字行与多个关键字包围框中IOU大于零且IOU最大的关键字包围框内的关键字之间的配对关系;
确定未配对的文字行所形成的文字行包围框与各个关键字包围框的垂直距离,建立该未配对的文字行与多个关键字包围框中垂直距离最小的关键字之间的配对关系;
在建立所述多类关键字各自对应的文字区域中的文字行与所述目标图像中的关键字之间的配对关系后,所述方法还包括:
根据所述目标图像的版式信息,对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整,得到最终配对关系。
5.根据权利要求4所述的方法,其特征在于,在对已配对文字行与所述目标图像中的关键字之间的配对关系进行调整之前,所述方法还包括:
根据已配对的文字行所形成的文字行包围框和与其配对的关键字所形成的关键字包围框的水平距离,过滤已配对文字行。
6.根据权利要求2所述的方法,其特征在于,根据所述目标图像中的关键字的类型,通过与该类型匹配的文字识别模型对该关键字配对的文字行进行识别,得到第一识别结果,包括:
在所述目标图像中的关键字对应的文字行的类型是数字类型的情况下,通过数字识别模型对该关键字配对的文字行进行识别,得到第一识别结果;和/或
在所述目标图像中的关键字对应的文字行的类型是文本类型的情况下,通过文本识别模型对该关键字配对的文字行进行识别,得到第一识别结果。
7.根据权利要求1所述的方法,其特征在于,根据所述第一识别结果和所述第二识别结果,得到最终识别结果,包括:
对所述第一识别结果、所述第二识别结果以及所述目标图像的参数信息进行融合;
基于语义信息对融合后的结果进行校正,得到最终识别结果。
8.一种图像处理装置,其特征在于,所述装置包括:
区域划分模块,用于对目标图像进行区域划分,确定所述目标图像中的文字区域和印章遮挡区域;
第一识别模块,用于通过文字区域识别模型对所述文字区域进行识别,得到第一识别结果;
第二识别模块,用于通过印章遮挡区域识别模型对所述印章遮挡区域进行识别,得到第二识别结果;
获得模块,用于根据所述第一识别结果和所述第二识别结果,得到最终识别结果;
其中,所述区域划分模块,包括:
确定子模块,用于根据所述目标图像的版式信息和所述目标图像中的关键字的位置信息,确定所述目标图像中的文字区域;
其中,所述目标图像中的关键字的数量是多个;所述确定子模块包括:
第一确定子单元,用于根据所述目标图像中的多个关键字的位置信息,确定所述多个关键字各自所形成的关键字包围框;
聚类子单元,用于根据多个关键字包围框的中心点的垂直坐标和水平坐标,对所述目标图像中的多个关键字进行聚类,得到多类关键字;
针对所述目标图像中的每一类关键字,执行以下步骤:
第二确定子单元,用于确定该类关键字所形成的包围框的四个角点的坐标;
修正子单元,用于根据所述目标图像的尺寸,对该类关键字对应的四个角点的坐标进行修正,得到该类关键字对应的文字区域;
组成子单元,用于将所述多类关键字对应的文字区域组成所述目标图像中的文字区域。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7任一所述的方法中的步骤。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行时实现如权利要求1-7任一所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910894667.3A CN110728198B (zh) | 2019-09-20 | 2019-09-20 | 图像处理方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910894667.3A CN110728198B (zh) | 2019-09-20 | 2019-09-20 | 图像处理方法、装置、电子设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110728198A CN110728198A (zh) | 2020-01-24 |
CN110728198B true CN110728198B (zh) | 2021-02-19 |
Family
ID=69218174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910894667.3A Active CN110728198B (zh) | 2019-09-20 | 2019-09-20 | 图像处理方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110728198B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111311316B (zh) * | 2020-02-03 | 2023-05-23 | 支付宝(杭州)信息技术有限公司 | 商户画像的刻画方法、装置、电子设备、验证方法及系统 |
CN111291741B (zh) * | 2020-05-13 | 2020-11-03 | 太平金融科技服务(上海)有限公司 | 单据识别方法、装置、计算机设备和存储介质 |
CN112232336A (zh) * | 2020-09-02 | 2021-01-15 | 深圳前海微众银行股份有限公司 | 一种证件识别方法、装置、设备及存储介质 |
CN114399617B (zh) * | 2021-12-23 | 2023-08-04 | 北京百度网讯科技有限公司 | 一种遮挡图案识别方法、装置、设备和介质 |
CN114565044B (zh) * | 2022-03-01 | 2022-08-16 | 北京九章云极科技有限公司 | 印章识别方法及系统 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6514461B1 (en) * | 1997-02-14 | 2003-02-04 | Escreen, Inc. | System for automatically testing a fluid specimen |
CN1329323A (zh) * | 2001-07-31 | 2002-01-02 | 郭根龙 | 证件自动扫描识别与管理方法及其系统 |
CN107944452B (zh) * | 2017-12-12 | 2021-07-23 | 信翼博达科技(深圳)有限公司 | 一种圆形印章文字识别方法 |
CN109460757A (zh) * | 2018-11-16 | 2019-03-12 | 上海中信信息发展股份有限公司 | 印章位置识别方法及装置 |
CN109800761B (zh) * | 2019-01-25 | 2022-11-11 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
CN110084178A (zh) * | 2019-04-24 | 2019-08-02 | 武汉华创欣网科技有限公司 | 一种基于互联网的智能保险票据识别系统 |
-
2019
- 2019-09-20 CN CN201910894667.3A patent/CN110728198B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110728198A (zh) | 2020-01-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110728198B (zh) | 图像处理方法、装置、电子设备及可读存储介质 | |
US10692133B2 (en) | Color estimation device, color estimation method, and color estimation program | |
US10339212B2 (en) | Detecting the bounds of borderless tables in fixed-format structured documents using machine learning | |
JP6366024B2 (ja) | 画像化された文書からテキストを抽出する方法及び装置 | |
US20130024757A1 (en) | Template-Based Page Layout for Hosted Social Magazines | |
CN107690657A (zh) | 根据影像发现商户 | |
WO2021114500A1 (zh) | 图像处理方法、装置、电子设备及计算机可读存储介质 | |
US8396935B1 (en) | Discovering spam merchants using product feed similarity | |
CN109492644A (zh) | 一种习题图像的匹配识别方法及终端设备 | |
US10635942B2 (en) | Method and apparatus for identifying a product | |
CN112580707A (zh) | 图像识别方法、装置、设备及存储介质 | |
US10878232B2 (en) | Automated processing of receipts and invoices | |
CN111191652A (zh) | 一种证件图像识别方法、装置、电子设备及存储介质 | |
CN111160395A (zh) | 图像识别方法、装置、电子设备和存储介质 | |
JPWO2016063483A1 (ja) | 自動販売機認識装置、商品棚認識装置、自動販売機認識方法、プログラムおよび画像処理装置 | |
US20160188634A1 (en) | Product identification via image analysis | |
CN111192346B (zh) | 电子菜单生成方法、装置和设备 | |
CN114359533B (zh) | 一种基于页面文本的页码识别方法和计算机设备 | |
CN110969473B (zh) | 一种用户标签生成方法及装置 | |
CN115171143A (zh) | 一种电子发票全票面信息提取方法及系统 | |
JP2015005100A (ja) | 情報処理装置、テンプレート生成方法、およびプログラム | |
CN104573132A (zh) | 歌曲查找方法及装置 | |
CN115690819A (zh) | 一种基于大数据的识别方法及其系统 | |
JP2013015907A (ja) | 画像分類装置、画像分類装置の制御方法及びプログラム | |
US20160267341A1 (en) | Interactive optical codes |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |