CN113743360A - 智能化印章解析的方法和装置 - Google Patents
智能化印章解析的方法和装置 Download PDFInfo
- Publication number
- CN113743360A CN113743360A CN202111088003.1A CN202111088003A CN113743360A CN 113743360 A CN113743360 A CN 113743360A CN 202111088003 A CN202111088003 A CN 202111088003A CN 113743360 A CN113743360 A CN 113743360A
- Authority
- CN
- China
- Prior art keywords
- seal
- stamp
- character
- image content
- rectangular
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title abstract description 5
- 238000001514 detection method Methods 0.000 claims abstract description 85
- 238000000034 method Methods 0.000 claims abstract description 84
- 238000005070 sampling Methods 0.000 claims description 31
- 238000012549 training Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 10
- 230000009466 transformation Effects 0.000 claims description 9
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000003702 image correction Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000012937 correction Methods 0.000 claims description 2
- 238000004422 calculation algorithm Methods 0.000 description 8
- 238000010586 diagram Methods 0.000 description 6
- 238000005452 bending Methods 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 238000013145 classification model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 102100032202 Cornulin Human genes 0.000 description 1
- 101000920981 Homo sapiens Cornulin Proteins 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Landscapes
- Character Input (AREA)
Abstract
本公开提供一种智能化印章解析的方法和装置,其中,方法包括:获取待识别的文档;对所述文档中的印章进行定位,得到所述印章的位置坐标;根据所述印章的位置坐标提取所述印章的图像内容;对所述印章的图像内容进行文字检测,获取所述印章的文字区域;对所述印章的图像内容进行文字检测,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。本公开通过在对印章进行识别之前,对印章的真伪进行辨别,增加对印章识别的准确性。
Description
技术领域
本公开涉及计算机技术领域,尤其涉及一种智能化印章解析的方法和装置。
背景技术
随着人工智能技术的飞速发展,通过AI智能解析图像中的目标对象技术也在工业界得到了广泛应用。在企事业单位中有大量的合同票据公文等文档需要处理,其中一个重要工作便是检查正式文档是否有盖章,及所盖的章是否正确。过去此项工作依赖人工审核,而现有的通过机器智能检测并识别图像中的印章,也仅仅是通过文字识别获取印章文字内容进行核验。并不包括对印章的真伪进行判断。
发明内容
本公开提供一种智能化印章解析的方法和装置,用以解决现有技术中对印章识别不进行真伪辨识的缺陷,实现对印章文字识别时还进行真伪辨识。
第一方面,本公开提供一种智能化印章解析的方法,包括:
获取待识别的文档;
对所述文档中的印章进行定位,得到所述印章的位置坐标;
根据所述印章的位置坐标提取所述印章的图像内容;
对所述印章的图像内容进行文字检测,获取所述印章的文字区域;
对所述文字区域进行文字识别,获取所述印章的文字内容。
根据本公开提供的一种智能化印章解析的方法,其中,在所述对所述印章的图像内容进行文字检测,具体包括:
对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标;
若所述图像内容的质量达标,则判断所述印章是否为真章;
若所述印章为真章,则对所述印章的图像内容进行文字检测。
根据本公开提供的一种智能化印章解析的方法,其中,所述对所述文档中的印章进行定位,得到所述印章的位置坐标,具体包括:
获取所述印章的图像中心;
构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合;
以所述最小正方形的位置坐标作为所述印章的位置坐标。
根据本公开提供的一种智能化印章解析的方法,其中,所述构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合,具体包括:
在所述印章为圆形的情况下,则构建所述印章的外切正方形;
在所述印章为矩形的情况下,则构建以所述矩形中心为正方形的中心,以所述矩形的长边为边长的正方形,且所述正方形包围所述矩形;
在所述印章为椭圆形的情况下,则构建以所述椭圆形的中心为所述正方形的中心,以所述椭圆形的长轴为边长的正方形,且所述正方形包围所述椭圆形。
根据本公开提供的一种智能化印章解析的方法,其中,所述对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标,具体包括:
获取所述图像内容的模糊和/或残缺表示的质量数值;
将所述质量数值与预先设置的阈值相比较;
若所述模糊或残缺数值比预先设置的阈值小,则表示所述图像内容的质量不达标;
若所述模糊或残缺数值不比预先设置的阈值小,则表示所述图像内容的质量达标。
根据本公开提供的一种智能化印章解析的方法,其中,所述判断所述印章是否为真章,包括:
将所述印章输入印章防伪模型,输出与所述印章相对应的真伪结果;
其中,所述印章防伪模型是基于印章样本数据以及预先确定的所述印章的真伪训练后得到。
根据本公开提供的一种智能化印章解析的方法,其中,所述对所述印章的图像内容进行文字检测,获取所述印章的文字区域,具体包括:
对所述印章进行属性解析,获取所述印章的种类;
在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域;
在所述印章为圆形或椭圆形的情况下,则对所述印章的图像内容采用第二文字检测方式获取所述印章的文字的区域。
根据本公开提供的一种智能化印章解析的方法,其中,所述在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域,具体包括:
对所述矩形印章进行图像矫正,获取矫正后的矩形印章;
对所述矫正后的矩形印章输入文字检测模型中,得到所述矩形印章的文字的区域;
其中,所述文字检测模型是基于矩形印章的文字检测样本数据以及预先确定的对应的文字的区域进行训练得到。
根据本公开提供的一种智能化印章解析的方法,其中,所述在所述印章为圆形或椭圆形的情况下,则对所述印章的图像内容采用第二文字检测方式获取所述印章的文字的区域,具体包括:
对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域;
对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
根据本公开提供的一种智能化印章解析的方法,其中,所述对所述矩形印章进行图像矫正,获取矫正后的矩形印章,具体包括:
获取所述矩形印章的四个检测角点及所述四个检测角点的坐标;
确定所述矩形印章的文字的正向阅读方向;
依据所述矩形印章的文字的正向阅读方向确定第一个检测角点,并以顺时针方向确定印章的四个角点;
对所述确定了四个角点的矩形印章通过仿射变换进行矫正,得到所述矫正后的矩形印章。
根据本公开提供的一种智能化印章解析的方法,其中,所述对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域,具体包括:
采用三阶贝塞尔曲线拟合出所述弯曲文本的两条弧线边界;
根据所述两条平行弧线边界确定所述圆形或椭圆形印章的所述弯曲文本区域。
根据本公开提供的一种智能化印章解析的方法,其中,所述对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域,具体包括:
对所述弯曲文本区域按照等宽等高的间距采样,得到多个采样点,其中,所述多个采样点在每一列上形成的直线与所述弯曲文本区域的曲线边界正交;
将所述多个采样点映射入矩形区域,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
第二方面,本公开提供一种智能化印章解析的装置,包括:
文档获取模块,用于获取待识别的文档;
位置坐标确定模块,用于对所述文档中的印章进行定位,得到所述印章的位置坐标;
图像内容确定模块,用于根据所述印章的位置坐标提取所述印章的图像内容;
文字区域确定模块,用于对所述印章的图像内容进行文字检测,获取所述印章的文字区域;
文字内容获取模块,用于对所述文字区域进行文字识别,获取所述印章的文字内容。
第三方面,本公开还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述智能化印章解析的方法的步骤。
第四方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述智能化印章解析的方法的步骤。
本公开提供的一种智能化印章解析的方法和装置,通过对获取的待识别的文档中的印章进行定位,得到所述印章的位置坐标;提取所述位置坐标内的图像内容,进而,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。本公开通过在对印章进行识别之前,对印章的真伪进行辨别,增加了对印章识别的准确性。
附图说明
为了更清楚地说明本公开或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本公开提供的智能化印章解析的方法的流程示意图;
图2是本公开提供的获取弯曲文字区域的示意图;
图3是本公开提供的采用贝塞尔对齐法对弯曲文字区域进行矫正示意图;
图4是本公开提供的智能化印章解析的装置的结构示意图;
图5是本公开提供的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开实施例一部分实施例,而不是全部的实施例。基于本公开实施例中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开实施例保护的范围。
下面结合图1描述本公开实施例提供的一种智能化印章解析的方法,包括:
步骤100:获取待识别的文档;
具体地,本公开是为了针对在企事业单位中有大量的合同票据公文等文档需要处理的情形,其中一个重要工作便是检查正式文档是否有盖章,及所盖的章是否正确。因此,本公开在对印章进行识别之前,需要获取带有印章的文档。
步骤200:对所述文档中的印章进行定位,得到所述印章的位置坐标;
具体地,使用印章检测算法对文档中的全部印章进行定位,该算法可以输出所有印章的位置坐标,坐标区域采用正方形,若检测目标为椭圆形或长方形印章,则对检测框进行补全,以符合后续的算法流程。其中,印章检测算法比如常用的检测器Yolo3和CenterNet等等。例如centernet、yolov3。其中,CenterNet是一种anchor-free的目标检测网络,在速度和精度上都比较有优势。而YOLOv3是YOLO(You Only Look Once)系列目标检测算法中的第三版,相比之前的算法,尤其是针对小目标,精度有显著提升。通过前述方法可以获取印章的图像区域。在本公开中输出所有印章的位置坐标,其中坐标区域采用正方形,即用正方形对印章进行框定。对于待检测的印章是椭圆形或者长方形的印章将其补全为正方形,然后对所述印章的坐标区域进行定位。
步骤300:根据所述印章的位置坐标提取所述印章的图像内容;
具体地,即之阿确定印章的坐标区域之后,坐标区域内的内容即是印章的图像内容。
步骤400:对所述印章的图像内容进行文字检测,获取所述印章的文字区域;
具体地,在获取印章的图像内容之后,对图像内容中的文字区域进行确定,获取印章中的文字区域,用于对文字区域进行识别。
步骤500:对所述文字区域进行文字识别,获取所述印章的文字内容。
具体地,将印章的文字区域输入至与大量场景文本一起训练水平排版文字识别模型中,例如CRNN等,得到印章文字区域的文字内容。
本公开提供的一种智能化印章解析的方法,通过对获取的待识别的文档中的印章进行定位,得到所述印章的位置坐标;提取所述位置坐标内的图像内容,进而,对所述印章进行文字检测,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。本公开通过在对印章进行识别之前,对印章的真伪进行辨别,增加了对印章识别的准确性。
根据本公开实施例提供的一种智能化印章解析的方法,其中,在所述对所述印章的图像内容进行文字检测,具体包括:
对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标;
若所述图像内容的质量达标,则判断所述印章是否为真章;
若所述印章为真章,则对所述印章的图像内容进行文字检测。
具体地,在对印章图像进行定位获取印章区域之后,对印章的质量进行判断。由于印章存在印油多、印油少、用力大、用力小等多种情形。同时还存在印章在盖章时被遮挡等导致印章不完整存在残缺等多种影响印章质量和识别的情形,因此,在本公开中通过印章质量判断模型对图像中的印章进行质量判断,判断其质量是否达标。
若图像质量达标之后,文档提取的印章和印章库中的真实印章进行比对,判断印章是否为真,目的是拦截伪造印章,并提出预警。
在判断印章为真的情况下才对印章的图像内容进行文字区域的检测,从而获取印章的文字区域。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述对所述文档中的印章进行定位,得到所述印章的位置坐标,具体包括:
获取所述印章的图像中心;
构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合;
以所述最小正方形的位置坐标作为所述印章的位置坐标。
具体地,本公开是通过采用最小正方形对印章图像进行框定,进而以此最小正方形的坐标替代印章图像的坐标。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合,具体包括:
在所述印章为圆形的情况下,则构建所述印章的外切正方形;
在所述印章为矩形的情况下,则构建以所述矩形中心为正方形的中心,以所述矩形的长边为边长的正方形,且所述正方形包围所述矩形;
在所述印章为椭圆形的情况下,则构建以所述椭圆形的中心为所述正方形的中心,以所述椭圆形的长轴为边长的正方形,且所述正方形包围所述椭圆形。
具体地,在本公开中通过对文档印章的位置坐标进行获取时,采用正方形的位置坐标,对文档的印章进行定位,具体地对于正方形的印章,通过直接识别出印章的边框即可,而对于印章为圆形的,则通过获取印章的外接正方形即可,而对于矩形和椭圆形的印章,由于这种印章不是直接获取印章的边界,而是通过获取以所述矩形中心为正方形的中心,以所述矩形的长边为边长的正方形,且所述正方形包围所述矩形,则以所述正方形的坐标作为所述印章的位置坐标。以及则获取以所述椭圆形的重心为所述正方形的中心,以所述椭圆形的长轴为边长的正方形,且所述正方形包围所述椭圆形,则以所述正方形的坐标作为所述印章的位置坐标。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标,具体包括:
获取所述图像内容的模糊和/或残缺表示的质量数值;
将所述质量数值与预先设置的阈值相比较;
若所述模糊或残缺数值比预先设置的阈值小,则表示所述图像内容的质量不达标;
若所述模糊或残缺数值不比预先设置的阈值小,则表示所述图像内容的质量达标。
具体地,在判断印章的质量是否达标时,通过将获取的印章坐标内容的图像内容,并将获取的印章图像内容输入至图像质量判断模型中。其中,图像质量判断模型是通过印章图像训练样本和预先确定的对应的印章图像的质量进行训练得到。具体地,在本公开中通过获取输入的印章的图像的清晰程度和完整度,确定该印章的质量,进而将确定获取的质量数值与预先确定的进行比较,若所述模糊或残缺数值比预先设置的阈值小,则表示所述图像内容的质量不达标;则不对所述印章进行识别。若所述模糊或残缺数值不比预先设置的阈值小,则表示所述图像内容的质量达标,则表示所述印章可以进行后续处理。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述判断所述印章是否为真章,包括:
将所述印章输入印章防伪模型,输出与所述印章相对应的真伪结果;
其中,所述印章防伪模型是基于印章样本数据以及预先确定的所述印章的真伪训练后得到。
具体地,在判断印章的质量达标之后,通过将印章输入至印章防伪模型中,所述印章防伪模型是通过印章样本数据和其对应的真伪标签进行训练得到。通过将印章输入至防伪模型中,通过与印章库中的真实印章进行比对,可以判断印章真伪。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述对所述印章的图像内容进行文字检测,获取所述印章的文字区域,具体包括:
对所述印章进行属性解析,获取所述印章的种类;
在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域;
在所述印章为圆形或椭圆形的情况下,则对所述印章的图像内容采用第二文字检测方式获取所述印章的文字的区域。
具体地,利用印章属性分类模型对通过质量判断的印章图像进行属性解析,其中包含印章类别及印章颜色。印章种类分类模型输出印章的类别,目前支持圆形、椭圆形、矩形及其他。印章颜色分类模型输出印章的颜色,目前支持红色、黑色、蓝色及其他。
由于印章为矩形和印章为圆形或椭圆形时,印章中的文字排列存在差别,印章为矩形时,印章上的文字为横向或纵向的直线排列方式,而印章为圆形或者椭圆形时印章中的文字呈现弧形排布方式,而对这两种文字排布方式,本公开采用不同的文字区域检测方式,其中,若所述印章的为矩形,则对所述印章采用第一文字检测方式获取所述印章的文字的区域;若所述印章为圆形或椭圆形,则对所述印章采用第二文字检测方式获取所述印章的文字的区域。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域,具体包括:
对所述矩形印章进行图像矫正,获取矫正后的矩形印章;
对所述矫正后的矩形印章输入文字检测模型中,得到所述矩形印章的文字的区域;
其中,所述文字检测模型是基于矩形印章的文字检测样本数据以及预先确定的对应的文字的区域进行训练得到。
具体地,在对矩形印章的文字区域进行识别之前,先对矩形印章的图像进行矫正,使得印章文字的呈现方式符合阅读方式,便于进行后续处理。进而,将矩形印章文字检测则是将矫正后的矩形印章输入用大量文本数据训练好的水平排版文字检测模型中,得到矩形的bounding box。其中,所述文字检测模型是基于矩形印章的文字检测样本数据以及预先确定的对应的文字的区域进行训练得到。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述在所述印章为圆形或椭圆形的情况下,则对所述印章图像内容采用第二文字检测方式获取所述印章的文字的区域,具体包括:
对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域;
对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
具体地,圆形及椭圆形印章文字检测均采用弯曲文本检测算法,通过一个参数化的贝塞尔曲线来自适应拟合任意形状的文本。检测框架采用了一个single-shot,anchor-free的神经网络。anchor boxes的移除极大地简化了检测任务,相比于标准的boundingbox detection方法,基于贝塞尔曲线的检测方法减轻了计算负担,这使得检测算法在效率和精度上都有较好的性能。具体的,由于cubic Bezier曲线能够通过四个控制点来拟合一条任意形状的场景文本,因此可以将环状的弯曲文本简化到一个有八个控制点的boundingbox回归任务中。此方法比以往的环形模板匹配等方法有一定的精度提升,而比基于分割的检测网络有一定的速度提升。
进而,对获取的弯曲文本区域进行拉直处理得到,最终的文字区域。
根据本公开实施例提供的一种智能化印章解析的方法,其中,所述对所述矩形印章进行图像矫正,获取矫正后的矩形印章,具体包括:
获取所述矩形印章的四个检测角点及所述四个检测角点的坐标;
确定所述矩形印章的文字的正向阅读方向;
依据所述矩形印章的文字的正向阅读方向确定第一个检测角点,并以顺时针方向确定印章的四个角点;
对所述确定了四个角点的矩形印章通过仿射变换进行矫正,得到所述矫正后的矩形印章。
具体地,在对矩形印章进行矫正的过程中,利用印章矫正模型对矩形印章的四个检测角点坐标进行排序,以印章文字正向阅读方向的左上角为起点,按顺时针方向输出矩形印章的四个角点,通过上述方式确定了矩形印章的方向进而阅读顺序,再通过仿射的方式,对印章进行矫正时可以保证对印章的文字顺序不发生改变。其中仿射变换是指仿射变换是在几何上定义为两个向量空间之间的一个仿射变换或者仿射映射由一个非奇异的线性变换(运用一次函数进行的变换)接上一个平移变换组成。
结合图2所示,根据本公开实施例提供的一种智能化印章解析的方法,其中,所述对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域,具体包括:
采用三阶贝塞尔曲线拟合出所述弯曲文本的两条弧线边界;
根据所述两条平行弧线边界确定所述圆形或椭圆形印章的所述弯曲文本区域。
具体地,贝塞尔曲线(Bezier curve)又称贝兹曲线或贝济埃曲线,是应用于二维图形应用程序的数学曲线,可以使用很少的控制点生成复杂平滑曲线。由于cubic Bezier曲线能够拟合不同形状的场景文本的形状。即通过找到四个控制点的方式实现对一条弯曲曲线的拟合,由于在印章中确定弯曲区域需要两条完全曲线才行,因此在本公开中通过找到8个控制点,拟合出两条弯曲曲线,再根据这两天弯曲曲线确定弯曲文本区域。具体地,在本公开中对“1234商务信息有限公司”进行贝塞尔曲线检测,获取“1234商务信息有限公司”的两条曲线,由这两条曲线确定“1234商务信息有限公司”的文字所在区域。
结合图3所示,根据本公开实施例提供的一种智能化印章解析的方法,其中,所述对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域,具体包括:
对所述弯曲文本区域按照等宽等高的间距采样,得到多个采样点,其中,所述多个采样点在每一列上形成的直线与所述弯曲文本区域的曲线边界正交;
将所述多个采样点映射入矩形区域,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
具体地,以前的方法大多采用各种采样方法来连接识别分支。通常,给定一个特征图和感兴趣区域(RoI),利用抽样方法选择RoI的特征,有效地输出一个固定大小的特征图。但是,以前的非分割方法的采样方法,如RoI Pooling、Text-Align-Sampling等都不能正确对齐任意形状的文本的特性。利用贝塞尔曲线检测框的参数化特性,采用特征采样的贝塞尔对齐方法,即采样网格的每一列都与文本的贝塞尔曲线边界正交。采样点分别在宽度和高度上的间距相等,是根据坐标双线性插值的。再将采样点按长宽比映射到矩形区域,完成文字拉直矫正。具体地,在本公开中通过将“1234商务信息有限公司”和“3519473921717”进行拉直处理。
结合图4所示,本公开实施例提供一种智能化印章解析的装置,包括:
文档获取模块41,用于获取待识别的文档;
位置坐标确定模块42,用于对所述文档中的印章进行定位,得到所述印章的位置坐标;
图像内容确定模块43,用于根据所述印章的位置坐标提取所述印章的图像内容;
文字区域确定模块44,用于对所述印章的图像内容进行文字检测,获取所述印章的文字区域;
文字内容获取模块45,用于对所述文字区域进行文字识别,获取所述印章的文字内容。
由于本发明实施例提供的装置,可以用于执行上述实施例所述的方法,其工作原理和有益效果类似,故此处不再详述,具体内容可参见上述实施例的介绍。
本公开提供的一种智能化印章解析的装置,通过对获取的待识别的文档中的印章进行定位,得到所述印章的位置坐标;提取所述位置坐标内的图像内容,进而,对所述印章进行文字检测,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。本公开通过在对印章进行识别之前,对印章的真伪进行辨别,增加了对印章识别的准确性。
根据本公开提供的一种智能化印章解析的装置,其中,所述文字区域确定模块44,具体用于:
对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标;
若所述图像内容的质量达标,则判断所述印章是否为真章;
若所述印章为真章,则对所述印章的图像内容进行文字检测。
根据本公开提供的一种智能化印章解析的装置,其中,所述位置坐标确定模块42,具体用于:
获取所述印章的图像中心;
构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合;
以所述最小正方形的位置坐标作为所述印章的位置坐标。
根据本公开提供的一种智能化印章解析的装置,其中,所述位置坐标确定模块42,具体用于:
在所述印章为圆形的情况下,则构建所述印章的外切正方形;
在所述印章为矩形的情况下,则构建以所述矩形中心为正方形的中心,以所述矩形的长边为边长的正方形,且所述正方形包围所述矩形;
在所述印章为椭圆形的情况下,则构建以所述椭圆形的中心为所述正方形的中心,以所述椭圆形的长轴为边长的正方形,且所述正方形包围所述椭圆形。
根据本公开提供的一种智能化印章解析的装置,其中,所述文字区域确定模块44,具体用于:
获取所述图像内容的模糊和/或残缺表示的质量数值;
将所述质量数值与预先设置的阈值相比较;
若所述模糊或残缺数值比预先设置的阈值小,则表示所述图像内容的质量不达标;
若所述模糊或残缺数值不比预先设置的阈值小,则表示所述图像内容的质量达标。
根据本公开提供的一种智能化印章解析的装置,其中,所述文字区域确定模块44,具体用于:
将所述印章输入印章防伪模型,输出与所述印章相对应的真伪结果;
其中,所述印章防伪模型是基于印章样本数据以及预先确定的所述印章的真伪训练后得到。
根据本公开提供的一种智能化印章解析的装置,其中,文字区域确定模块44,具体用于:
对所述印章进行属性解析,获取所述印章的种类;
在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域;
在所述印章为圆形或椭圆形的情况下,则对所述印章的图像内容采用第二文字检测方式获取所述印章的文字的区域。
根据本公开提供的一种智能化印章解析的装置,其中,文字区域确定模块44,具体用于:
对所述矩形印章进行图像矫正,获取矫正后的矩形印章;
对所述矫正后的矩形印章输入文字检测模型中,得到所述矩形印章的文字的区域;
其中,所述文字检测模型是基于矩形印章的文字检测样本数据以及预先确定的对应的文字的区域进行训练得到。
根据本公开提供的一种智能化印章解析的装置,其中,文字区域确定模块44,具体用于:
对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域;
对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
根据本公开提供的一种智能化印章解析的装置,其中,文字区域确定模块44,具体用于:
获取所述矩形印章的四个检测角点及所述四个检测角点的坐标;
确定所述矩形印章的文字的正向阅读方向;
依据所述矩形印章的文字的正向阅读方向确定第一个检测角点,并以顺时针方向确定印章的四个角点;
对所述确定了四个角点的矩形印章通过仿射变换进行矫正,得到所述矫正后的矩形印章。
根据本公开提供的一种智能化印章解析的装置,其中,文字区域确定模块44,具体用于:
采用三阶贝塞尔曲线拟合出所述弯曲文本的两条弧线边界;
根据所述两条平行弧线边界确定所述圆形或椭圆形印章的所述弯曲文本区域。
根据本公开提供的一种智能化印章解析的装置,其中,文字区域确定模块44,具体用于:
对所述弯曲文本区域按照等宽等高的间距采样,得到多个采样点,其中,所述多个采样点在每一列上形成的直线与所述弯曲文本区域的曲线边界正交;
将所述多个采样点映射入矩形区域,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
图5示例了一种电子设备的实体结构示意图,如图5所示,该电子设备可以包括:处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540,其中,处理器510,通信接口520,存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令,以执行一种智能化印章解析的方法,该方法包括:获取待识别的文档;对所述文档中的印章进行定位,得到所述印章的位置坐标;根据所述印章的位置坐标提取所述印章的图像内容;对所述印章的图像内容进行文字检测,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。
此外,上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本公开还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的一种智能化印章解析的方法,该方法包括:获取待识别的文档;对所述文档中的印章进行定位,得到所述印章的位置坐标;根据所述印章的位置坐标提取所述印章的图像内容;对所述印章的图像内容进行文字检测,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。
又一方面,本公开还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的一种智能化印章解析的方法,该方法包括:获取待识别的文档;对所述文档中的印章进行定位,得到所述印章的位置坐标;根据所述印章的位置坐标提取所述印章的图像内容;对所述印章的图像内容进行文字检测,获取所述印章的文字区域;对所述文字区域进行文字识别,获取所述印章的文字内容。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本公开的技术方案,而非对其限制;尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。
Claims (15)
1.一种智能化印章解析的方法,其特征在于,包括:
获取待识别的文档;
对所述文档中的印章进行定位,得到所述印章的位置坐标;
根据所述印章的位置坐标提取所述印章的图像内容;
对所述印章的图像内容进行文字检测,获取所述印章的文字区域;
对所述文字区域进行文字识别,获取所述印章的文字内容。
2.根据权利要求1所述的智能化印章解析的方法,其特征在于,在所述对所述印章的图像内容进行文字检测,具体包括:
对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标;
若所述图像内容的质量达标,则判断所述印章是否为真章;
若所述印章为真章,则对所述印章的图像内容进行文字检测。
3.根据权利要求1所述的智能化印章解析的方法,其特征在于,所述对所述文档中的印章进行定位,得到所述印章的位置坐标,具体包括:
获取所述印章的图像中心;
构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合;
以所述最小正方形的位置坐标作为所述印章的位置坐标。
4.根据权利要求3所述的智能化印章解析的方法,其特征在于,所述构建囊括所述印章图像的最小正方形,其中,所述最小正方形的中心与所述印章的图像中心重合,具体包括:
在所述印章为圆形的情况下,则构建所述印章的外切正方形;
在所述印章为矩形的情况下,则构建以所述矩形中心为正方形的中心,以所述矩形的长边为边长的正方形,且所述正方形包围所述矩形;
在所述印章为椭圆形的情况下,则构建以所述椭圆形的中心为所述正方形的中心,以所述椭圆形的长轴为边长的正方形,且所述正方形包围所述椭圆形。
5.根据权利要求2所述的智能化印章解析的方法,其特征在于,所述对所述印章的图像内容进行质量判断,确定所述图像内容的质量是否达标,具体包括:
获取所述图像内容的模糊和/或残缺表示的质量数值;
将所述质量数值与预先设置的阈值相比较;
若所述模糊或残缺数值比预先设置的阈值小,则表示所述图像内容的质量不达标;
若所述模糊或残缺数值不比预先设置的阈值小,则表示所述图像内容的质量达标。
6.根据权利要求2所述的智能化印章解析的方法,其特征在于,所述判断所述印章是否为真章,包括:
将所述印章输入印章防伪模型,输出与所述印章相对应的真伪结果;
其中,所述印章防伪模型是基于印章样本数据以及预先确定的所述印章的真伪训练后得到。
7.根据权利要求1所述的智能化印章解析的方法,其特征在于,所述对所述印章的图像内容进行文字检测,获取所述印章的文字区域,具体包括:
对所述印章进行属性解析,获取所述印章的种类;
在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域;
在所述印章为圆形或椭圆形的情况下,则对所述印章的图像内容采用第二文字检测方式获取所述印章的文字的区域。
8.根据权利要求7所述的智能化印章解析的方法,其特征在于,所述在所述印章的为矩形的情况下,则对所述印章的图像内容采用第一文字检测方式获取所述印章的文字的区域,具体包括:
对所述矩形印章进行图像矫正,获取矫正后的矩形印章;
对所述矫正后的矩形印章输入文字检测模型中,得到所述矩形印章的文字的区域;
其中,所述文字检测模型是基于矩形印章的文字检测样本数据以及预先确定的对应的文字的区域进行训练得到。
9.根据权利要求7所述的智能化印章解析的方法,其特征在于,所述在所述印章为圆形或椭圆形的情况下,则对所述印章的图像内容采用第二文字检测方式获取所述印章的文字的区域,具体包括:
对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域;
对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
10.根据权利要求8所述的智能化印章解析的方法,其特征在于,所述对所述矩形印章进行图像矫正,获取矫正后的矩形印章,具体包括:
获取所述矩形印章的四个检测角点及所述四个检测角点的坐标;
确定所述矩形印章的文字的正向阅读方向;
依据所述矩形印章的文字的正向阅读方向确定第一个检测角点,并以顺时针方向确定印章的四个角点;
对所述确定了四个角点的矩形印章通过仿射变换进行矫正,得到所述矫正后的矩形印章。
11.根据权利要求9所述的智能化印章解析的方法,其特征在于,所述对所述圆形或者椭圆形印章进行处理,获取弯曲文本区域,具体包括:
采用三阶贝塞尔曲线拟合出所述弯曲文本的两条弧线边界;
根据所述两条平行弧线边界确定所述圆形或椭圆形印章的所述弯曲文本区域。
12.根据权利要求9所述的智能化印章解析的方法,其特征在于,所述对所述弯曲文本区域采用特征采样的方式,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域,具体包括:
对所述弯曲文本区域按照等宽等高的间距采样,得到多个采样点,其中,所述多个采样点在每一列上形成的直线与所述弯曲文本区域的曲线边界正交;
将所述多个采样点映射入矩形区域,实现对所述完全文本的拉直矫正,得到最终的所述印章的文字的区域。
13.一种智能化印章解析的装置,其特征在于,包括:
文档获取模块,用于获取待识别的文档;
位置坐标确定模块,用于对所述文档中的印章进行定位,得到所述印章的位置坐标;
图像内容确定模块,用于根据所述印章的位置坐标提取所述印章的图像内容;
文字区域确定模块,用于对所述印章的图像内容进行文字检测,获取所述印章的文字区域;
文字内容获取模块,用于对所述文字区域进行文字识别,获取所述印章的文字内容。
14.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至12任一项所述智能化印章解析方法的步骤。
15.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至12任一项所述智能化印章解析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111088003.1A CN113743360B (zh) | 2021-09-16 | 2021-09-16 | 智能化印章解析的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111088003.1A CN113743360B (zh) | 2021-09-16 | 2021-09-16 | 智能化印章解析的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113743360A true CN113743360A (zh) | 2021-12-03 |
CN113743360B CN113743360B (zh) | 2024-03-05 |
Family
ID=78739442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111088003.1A Active CN113743360B (zh) | 2021-09-16 | 2021-09-16 | 智能化印章解析的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113743360B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821624A (zh) * | 2022-04-08 | 2022-07-29 | 烟台市勘察设计审查服务中心有限责任公司 | 施工图审查用签章认证方法及认证系统 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110675546A (zh) * | 2019-09-06 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 发票图片识别及验真方法、系统、设备及可读存储介质 |
US20200202155A1 (en) * | 2018-12-19 | 2020-06-25 | Canon Kabushiki Kaisha | Method for image processing, and image-processing system |
CN111401372A (zh) * | 2019-12-20 | 2020-07-10 | 国家电网有限公司 | 一种扫描文档图文信息提取与鉴别的方法 |
CN111738748A (zh) * | 2020-08-14 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 基于区块链的盖章处理方法和装置 |
CN111753785A (zh) * | 2020-07-01 | 2020-10-09 | 浪潮云信息技术股份公司 | 一种基于深度学习技术的印章检测方法 |
CN112329756A (zh) * | 2020-09-25 | 2021-02-05 | 武汉光谷信息技术股份有限公司 | 一种印章提取及文字识别的方法及装置 |
WO2021115490A1 (zh) * | 2020-06-22 | 2021-06-17 | 平安科技(深圳)有限公司 | 面向复杂环境的印章文字检测识别方法、装置及介质 |
US20210192695A1 (en) * | 2018-09-28 | 2021-06-24 | Pfu Limited | Image processing device, control method, and control program |
CN113077355A (zh) * | 2021-06-04 | 2021-07-06 | 国任财产保险股份有限公司 | 保险理赔方法、装置、电子设备及存储介质 |
-
2021
- 2021-09-16 CN CN202111088003.1A patent/CN113743360B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20210192695A1 (en) * | 2018-09-28 | 2021-06-24 | Pfu Limited | Image processing device, control method, and control program |
US20200202155A1 (en) * | 2018-12-19 | 2020-06-25 | Canon Kabushiki Kaisha | Method for image processing, and image-processing system |
CN110675546A (zh) * | 2019-09-06 | 2020-01-10 | 深圳壹账通智能科技有限公司 | 发票图片识别及验真方法、系统、设备及可读存储介质 |
CN111401372A (zh) * | 2019-12-20 | 2020-07-10 | 国家电网有限公司 | 一种扫描文档图文信息提取与鉴别的方法 |
WO2021115490A1 (zh) * | 2020-06-22 | 2021-06-17 | 平安科技(深圳)有限公司 | 面向复杂环境的印章文字检测识别方法、装置及介质 |
CN111753785A (zh) * | 2020-07-01 | 2020-10-09 | 浪潮云信息技术股份公司 | 一种基于深度学习技术的印章检测方法 |
CN111738748A (zh) * | 2020-08-14 | 2020-10-02 | 支付宝(杭州)信息技术有限公司 | 基于区块链的盖章处理方法和装置 |
CN112329756A (zh) * | 2020-09-25 | 2021-02-05 | 武汉光谷信息技术股份有限公司 | 一种印章提取及文字识别的方法及装置 |
CN113077355A (zh) * | 2021-06-04 | 2021-07-06 | 国任财产保险股份有限公司 | 保险理赔方法、装置、电子设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
刘丰威;潘炜;韩丽丽;: "稽查中印章真伪识别智能算法", 中国高新科技, no. 13 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114821624A (zh) * | 2022-04-08 | 2022-07-29 | 烟台市勘察设计审查服务中心有限责任公司 | 施工图审查用签章认证方法及认证系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113743360B (zh) | 2024-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110659647B (zh) | 印章图像识别方法及装置、智能发票识别设备和存储介质 | |
CN110046529B (zh) | 二维码识别方法、装置及设备 | |
US10817741B2 (en) | Word segmentation system, method and device | |
CN111160352B (zh) | 一种基于图像分割的工件金属表面文字识别方法及系统 | |
CN111461100B (zh) | 一种票据识别方法、装置、电子设备和存储介质 | |
US9959475B2 (en) | Table data recovering in case of image distortion | |
CN109447068A (zh) | 一种从图像中分离印章并校准印章的方法 | |
CN111680690B (zh) | 一种文字识别方法及装置 | |
CN111274957A (zh) | 网页页面验证码识别方法、装置、终端和计算机存储介质 | |
CN112949455B (zh) | 一种增值税发票识别系统及方法 | |
CN110570442A (zh) | 一种复杂背景下轮廓检测方法、终端设备及存储介质 | |
CN111767754B (zh) | 一种识别码的识别方法、装置、电子设备及存储介质 | |
CN114972817A (zh) | 图像相似度匹配方法、设备及存储介质 | |
CN114663904A (zh) | 一种pdf文档布局检测方法、装置、设备及介质 | |
CN112446259A (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN111582000A (zh) | 一种条形码定位方法、装置及相关设备 | |
CN116704516A (zh) | 一种用于水溶肥料包装的视觉检测方法 | |
CN113743360B (zh) | 智能化印章解析的方法和装置 | |
CN115909375A (zh) | 一种基于智能识别的报表分析方法 | |
CN113392819B (zh) | 一种批量化学术图像自动分割标注装置和方法 | |
CN108877030B (zh) | 图像处理方法、装置、终端和计算机可读存储介质 | |
CN112200789A (zh) | 一种图像识别的方法及装置、电子设备和存储介质 | |
Shukla et al. | An approach for skew detection using hough transform | |
CN109871910B (zh) | 一种手写字符识别方法及装置 | |
CN109753981B (zh) | 一种图像识别的方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |