CN117671694A - 一种基于检测和融合的文档印章预处理方法 - Google Patents
一种基于检测和融合的文档印章预处理方法 Download PDFInfo
- Publication number
- CN117671694A CN117671694A CN202311641496.6A CN202311641496A CN117671694A CN 117671694 A CN117671694 A CN 117671694A CN 202311641496 A CN202311641496 A CN 202311641496A CN 117671694 A CN117671694 A CN 117671694A
- Authority
- CN
- China
- Prior art keywords
- seal
- pix
- pixel
- point
- dist
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 115
- 238000000034 method Methods 0.000 title claims abstract description 54
- 230000004927 fusion Effects 0.000 title claims abstract description 21
- 238000007781 pre-processing Methods 0.000 title claims abstract description 13
- 238000013135 deep learning Methods 0.000 claims abstract description 6
- 230000006870 function Effects 0.000 claims description 23
- 230000008569 process Effects 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 claims description 8
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 3
- 238000011478 gradient descent method Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 claims 1
- 238000012545 processing Methods 0.000 abstract description 20
- 238000011176 pooling Methods 0.000 description 5
- 238000013507 mapping Methods 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 238000007499 fusion processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000002203 pretreatment Methods 0.000 description 1
- 238000009877 rendering Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Landscapes
- Image Analysis (AREA)
Abstract
本发明公开了一种基于检测和融合的文档印章预处理方法,涉及深度学习和图像处理技术领域,方法为:利用印章检测网络定位页面图像上的印章位置;根据定位出的印章位置,在页面图像中裁剪出印章区域图像;用聚类算法获取印章区域图像的像素聚类中心点,包括印章、字符和背景三个中心点;利用三个中心点和邻域像素点,对印章区域图像中的各个像素点归类进行判断,根据印章区域图像中各个像素点的属性,得到新图像;将原始的印章区域图像与新图像进行融合,得到处理后的印章区域图像。本发明降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。
Description
技术领域
本发明涉及深度学习和图像处理技术领域,尤其是一种基于检测和融合的文档印章预处理方法。
背景技术
金融机构和政府机关等发布的财务报告、公告、地方性政策文件等文本数据,是金融监管行业、金融投资行业等金融工作者获得有效行业信息的重要途径。然而,这些文件通常都会加盖机构或者政府部门的印章,遮盖重要的文字信息。由于印章的遮盖导致文本自动识别的准确率较低,后续文本识别较大地依赖于人工处理,降低了文件处理的效率。
传统的文档印章处理方法,是基于像素统计和阈值分割的思想进行印章像素过滤处理。这类方法的局限性是对于印章的定位只依赖于印章的颜色信息,会导致图像中其他与印章有着相同颜色信息的像素,也会被错误定位为印章像素,从而导致非印章区域字符像素信息的丢失。其次传统方法对于印章区域的处理,侧重于对印章像素的去除,对于印章区域字符信息的还原欠佳,没有兼顾文本识别的完整率和准确率。
发明内容
为了克服上述现有技术中的缺陷,本发明提供一种基于检测和融合的文档印章预处理方法,降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。
为实现上述目的,本发明采用以下技术方案,包括:
一种基于检测和融合的文档印章预处理方法,包括以下步骤:
S2,利用印章检测网络定位页面图像上的印章位置;
S3,根据定位出的印章位置,在页面图像中裁剪出印章区域图像Img;
S4,用聚类算法获取印章区域图像Img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg;
S5,利用三个中心点和邻域像素点,对印章区域图像Img中的各个像素点pixv进行判断,判断像素点pixv的归类,即判断像素点pixv属于印章像素或字符像素或背景像素;根据印章区域图像Img中各个像素点pixv的属性,得到新图像proImg;其中,pixv为印章区域图像Img中的第v个像素点;
S6,将原始的印章区域图像Img与新图像proImg进行融合,得到处理后的印章区域图像destImg。
优选的,在步骤S2之前,还包括步骤S1,利用样本数据和深度学习训练生成所述印章检测网络,具体过程如下所示:
S11,构建印章检测的页面图像集合H,j∈{1,2,...,N},i∈{1,2,...,m};其中,/>表示第j个文件第i页图像;
S12,构建印章检测框的位置集合F,F={location(j,i,k)},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t};其中,location(j,i,k)表示第j个文件第i页图像第k个印章检测框的位置信息,印章检测框的位置信息包括印章检测框的中心点坐标以及印章检测框的宽和高,即location(i,j,k)={lx,ly,lw,lh},(lx,ly)表示印章检测框的中心点坐标,(lw,lh)表示印章检测框的宽和高;
S13,构建印章检测框的标签集合LAB,LAB={label(j,i,k)},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t};其中,label(j,i,k)表示第j个文件第i页图像第k个印章检测框的标签信息,标签类别为印章;
S14,由印章检测的页面图像集合H、印章检测框的位置集合F和标签集合LAB,组成印章检测框的数据集合Ct={H,F,LAB};
S15,采用聚类算法构建印章检测网络的先验框:
对印章检测框的位置集合F提取印章检测框的宽和高属性,构建集合Box={boxj,i,k},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t},boxj,i,k=(wj,i,k,hj,i,k);其中,wj,i,k、hj,i,k分别表示第j个文件第i页图像第k个印章检测框boxj,i,k的宽和高;
从集合Box选取q个点即印章检测框作为先验框,构建集合C={c0,c1,..cx,.,cq},x∈{1,2,...,q},cx=(wx,hx);其中,wx、hx分别表示第x个先验框cx的宽和高;
计算集合Box中每个点boxj,i,k即每个印章检测框到集合C中每个点cx即每个先验框的距离Dist,将集合Box中点boxj,i,k分配给距离最近的点cx;
定义损失函数Floss=min(∑Dist(boxj,i,k,cx));
从集合Box中重新选取q个点作为先验框,迭代更新集合C,重新计算集合Box中每个点boxj,i,k到集合C中每个点cx的距离Dist,直至损失函数Floss收敛,选取损失函数Floss收敛后的q个点为最终的先验框,构建先验框集合;
其中,点boxj,i,k到点cx的距离Dist的计算方式为:
式中,I为印章检测框boxj,i,k和先验框cx交集的面积,boxarea为印章检测框boxj,i,k的面积,carea为先验框cx的面积,0<IOU≤1;α为参数;
S16,利用印章检测框的数据集合Ct对印章检测网络进行训练,输入为印章检测的页面图像集合H中的页面图像输出为检测得到的预测框的位置信息和标签信息。
优选的,步骤S16中,印章检测网络训练中的损失函数Loss包括:模型对标签分类的准确率,即预测框是否能正确分到印章类别,记为loss_cls;检测得到的预测框与真实框即印章检测框之间的坐标以及高和宽的差异,记为loss_box;检测得到的预测框包含印章的可能性和预测框完整包含印章的准确性,记为loss_obj;即Loss=concat(loss_cls,loss_box,loss_obj);训练过程中,采用Adam优化器,利用反向传播和梯度下降法进行训练。
优选的,步骤S16中,印章检测网络采用YOLO-SPP网络检测模型。
优选的,步骤S4中,用聚类算法获取印章区域图像Img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg,具体过程如下所示:
S41,从印章区域图像Img中选取3个像素点作为中心点,构建集合P,P={p1,p2,p3}即P={pz|z=1,2,3},为中心点pz的RGB像素值,计算印章区域图像Img中的各个像素点pixv到集合P中每个中心点pz的距离Distp,将印章区域图像Img中的像素点pixi分配给距离最近的中心点pz;
定义损失函数Ploss=min(∑Distp(pixv,pz));
从印章区域图像Img中重新选取3个像素点作为中心点,迭代更新集合P,重新计算印章区域图像Img中的各个像素点pixv到集合P中每个中心点pz的距离Distp,直至损失函数Ploss收敛,选取损失函数Ploss收敛后的3个像素点为最终的中心点;
其中,像素点pixv到中心点pz的距离Distp的计算方式为:
式中,pixv={rv,gv,bv,}为像素点pixv的RGB像素值;
S42,对3个中心点即p1、p2和p3进行归类,分别归为印章ps、字符pc和背景pg:
对于中心点p1,若中心点p1的/>且/>且/>则该中心点p1归为背景pg,即背景的RGB像素值为/>
对于剩下的两个中心点p2和p3,若/>则中心点p2归为印章ps,即/>中心点p3归为字符pc,即字符的RGB像素值为/>否则,中心点p2归为字符pc,即/>中心点p3归为印章ps,即印章的RGB像素值为
优选的,步骤S5中,对印章区域图像Img中的各个像素点pixv进行判断,判断像素点pixv的归类,具体过程如下所示:
S51,选取像素点pixv邻域内u个邻域像素点组成集合CT={ct1,ct2,..,ctm,..,ctu},m∈(1,2,...,u),为邻域像素点ctm的RGB像素值;
计算像素点pixv分别到印章ps、字符pc和背景pg的距离,分别记为Dists={pixv,ps},Distc={pixv,pc},Distg={pixv,pg};
计算邻域内每个像素点ctm分别到印章ps、字符pc和背景pg的距离,分别记为
S52,初始化num_s=0,numc=0,num_g=0;
若邻域像素点ctm到印章ps的距离最小,则对num_s进行更新,将num_s的值加1;
若邻域像素点ctm到字符pc的距离最小,则对num_c进行更新,将num_c的值加1;
若邻域像素点ctm到背景pg的距离最小,则对num_g进行更新,将num_g的值加1;
遍历像素点pixv邻域内u个邻域像素点ctm后,得到更新后的num_s、num_c、num_g的值;
S53,若像素点pixv到印章ps的距离Dists小于到背景pg的距离Distg,即Dists<Distg,且像素点pixv到印章ps的距离Dists小于到字符pc的距离Distc,即Dists<Distc,则进入步骤S54,否则进入步骤S55;
S54,若num_c<num_s,且num_c<num_g,则像素点pixv归为字符pc,将像素点pixv的RGB像素值更新为字符pc的RGB像素值;;否则像素点pixv归为印章ps,将像素点pixv的RGB像素值更新为印章ps的RGB像素值;
S55,若像素点pixv到字符pc的距离Distc小于到背景pg的距离Distg,即Distc<Distg,且像素点pixv到字符pc的距离Distc也小于到印章ps的距离Dists,即Distc<Dists,则像素点pixv归为字符pc,将像素点pixv的RGB像素值更新为字符pc的RGB像素值;否则进入步骤S56;
S56,像素点pixv的RGB像素值不变。
优选的,步骤S6中,将原始的印章区域图像Img与新图像proImg进行加权融合,得到处理后的印章区域图像destImg:
destImg=a*Img+b*ProImg;
式中,a和b为加权参数;
将处理后的印章区域图像destImg恢复至页面图像上对应的印章位置。
本发明的优点在于:
(1)本发明的文档印章处理,是要将现有的在整页图像中去除印章的处理,转化为对印章区域图像的处理。本发明利用目标检测方法进行印章位置检测,在检测到印章位置后,基于聚类方法和邻域内的像素关系对印章区域图像进行处理,并将处理后的印章区域图像与原始的印章区域图像进行融合,从而降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。
(2)引入目标检测方法,在聚类生成目标检测预生成框时,综合考虑预生成先验框与真实框之间的面积重合程度、以及框长度和宽度之间的相似程度定义距离计算公式,通过该距离公式迭代生成的先验框,提高了印章区域的检测的精确程度,加速了目标检测模型训练过程的收敛。将含有印章图像的整页处理转化为对印章所在区域图像的局部处理,更好地保留了非印章区域的原始图像信息,避免非印章区域像素信息对印章区域像素处理的影响,降低了后续印章处理的复杂程度。同时,通过图像融合技术,将去除印章像素转化为降低印章的颜色饱和度,可以在最大程度上保留印章区域遮盖的字符信息,兼顾后续文本识别的完整性和准确率,有效地降低了印章遮盖对于字符识别的影响。将原始印章图像与经过该方法处理的图像,分别通过百度文本识别,对比识别的结果,该方法处理后的图像在视觉效果提升的同时,还可以以很高标准完成后续文本识别的任务。
(3)本发明有针对性的对文档图像中印章区域的像素进行处理,提出了先用检测模型对印章位置进行检测,对检测到的印章区域图像进行后续处理。相比于传统方法,对印章位置和大小的检测更准确,鲁棒性更好;同时,只对印章区域图像进行处理能更好得保留了图像中非印章区域像素的原始像素信息,局部性的处理方法也避免了非印章区域像素的影响,降低了后续印章处理的复杂程度。
(4)本发明针对印章区域图像的大小和形状,采用聚类算法生成先验框。在具体实现中,距离的计算公式中综合考虑了预生成的先验框与真实框之间的面积重合程度、以及框的宽和高之间的相似程度,生成的先验框能有效地表征印章框的形状和大小,提供了一种通用的先验框生成方法。该先验框在模型训练过程中,加速了检测模型训练过程中的收敛速度,同时也提高了模型对印章位置检测的精确性和印章大小形状的匹配程度。
(5)为了在印章处理过程中,能够最大程度的保留印章遮盖区域的字符信息,本发明基于图像融合的思想,将去除印章转化为降低印章颜色饱和度,相比较于直接去除印章像素的处理,经融合处理的图像中被印章遮盖区域的字符信息更加凸显。具体实现中,本发明基于颜色阈值聚类方法和邻域内的像素关系对印章区域图像进行处理,并采用一定的加权方式将处理后的印章区域图像与原始的印章区域图像进行融合,从而降低了印章像素的饱和度,最大程度的保留遮盖区域字符信息,降低印章遮盖对字符识别的影响。
附图说明
图1为一种基于检测和融合的文档印章预处理方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的文档印章处理,是要将现有的在整页图像中去除印章的处理,转化为对印章区域图像的处理。本发明利用目标检测方法,综合考虑先验框与真实框之间的面积重合程度、以及框的宽度和高度之间的相似程度聚类生成先验框,在检测到印章位置后,基于颜色阈值聚类方法和邻域内的像素关系对印章区域图像进行处理,并采用一定的加权方式将处理后的印章区域图像与原始的印章区域图像进行融合,从而实现降低印章遮盖对字符识别的影响。具体地说,将文件传输到印章检测网络,利用预训练的检测模型对印章位置进行精确定位,然后将印章区域图像基于聚类算法分割出印章像素和字符像素、背景像素,基于邻域内的像素关系处理印章区域图像,并与原始的印章区域图像进行加权融合,最后将处理后的印章区域图像恢复至整页图像中。
由图1所示,本发明的一种基于检测和融合的文档印章处理方法,具体包括以下步骤:
S1,利用样本数据和深度学习训练生成印章检测网络。
S2,利用印章检测网络定位页面图像上的印章位置。
S3,根据定位出的印章位置,在页面图像中裁剪出印章区域图像Img。
S4,用聚类算法获取印章区域图像Img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg。
S5,利用三个中心点和邻域像素点,对印章区域图像Img中的各个像素点pixv进行判断,判断像素点pixv的归类,即判断像素点pixv属于印章像素或字符像素或背景像素;根据印章区域图像Img中各个像素点pixv的属性,得到新图像proImg;其中,pixv为印章区域图像Img中的第v个像素点。
S6,将原始的印章区域图像Img与新图像proImg进行融合,得到处理后的印章区域图像destImg,将处理后的印章区域图像destImg恢复至页面图像上对应的印章位置。
步骤S1中,利用样本数据和深度学习训练生成所述印章检测网络,具体过程如下所示:
S11,构建印章检测的页面图像集合H, 其中,/>表示第j个文件第i页图像。
本实施例中,从两年内的公司财报、评级报告和地方债公告中选择带有印章的文件,选择的文件是PDF文件,选择的文件数N=500。通过PDFBox文件解析工具解析PDF文件中带有印章的页面,将页面整页渲染为图像,组成页面图像集合H。
S12,构建印章检测的规则集合Z,Z={z1,z2,...,zj,...,zN},j∈{1,2,...,N},zj表示第j个文件的所有印章检测框的位置信息; 表示第j个文件第i页图像上所有印章检测框的位置信息;/> 表示第j个文件第i页图像上第k个印章检测框的位置信息loc;loc={lx,ly,lw,lh},(lx,ly)表示印章检测框的中心点坐标,(lw,lh)表示印章检测框的宽和高。
由此,构建印章检测框的位置集合F,F={location(j,i,k)},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t};其中,location(j,i,k)表示第j个文件第i页图像第k个印章检测框的位置信息,印章检测框的位置信息包括印章检测框的中心点坐标以及印章检测框的宽和高,即location(i,j,k)={lx,ly,lw,lh},(lx,ly)表示印章检测框的中心点坐标,(lw,lh)表示印章检测框的宽和高。
在本实施例中,通过人工标注页面中的所有印章的边界框即检测框,以矩形框标注,得到标注矩形框即印章检测框的中心点坐标以及宽和高,并且根据页面图像的宽和高进行归一化。其中,归一化是为了去除量纲的影响,解决不同尺寸的页面图像上印章检测框之间尺寸相差过大、大边框影响小边框的问题。
S13,构建印章检测框的标签集合LAB,LAB={label(j,i,k)},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t},其中,label(j,i,k)表示第j个文件第i页图像第k个印章检测框的标签信息。在本实施例中,只有印章一个标签类别。
S14,由印章检测的页面图像集合H、印章检测框的位置集合F和标签集合LAB,组成印章检测框的数据集合Ct={H,F,LAB}。
S15,采用聚类算法构建印章检测网络的先验框:
对印章检测框的位置集合F提取印章检测框的宽和高属性,构建集合Box={boxj,i,k},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t},boxj,i,k=(wj,i,k,hj,i,k);其中,wj,i,k、hj,i,k分别表示第j个文件第i页图像第k个印章检测框boxj,i,k的宽和高;
从集合Box选取q个点即印章检测框作为先验框,构建集合C={c0,c1,..cx,.,cq},x∈{1,2,...,q},cx=(wx,hx);其中,wx、hx分别表示第x个先验框cx的宽和高;
计算集合Box中每个点boxj,i,k即每个印章检测框到集合C中每个点cx即每个先验框的距离Dist,将集合Box中点boxj,i,k分配给距离最近的点cx;
定义损失函数Floss=min(∑Dist(boxj,i,k,cx));
从集合Box中重新选取q个点作为先验框,迭代更新集合C,重新计算集合Box中每个点boxj,i,k到集合C中每个点cx的距离Dist,直至损失函数Floss收敛,选取损失函数Floss收敛后的q个点为最终的先验框,构建先验框集合。
其中,点boxj,i,k到点cx的距离Dist的计算方式为:
式中,I为印章检测框boxj,i,k和先验框cx交集的面积,boxarea为印章检测框boxj,i,k的面积,carea为先验框cx的面积,0<IOU≤1;α为参数。
构建的先验框集合为A′={(w1',h1'),...,(wa',ha'),...,(wq',hq')},a∈(1,2,...,q),其中,wa'、ha'分别表示第a个先验框的宽和高,将得到的先验框集合A′映射到网络输入的尺度大小InputDim,得到最终的先验框集合A={(w1,h1),...,(wa,ha)...,(wq,hq)},映射方式为:
A=A′*InputDim;
式中,InputDim为网络输入的尺度大小。
本实施例中,InputDim取416。中心点q的个数选为9个。点boxj,i,k到点cx的距离Dist计算公式分为两部分,第一部分IOU的计算表征预生成的先验框与真实框之间的重合程度,0<IOU≤1,数值越接近于1,重合程度越高,距离越接近;表征宽和高的相似程度,两种矩形框越相似,该数值越接近于0,选取参数α=1。采用该方式预生成的检验先验框,能较准确表征真实印章检测框的形状和大小,有利于后续模型训练的收敛,提高检测的精度。
S16,印章检测网络采用YOLO-SPP网络检测模型,利用印章检测框的数据集合Ct进行模型训练,输入为印章检测的页面图像集合H中的页面图像输出为检测得到的预测框的位置信息和标签信息;
对页面图像集合H中的页面图像进行长短边等比例缩放,使得缩放后的长边大小为416,再填充RGB像素值为(128,128,128)的像素点,将页面图像/>的图像尺寸变换到416×416的大小。将图像尺寸变换后的页面图像/>输入到网络检测模型的backbone层,输出得到不同尺度的feature map。将backbone层提取到的特征输入到网络neck层,具体的是将feature map输入spp(Spatial Pyramid Pooling)模块,通过不同大小的池化核进行最大池化(max pooling)操作,得到统一尺度的池化特征层,并且作为PANet(PathAggregation Network)模块的输入。经过neck层,将backbone层提取到的不同尺度特征进行上采样和下采样等操作,实现了多尺度特征的信息融合,将输入图像的特征信息转换为坐标和类别的信息。通过YOLO的检测模块,获取到框的中心和框的高和宽的偏移量,具体的说是相对于特征层中grid cell左上角的坐标位置的偏移量(tx,ty)和宽高偏移量(tw,th),根据偏移量对先验框进行调整,用调整后的先验框对模型训练中的损失函数Loss进行计算,损失函数Loss包括:模型对标签分类的准确率,即预测框是否能正确分到印章类别,记为loss_cls;检测得到的预测框与真实框即印章检测框之间的坐标以及高和宽的差异,记为loss_box;检测得到的预测框包含印章的可能性和预测框完整包含印章的准确性,记为loss_obj。损失函数Loss=concat(loss_cls,loss_box,loss_obj)。训练过程中,采用Adam优化器,利用反向传播和梯度下降法进行训练。
其中,真实标注框的相对于featuremap中gridcell左上角的坐标位置(tx,ty)和宽高偏移量(tw,th)的计算方式为:
tx=l′x-Cellx,ty=l′y-Celly,
式中,将原始图像上印章检测框的坐标信息loc={lx,ly,lw,lh}先映射到输入图像尺寸416×416,再对应到featuremap大小中,从而得到对应处理后的坐标loc′={lx',ly',lw',lh'}。将步骤S15中得到的先验框集合A={(w1,h1),...,(wa,ha)...,(wq,hq)}映射到featuremap大小中,从而得到对应处理后的先验框集合(Cellx,Celly)为feature map上grid cell的左上角坐标。
本实施例中,因为只检测印章一个类别,所以backbone选择resnet18残差网络作为主干网络,resnet18网络层数不会太深,且网络的参数数量较少,在小样本的训练集中不容易发生过拟合。
步骤S3中,根据定位出的印章位置,即根据检测到的印章检测框,将印章区域图像在页面图像中裁剪出来,是为了后续更好的进行印章处理以及印章处理后的图像融合处理,避免因为全局像素的影响,将印章区域图像的处理复杂化。
步骤S4中,用聚类算法获取印章区域图像Img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg,具体过程如下所示:
S41,从印章区域图像Img中选取3个像素点作为中心点,构建集合P,P={p1,p2,p3}即P={pz|z=1,2,3},为中心点pz的RGB像素值即在RGB颜色空间的像素值,计算印章区域图像Img中的各个像素点pixv到集合P中每个中心点pz的距离Distp,将印章区域图像Img中的像素点pixi分配给距离最近的中心点pz;
定义损失函数Ploss=min(∑Distp(pixv,pz));
从印章区域图像Img中重新选取3个像素点作为中心点,迭代更新集合P,重新计算印章区域图像Img中的各个像素点pixv到集合P中每个中心点pz的距离Distp,直至损失函数Ploss收敛,选取损失函数Ploss收敛后的3个像素点为最终的中心点;
其中,像素点pixv到中心点pz的距离Distp的计算方式为:
式中,pixv={rv,gv,bv,}为像素点pixv的RGB像素值,
S42,对3个中心点即p1、p2和p3进行归类,分别归为印章ps、字符pc和背景pg:
对于中心点p1,若中心点p1的/>且/>且/>则该中心点p1归为背景pg,即背景的RGB像素值为/>
对于剩下的两个中心点p2和p3,若/>则中心点p2归为印章ps,即/>中心点p3归为字符pc,即字符的RGB像素值为/>否则,中心点p2归为字符pc,即/>中心点p3归为印章ps,即印章的RGB像素值为
步骤S5中,对印章区域图像Img中的各个像素点pixv进行判断,判断像素点pixv的归类,具体过程如下所示:
S51,选取像素点pixv邻域内u个邻域像素点组成集合CT={ct1,ct2,..,ctm,..,ctu},m∈(1,2,...,u),为邻域像素点ctm的RGB像素值。
计算像素点pixv分别到印章ps、字符pc和背景pg的距离,分别记为Dists={pixv,ps},Distc={pixv,pc},Distg={pixv,pg}。
计算每个邻域像素点ctm分别到印章ps、字符pc和背景pg的距离,分别记为
S52,初始化num_s=0,numc=0,num_g=0;
若邻域像素点ctm到印章ps的距离最小,则对num_s进行更新,将num_s的值加1;
若邻域像素点ctm到字符pc的距离最小,则对num_c进行更新,将num_c的值加1;
若邻域像素点ctm到背景pg的距离最小,则对num_g进行更新,将num_g的值加1;
遍历像素点pixv邻域内u个邻域像素点ctm后,得到更新后的num_s、num_c、num_g的值。
S53,若像素点pixv到印章ps的距离Dists小于到背景pg的距离Distg,即Dists<Distg,且像素点pixv到印章ps的距离Dists小于到字符pc的距离Distc,即Dists<Distc,则进入步骤S54,否则进入步骤S55。
S54,若num_c<num_s,且num_c<num_g,则像素点pixv归为字符pc,即将像素点pixv的RGB像素值更新为字符pc的RGB像素值;否则像素点pixv归为印章ps,即将像素点pixv的RGB像素值更新为印章ps的RGB像素值。
S55,若像素点pixv到字符pc的距离Distc小于到背景pg的距离Distg,即Distc<Distg,且像素点pixv到字符pc的距离Distc也小于到印章ps的距离Dists,即Distc<Dists,则像素点pixv归为字符pc,即将像素点pixv的RGB像素值更新为字符pc的RGB像素值;否则进入步骤S56。
S56,像素点pixv的RGB像素值不变,即不更新像素点pixv的RGB像素值。
步骤S6中,将原始的印章区域图像Img与新图像proImg进行加权融合,得到处理后的印章区域图像destImg:
destImg=a*Img+b*ProImg;
式中,a和b为加权参数。
本实施例中,对于像素点pixv的位置用坐标(pixx,pixy)表示,邻域像素点的个数取8,8个邻域像素点的坐标分别为(pixx-1,pixy-1),(pixx-1,pixy),(pixx-1,pixy+1),(pixx,pixy-1),(pixx,pixy+1),(pixx+1,pixy-1),(pixx+1,pixy),(pixx+1,pixy+1),8个邻域像素点的RGB像素值组成集合CT。
本实施例中,参数a和b的取值分别为0.6975,0.3025,该参数值的选取是由对比数据集合上OCR识别的效果得出的。将进行融合处理后的印章区域图像destImg,经过百度OCR文字识别工具进行识别后,与未经过处理的原始印章区域图像Img相比,在本实施例的数据集合中,由于印章遮盖导致字符识别的错误率有明显降低,在视觉效果提升的同时,本发明还可以很高标准完成文本识别的任务。
以上仅为本发明创造的较佳实施例而已,并不用以限制本发明创造,凡在本发明创造的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明创造的保护范围之内。
Claims (7)
1.一种基于检测和融合的文档印章预处理方法,其特征在于,包括以下步骤:
S2,利用印章检测网络定位页面图像上的印章位置;
S3,根据定位出的印章位置,在页面图像中裁剪出印章区域图像Img;
S4,用聚类算法获取印章区域图像Img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg;
S5,利用三个中心点和邻域像素点,对印章区域图像Img中的各个像素点pixv进行判断,判断像素点pixv的归类,即判断像素点pixv属于印章像素或字符像素或背景像素;根据印章区域图像Img中各个像素点pixv的属性,得到新图像proImg;其中,pixv为印章区域图像Img中的第v个像素点;
S6,将原始的印章区域图像Img与新图像proImg进行融合,得到处理后的印章区域图像destImg。
2.根据权利要求1所述的一种基于检测和融合的文档印章预处理方法,其特征在于,在步骤S2之前,还包括步骤S1,利用样本数据和深度学习训练生成所述印章检测网络,具体过程如下所示:
S11,构建印章检测的页面图像集合H, 其中,/>表示第j个文件第i页图像;
S12,构建印章检测框的位置集合F,F={location(j,i,k)},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t};其中,location(j,i,k)表示第j个文件第i页图像第k个印章检测框的位置信息,印章检测框的位置信息包括印章检测框的中心点坐标以及印章检测框的宽和高,即location(i,j,k)={lx,ly,lw,lh},(lx,ly)表示印章检测框的中心点坐标,(lw,lh)表示印章检测框的宽和高;
S13,构建印章检测框的标签集合LAB,LAB={label(j,i,k)},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t};其中,label(j,i,k)表示第j个文件第i页图像第k个印章检测框的标签信息,标签类别为印章;
S14,由印章检测的页面图像集合H、印章检测框的位置集合F和标签集合LAB,组成印章检测框的数据集合Ct={H,F,LAB};
S15,采用聚类算法构建印章检测网络的先验框:
对印章检测框的位置集合F提取印章检测框的宽和高属性,构建集合Box={boxj,i,k},j∈{1,2,...,N},i∈{1,2,...,m},k∈{1,2,...,t},boxj,i,k=(wj,i,k,hj,i,k);其中,wj,i,k、hj,i,k分别表示第j个文件第i页图像第k个印章检测框boxj,i,k的宽和高;
从集合Box选取q个点即印章检测框作为先验框,构建集合C={c0,c1,..cx,.,cq},x∈{1,2,...,q},cx=(wx,hx);其中,wx、hx分别表示第x个先验框cx的宽和高;
计算集合Box中每个点boxj,i,k即每个印章检测框到集合C中每个点cx即每个先验框的距离Dist,将集合Box中点boxj,i,k分配给距离最近的点cx;
定义损失函数Floss=min(∑Dist(boxj,i,k,cx));
从集合Box中重新选取q个点作为先验框,迭代更新集合C,重新计算集合Box中每个点boxj,i,k到集合C中每个点cx的距离Dist,直至损失函数Floss收敛,选取损失函数Floss收敛后的q个点为最终的先验框,构建先验框集合;
其中,点boxj,i,k到点cx的距离Dist的计算方式为:
式中,I为印章检测框boxj,i,k和先验框cx交集的面积,boxarea为印章检测框boxj,i,k的面积,carea为先验框cx的面积,0<IOU≤1;α为参数;
S16,利用印章检测框的数据集合Ct对印章检测网络进行训练,输入为印章检测的页面图像集合H中的页面图像输出为检测得到的预测框的位置信息和标签信息。
3.根据权利要求2所述的一种基于检测和融合的文档印章预处理方法,其特征在于,步骤S16中,印章检测网络训练中的损失函数Loss包括:模型对标签分类的准确率,即预测框是否能正确分到印章类别,记为loss_cls;检测得到的预测框与真实框即印章检测框之间的坐标以及高和宽的差异,记为loss_box;检测得到的预测框包含印章的可能性和预测框完整包含印章的准确性,记为loss_obj;即Loss=concat(loss_cls,loss_box,loss_obj);训练过程中,采用Adam优化器,利用反向传播和梯度下降法进行训练。
4.根据权利要求2所述的一种基于检测和融合的文档印章预处理方法,其特征在于,步骤S16中,印章检测网络采用YOLO-SPP网络检测模型。
5.根据权利要求1所述的一种基于检测和融合的文档印章预处理方法,其特征在于,步骤S4中,用聚类算法获取印章区域图像Img的像素聚类中心点,包括印章、字符和背景三个中心点,分别记为ps、pc和pg,具体过程如下所示:
S41,从印章区域图像Img中选取3个像素点作为中心点,构建集合P,P={p1,p2,p3}即P={pz|z=1,2,3},为中心点pz的RGB像素值,计算印章区域图像Img中的各个像素点pixv到集合P中每个中心点pz的距离Distp,将印章区域图像Img中的像素点pixi分配给距离最近的中心点pz;
定义损失函数Ploss=min(ΣDistp(pixv,pz));
从印章区域图像Img中重新选取3个像素点作为中心点,迭代更新集合P,重新计算印章区域图像Img中的各个像素点pixv到集合P中每个中心点pz的距离Distp,直至损失函数Ploss收敛,选取损失函数Ploss收敛后的3个像素点为最终的中心点;
其中,像素点pixv到中心点pz的距离Distp的计算方式为:
式中,pixv={rv,gv,bv,}为像素点pixv的RGB像素值;
S42,对3个中心点即p1、p2和p3进行归类,分别归为印章ps、字符pc和背景pg:
对于中心点p1,若中心点p1的/>且/>且/>则该中心点p1归为背景pg,即背景的RGB像素值为/>
对于剩下的两个中心点p2和p3,若/>则中心点p2归为印章ps,即/>中心点p3归为字符pc,即字符的RGB像素值为/>否则,中心点p2归为字符pc,即/>中心点p3归为印章ps,即印章的RGB像素值为
6.根据权利要求1所述的一种基于检测和融合的文档印章预处理方法,其特征在于,步骤S5中,对印章区域图像Img中的各个像素点pixv进行判断,判断像素点pixv的归类,具体过程如下所示:
S51,选取像素点pixv邻域内u个邻域像素点组成集合CT={ct1,ct2,..,ctm,..,ctu},m∈(1,2,...,u),为邻域像素点ctm的RGB像素值;
计算像素点pixv分别到印章ps、字符pc和背景pg的距离,分别记为Dists={pixv,ps},Distc={pixv,pc},Distg={pixv,pg};
计算邻域内每个像素点ctm分别到印章ps、字符pc和背景pg的距离,分别记为
S52,初始化num_s=0,numc=0,num_g=0;
若邻域像素点ctm到印章ps的距离最小,则对num_s进行更新,将num_s的值加1;
若邻域像素点ctm到字符pc的距离最小,则对num_c进行更新,将num_c的值加1;
若邻域像素点ctm到背景pg的距离最小,则对num_g进行更新,将num_g的值加1;
遍历像素点pixv邻域内u个邻域像素点ctm后,得到更新后的num_s、num_c、num_g的值;
S53,若像素点pixv到印章ps的距离Dists小于到背景pg的距离Distg,即Dists<Distg,且像素点pixv到印章ps的距离Dists小于到字符pc的距离Distc,即Dists<Distc,则进入步骤S54,否则进入步骤S55;
S54,若num_c<num_s,且num_c<num_g,则像素点pixv归为字符pc,将像素点pixv的RGB像素值更新为字符pc的RGB像素值;;否则像素点pixv归为印章ps,将像素点pixv的RGB像素值更新为印章ps的RGB像素值;
S55,若像素点pixv到字符pc的距离Distc小于到背景pg的距离Distg,即Distc<Distg,且像素点pixv到字符pc的距离Distc也小于到印章ps的距离Dists,即Distc<Dists,则像素点pixv归为字符pc,将像素点pixv的RGB像素值更新为字符pc的RGB像素值;否则进入步骤S56;
S56,像素点pixv的RGB像素值不变。
7.根据权利要求1所述的一种基于检测和融合的文档印章预处理方法,其特征在于,步骤S6中,将原始的印章区域图像Img与新图像proImg进行加权融合,得到处理后的印章区域图像destImg:
destImg=a*Img+b*ProImg;
式中,a和b为加权参数;
将处理后的印章区域图像destImg恢复至页面图像上对应的印章位置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311641496.6A CN117671694B (zh) | 2023-12-04 | 2023-12-04 | 一种基于检测和融合的文档印章预处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311641496.6A CN117671694B (zh) | 2023-12-04 | 2023-12-04 | 一种基于检测和融合的文档印章预处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117671694A true CN117671694A (zh) | 2024-03-08 |
CN117671694B CN117671694B (zh) | 2024-06-14 |
Family
ID=90076389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311641496.6A Active CN117671694B (zh) | 2023-12-04 | 2023-12-04 | 一种基于检测和融合的文档印章预处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117671694B (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022198969A1 (zh) * | 2021-03-25 | 2022-09-29 | 深圳市商汤科技有限公司 | 印章文本识别方法、装置、设备及计算机可读存储介质 |
CN116386048A (zh) * | 2023-04-04 | 2023-07-04 | 北京商银微芯科技有限公司 | 一种印章去除方法、装置、设备及存储介质 |
CN116416626A (zh) * | 2023-06-12 | 2023-07-11 | 平安银行股份有限公司 | 圆形印章数据的获取方法、装置、设备及存储介质 |
-
2023
- 2023-12-04 CN CN202311641496.6A patent/CN117671694B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022198969A1 (zh) * | 2021-03-25 | 2022-09-29 | 深圳市商汤科技有限公司 | 印章文本识别方法、装置、设备及计算机可读存储介质 |
CN116386048A (zh) * | 2023-04-04 | 2023-07-04 | 北京商银微芯科技有限公司 | 一种印章去除方法、装置、设备及存储介质 |
CN116416626A (zh) * | 2023-06-12 | 2023-07-11 | 平安银行股份有限公司 | 圆形印章数据的获取方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
欧阳欢 等: "多特征融合决策的发票印章识别", 《计算机工程与设计》, 16 September 2018 (2018-09-16), pages 2842 - 2847 * |
Also Published As
Publication number | Publication date |
---|---|
CN117671694B (zh) | 2024-06-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
WO2019192397A1 (zh) | 一种任意形状的场景文本端到端识别方法 | |
CN110175982B (zh) | 一种基于目标检测的缺陷检测方法 | |
CN111444939B (zh) | 电力领域开放场景下基于弱监督协同学习的小尺度设备部件检测方法 | |
CN113435240B (zh) | 一种端到端的表格检测和结构识别方法及系统 | |
CN111914720B (zh) | 一种输电线路绝缘子爆裂识别方法及装置 | |
CN111523622B (zh) | 基于特征图像自学习的机械臂模拟手写笔迹方法 | |
CN113221956B (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN111626279A (zh) | 一种负样本标注训练方法及高度自动化的票据识别方法 | |
CN113591866A (zh) | 基于db与crnn的特种作业证件检测方法及系统 | |
CN111461133A (zh) | 快递面单品名识别方法、装置、设备及存储介质 | |
CN113688821A (zh) | 一种基于深度学习的ocr文字识别方法 | |
CN115131590A (zh) | 目标检测模型的训练方法、目标检测方法及相关设备 | |
WO2022111247A1 (zh) | 一种报表分析方法及装置 | |
CN117437647B (zh) | 基于深度学习和计算机视觉的甲骨文字检测方法 | |
CN111914706B (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN113657377A (zh) | 一种机打票据图像结构化识别方法 | |
CN117671694B (zh) | 一种基于检测和融合的文档印章预处理方法 | |
CN110889418A (zh) | 一种气体轮廓识别方法 | |
CN113673534B (zh) | 一种基于Faster RCNN的RGB-D图像果实检测方法 | |
CN113850249A (zh) | 一种图表信息格式化提取方法 | |
CN113313678A (zh) | 一种基于多尺度特征融合的精子形态学自动分析方法 | |
CN114170218B (zh) | 一种染色体图像实例标签生成方法及系统 | |
CN113792780B (zh) | 基于深度学习和图像后处理的集装箱号识别方法 | |
CN112686238B (zh) | 一种基于深度学习的航运单识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |