CN111652117B - 一种对多文档图像分割的方法及介质 - Google Patents
一种对多文档图像分割的方法及介质 Download PDFInfo
- Publication number
- CN111652117B CN111652117B CN202010479205.8A CN202010479205A CN111652117B CN 111652117 B CN111652117 B CN 111652117B CN 202010479205 A CN202010479205 A CN 202010479205A CN 111652117 B CN111652117 B CN 111652117B
- Authority
- CN
- China
- Prior art keywords
- document
- segmentation
- machine
- document image
- examination
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Health & Medical Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Image Analysis (AREA)
- Character Input (AREA)
Abstract
本发明提供了一种对多文档图像分割的方法及介质,包括:图像分割步骤:对待处理文档图像进行分割,得到分割结果;分割结果审查步骤:对分割结果进行分割结果审查;所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。本发明能有效提高文档图像多文档切分的准确度和处理速度,降低了人工参与和系统运维成本。
Description
技术领域
本发明涉及文档处理技术领域,具体地,涉及一种对多文档图像分割的方法及介质。
背景技术
随着近几年来人工智能尤其是深度学习技术的快速发展,从文档图像中定位和识别文字的应用在准确度方面得到了非常大的提高,从而极大地推动了文档图像文字处理应用的自动化,在很多商业领域(比如财务报销和银行对账)已经取得一定的成功,具有巨大的商业潜力。但是这些应用系统面临一个文档切分的主要技术问题。用户在将纸张的文档(比如出租车票据/购物帐单等)转换成数字图像时,通常会将多张文档不规则地放在一起进行扫描或者拍照。这样得到的数字文档图像中通常包含多张独立的文档,不能直接输入给现有的基于深度学习的图像文档文字检测/识别处理系统进行处理。因此一个实际的图像文档处理系统必须要完成一个切分的任务,也即将单张图像中包含的单个的文档切割分离(切分)处理,并且可选地将单个的文档的方向调整为正常的方向和对每个单个的文档进行分类,使得每个单个的文档能够被图像文档检测/识别处理系统进行处理。
多文档图像切分是很多实际文档处理系统中很重要的一个环节。传统的文档切分方法,主要是采用人工进行切分,或者通过提取边缘对文档进行切分。人工切分的方法,成本高,系统处理容量有限,阻碍了实现文档处理系统的全自动化。提取边缘的文档切分方法的系统流程参见图1。这种方法可以通过机器实现,从而实现系统的全自动化。但是提取边缘的切分方法也有很多的不足,包括不够稳健(有些单个文档的边缘不清晰寻找不到正确/完整的边缘)、方法复杂(即使寻找到边缘后也还需要将边缘正确地匹配到单个文档上)、容易出错(包括边缘提取错误和边缘匹配错误等)、不能对单个文档进行调整和分类等问题。因此基于边缘提取的切分方法在切分准确度方面很难满足实际商业应用的要求。
针对提取边缘的多文档图像切分方法存在的问题,我们提出了一种新颖的文档切分方案,采用图像目标分割技术切割出单个的文档。该方案将不同的单个的文档直接作为待检测和分割的目标,利用传统方法或者深度学习技术来做目标检测和分割,从而有效提高多文档切分方法的速度和准确度等问题。基于图像目标分割技术的切分方法取得了很高的准确度,但是基于纯机器的图像目标分割技术的切分方法本身还存在准确度性能以及不能从低质量的图像有效切割文档等问题,对于很多具有高准确度要求的商业应用(比如很多金融财务和税务等业务要求99%以上的准确度),该方法还达不到应用的要求。另外,多文档图像切分任务处于整个文档处理系统的上游,一旦文档切分出现问题(比如图像中包含的文档里面有文档未被检测到,或者有文档被检测到但是部分内容没有被正确地包含到检测框里面),将对后面的文字检测与识别任务造成非常大甚至无法逆转的影响。
专利文献CN1687969A(申请号:200510011706.9)公开了基于文档图像内容分析与特征提取的文档图像压缩方法,它由文档图像预处理、文档图像分割、文字压缩和图像压缩步骤组成:其文档图像预处理对文档图像的灰度值进行统计并向图像边界投影,根据投影曲线边沿变化和灰度直方图分析文档图像内容并自动检测和提取出文档图像的特征信息,包括文字高度、图像边界和文档附带的标记的位置信息、象素灰度值信息等;文档图像分割根据文档图像预处理的结果,将文档图像分割成文字部分和图像部分且其颜色信息不受影响;文字压缩对分割出的文字部分进行灰度变换和行程编码予以压缩;图像压缩对分割出的图像部分进行基于离散余弦变换的有损压缩。
相比较传统的人工文档切分和纯基于机器切分的方法,本发明可以有效地解决现有方法中存在的主要问题,大幅度提高图像文档切分的速度、准确度、稳定度和可靠度,从而极大地提高文档处理系统的自动化程度,降低文档处理系统的成本,利于增加文档处理系统的规模并支持更多的用户。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种对多文档图像分割的方法及介质。
根据本发明提供的对多文档图像分割的方法,包括:
图像分割步骤:对待处理文档图像进行分割,得到分割结果;
分割结果审查步骤:对分割结果进行分割结果审查;
所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。
优选的,所述机器审查包括如下任一种或任多种审查方式,包括:
置信度机器审查:根据深度学习模型输出的置信度信息进行机器审查;
多模型机器审查:利用多个预训练的深度学习模型进行机器审查;
文本检测机器审查:基于文本检测结果进行机器审查。
优选的,所述置信度机器审查包括:根据深度学习模型输出的置信度信息所包含的单个文档分割的置信度,计算出文档图像分割的综合置信度;将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确。
优选的,所述多模型机器审查包括:利用多个预训练的深度学习模型,分别对待处理文档图像进行分割,得到各自的文档分割输出结果;然后根据全部文档分割输出结果计算得到文档图像分割的综合置信度,将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确;
所述多个预训练的深度学习模型包括:具有不同深度的、不同网络结构的深度学习模型,其中,所述多个预训练的深度学习模型之间的训练数据集相同、均不同或者部分不同。
优选的,所述文本检测机器审查包括:
对所述待处理文档图像进行分割,得到一个或多个的单个文档,并得到各个文档的轮廓作为分割结果;
所述文本检测机器审查,还包括:
--基于机器对待处理文档图像中的文字进行检测,得到文字定位信息,根据所述文字定位信息判断对应的文字是否位于文档的轮廓中,若位于,则判定分割结果正确;否则,则判定分割结果错误;
--基于机器对待处理文档图像中的文字进行检测,得到文字信息,判断所述文字信息与文档轮廓相应位置处的文字是否一致;若一致,则判定分割结果正确;否则,则判定分割结果错误。
优选的,所述置信度的计算包括:
通过预训练的深度学习模型分割多文档图像得到的每个单个文档的目标置信度和/或定位置信度,根据单个文档的目标置信度和/或定位置信度,计算整个多文档图像分割的置信度;
通过深度学习模型对多文档图像进行分割,得到N个单个文档,深度学习输出每个文档对应的目标置信度On和定位置信度Ln,第n个单个文档的置信度为Cn,公式为:Cn=min(On,Ln);
其中,min(x,y)函数计算x和y之间的最小值;n=1,2,…,N;
计算整个多文档图像的置信度C,表达式为:C=min(C1,C2,…,Cn,…,CN),n=1,2,…,N。
优选的,对置信度机器审查、多模型机器审查和文本检测机器审查这三种机器审查方式进行两两联合进行机器审查,或者将这三种机器审查方式进行整体联合进行机器审查。
优选的,所述文档分割步骤包括:
采用有监督的基于卷积神经网络的深度学习模型,先对深度学习模型进行训练,再从待处理文档图像中分割出单个文档;
所述文档审查包括人工审查,在待处理文档图像中标注出分割得到的各个文档的轮廓,或将分割出来的各个文档单独另存为新的文档,并接收人工审查结果的输入信息;
其中,所述人工审查结果的输入信息包括:审查被分割出来的各个文档是否有遗漏未被分割的地方;或者被分割出来的各个文档是否包括不属于待处理文档图像的内容;或者被分割出来的各个文档有部分属于待处理文档图像的内容但未按照预设规则切割;或者审核结果无误;
若人工审查结果无误,则停止对待处理文档图像进行分割;
若人工审查结果有误,则对待处理文档图像的分割结果进行纠错:
--对未被分割出来的单个文档,找到相应的待处理文档图像,提供给人工分割文档;
--对于已经被机器分割出来,但分割出的轮廓不符合预设规则的单个文档,对分割出来的轮廓进行修正;
对多个人工审查结果进行审查和纠错,或者多轮审查和纠错。
优选的,对待处理文档图像进行自适应选择审查方式和深度学习模型的种类。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的对多文档图像分割的方法的步骤。
与现有技术相比,本发明具有如下的有益效果:
1、通过人机协作方法,有效提高了文档图像多文档切分的准确度和处理速度;
2、通过对性能统计和对审查策略调整,在达到应用准确度要求的前提下,降低了人工参与率和机器运维的成本;
3、本发明提出一种人机混合协作的方法,相比较传统的人工文档切分和纯基于机器切分的方法,可以有效地解决现有方法中存在的主要问题,大幅度提高了文档图像切分的速度、准确度、稳定度和可靠度;
4、通过多种机器审查方式组合进行审查,极大地提高了文档处理的自动化程度,降低文档处理的成本,利于扩大机器审查的规模并支持更多的用户。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为传统的基于边缘提取的电子文档切分方法流程图;
图2为文档切分深度学习模型离线训练流程图;
图3为基于深度学习的文档切分在线处理流程图;
图4为人机混合系统基本方案操作流程示意图;
图5为人机混合系统从属方案A操作流程示意图;
图6为人机混合系统从属方案B操作流程示意图;
图7为文档切分深度学习模型训练样本图例的用户扫描的原图;
图8为文档切分深度学习模型训练样本图例的增加票据文档轮廓标注后的训练样本图;
图9为对用户原始图进行处理后的单个带倾斜的的士票据图;
图10为经过采用训练好的PANET深度学习模型进行实例分割,得到的的士票据边缘图;
图11为利用边缘图计算得到的最小外接矩形图;
图12为待切分的包含有多种票据文档的图像;
图13为目标分割模型对图像进行目标分割得到的单个票据文档的不规则轮廓图;
图14为对单个票据文档轮廓求取最小外接矩形得到的矩形轮廓图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
实施例1:
根据本发明提供的基于图像目标检测和文字定位的文档切割方法,包括:
步骤1、离线训练用于文档图像分割的深度学习模型:
进行文档切分深度学习模型训练,训练的过程主要包括建立训练样本集、离线训练和测试模型等几个步骤。训练的流程图可参见图2。
收集一定数量的电子文档,采用的图像文档可以是经过扫描或者拍照等途径得到的包括一张或者多张单个文档的电子文档,或者人工生成的包括一张或者多张单个文档的电子文档。这些电子文档经过一定的处理后形成图像目标分割模型的样本,其中一部分样本作为训练样本,一部分作为测试样本。每个文档样本包括文档图片,以及一份对单个文档的位置进行标注的文件,可选地可以用多边形标注。标注文件里面,记载每个单个文档在文档图像中的轮廓。图5所示为一份带有多张单据的图像文档样本样例,在标注文件里面所包含了各个单据的轮廓。用作训练和测试的样本,可不断补充。图4为人机混合系统基本方案操作流程示意图。
利用训练和测试样本集训练用于文档切分的深度学习网络模型,可以采用目前成熟的用于图像目标实例分割的深度学习模型。目前已有一些比较成熟的用于目标实例分割的深度学习网络模型,比如Mask Rcnn和PANet等,可以用来分割图像中目标,比如猫、狗、飞机等。本发明在将单个文档作为一个图像目标来进行检测和分割,可以借用现有的比较成熟的目标分割的深度学习网络模型,但是将深度学习网络模型用来分割单个文档。
深度学习模型将检测和分割输入的训练文档图片里面的单个文档,输出每个检测到的单个文档的轮廓。训练过程中,训练图片经过一定的预处理后输入到基于卷积神经网络的深度学习网络,在计算机里面可以作为一个3维矩阵来表示,比如Iw0,h0,c0,这里w0代表输入图片宽度(像素的个数),h0代表输入图片高度,c0代表输入图片颜色通道(彩色图片有红蓝绿三个颜色通道,灰度图片只有一个颜色通道)。
卷积神经网络具有多个阶段stage,每个阶段都包含一定数目的卷积模块(提取图像特征)和池化层(缩小特征图大小)等。
然后将训练样本的数字标注(包括文档轮廓)和深度学习网络的输出进行比较,计算分割的合误差并调整网络参数。根据综合误差反向输入到深度学习网络,调整深度学习网络的参数,然后继续学习。训练一定时间后,将训练好的深度学习网络模型在测试样本集上做测试,直到深度学习网络分割的误差降低到一定程度具有了较好的预测性能之后停止训练。
步骤2、在线应用深度学习模型进行文档切分
在经过深度学习模型训练之后,可以利用训练好的深度学习模型对图像文档中的一个或多个文档进行分割。在线应用深度学习模型进行文档切分的流程可参见图3。
对于待处理的文档,进行一些可选的处理,比如去噪处理和图片大小调整等。
在线利用训练好的文档切分深度学习模型,对单个文档进行定位,输出检测到的单个文档的轮廓。输入到模型的信息为待处理不带标注信息的文档图像。输出的位置信息可以表示为多边形的多个顶点的横轴和纵轴的坐标。
图6介绍了一个利用训练好的分割模型对图5给出的原始图进行处理的过程。
步骤3、分割结果审查与纠错
机器分割结果存在一些小错误(比如某张票据未被识别),采用机器审查和/或人工审查发现问题,并纠正错误。
所述机器审查包括:利用多个预训练的深度学习模型,对待处理文档图像进行分割,对多个深度学习模型对文档分割的输出进行综合处理,利用综合处理的结果进行机器审查;
所述多个预训练的深度学习模型包括:具有不同深度学习网络结构或不同的网络结构或在相同或者不同的训练数据集上得到训练。
所述机器审查包括:基于机器的文本检测技术,利用检测到的文字来审查机器对文档图像的分割结果;
机器对文档图像的分割可能将一些重要的文字遗漏,导致有些文字没有被包括到任何分割出来的文档里面。基于机器的文本检测技术,对文档图像中的文字进行检测和定位。将文本检测技术检测到的文字及其定位信息与机器多文档图像分割得到的结果进行比对,如果有一定的文字未被包括在任何分割出的文档的轮廓里面,可以认为有文档没有被正确地分割,认定为机器审查失败。
增加数据统计和审查策略调整的子模块,根据机器审查和人工审查的性能统计结果以及应用的要求,动态关闭或者开启机器审查,并且可选地调整人机混合系统协作方法中的参数,以优化系统性能,包括:
性能统计:在对每副文档图像进行分割处理,包括机器分割、可能开启的机器审查、人工审查和人工纠错等环节,分割处理结束后,按照预设的规则对机器分割、机器审查、人工审查和纠错等模块的性能进行统计,比如机器分割的准确率、机器审查正确率、人工纠错正确率、系统总体正确率等。
预设的规律举例:如图7~图14,每幅图像分割处理之后,都更新各个模块的性能;或者每隔一固定数目的图像分割处理之后,更新各个模块的性能;或者在启用机器审查状态下,不定期地对通过机器审查的分割结果进行人工审查,以评估机器审查的性能等。
审查策略调整:根据更新的统计结果,可选地结合应用要求和系统成本等信息,设置机器审查的开启或者关闭,以及可选地调整系统模块的参数。
实施例2:
实施例2是实施例1的变化例,在实施例2中,
根据本发明提供的对多文档图像分割的方法,包括:
图像分割步骤:对待处理包含多个文档的图像进行分割,得到分割结果;
分割结果审查步骤:对分割的结果进行分割结果审查;
所述分割结果包括多个单独文档的轮廓信息;
多文档图像为一个包含一个或多个文档的图像,或者多个包含一个或多个文档的图像;
所述分割结果还包括多个单独文档的分类信息和多个单独文档的角度信息等;
所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求。
优选的,所述机器审查包括如下任一种或任多种审查方式,包括:
置信度机器审查:根据深度学习模型输出的置信度信息进行机器审查;
多模型机器审查:利用多个预训练的深度学习模型进行机器审查;
文本检测机器审查:基于文本检测结果进行机器审查。
优选的,所述置信度机器审查包括:根据深度学习模型输出的结果计算置信度信息,所包含的单个文档分割的置信度,计算出文档图像分割的综合置信度;将文档图像分割的综合置信度与预先设置的阈值进行比较,利用置信度信息判断机器分割结果是否正确。
优选的,所述多模型机器审查包括:利用多个预训练的深度学习模型,分别对需要处理的多文档图像进行分割,得到各自的分割结果;通过对不同模型输出的分割结果进行比较,判断机器分割结果是否正确;
优选例:设有两个预训练的深度学习模型,对这两个深度学习模型的输出结果中的文档分割结果或者相应的置信度或者两种都利用,作为机器审查的依据;
--若两个模型分割出的文档个数不同或者分割出的轮廓差异达到预设的阈值,则认定为机器审查失败;
--若两个模型输出结果的综合置信度的最低者小于预设的阈值,则认定为机器审查失败;
--若同时对两个模型分割出的轮廓和输出结果的综合置信度进行判定,当分割出的轮廓或者输出的综合置信度中有一个或者两个同时不符合预设规则时,认定为机器审查失败。
所述多个预训练的深度学习模型包括:具有不同深度的、不同网络结构的深度学习模型,其中,所述多个预训练的深度学习模型之间的训练数据集相同、均不同或者部分不同。
优选的,所述文本检测机器审查包括:
对所述待处理文档图像进行分割,得到一个或多个的单个文档,并得到各个文档的轮廓作为分割结果;
基于机器对待处理文档图像中的文字进行检测,得到文字定位信息文字位置和/或内容信息。利用文字检测的文字位置和/或内容信息,与多文档图像分割得到的结果进行比较,判断分割结果是否正确。
--基于机器对待处理文档图像中的文字进行检测,得到文字定位信息,根据所述文字定位信息判断对应的文字是否位于文档的轮廓中,若位于,则判定分割结果正确;否则,则判定分割结果错误;
--基于机器对待处理文档图像中的文字进行检测,得到文字信息,判断所述文字信息与文档轮廓相应位置处的文字是否一致;若一致,则判定分割结果正确;否则,则判定分割结果错误。
--基于机器对待处理文档图像中的文字进行检测,得到文字定位信息和文字信息,同时判断所述文字定位信息和所述文字信息的正确性,仅当对所述文字定位信息和所述文字信息的判定都正确时,判定分割结果正确;否则,则判定分割结果错误。
优选的,所述置信度的计算包括:
通过预训练的深度学习模型分割多文档图像得到的每个单个文档的目标置信度和/或定位置信度,根据单个文档的目标置信度和/或定位置信度,计算整个多文档图像分割的置信度。
计算公式举例:一张多文档图像,通过深度学习模型分割,得到N个单个文档(目标),深度学习输出每个文档对应的目标置信度On和Ln;第n个单个文档的置信度Cn,公式为:Cn=min(On,Ln),其中min(x,y)函数计算x和y之间的最小值。计算整个多文档图像的置信度C,表达式为:C=min(C1,C2,…,Cn,…,CN),n=1,2,…,N。
优选的,置信度审查方法和多模型审查方法可以联合使用:在一个或者多个模型中采用置信度审查方法计算单模型的审查结果,结合所有模型的输出结果计算多模型的综合审查结果,判断综合审查结果正确或者不正确。
基于单个模型的置信度审查方法和文字检测审查方法可以联合使用:联合使用两种审查方法得到的综合审查结果,其值为正确仅当单模型置信度审查方法和文字检测审查方法得到的审查结果都为正确,否则为不正确。
基于多个模型的审查方法和文字检测审查方法可以联合使用:联合使用两种审查方法得到的综合审查结果,其值为正确仅当多模型审查方法和文字检测审查方法得到的审查结果都为正确,否则判断综合审查结果为不正确。
三种审查方法联合可以使用:
A.先联合使用置信度审查方法和文字检测审查方法得到单个模型的综合审查结果,再根据单个模型的综合审查结果,计算多个模型的综合审查结果。多个模型综合审查结果为正确,仅当所有单个模型的综合审查结果都为正确;否则其值为不正确。
B.先联合使用置信度审查方法和多模型审查方法,再使用文字检测审查方法,得到综合审查结果,其值正确仅当置信度审查方法、多模型审查方法和文字检测审查方法的结果都为正确;否则其值为不正确。
C.先联合使用文字检测审查方法和多模型审查方法,再使用置信度审查方法,得到综合审查结果,其值正确仅当置信度审查方法、多模型审查方法和文字检测审查方法的结果都为正确;否则其值为不正确。
优选的,所述文档分割步骤包括:
采用有监督的基于卷积神经网络的深度学习模型,对深度学习模型进行训练,从待处理文档图像中分割出单个文档;
所述文档审查包括人工审查,判断机器分割的结果是否正确。
其中,所述人工审查结果的输入信息包括:审查被分割出来的各个文档是否有遗漏未被分割的地方;或者被分割出来的各个文档是否包括不属于待处理文档图像的内容;或者被分割出来的各个文档有部分属于待处理文档图像的内容但未按照预设规则切割;或者审核结果无误;
若人工审查结果无误,则结束对待处理文档图像进行分割的处理;
若人工审查结果有误,则对待处理文档图像的分割结果进行纠错:
--对未被分割出来的单个文档,通过人工分割相应的文档;
--对于已经被机器分割出来,但分割出的轮廓不符合预设规则的单个文档,对分割出来的轮廓进行修正;
优选的,对待处理文档图像进行自适应选择审查方式和深度学习模型的种类,包括:
性能统计:在线和/或对多文档图像进行分割处理,统计机器分割、机器审查、人工审查和纠错等处理的性能,包括机器分割的准确率、机器审查正确率、人工纠错正确率、多文档图像分割的综合正确率等。
审查策略调整:根据统计结果,结合应用的要求和系统成本等信息,动态调整机器审查的方式、开启或者关闭机器审查和人工审查,以及可选地调整系统模块的参数,包括使用的深度学习模型的个数和用于审查的工人的数目。
优选例:在机器审查已经开启时间内,通过不定期用人工审查来抽查机器审查的正确度;抽查一定数目的机器审查的结果之后,计算得到的机器审查的正确率,若正确率低于预设的阈值,则认为不能满足应用的要求,关闭操作流程中的机器审查模块,关闭机器审查期间,所有的机器分割结果都需要经过人工审查;
在仅人工审查阶段,将部分分割结果进行机器审查,对机器审查的性能进行监控;
若在监控一定数目的图像分割结果或者一定时间之后,机器审查的性能能达到期望的要求,则可以在正常的操作流程中开启机器审查;
若监控的机器审查性能未达到要求,则继续监控,或者调整系统参数尤其是机器审查的参数,考察机器审查是否能达到期望的要求。
根据本发明提供的一种存储有计算机程序的计算机可读存储介质,所述计算机程序被处理器执行时实现上述的对多文档图像分割的方法的步骤。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统、装置及其各个模块以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统、装置及其各个模块以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同程序。所以,本发明提供的系统、装置及其各个模块可以被认为是一种硬件部件,而对其内包括的用于实现各种程序的模块也可以视为硬件部件内的结构;也可以将用于实现各种功能的模块视为既可以是实现方法的软件程序又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。
Claims (7)
1.一种对多文档图像分割的方法,其特征在于,包括:
图像分割步骤:对待处理文档图像进行分割,得到分割结果;
分割结果审查步骤:对分割结果进行分割结果审查;
所述分割结果审查包括机器审查,通过机器对分割结果进行审查,得到审查结果,并根据所述审查结果判定分割结果是否符合预设要求;
所述机器审查包括如下任一种或任多种审查方式,包括:
置信度机器审查:根据深度学习模型输出的置信度信息进行机器审查;
多模型机器审查:利用多个预训练的深度学习模型进行机器审查;
文本检测机器审查:基于文本检测结果进行机器审查;
所述多模型机器审查包括:利用多个预训练的深度学习模型,分别对需要处理的多文档图像进行分割,得到各自的分割结果;通过对不同模型输出的分割结果进行比较,判断机器分割结果是否正确;
所述多个预训练的深度学习模型包括:具有不同深度的、不同网络结构的深度学习模型,其中,所述多个预训练的深度学习模型之间的训练数据集相同、均不同或者部分不同;
所述文档分割步骤包括:
采用有监督的基于卷积神经网络的深度学习模型,先对深度学习模型进行训练,再从待处理文档图像中分割出单个文档;
所述文档审查包括人工审查,在待处理文档图像中标注出分割得到的各个文档的轮廓,或将分割出来的各个文档单独另存为新的文档,并接收人工审查结果的输入信息;
其中,所述人工审查结果的输入信息包括:审查被分割出来的各个文档是否有遗漏未被分割的地方;或者被分割出来的各个文档是否包括不属于待处理文档图像的内容;或者被分割出来的各个文档有部分属于待处理文档图像的内容但未按照预设规则切割;或者审核结果无误;
若人工审查结果无误,则停止对待处理文档图像进行分割;
若人工审查结果有误,则对待处理文档图像的分割结果进行纠错:
--对未被分割出来的单个文档,找到相应的待处理文档图像,提供给人工分割文档;
--对于已经被机器分割出来,但分割出的轮廓不符合预设规则的单个文档,对分割出来的轮廓进行修正;
对多个人工审查结果进行审查和纠错,或者多轮审查和纠错。
2.根据权利要求1所述的对多文档图像分割的方法,其特征在于,所述置信度机器审查包括:根据深度学习模型输出的置信度信息所包含的单个文档分割的置信度,计算出文档图像分割的综合置信度;将文档图像分割的综合置信度与预先设置的阈值进行比较,确定机器分割结果是否正确。
3.根据权利要求1所述的对多文档图像分割的方法,其特征在于,所述文本检测机器审查包括:
对所述待处理文档图像进行分割,得到一个或多个的单个文档,并得到各个文档的轮廓作为分割结果;
所述文本检测机器审查,还包括:
--基于机器对待处理文档图像中的文字进行检测,得到文字定位信息,根据所述文字定位信息判断对应的文字是否位于文档的轮廓中,若位于,则判定分割结果正确;否则,则判定分割结果错误;
--基于机器对待处理文档图像中的文字进行检测,得到文字信息,判断所述文字信息与文档轮廓相应位置处的文字是否一致;若一致,则判定分割结果正确;否则,则判定分割结果错误。
4.根据权利要求2所述的对多文档图像分割的方法,其特征在于,所述置信度的计算包括:
通过预训练的深度学习模型分割多文档图像得到的每个单个文档的目标置信度和/或定位置信度,根据单个文档的目标置信度和/或定位置信度,计算整个多文档图像分割的置信度;
通过深度学习模型对多文档图像进行分割,得到N个单个文档,深度学习输出每个文档对应的目标置信度On和定位置信度Ln,第n个单个文档的置信度为Cn,公式为:Cn=min(On,Ln);
其中,min(x,y)函数计算x和y之间的最小值;n=1,2,…,N;
计算整个多文档图像的置信度C,表达式为:C=min(C1,C2,…,Cn,…,CN),n=1,2,…,N。
5.根据权利要求1所述的对多文档图像分割的方法,其特征在于,对置信度机器审查、多模型机器审查和文本检测机器审查这三种机器审查方式进行两两联合进行机器审查,或者将这三种机器审查方式进行整体联合进行机器审查。
6.根据权利要求1所述的对多文档图像分割的方法,其特征在于,对待处理文档图像进行自适应选择审查方式和深度学习模型的种类。
7.一种存储有计算机程序的计算机可读存储介质,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010479205.8A CN111652117B (zh) | 2020-05-29 | 2020-05-29 | 一种对多文档图像分割的方法及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010479205.8A CN111652117B (zh) | 2020-05-29 | 2020-05-29 | 一种对多文档图像分割的方法及介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652117A CN111652117A (zh) | 2020-09-11 |
CN111652117B true CN111652117B (zh) | 2023-07-04 |
Family
ID=72346953
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010479205.8A Active CN111652117B (zh) | 2020-05-29 | 2020-05-29 | 一种对多文档图像分割的方法及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652117B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113743361A (zh) * | 2021-09-16 | 2021-12-03 | 上海深杳智能科技有限公司 | 基于图像目标检测的文档切割方法 |
CN114898388B (zh) * | 2022-03-28 | 2024-05-24 | 支付宝(杭州)信息技术有限公司 | 文档图片分类方法、装置、存储介质及电子设备 |
CN116233327A (zh) * | 2023-05-10 | 2023-06-06 | 深圳传音控股股份有限公司 | 处理方法、智能终端及存储介质 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101681432A (zh) * | 2007-05-01 | 2010-03-24 | 计算机连接管理中心公司 | 图片文档分割方法和系统 |
CN101840514A (zh) * | 2009-03-19 | 2010-09-22 | 株式会社理光 | 图像对象分类装置及方法 |
CN107886309A (zh) * | 2017-12-15 | 2018-04-06 | 四川汉科计算机信息技术有限公司 | 文档自动审查工具 |
CN107979709A (zh) * | 2016-10-24 | 2018-05-01 | 佳能株式会社 | 图像处理装置、系统、控制方法和计算机可读介质 |
CN109800761A (zh) * | 2019-01-25 | 2019-05-24 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
CN109948510A (zh) * | 2019-03-14 | 2019-06-28 | 北京易道博识科技有限公司 | 一种文档图像实例分割方法及装置 |
CN111046142A (zh) * | 2019-12-13 | 2020-04-21 | 深圳前海环融联易信息科技服务有限公司 | 文本审查方法、装置、电子设备及计算机存储介质 |
-
2020
- 2020-05-29 CN CN202010479205.8A patent/CN111652117B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101681432A (zh) * | 2007-05-01 | 2010-03-24 | 计算机连接管理中心公司 | 图片文档分割方法和系统 |
CN101840514A (zh) * | 2009-03-19 | 2010-09-22 | 株式会社理光 | 图像对象分类装置及方法 |
CN107979709A (zh) * | 2016-10-24 | 2018-05-01 | 佳能株式会社 | 图像处理装置、系统、控制方法和计算机可读介质 |
CN107886309A (zh) * | 2017-12-15 | 2018-04-06 | 四川汉科计算机信息技术有限公司 | 文档自动审查工具 |
CN109800761A (zh) * | 2019-01-25 | 2019-05-24 | 厦门商集网络科技有限责任公司 | 基于深度学习模型创建纸质文档结构化数据的方法和终端 |
CN109816118A (zh) * | 2019-01-25 | 2019-05-28 | 上海深杳智能科技有限公司 | 一种基于深度学习模型的创建结构化文档的方法及终端 |
CN109948510A (zh) * | 2019-03-14 | 2019-06-28 | 北京易道博识科技有限公司 | 一种文档图像实例分割方法及装置 |
CN111046142A (zh) * | 2019-12-13 | 2020-04-21 | 深圳前海环融联易信息科技服务有限公司 | 文本审查方法、装置、电子设备及计算机存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111652117A (zh) | 2020-09-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902622B (zh) | 一种用于登机牌信息验证的文字检测识别方法 | |
CN111652117B (zh) | 一种对多文档图像分割的方法及介质 | |
CN112651289B (zh) | 一种增值税普通发票智能识别与校验系统及其方法 | |
CN109118473B (zh) | 基于神经网络的角点检测方法、存储介质与图像处理系统 | |
CN110598686B (zh) | 发票的识别方法、系统、电子设备和介质 | |
CN109840524B (zh) | 文字的类型识别方法、装置、设备及存储介质 | |
CN111626177B (zh) | 一种pcb元件识别方法及装置 | |
CN113569863B (zh) | 一种单据稽查的方法、系统、电子设备及存储介质 | |
CN116434266B (zh) | 一种医疗检验单的数据信息自动提取分析方法 | |
CN114463767A (zh) | 信用证识别方法、装置、计算机设备和存储介质 | |
CN113221956A (zh) | 基于改进的多尺度深度模型的目标识别方法及装置 | |
CN111340032A (zh) | 一种基于金融领域应用场景的字符识别方法 | |
CN109615610B (zh) | 一种基于YOLO v2-tiny的医用创可贴瑕疵检测方法 | |
CN111461143A (zh) | 一种图片翻拍识别方法和装置及电子设备 | |
CN112445849B (zh) | 一种报表分析方法及装置 | |
CN105404682A (zh) | 一种基于数字图像内容的图书检索方法 | |
CN116363655A (zh) | 一种财务票据识别方法及系统 | |
CN111914706B (zh) | 一种文字检测输出结果质量检测和控制的方法与装置 | |
CN115631197A (zh) | 一种图像处理方法、装置、介质、设备及系统 | |
CN111414889A (zh) | 基于文字识别的财务报表识别方法及装置 | |
US20220383030A1 (en) | Using few shot learning on recognition system for character image in industrial processes | |
Fu et al. | Research on Discernment of Rectangular Controls in Human-Machine Interactive Interface | |
CN115631219A (zh) | 一种图像匹配的方式处理数据图像的判读方法及系统 | |
CN117831051A (zh) | 图像日期提取方法、装置、电子设备及存储介质 | |
CN116758445A (zh) | 一种基于视频动态识别健康码的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20201202 Address after: 200240 Shanghai city Minhang District Jianchuan Road No. 951 Building 5 layer 1 (centralized registration) Applicant after: SHANGHAI SHENYAO INTELLIGENT TECHNOLOGY Co.,Ltd. Applicant after: XIAMEN SHANGJI NETWORK TECHNOLOGY Co.,Ltd. Address before: 200240 Shanghai city Minhang District Jianchuan Road No. 951 Building 5 layer 1 (centralized registration) Applicant before: SHANGHAI SHENYAO INTELLIGENT TECHNOLOGY Co.,Ltd. |
|
GR01 | Patent grant | ||
GR01 | Patent grant |