CN111985464A - 面向法院判决文书的多尺度学习的文字识别方法及系统 - Google Patents

面向法院判决文书的多尺度学习的文字识别方法及系统 Download PDF

Info

Publication number
CN111985464A
CN111985464A CN202010814088.6A CN202010814088A CN111985464A CN 111985464 A CN111985464 A CN 111985464A CN 202010814088 A CN202010814088 A CN 202010814088A CN 111985464 A CN111985464 A CN 111985464A
Authority
CN
China
Prior art keywords
seal
text
detection
court
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010814088.6A
Other languages
English (en)
Other versions
CN111985464B (zh
Inventor
尹义龙
秦者云
袭肖明
王奎奎
黄瑾
周子淇
刘祥飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN202010814088.6A priority Critical patent/CN111985464B/zh
Publication of CN111985464A publication Critical patent/CN111985464A/zh
Application granted granted Critical
Publication of CN111985464B publication Critical patent/CN111985464B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种面向法院判决文书的多尺度学习的文字识别方法及系统,包括:获取待识别的法院判决文书图像,提取印章区域;以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练,以训练后的文本检测模型得到文字识别结果。有效解决文本图像中的印章痕迹遮挡问题和超长、超短文本的检测问题。

Description

面向法院判决文书的多尺度学习的文字识别方法及系统
技术领域
本发明涉及光学字符识别技术领域,特别是涉及一种面向法院判决文书的多尺度学习的文字识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着平台式扫描仪和手机扫描的广泛应用,以及信息自动化和办公自动化的普及,目前可以通过拍摄照片直接进行图像上文字的识别。在司法系统中,各类案件繁杂,判决文书录入的工作尤为繁重。OCR技术能利用光学技术和计算机技术对文本资料的图像文件进行分析识别处理,获取文字信息,因此,针对法院判决文书扫描图像的OCR技术来实现文书的自动化录入,极大减少了人工录入成本,降低信息采集和录入的时间,有效解放人工录入的工作。
现有的OCR技术主要包括基于浅层学习模型的OCR技术和基于深度学习模型的OCR技术;然而,法院判决文书具有印章痕迹遮挡文字和存在超长、超短文本的问题。印章在法院判决文书中普遍存在,但印章痕迹在文本中会对文字造成遮挡;超长、超短文本指的是文本区域长宽比过大或过小问题,在一张法院判决文书图像中会存在多个超长和超短文本。这两个问题使现有的方法识别效果较差。
例如,由于光线和扫描设备的不同,当文书图像中印章痕迹的RGB值和文字的RGB值相近时,基于浅层学习模型的OCR技术很难通过颜色空间区分印章痕迹和文字;基于深度学习模型的OCR技术泛化性较差,对于存在多种长宽比的文本识别结果较差,对于基于深度学习模型的OCR技术来说,印章区域(即整幅图像中完整印章的带有一定内边距的外接矩形部分)占整幅法院判决文书图像比例太小,深度神经网络模型很难提取大量印章区域的特征,导致该区域识别结果较差;基于候选框的深度OCR方法对长宽比过小的文本敏感性较差,基于分割的深度OCR方法长宽比过大的文本敏感性较差,都不能较好的满足法院判决文书图像的识别要求。
对于如何去除文本中印章痕迹遮挡问题,已有的方法都是以颜色空间为出发点,通过边缘检测和阈值分割进行处理;该方法是无监督的方法,不需要训练学习,计算量小;然而对于印章痕迹颜色异常,甚至印章痕迹颜色和文字颜色相似的印章痕迹来说,现有方法的效果几乎等同于无。
在已有的检测方法中,深度方法相比于传统方法,普遍有更好的性能。在基于深度学习模型的OCR技术中,基于候选框的方法具有以下优点:(1)对于方向固定的本文具有较好的鲁棒性。(2)通过合并候选框的方式进行长宽比较大的文本进行识别;基于分割的方法具有可以识别任意形状文本的优点,对于长宽比较小的文本较为敏感。然而,该类方法只能处理单一问题,当文本中同时存在多种长宽比文本,特别是存在长宽比较大或较小的情况时,该类方法无法满足需求。
发明内容
为了解决上述问题,本发明提出了一种面向法院判决文书的多尺度学习的文字识别方法及系统,基于循环一致性损失和目标RGB值差异最大化提供印章转换方法,将印章区域中印章痕迹的RGB值转换为趋近于(255,0,0),可通过阈值法删除印章痕迹的遮挡;同时结合全局目标检测和局部细节检测,基于多尺度细节学习指导构建文本检测模型,对文本图像中的文字进行识别。
为了实现上述目的,本发明采用如下技术方案:
第一方面,本发明提供一种面向法院判决文书的多尺度学习的文字识别方法,包括:
获取待识别的法院判决文书图像,提取印章区域;
以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;
对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练,以训练后的文本检测模型得到文字识别结果。
第二方面,本发明提供一种面向法院判决文书的多尺度学习的文字识别系统,包括:
图像获取模块,用于获取待识别的法院判决文书图像,提取印章区域;
痕迹删除模块,用于以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;
文字识别模块,用于对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练,以训练后的文本检测模型得到文字识别结果。
第三方面,本发明提供一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成第一方面所述的方法。
第四方面,本发明提供一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成第一方面所述的方法。
与现有技术相比,本发明的有益效果为:
本发明基于循环一致性损失和目标RGB值差异最大化提供一种印章转换方法,重新生成需要被处理的印章区域,新生成的印章区域中印章痕迹的RGB值转换为趋近于(255,0,0),与被遮挡的文字部分颜色较大,通过简单的阈值删除印章痕迹的遮挡。
本发明的印章生成网络模型可以获取印章的边缘和RGB信息,通过循环一致性和目标阈值差异最大化来生成新的印章痕迹,对于印章痕迹部分缺失具有一定的鲁棒性。
本发明基于多尺度细节学习指导,高效利用基于候选框方法的全局目标检测模块和基于分割方法的局部细节检测模块获取文本图像中文字的位置信息,即构建基于多尺度细节学习指导的文本检测模型。
全局目标检测可以通过合并密集的候选区来完成超长本文的识别,但是对长宽比较小的短文本不敏感;局部细节检测对于超短文本敏感,但是对长宽比过大的长文本检测不全。因此,本发明结合全局目标检测和局部细节检测,基于多尺度细节学习指导构建的文本检测模型,有效对超长和超短文本进行识别,有效解决文本图像中的印章痕迹遮挡问题和超长、超短文本的检测问题。
本发明对现有技术中基于深度学习模型的OCR技术进行改进,在去除印章痕迹遮挡的同时,提高文本的识别性能,对存在超长或超短文本的图像进行有效识别。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为本发明实施例1提供的面向法院判决文书的多尺度学习的文字识别方法流程图。
具体实施方式:
下面结合附图与实施例对本发明做进一步说明。
应该指出,以下详细说明都是示例性的,旨在对本发明提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
实施例1
如背景技术所述,法院判决文书、合同等带有印章的文件等,在进行文字识别时,都会受到印章痕迹遮挡的影响,故在本实施例中,以法院判决文书为例,如图1所示,提供一种面向法院判决文书的多尺度学习的文字识别方法,包括:
S1:获取待识别的法院判决文书图像,提取印章区域;
S2:以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;
S3:对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测网络模型进行训练,以训练后的文本检测网络模型得到文字识别结果。
所述步骤S1中,采用深度模型检测图中印章位置,提取印章区域;
优选地,所述深度模型为MobileNet或VGG等轻量级神经网络模型;
具体地,法院判决文书图像中的印章区域包括完整的印章痕迹和一定内边距的外接矩形区域,为了提高印章痕迹的处理效率,首先需要提取印章区域,对印章区域进行单独处理,因此,本实施例利用轻量级神经网络VGG进行印章痕迹的定位。
具体地,
S1-1:将法院判决文书图像分割成10×10像素的小块,对其标记是否含有印章痕迹;
S1-2:使用像素块对VGG模型进行训练,VGG模型训练后,对待识别的法院判决文书图像进行窗口滑动,窗口大小为10×10像素,步长为10像素;
S1-3:以训练后的VGG模型对每个窗口的图像进行判断,获取所有判断为包含印章痕迹的窗口图像;
S1-4:将所有图像按照滑动窗口位置进行拼接,舍去孤立位置的窗口图像,填补缺失的窗口图像,以保证获取的印章区域为完整的矩形,有效提取法院判决文书图像中的印章区域。
所述步骤S2中,提取印章区域后,将其单独进行痕迹遮挡去除处理;本实施例不对目标印章区域直接进行痕迹遮挡去除,而是将印章痕迹的RGB值趋近于(255,0,0),再通过简单的阈值分割法去除痕迹遮挡,采用循环一致性和目标RGB值差异最大化用作印章痕迹RGB值转换;具体包括:
S2-1:将印章区域分成两个图像集合A和B,作为训练图像;
假设获取N张带有印章的法院判决文书图像,则裁剪获取每张图像的印章区域,按照印章颜色将其分为A和B两个数据集合,图像集合A中印章痕迹较为完整,RGB值趋近于(255,0,0),印章痕迹RGB值较为均匀;除图像集合A外的其余图像归类到图像集合B中,为保证A和B两个集合样本数目均衡,以图像集合B中图像数量为参考,对图像集合A中的图像进行数据增广或样本随机抽取操作,使得两集合样本数均衡,此时,A和B是两个无序的图像集合。
S2-2:构建印章生成网络模型,包括2个生成器和2个鉴别器;
生成器即生成器GA2B和生成器GB2A,鉴别器即鉴别器FA和鉴别器FB,GA2B的任务是根据集合A的图像生成集合B的图像;GB2A的任务是根据集合B的图像生成集合A的图像;FA的任务是判断图像是来自集合A还是GB2A;FB的任务是判断图像是来自集合B还是GA2B
在训练过程中引入循环一致性思想,每一次迭代过程具体流程如下:
随机从集合A抽取一张图像InputA,使用鉴别器FA对InputA进行鉴别,得到结果FA(InputA);使用生成器GA2B(InputA)得到生成图像GeneratedB;使用鉴别器FB对GeneratedB进行鉴别,得到结果FB(GeneratedB);使用生成器GB2A(GA2B(InputA))得到生成图像CyclicA
同理,随机从集合B抽取一张图像InputB,使用鉴别器FB对InputB进行鉴别,得到结果FB(InputB);使用生成器GB2A(InputB)得到生成图像GeneratedA;使用鉴别器FA对GeneratedA进行鉴别,得到结果FA(GeneratedA);使用生成器GA2B(GB2A(InputB))得到生成图像CyclicB
S2-3:基于循环一致性和目标RGB值差异最大化设计损失函数;
对抗网络基本损失约束为:
Figure BDA0002632052620000081
其中,生成网络的目的是由集合X生成集合Y,G为生成器,FY为鉴别器。
本实施例的目的是将印章区域的印章痕迹RGB值趋近于(255,0,0),因此集合X和集合Y在目标区域的RGB值的平方差越大越好,即基于目标RGB值差异最大化为目标,在对抗损失的基础上添加RGB空间损失约束:
Figure BDA0002632052620000091
其中,{R,G,B}表示RGB值。
基于循环一致性思想,本实施例在生成网络损失函数的基础上引入循环一致性损失约束:
Figure BDA0002632052620000092
总的损失函数为:
L(GA2B,GB2A,FB,FA)
=LCGAN(GA2B,FB,A,B)+LCGAN(GB2A,FA,B,A)+γLcyc(GA2B,GB2A)
S2-4:迭代优化训练印章生成网络模型,得到的生成器为印章生成网络中的GB2A,给定印章区域图像InputB,使用生成器GB2A(InputB)得到生成图像GeneratedB,即RGB值趋近于(255,0,0)的图像,继而简单的阈值法去除印章痕迹遮挡。
所述步骤S3中,为了提高文本检测模型对超长或超短文本检测的鲁棒性,本实施例将基于候选框方法的全局目标检测模块和基于分割方法的局部细节检测模块获取法院判决文书图像中文字位置信息,即基于多尺度细节学习指导的文本检测网络模型;具体为:
S3-1:对删除印章痕迹的法院判决文书图像,同时标注目标框标签和分割标签GroundTruth,目标框标签的标注方法采用传统标注方法,在本实施例中不再加以赘述;局部细节检测模块需要给一张图像同时标注不同尺度的GroundTruth,具体方式如下:
假设获取N张不带有印章的法院判决文书图像,对于每张图像标记文本框和GroundTruth,对于每张图像,设置N个不同尺度的GroundTruth,Gn为最大尺度的GroundTruth,通过Vatti clipping将Gn裁剪n-1次,每次缩小di个像素得到Gi
Figure BDA0002632052620000101
其中,di表示要缩小的像素值,Area(Gi)表示多边形的面积,Perimeter(Gi)表示多边形的周长,ri表示缩小的比例;
Figure BDA0002632052620000102
其中,m表示最小的缩放比例,是一个超参数,取值范围为(0,1]。
S3-2:使用特征金字塔FPN网络提取特征,得到4个不同通道数的特征图F1,…,Fn,n=4,具体为:
S3-2.1:FPN由自底向上路径、自顶向下路径和跳跃连接组成;自底向上路径使用ResNet50作为骨干网络,由五个卷积块组成,每个卷积块的输出为Feature1,Feature2,…,Feature5
S3-2.2:自顶向下路径有4个卷积模块TD4,TD3,TD2,TD1,Feature5通过1×1卷积后作为TD4的输入;
S3-2.3:将TDi,2≤i≤4的输出上采样至Featurei大小,与通过1×1卷积的Featurei进行跳跃连接,即对应位置元素相加,得到TDi-1的输入;
S3-2.4:对于TDj,1≤j≤4使用RPN机制,即对于TDj的输出,接一个3×3卷积,后面分两路,分别连接一个分类和回归操作,得到候选框检测结果Fj
S3-3:将特征图F4进行全局目标检测,得到一系列文本候选框;
S3-3.1:假设输入特征图Fimput的大小为N×C×H×W,在Fimput上做3×3的滑动窗口,即每个点都结合周围3×3区域特征获得长度为3×3×C的特征向量,输出N×(9C)×H×W的特征图Fwindow
S3-3.2:进行通道变化,将Fwindow的通道数变为(NH)×W×(9C),以Batch=NH,最大时间长度为Tmax=W的数据流输入双向LSTM中;
S3-3.3:双向LSTM输出结果为FLSTM的大小(NH)×W×256,进行通道变化,将FLSTM的通道数变为N×256×H×W;
S3-3.4:将FLSTM经过一个全连接层得到Ffc,Ffc的大小为N×512×H×W;
S3-3.5:将Ffc经过一个RPN层得到一系列文本候选区,每一个候选区包含两个向量{s,v},s表示该文本框包含文本的概率,v表示该文本框在整幅图像中的位置;
S3-3.6:使用一个标准的非极大值抑制算法来过滤多余的候选区,同时判断相近的文本候选区是否含有公共元素,如果有,将两个候选区进行合并,进而产生M个完整的文本检测框。
S3-4:将特征图进行局部细节检测,得到一系列渐进式掩膜S1,S2,…Sn,获得渐进式分割结果;
假设特征图F4的大小为N×C×H×W,将F1,F2,F3上采样到F4的大小,对Fi,1≤i≤4进行通道合并,不同通道间对应位置的元素相加;
对F1,…,Fn,n=4分别进行1×1的卷积处理,得到不同尺度的渐进式掩膜S1,S2,…Sn;其中Si,1≤i≤4的大小为N×1×H×W;
此处的不同尺度指的是每一个渐进式掩膜Si中,对于同一处文本区域的预测尺度大小各不相同,S1的预测结果尺度最小,S4的预测结果尺度最大。
S3-5:将文本检测框转化为候选框掩码Sn+1,Sn+1的尺度大于Sn;对于渐进式掩膜S1,S2,…Sn,Sn+1,获取每一个掩膜的连通域,以S1为基准点,对于Si+1,1≤i≤n中,将属于Si+1连通域的像素但不属于Si连通域的像素点使用宽度优先搜索的方式进行分配,重复以上过程,直到产生尺度最大的预测结果。
S3-6:所述文本检测网络模型的损失函数定义为:
在全局目标检测中,一张法院判决文书图像会产生M个预测文本框,每一个文本框都会有两个向量,s表示该文本框包含文本的概率,v表示该文本框在整幅图像中的位置;
其中,关于s损失函数为:
Figure BDA0002632052620000121
上式中s*∈{0,1}表示该文本框是否含有文本的标签;
关于v损失函数为:
Figure BDA0002632052620000122
上式中{x,y,w,h}表示框坐标。
对于渐进式掩膜S1,S2,…Sn,使用dice coefficient损失函数,dice coefficient损失函数为:
Figure BDA0002632052620000131
上式中Sc,y和Gx,y分别表示在位置(x,y)处渐进式掩膜S和GroundTruth G的值。
将dice coefficient损失函数计算应用在渐进式掩膜S1,S2,…Sn上:
Lc=1-D(Sn,Gn)
Figure BDA0002632052620000132
总的损失函数为:
Figure BDA0002632052620000133
上式中,Lc和Ls是局部细节检测模块的损失,Lcl和Lv是全局目标检测模块的损失。在全局目标检测模块中,会产生一系列的预测文本框。对于每一个文本框,si表示文本框内包含文本的概率,s*∈{0,1}表示该文本框是否含有文本的标签,vj是预测文本框位置,
Figure BDA0002632052620000134
是真实文本框的位置,M是全局目标检测模块中检测出的文本框个数,α、β、γ是系数,相加为1。
S3-7:迭代优化训练网络,以训练后的网络,给定一张法院判决文书图像,使用候选框检测模块得到一系列候选框,即文本在图像中所在位置,获得文本检测结果,可以采用CRNN+CTC网络将检测结果翻译成中文。
本实施例首先提出印章生成网络模型,在对抗网络生成模型的框架下,基于循环一致性和目标RGB值差异最大化,生成新的印章区域,新的印章区域的印章痕迹RGB值趋近于(255,0,0),与被遮挡的文字部分颜色甚大,可以通过简单的阈值法去除遮挡;然后基于候选框方法和分割方法,提出新的基于多尺度细节学习指导的文本检测网络模型,该模型由全局目标检测模块和局部细节检测模块组成,二者可以相互传递知识,相互促进,精确定位文本的边界。
实施例2
本实施例提供一种面向法院判决文书的多尺度学习的文字识别系统,包括:
图像获取模块,用于获取待识别的法院判决文书图像,提取印章区域;
痕迹删除模块,用于以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;
文字识别模块,用于对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测网络模型进行训练,以训练后的文本检测网络模型得到文字识别结果。
此处需要说明的是,上述模块对应于实施例1中的步骤S1至S3,上述模块与对应的步骤所实现的示例和应用场景相同,但不限于上述实施例1所公开的内容。需要说明的是,上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。
在更多实施例中,还提供:
一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成实施例1中所述的方法。为了简洁,在此不再赘述。
应理解,本实施例中,处理器可以是中央处理单元CPU,处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC,现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如,存储器还可以存储设备类型的信息。
一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成实施例1中所述的方法。
实施例1中的方法可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
本领域普通技术人员可以意识到,结合本实施例描述的各示例的单元即算法步骤,能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明的技术方案的基础上,本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims (10)

1.一种面向法院判决文书的多尺度学习的文字识别方法,其特征在于,包括:
获取待识别的法院判决文书图像,提取印章区域;
以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;
对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练,以训练后的文本检测模型得到文字识别结果。
2.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法,其特征在于,对法院判决文书图像进行分割,采用深度模型对每个像素块进行判断,获得包含印章痕迹的像素块,将其拼接后得到印章区域。
3.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法,其特征在于,所述印章生成网络模型的损失函数为:
L(Ga2B,GB2A,FB,FA)=LCGAN(GA2B,FB,A,B)+LCGAN(GB2A,FA,B,A)+γLcyc(GA2B,GB2A),
其中,GA2B和GB2A为生成器,FA和FB为鉴别器,A和B为图像集合,LCGAN为RGB空间损失约束,Lcyc为循环一致性损失约束。
4.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法,其特征在于,所述特征提取采用特征金字塔网络进行特征提取,得到不同通道数的特征图,所述特征金字塔网络包括自底向上路径、自顶向下路径和跳跃连接,所述自底向上路径采用ResNet50网络,自底向上路径的输出作为自顶向下路径的输入,自顶向下路径的输出上采样至自底向上路径,并进行跳跃连接。
5.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法,其特征在于,所述全局目标检测包括:获取特征图的特征向量,将特征向量进行通道变化后输入双向LSTM网络中,将双向LSTM网络的输出进行通道变化后,依次经过全连接层和RPN层得到文本候选框。
6.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法,其特征在于,所述局部细节检测包括:标记不同尺度的分割标签,将特征图的大小进行归一化处理,依次进行通道合并和卷积处理后,得到不同尺度的渐进式掩膜,每一个渐进式掩膜中,对于同一处文本区域的预测尺度大小不相同。
7.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法,其特征在于,所述文本检测模型的损失函数:
Figure FDA0002632052610000021
其中,Lc和Ls是局部细节检测的损失,Lcl和Lv是全局目标检测的损失,si表示文本框内包含文本的概率,s*∈{0,1}表示文本框是否含有文本的标签,vj是预测文本框位置,
Figure FDA0002632052610000022
是真实文本框的位置,M是全局目标检测模块中检测出的文本框个数,α、β、γ是系数,相加为1。
8.一种面向法院判决文书的多尺度学习的文字识别系统,其特征在于,包括:
图像获取模块,用于获取待识别的法院判决文书图像,提取印章区域;
痕迹删除模块,用于以目标RGB值差异最大为目标函数,以循环一致性损失为约束条件,基于对抗网络构建印章生成网络模型,采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换,并删除转换后的印章区域的印章痕迹;
文字识别模块,用于对删除印章痕迹的法院判决文书图像进行特征提取,对得到的特征图分别进行全局目标检测和局部细节检测,将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练,以训练后的文本检测模型得到文字识别结果。
9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述的方法。
CN202010814088.6A 2020-08-13 2020-08-13 面向法院判决文书的多尺度学习的文字识别方法及系统 Active CN111985464B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010814088.6A CN111985464B (zh) 2020-08-13 2020-08-13 面向法院判决文书的多尺度学习的文字识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010814088.6A CN111985464B (zh) 2020-08-13 2020-08-13 面向法院判决文书的多尺度学习的文字识别方法及系统

Publications (2)

Publication Number Publication Date
CN111985464A true CN111985464A (zh) 2020-11-24
CN111985464B CN111985464B (zh) 2023-08-22

Family

ID=73434199

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010814088.6A Active CN111985464B (zh) 2020-08-13 2020-08-13 面向法院判决文书的多尺度学习的文字识别方法及系统

Country Status (1)

Country Link
CN (1) CN111985464B (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733857A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN112801068A (zh) * 2021-04-14 2021-05-14 广东众聚人工智能科技有限公司 一种视频多目标跟踪与分割系统和方法
CN112949649A (zh) * 2021-05-12 2021-06-11 北京世纪好未来教育科技有限公司 一种文本图像的识别方法、装置及计算设备
CN113065404A (zh) * 2021-03-08 2021-07-02 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与系统
CN113554021A (zh) * 2021-06-07 2021-10-26 傲雄在线(重庆)科技有限公司 一种智能化印章识别方法
CN113705571A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于rgb阈值去红章的方法、装置、可读介质及电子设备
CN113743400A (zh) * 2021-07-16 2021-12-03 华中科技大学 一种基于深度学习的电子公文智能审查方法及系统
CN114022748A (zh) * 2022-01-06 2022-02-08 深圳市海清视讯科技有限公司 目标识别方法、装置、设备及存储介质
CN114495129A (zh) * 2022-04-18 2022-05-13 阿里巴巴(中国)有限公司 文字检测模型预训练方法以及装置
CN114694154A (zh) * 2022-04-11 2022-07-01 平安国际智慧城市科技股份有限公司 文件解析方法、系统及存储介质
CN114973271A (zh) * 2022-05-26 2022-08-30 中国平安人寿保险股份有限公司 一种文本信息提取方法、提取系统、电子设备及存储介质
CN116128954A (zh) * 2022-12-30 2023-05-16 上海强仝智能科技有限公司 一种基于生成网络的商品布局识别方法、装置及存储介质
CN117475453A (zh) * 2023-12-25 2024-01-30 欣诚信息技术有限公司 一种基于ocr的文书检测方法、装置及电子设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109086668A (zh) * 2018-07-02 2018-12-25 电子科技大学 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN110322396A (zh) * 2019-06-19 2019-10-11 怀光智能科技(武汉)有限公司 一种病理切片颜色归一化方法及系统

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019144575A1 (zh) * 2018-01-24 2019-08-01 中山大学 一种快速行人检测方法及装置
CN109086668A (zh) * 2018-07-02 2018-12-25 电子科技大学 基于多尺度生成对抗网络的无人机遥感影像道路信息提取方法
CN109447078A (zh) * 2018-10-23 2019-03-08 四川大学 一种自然场景图像敏感文字的检测识别方法
CN109376658A (zh) * 2018-10-26 2019-02-22 信雅达系统工程股份有限公司 一种基于深度学习的ocr方法
CN110322396A (zh) * 2019-06-19 2019-10-11 怀光智能科技(武汉)有限公司 一种病理切片颜色归一化方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李新利 等: "SealGAN:基于生成式对抗网络的印章消除研究", 自动化学报 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112733857B (zh) * 2021-01-08 2021-10-15 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN112733857A (zh) * 2021-01-08 2021-04-30 北京匠数科技有限公司 自动分割字符区域的图像文字检测模型训练方法及装置
CN113065404A (zh) * 2021-03-08 2021-07-02 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与系统
CN113065404B (zh) * 2021-03-08 2023-02-24 国网河北省电力有限公司 基于等宽文字片段的火车票内容检测方法与系统
CN112801068B (zh) * 2021-04-14 2021-07-16 广东众聚人工智能科技有限公司 一种视频多目标跟踪与分割系统和方法
CN112801068A (zh) * 2021-04-14 2021-05-14 广东众聚人工智能科技有限公司 一种视频多目标跟踪与分割系统和方法
CN112949649B (zh) * 2021-05-12 2021-09-03 北京世纪好未来教育科技有限公司 一种文本图像的识别方法、装置及计算设备
CN112949649A (zh) * 2021-05-12 2021-06-11 北京世纪好未来教育科技有限公司 一种文本图像的识别方法、装置及计算设备
CN113554021A (zh) * 2021-06-07 2021-10-26 傲雄在线(重庆)科技有限公司 一种智能化印章识别方法
CN113554021B (zh) * 2021-06-07 2023-12-15 重庆傲雄在线信息技术有限公司 一种智能化印章识别方法
CN113743400A (zh) * 2021-07-16 2021-12-03 华中科技大学 一种基于深度学习的电子公文智能审查方法及系统
CN113743400B (zh) * 2021-07-16 2024-02-20 华中科技大学 一种基于深度学习的电子公文智能审查方法及系统
CN113705571A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 基于rgb阈值去红章的方法、装置、可读介质及电子设备
CN114022748A (zh) * 2022-01-06 2022-02-08 深圳市海清视讯科技有限公司 目标识别方法、装置、设备及存储介质
CN114022748B (zh) * 2022-01-06 2022-04-08 深圳市海清视讯科技有限公司 目标识别方法、装置、设备及存储介质
CN114694154A (zh) * 2022-04-11 2022-07-01 平安国际智慧城市科技股份有限公司 文件解析方法、系统及存储介质
CN114495129B (zh) * 2022-04-18 2022-09-09 阿里巴巴(中国)有限公司 文字检测模型预训练方法以及装置
CN114495129A (zh) * 2022-04-18 2022-05-13 阿里巴巴(中国)有限公司 文字检测模型预训练方法以及装置
CN114973271A (zh) * 2022-05-26 2022-08-30 中国平安人寿保险股份有限公司 一种文本信息提取方法、提取系统、电子设备及存储介质
CN116128954A (zh) * 2022-12-30 2023-05-16 上海强仝智能科技有限公司 一种基于生成网络的商品布局识别方法、装置及存储介质
CN116128954B (zh) * 2022-12-30 2023-12-05 上海强仝智能科技有限公司 一种基于生成网络的商品布局识别方法、装置及存储介质
CN117475453A (zh) * 2023-12-25 2024-01-30 欣诚信息技术有限公司 一种基于ocr的文书检测方法、装置及电子设备
CN117475453B (zh) * 2023-12-25 2024-02-27 欣诚信息技术有限公司 一种基于ocr的文书检测方法、装置及电子设备

Also Published As

Publication number Publication date
CN111985464B (zh) 2023-08-22

Similar Documents

Publication Publication Date Title
CN111985464A (zh) 面向法院判决文书的多尺度学习的文字识别方法及系统
CN110738207B (zh) 一种融合文字图像中文字区域边缘信息的文字检测方法
CN110210413B (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN107133622B (zh) 一种单词的分割方法和装置
US8644561B2 (en) License plate optical character recognition method and system
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
WO2022142611A1 (zh) 文字识别方法及装置、存储介质、计算机设备
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN109448007B (zh) 图像处理方法、图像处理装置及存储介质
CN110766017B (zh) 基于深度学习的移动终端文字识别方法及系统
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN110728277B (zh) 一种印章智能检测与识别的方法及系统
CN111126115A (zh) 暴力分拣行为识别方法和装置
EP2680226A1 (en) Temporally consistent superpixels
CN112733858B (zh) 基于字符区域检测的图像文字快速识别方法及装置
JP2019102061A (ja) テキスト線の区分化方法
CN110991403A (zh) 一种基于视觉深度学习的文档信息碎片化抽取方法
CN111507337A (zh) 基于混合神经网络的车牌识别方法
CN111274964A (zh) 一种基于无人机视觉显著性分析水面污染物的检测方法
CN114067339A (zh) 图像识别方法及其装置、电子设备、计算机可读存储介质
CN113743318A (zh) 基于行列分割的表格结构识别方法、存储介质和电子装置
CN110147785A (zh) 图像识别方法、相关装置和设备
CN116030472A (zh) 文字坐标确定方法及装置
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques
Govindaraju et al. Newspaper image understanding

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant