CN111985464A

CN111985464A - 面向法院判决文书的多尺度学习的文字识别方法及系统

Info

Publication number: CN111985464A
Application number: CN202010814088.6A
Authority: CN
Inventors: 尹义龙; 秦者云; 袭肖明; 王奎奎; 黄瑾; 周子淇; 刘祥飞
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2020-08-13
Filing date: 2020-08-13
Publication date: 2020-11-24
Anticipated expiration: 2040-08-13
Also published as: CN111985464B

Abstract

本发明公开了一种面向法院判决文书的多尺度学习的文字识别方法及系统，包括：获取待识别的法院判决文书图像，提取印章区域；以目标RGB值差异最大为目标函数，以循环一致性损失为约束条件，基于对抗网络构建印章生成网络模型，采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换，并删除转换后的印章区域的印章痕迹；对删除印章痕迹的法院判决文书图像进行特征提取，对得到的特征图分别进行全局目标检测和局部细节检测，将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练，以训练后的文本检测模型得到文字识别结果。有效解决文本图像中的印章痕迹遮挡问题和超长、超短文本的检测问题。

Description

面向法院判决文书的多尺度学习的文字识别方法及系统

技术领域

本发明涉及光学字符识别技术领域，特别是涉及一种面向法院判决文书的多尺度学习的文字识别方法及系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

随着平台式扫描仪和手机扫描的广泛应用，以及信息自动化和办公自动化的普及，目前可以通过拍摄照片直接进行图像上文字的识别。在司法系统中，各类案件繁杂，判决文书录入的工作尤为繁重。OCR技术能利用光学技术和计算机技术对文本资料的图像文件进行分析识别处理，获取文字信息，因此，针对法院判决文书扫描图像的OCR技术来实现文书的自动化录入，极大减少了人工录入成本，降低信息采集和录入的时间，有效解放人工录入的工作。

现有的OCR技术主要包括基于浅层学习模型的OCR技术和基于深度学习模型的OCR技术；然而，法院判决文书具有印章痕迹遮挡文字和存在超长、超短文本的问题。印章在法院判决文书中普遍存在，但印章痕迹在文本中会对文字造成遮挡；超长、超短文本指的是文本区域长宽比过大或过小问题，在一张法院判决文书图像中会存在多个超长和超短文本。这两个问题使现有的方法识别效果较差。

例如，由于光线和扫描设备的不同，当文书图像中印章痕迹的RGB值和文字的RGB值相近时，基于浅层学习模型的OCR技术很难通过颜色空间区分印章痕迹和文字；基于深度学习模型的OCR技术泛化性较差，对于存在多种长宽比的文本识别结果较差，对于基于深度学习模型的OCR技术来说，印章区域(即整幅图像中完整印章的带有一定内边距的外接矩形部分)占整幅法院判决文书图像比例太小，深度神经网络模型很难提取大量印章区域的特征，导致该区域识别结果较差；基于候选框的深度OCR方法对长宽比过小的文本敏感性较差，基于分割的深度OCR方法长宽比过大的文本敏感性较差，都不能较好的满足法院判决文书图像的识别要求。

对于如何去除文本中印章痕迹遮挡问题，已有的方法都是以颜色空间为出发点，通过边缘检测和阈值分割进行处理；该方法是无监督的方法，不需要训练学习，计算量小；然而对于印章痕迹颜色异常，甚至印章痕迹颜色和文字颜色相似的印章痕迹来说，现有方法的效果几乎等同于无。

在已有的检测方法中，深度方法相比于传统方法，普遍有更好的性能。在基于深度学习模型的OCR技术中，基于候选框的方法具有以下优点：(1)对于方向固定的本文具有较好的鲁棒性。(2)通过合并候选框的方式进行长宽比较大的文本进行识别；基于分割的方法具有可以识别任意形状文本的优点，对于长宽比较小的文本较为敏感。然而，该类方法只能处理单一问题，当文本中同时存在多种长宽比文本，特别是存在长宽比较大或较小的情况时，该类方法无法满足需求。

发明内容

为了解决上述问题，本发明提出了一种面向法院判决文书的多尺度学习的文字识别方法及系统，基于循环一致性损失和目标RGB值差异最大化提供印章转换方法，将印章区域中印章痕迹的RGB值转换为趋近于(255,0,0)，可通过阈值法删除印章痕迹的遮挡；同时结合全局目标检测和局部细节检测，基于多尺度细节学习指导构建文本检测模型，对文本图像中的文字进行识别。

为了实现上述目的，本发明采用如下技术方案：

第一方面，本发明提供一种面向法院判决文书的多尺度学习的文字识别方法，包括：

获取待识别的法院判决文书图像，提取印章区域；

以目标RGB值差异最大为目标函数，以循环一致性损失为约束条件，基于对抗网络构建印章生成网络模型，采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换，并删除转换后的印章区域的印章痕迹；

对删除印章痕迹的法院判决文书图像进行特征提取，对得到的特征图分别进行全局目标检测和局部细节检测，将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练，以训练后的文本检测模型得到文字识别结果。

第二方面，本发明提供一种面向法院判决文书的多尺度学习的文字识别系统，包括：

图像获取模块，用于获取待识别的法院判决文书图像，提取印章区域；

痕迹删除模块，用于以目标RGB值差异最大为目标函数，以循环一致性损失为约束条件，基于对抗网络构建印章生成网络模型，采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换，并删除转换后的印章区域的印章痕迹；

文字识别模块，用于对删除印章痕迹的法院判决文书图像进行特征提取，对得到的特征图分别进行全局目标检测和局部细节检测，将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测模型进行训练，以训练后的文本检测模型得到文字识别结果。

第三方面，本发明提供一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成第一方面所述的方法。

第四方面，本发明提供一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成第一方面所述的方法。

与现有技术相比，本发明的有益效果为：

本发明基于循环一致性损失和目标RGB值差异最大化提供一种印章转换方法，重新生成需要被处理的印章区域，新生成的印章区域中印章痕迹的RGB值转换为趋近于(255,0,0)，与被遮挡的文字部分颜色较大，通过简单的阈值删除印章痕迹的遮挡。

本发明的印章生成网络模型可以获取印章的边缘和RGB信息，通过循环一致性和目标阈值差异最大化来生成新的印章痕迹，对于印章痕迹部分缺失具有一定的鲁棒性。

本发明基于多尺度细节学习指导，高效利用基于候选框方法的全局目标检测模块和基于分割方法的局部细节检测模块获取文本图像中文字的位置信息，即构建基于多尺度细节学习指导的文本检测模型。

全局目标检测可以通过合并密集的候选区来完成超长本文的识别，但是对长宽比较小的短文本不敏感；局部细节检测对于超短文本敏感，但是对长宽比过大的长文本检测不全。因此，本发明结合全局目标检测和局部细节检测，基于多尺度细节学习指导构建的文本检测模型，有效对超长和超短文本进行识别，有效解决文本图像中的印章痕迹遮挡问题和超长、超短文本的检测问题。

本发明对现有技术中基于深度学习模型的OCR技术进行改进，在去除印章痕迹遮挡的同时，提高文本的识别性能，对存在超长或超短文本的图像进行有效识别。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明实施例1提供的面向法院判决文书的多尺度学习的文字识别方法流程图。

具体实施方式：

下面结合附图与实施例对本发明做进一步说明。

应该指出，以下详细说明都是示例性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例1

如背景技术所述，法院判决文书、合同等带有印章的文件等，在进行文字识别时，都会受到印章痕迹遮挡的影响，故在本实施例中，以法院判决文书为例，如图1所示，提供一种面向法院判决文书的多尺度学习的文字识别方法，包括：

S1：获取待识别的法院判决文书图像，提取印章区域；

S2：以目标RGB值差异最大为目标函数，以循环一致性损失为约束条件，基于对抗网络构建印章生成网络模型，采用训练后的印章生成网络模型对印章区域进行印章痕迹RGB值的转换，并删除转换后的印章区域的印章痕迹；

S3：对删除印章痕迹的法院判决文书图像进行特征提取，对得到的特征图分别进行全局目标检测和局部细节检测，将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测网络模型进行训练，以训练后的文本检测网络模型得到文字识别结果。

所述步骤S1中，采用深度模型检测图中印章位置，提取印章区域；

优选地，所述深度模型为MobileNet或VGG等轻量级神经网络模型；

具体地，法院判决文书图像中的印章区域包括完整的印章痕迹和一定内边距的外接矩形区域，为了提高印章痕迹的处理效率，首先需要提取印章区域，对印章区域进行单独处理，因此，本实施例利用轻量级神经网络VGG进行印章痕迹的定位。

具体地，

S1-1：将法院判决文书图像分割成10×10像素的小块，对其标记是否含有印章痕迹；

S1-2：使用像素块对VGG模型进行训练，VGG模型训练后，对待识别的法院判决文书图像进行窗口滑动，窗口大小为10×10像素，步长为10像素；

S1-3：以训练后的VGG模型对每个窗口的图像进行判断，获取所有判断为包含印章痕迹的窗口图像；

S1-4：将所有图像按照滑动窗口位置进行拼接，舍去孤立位置的窗口图像，填补缺失的窗口图像，以保证获取的印章区域为完整的矩形，有效提取法院判决文书图像中的印章区域。

所述步骤S2中，提取印章区域后，将其单独进行痕迹遮挡去除处理；本实施例不对目标印章区域直接进行痕迹遮挡去除，而是将印章痕迹的RGB值趋近于(255,0,0)，再通过简单的阈值分割法去除痕迹遮挡，采用循环一致性和目标RGB值差异最大化用作印章痕迹RGB值转换；具体包括：

S2-1：将印章区域分成两个图像集合A和B，作为训练图像；

假设获取N张带有印章的法院判决文书图像，则裁剪获取每张图像的印章区域，按照印章颜色将其分为A和B两个数据集合，图像集合A中印章痕迹较为完整，RGB值趋近于(255,0,0)，印章痕迹RGB值较为均匀；除图像集合A外的其余图像归类到图像集合B中，为保证A和B两个集合样本数目均衡，以图像集合B中图像数量为参考，对图像集合A中的图像进行数据增广或样本随机抽取操作，使得两集合样本数均衡，此时，A和B是两个无序的图像集合。

S2-2：构建印章生成网络模型，包括2个生成器和2个鉴别器；

生成器即生成器G_A2B和生成器G_B2A，鉴别器即鉴别器F_A和鉴别器F_B，G_A2B的任务是根据集合A的图像生成集合B的图像；G_B2A的任务是根据集合B的图像生成集合A的图像；F_A的任务是判断图像是来自集合A还是G_B2A；F_B的任务是判断图像是来自集合B还是G_A2B。

在训练过程中引入循环一致性思想，每一次迭代过程具体流程如下：

随机从集合A抽取一张图像Input_A，使用鉴别器F_A对Input_A进行鉴别，得到结果F_A(Input_A)；使用生成器G_A2B(Input_A)得到生成图像Generated_B；使用鉴别器F_B对Generated_B进行鉴别，得到结果F_B(Generated_B)；使用生成器G_B2A(G_A2B(Input_A))得到生成图像Cyclic_A；

同理，随机从集合B抽取一张图像Input_B，使用鉴别器F_B对Input_B进行鉴别，得到结果F_B(Input_B)；使用生成器G_B2A(Input_B)得到生成图像Generated_A；使用鉴别器F_A对Generated_A进行鉴别，得到结果F_A(Generated_A)；使用生成器G_A2B(G_B2A(Input_B))得到生成图像Cyclic_B。

S2-3：基于循环一致性和目标RGB值差异最大化设计损失函数；

对抗网络基本损失约束为：

其中，生成网络的目的是由集合X生成集合Y，G为生成器，F_Y为鉴别器。

本实施例的目的是将印章区域的印章痕迹RGB值趋近于(255,0,0)，因此集合X和集合Y在目标区域的RGB值的平方差越大越好，即基于目标RGB值差异最大化为目标，在对抗损失的基础上添加RGB空间损失约束：

其中，{R,G,B}表示RGB值。

基于循环一致性思想，本实施例在生成网络损失函数的基础上引入循环一致性损失约束：

总的损失函数为：

L(G_A2B,G_B2A,F_B,F_A)

＝L_CGAN(G_A2B,F_B,A,B)+L_CGAN(G_B2A,F_A,B,A)+γL_cyc(G_A2B,G_B2A)

S2-4：迭代优化训练印章生成网络模型，得到的生成器为印章生成网络中的G_B2A，给定印章区域图像Input_B，使用生成器G_B2A(Input_B)得到生成图像Generated_B，即RGB值趋近于(255,0,0)的图像，继而简单的阈值法去除印章痕迹遮挡。

所述步骤S3中，为了提高文本检测模型对超长或超短文本检测的鲁棒性，本实施例将基于候选框方法的全局目标检测模块和基于分割方法的局部细节检测模块获取法院判决文书图像中文字位置信息，即基于多尺度细节学习指导的文本检测网络模型；具体为：

S3-1：对删除印章痕迹的法院判决文书图像，同时标注目标框标签和分割标签GroundTruth，目标框标签的标注方法采用传统标注方法，在本实施例中不再加以赘述；局部细节检测模块需要给一张图像同时标注不同尺度的GroundTruth，具体方式如下：

假设获取N张不带有印章的法院判决文书图像，对于每张图像标记文本框和GroundTruth，对于每张图像，设置N个不同尺度的GroundTruth，G_n为最大尺度的GroundTruth，通过Vatti clipping将G_n裁剪n-1次，每次缩小d_i个像素得到G_i；

其中，d_i表示要缩小的像素值，Area(G_i)表示多边形的面积，Perimeter(G_i)表示多边形的周长，r_i表示缩小的比例；

其中，m表示最小的缩放比例，是一个超参数，取值范围为(0,1]。

S3-2：使用特征金字塔FPN网络提取特征，得到4个不同通道数的特征图F₁,…,F_n,n＝4，具体为：

S3-2.1：FPN由自底向上路径、自顶向下路径和跳跃连接组成；自底向上路径使用ResNet50作为骨干网络，由五个卷积块组成，每个卷积块的输出为Feature₁,Feature₂,…,Feature₅；

S3-2.2：自顶向下路径有4个卷积模块TD₄,TD₃,TD₂,TD₁，Feature₅通过1×1卷积后作为TD₄的输入；

S3-2.3：将TD_i,2≤i≤4的输出上采样至Feature_i大小，与通过1×1卷积的Feature_i进行跳跃连接，即对应位置元素相加，得到TD_i-1的输入；

S3-2.4：对于TD_j,1≤j≤4使用RPN机制，即对于TD_j的输出，接一个3×3卷积，后面分两路，分别连接一个分类和回归操作，得到候选框检测结果F_j。

S3-3：将特征图F₄进行全局目标检测，得到一系列文本候选框；

S3-3.1：假设输入特征图F_imput的大小为N×C×H×W，在F_imput上做3×3的滑动窗口，即每个点都结合周围3×3区域特征获得长度为3×3×C的特征向量，输出N×(9C)×H×W的特征图F_window；

S3-3.2：进行通道变化，将F_window的通道数变为(NH)×W×(9C)，以Batch＝NH，最大时间长度为T_max＝W的数据流输入双向LSTM中；

S3-3.3：双向LSTM输出结果为F_LSTM的大小(NH)×W×256，进行通道变化，将F_LSTM的通道数变为N×256×H×W；

S3-3.4：将F_LSTM经过一个全连接层得到F_fc，F_fc的大小为N×512×H×W；

S3-3.5：将F_fc经过一个RPN层得到一系列文本候选区，每一个候选区包含两个向量{s,v}，s表示该文本框包含文本的概率，v表示该文本框在整幅图像中的位置；

S3-3.6：使用一个标准的非极大值抑制算法来过滤多余的候选区，同时判断相近的文本候选区是否含有公共元素，如果有，将两个候选区进行合并，进而产生M个完整的文本检测框。

S3-4：将特征图进行局部细节检测，得到一系列渐进式掩膜S₁,S₂,…S_n，获得渐进式分割结果；

假设特征图F₄的大小为N×C×H×W，将F₁,F₂,F₃上采样到F₄的大小，对F_i,1≤i≤4进行通道合并，不同通道间对应位置的元素相加；

对F₁,…,F_n,n＝4分别进行1×1的卷积处理，得到不同尺度的渐进式掩膜S₁,S₂,…S_n；其中S_i,1≤i≤4的大小为N×1×H×W；

此处的不同尺度指的是每一个渐进式掩膜S_i中，对于同一处文本区域的预测尺度大小各不相同，S₁的预测结果尺度最小，S₄的预测结果尺度最大。

S3-5：将文本检测框转化为候选框掩码S_n+1，S_n+1的尺度大于S_n；对于渐进式掩膜S₁,S₂,…S_n,S_n+1，获取每一个掩膜的连通域，以S₁为基准点，对于S_i+1,1≤i≤n中，将属于S_i+1连通域的像素但不属于S_i连通域的像素点使用宽度优先搜索的方式进行分配，重复以上过程，直到产生尺度最大的预测结果。

S3-6：所述文本检测网络模型的损失函数定义为：

在全局目标检测中，一张法院判决文书图像会产生M个预测文本框，每一个文本框都会有两个向量，s表示该文本框包含文本的概率，v表示该文本框在整幅图像中的位置；

其中，关于s损失函数为：

上式中s^*∈{0,1}表示该文本框是否含有文本的标签；

关于v损失函数为：

上式中{x,y,w,h}表示框坐标。

对于渐进式掩膜S₁,S₂,…S_n，使用dice coefficient损失函数，dice coefficient损失函数为：

上式中S_c,y和G_x,y分别表示在位置(x,y)处渐进式掩膜S和GroundTruth G的值。

将dice coefficient损失函数计算应用在渐进式掩膜S₁,S₂,…S_n上：

L_c＝1-D(S_n,G_n)

总的损失函数为：

上式中，L_c和L_s是局部细节检测模块的损失，L_cl和L_v是全局目标检测模块的损失。在全局目标检测模块中，会产生一系列的预测文本框。对于每一个文本框，s_i表示文本框内包含文本的概率，s^*∈{0,1}表示该文本框是否含有文本的标签，v_j是预测文本框位置，

是真实文本框的位置，M是全局目标检测模块中检测出的文本框个数，α、β、γ是系数，相加为1。

S3-7：迭代优化训练网络，以训练后的网络，给定一张法院判决文书图像，使用候选框检测模块得到一系列候选框，即文本在图像中所在位置，获得文本检测结果，可以采用CRNN+CTC网络将检测结果翻译成中文。

本实施例首先提出印章生成网络模型，在对抗网络生成模型的框架下，基于循环一致性和目标RGB值差异最大化，生成新的印章区域，新的印章区域的印章痕迹RGB值趋近于(255,0,0)，与被遮挡的文字部分颜色甚大，可以通过简单的阈值法去除遮挡；然后基于候选框方法和分割方法，提出新的基于多尺度细节学习指导的文本检测网络模型，该模型由全局目标检测模块和局部细节检测模块组成，二者可以相互传递知识，相互促进，精确定位文本的边界。

实施例2

本实施例提供一种面向法院判决文书的多尺度学习的文字识别系统，包括：

文字识别模块，用于对删除印章痕迹的法院判决文书图像进行特征提取，对得到的特征图分别进行全局目标检测和局部细节检测，将得到的文本候选框的掩码和渐进式掩膜合并后对构建的文本检测网络模型进行训练，以训练后的文本检测网络模型得到文字识别结果。

此处需要说明的是，上述模块对应于实施例1中的步骤S1至S3，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为系统的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

在更多实施例中，还提供：

一种电子设备，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成实施例1中所述的方法。为了简洁，在此不再赘述。

应理解，本实施例中，处理器可以是中央处理单元CPU，处理器还可以是其他通用处理器、数字信号处理器DSP、专用集成电路ASIC，现成可编程门阵列FPGA或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据、存储器的一部分还可以包括非易失性随机存储器。例如，存储器还可以存储设备类型的信息。

一种计算机可读存储介质，用于存储计算机指令，所述计算机指令被处理器执行时，完成实施例1中所述的方法。

实施例1中的方法可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器、闪存、只读存储器、可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器，处理器读取存储器中的信息，结合其硬件完成上述方法的步骤。为避免重复，这里不再详细描述。

本领域普通技术人员可以意识到，结合本实施例描述的各示例的单元即算法步骤，能够以电子硬件或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.一种面向法院判决文书的多尺度学习的文字识别方法，其特征在于，包括：

获取待识别的法院判决文书图像，提取印章区域；

2.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法，其特征在于，对法院判决文书图像进行分割，采用深度模型对每个像素块进行判断，获得包含印章痕迹的像素块，将其拼接后得到印章区域。

3.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法，其特征在于，所述印章生成网络模型的损失函数为：

L(G_a2B,G_B2A,F_B,F_A)＝L_CGAN(G_A2B,F_B,A,B)+L_CGAN(G_B2A,F_A,B,A)+γL_cyc(G_A2B,G_B2A)，

其中，G_A2B和G_B2A为生成器，F_A和F_B为鉴别器，A和B为图像集合，L_CGAN为RGB空间损失约束，L_cyc为循环一致性损失约束。

4.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法，其特征在于，所述特征提取采用特征金字塔网络进行特征提取，得到不同通道数的特征图，所述特征金字塔网络包括自底向上路径、自顶向下路径和跳跃连接，所述自底向上路径采用ResNet50网络，自底向上路径的输出作为自顶向下路径的输入，自顶向下路径的输出上采样至自底向上路径，并进行跳跃连接。

5.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法，其特征在于，所述全局目标检测包括：获取特征图的特征向量，将特征向量进行通道变化后输入双向LSTM网络中，将双向LSTM网络的输出进行通道变化后，依次经过全连接层和RPN层得到文本候选框。

6.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法，其特征在于，所述局部细节检测包括：标记不同尺度的分割标签，将特征图的大小进行归一化处理，依次进行通道合并和卷积处理后，得到不同尺度的渐进式掩膜，每一个渐进式掩膜中，对于同一处文本区域的预测尺度大小不相同。

7.如权利要求1所述的面向法院判决文书的多尺度学习的文字识别方法，其特征在于，所述文本检测模型的损失函数：

其中，L_c和L_s是局部细节检测的损失，L_cl和L_v是全局目标检测的损失，s_i表示文本框内包含文本的概率，s^*∈{0,1}表示文本框是否含有文本的标签，v_j是预测文本框位置，

8.一种面向法院判决文书的多尺度学习的文字识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令，所述计算机指令被处理器运行时，完成权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，用于存储计算机指令，所述计算机指令被处理器执行时，完成权利要求1-7任一项所述的方法。