CN114267047A

CN114267047A - 基于深度学习的电子卷宗文本检测方法、装置、介质及设备

Info

Publication number: CN114267047A
Application number: CN202111450912.5A
Authority: CN
Inventors: 王懿萱; 陈利军; 林焕凯; 洪曙光; 王祥雪; 刘双广
Original assignee: Xidian University; Gosuncn Technology Group Co Ltd
Current assignee: Xidian University; Gosuncn Technology Group Co Ltd
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-04-01

Abstract

本发明公开了一种基于深度学习的电子卷宗文本检测方法，包括：构建电子卷宗文本检测网络，对所述电子卷宗文本检测网络进行训练；获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像，所述目标电子卷宗图像为去除红色印章后的电子卷宗图像；以所述目标电子卷宗图像作为所述电子卷宗文本检测网络的输入，通过训练好的电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域。本发明解决了现有文本检测技术对电子卷宗进行检测时存在检测精度以及稳定性欠佳的问题。

Description

基于深度学习的电子卷宗文本检测方法、装置、介质及设备

技术领域

本发明涉及大数据技术领域，尤其涉及一种基于深度学习的电子卷宗文本检测方法、装置、介质及设备。

背景技术

在司法过程中推行电子卷宗随案生成，有效地推动了司法信息化水平的进一步提高。针对电子卷宗随案生成，需要对电子卷宗中的文本区域进行检测以便完成后续输入操作。然而现有的文本检测技术均为针对场景文本提出的，这是由于以往的电子文档场景单一、格式规范，对于文本的检测较为容易。而随着社会的发展，电子卷宗不同于传统电子卷宗，电子卷宗图像中存在不同字体、不同大小、不同版面、图文混合的情况，电子卷宗中文本存在的背景没有场景文本中那么色彩鲜明，也没有传统的电子文档版面那么简单。

可见，对于电子卷宗这种具有复杂版面以及各种长度需求的文本而言，现有的文本检测技术并不适用，存在检测精度及稳定性欠佳。

发明内容

本发明实施例提供了一种基于深度学习的电子卷宗文本检测方法、装置、介质及设备，以解决现有文本检测技术对电子卷宗进行检测时存在检测精度以及稳定性欠佳的问题。

一种基于深度学习的电子卷宗文本检测方法，所述方法包括：

构建电子卷宗文本检测网络，对所述电子卷宗文本检测网络进行训练；

获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像，所述目标电子卷宗图像为去除红色印章后的电子卷宗图像；

以所述目标电子卷宗图像作为所述电子卷宗文本检测网络的输入，通过训练好的电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域。

可选地，所述电子卷宗文本检测网络包括结合特征金字塔的主干网络ResNet50和自适应阈值算法层；

所述结合特征金字塔的主干网络ResNet50用于对所述电子卷宗文本检测网络的输入图像进行特征提取，得到多尺度融合特征；

所述自适应阈值算法层用于采用自适应阈值算法对所述多尺度融合特征进行分割，得到电子卷宗文本二值分割图。

可选地，所述结合特征金字塔的主干网络ResNet50包括第一阶段、第二阶段、第三阶段、第四阶段和第五阶段，其中所述第三阶段、第四阶段和第五阶段分别采用特征金字塔；

所述第三阶段、第四阶段和第五阶段分别通过上采样进行多尺度特征提取，得到对应的待融合特征；

所述第三阶段、第四阶段和第五阶段对应的待融合特征与主干网络ResNet50中的第五阶段提取的待融合特征进行特征融合，得到多尺度融合特征。

可选地，所述自适应阈值算法包括：

对所述多尺度融合特征进行卷积，得到输入图像对应的概率矩阵和阈值矩阵，其中，所述输入图像对应的概率矩阵中的每个元素表示输入图像中该元素所对应像素为文本的概率，所述输入图像对应的阈值矩阵中的每个元素表示输入图像中该元素所对应像素判断为文本的阈值；

根据所述概率矩阵和阈值矩阵计算出近似二值矩阵，所述近似二值矩阵作为电子卷宗文本二值分割图，其中每个元素表示输入图像中该元素所对应像素为文本或者非文本。

可选地，所述电子卷宗文本检测网络的输入图像的尺寸为640*640像素。

可选地，在对所述电子卷宗文本检测网络进行训练时，所述概率矩阵和近似二值矩阵采用Tversky损失函数，所述阈值矩阵采用L2损失函数。

可选地，所述获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像包括：

采用OpenCV中的cv.split()方法获取所述电子卷宗图像中的红色通道灰度图；

采用OpenCV中的cv2.threshold()方法对所述红色通道灰度图进行二值化处理；

设定参数cv2.THRESH_OTSU自动寻找最优阈值，通过最优阈值对红色通道灰度图中的每个像素进行筛选，若像素的灰度值大于所述最优阈值，则将电子卷宗图像对应的像素置为白色，否则将电子卷宗图像对应的像素置为黑色；

在遍历完所述红色通道灰度图上的像素后，将得到的黑白图像转换为三通道图像，得到目标电子卷宗图像。

一种基于深度学习的电子卷宗文本检测装置，所述装置包括：

构建模块，用于构建电子卷宗文本检测网络，对所述电子卷宗文本检测网络进行训练；

预处理模块，用于获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像，所述目标电子卷宗图像为去除红色印章后的电子卷宗图像；

检测模块，用于以所述目标电子卷宗图像作为所述电子卷宗文本检测网络的输入，通过训练好的电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域。

一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上所述的基于深度学习的电子卷宗文本检测方法。

一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的基于深度学习的电子卷宗文本检测方法。

本发明实施例通过构建电子卷宗文本检测网络，对所述电子卷宗文本检测网络进行训练；获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像，所述目标电子卷宗图像为去除红色印章后的电子卷宗图像，以去除电子卷宗上的红色印章等对后续文本区域检测产生的干扰，有利于更好地检测文本区域，提取更稳健的文本特征；以所述目标电子卷宗图像作为所述电子卷宗文本检测网络的输入，通过训练好的电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域；从而有效地提升了对电子卷宗进行检测时的精度以及稳定性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一实施例提供的基于深度学习的电子卷宗文本检测方法的流程图；

图2是本发明一实施例提供的基于深度学习的电子卷宗文本检测方法中步骤S102的实现流程图；

图3是本发明一实施例提供的基于深度学习的电子卷宗文本检测装置的结构示意图；

图4是本发明一实施例中计算机设备的一示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例通过在电子卷宗图像的特征提取步骤中，使用opencv色彩通道分离方法对电子卷宗进行处理，去除电子卷宗中红色印章等对后续文本区域检测产生的干扰，加强文本识别的稳健性。相比于现有文本检测技术，对电子卷宗预先进行红色印章等干扰的分离，有利于更好地检测到文本区域，提取更稳健的文本特征，再结合电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域，有效地提升了对电子卷宗进行检测时的精度以及稳定性。

以下对本实施例提供的基于深度学习的电子卷宗文本检测方法进行详细的描述。如图1所示，所述基于深度学习的电子卷宗文本检测方法包括：

在步骤S101中，构建电子卷宗文本检测网络，对所述电子卷宗文本检测网络进行训练。

在这里，本发明实施例基于卷积神经网来对电子卷宗进行文本检测，通过提取所输入的电子卷宗图像的特征信息，分析电子卷宗图像中的文本区域，实现对电子卷宗图像的文本信息检测。可选地，在本发明实施例中，所述电子卷宗文本检测网络包括结合特征金字塔的主干网络ResNet50和自适应阈值算法层；其中，所述结合特征金字塔(FeaturePyramid Network，简称FPN)的主干网络ResNet50用于对所述电子卷宗文本检测网络的输入图像进行特征提取，得到多尺度融合特征；所述自适应阈值算法层用于采用自适应阈值算法对所述多尺度融合特征进行分割，得到电子卷宗文本二值分割图。

具体地，所述结合特征金字塔的主干网络ResNet50包括第一阶段、第二阶段、第三阶段、第四阶段和第五阶段，其中所述第三阶段、第四阶段和第五阶段分别采用特征金字塔FPN；

在这里，所述电子卷宗文本检测网络，选取删除了全连接层后的ResNet50网络，包含第一阶段stage1、第二阶段stage2、第三阶段stage3、第四阶段stage4和第五阶段stage5五个阶段。其中，对ResNet50网络中的第三阶段stage3、第四阶段stage4、第五阶段stage5这三个阶段采用特征金字塔FPN，分别通过上采样进行多尺度特征提取，得到三个不同大小的待融合特征；再通过主干网络ResNet50中第五阶段stage5(未采用特征金字塔FPN)不经过上采样直接提取待融合特征，将两次提取的待融合特征进行特征融合，得到多尺度融合特征，作为电子卷宗图像的特征信息，有利于提高特征信息的准确性。之后将FPN提取的3层特征

可选地，所述自适应阈值算法包括：

在这里，对结合特征金字塔的主干网络ResNet50输出的多尺度融合特征，再次经过卷积得到电子卷宗图像相对应的概率矩阵和阈值矩阵，通过概率矩阵和阈值矩阵计算出近似二值矩阵，从而得到电子卷宗文本二值分割图。

所述电子卷宗文本检测网络的输入图像的尺寸为640*640像素。本发明实施例采用经色彩通道分离之后的训练样本对所述电子卷宗文本检测网络进行训练，色彩通道分离具体请参见下面实施例的叙述。在对所述电子卷宗文本检测网络进行训练时，结合特征金字塔的主干网络ResNet50的初始权重取imagenet上预训练的模型参数，阈值可更新参数Pm的初始值取10。损失函数作为训练过程中的目标函数，在训练过程中不断对其进行优化，期望得到性能更好的训练模型，鲁棒性也相应增加。因此，本发明实施例对主干网络和分割网络生成的概率矩阵、阈值矩阵、近似二值矩阵分别计算损失，其中，所述概率矩阵和近似二值矩阵采用Tversky损失函数，所述阈值矩阵采用L2损失函数；以避免训练过程中检测到过多的背景而引起的类别不均的问题，降低负样本对网络梯度的干扰，增加对数量较少的正样本的训练。

其中，Tversky损失函数是指基于Tversky指数的广义损失函数，这是一种基于一种Tversky指数函数提出的图像损失函数。Tversky损失函数的定义为：

在这里，X表示预测值，Y表示真实标签值，|X∩Y|表示各像素值点乘求和，|X-Y|表示为对各像素点的预测值与错误的真实值求和，|Y-X|对各像素点的真实值与错误的预测值求和，α、β分别控制错误预测为正的样本和错误预测为负的样本，其中α+β＝1，通过调整α和β的取值可以权衡正负样本，本发明实施例中α取值为0.25，β取值为0.75。

所述L2损失函数是指均方误差损失函数，又称二次损失函数。其中，L2损失函数的定义为：

其中，i表示图像中像素点的个数，i＝1、2、3、4…，t_i表示像素点的真实值，t_i’表示像素点的预测值。

总损失的定义为：L＝L_p+A×L_B+B×L_T。其中，L_P、L_B、L_T分别是概率矩阵的损失、近似二值特征矩阵的损失、阈值矩阵的损失，A和B为权重，A取值为1，B取值为9。

本发明实施例在概率图损失部分采用Tversky损失，近似二值图损失部分采用Tversky损失，阈值图损失部分采用L2损失，有利于降低正负样本失衡的影响，进一步加强电子卷宗图片文字检测的稳健性。与现有的DBNet文本检测方法相比，损失函数的优化可以进一步权衡训练中的正负样本比例，提升文本检测的效果。

在步骤S102中，获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像，所述目标电子卷宗图像为去除红色印章后的电子卷宗图像。

在获取到待处理的电子卷宗图像，将电子卷宗图像输入电子卷宗文本检测网络之前，本发明实施例还对所述电子卷宗图像进行色彩通道分离，以去除红色印章对后续文本区域检测产生的干扰。可选地，如图2所示，所述步骤S102还包括：

在步骤S1021中，采用OpenCV中的cv.split()方法获取所述电子卷宗图像中的红色通道灰度图。

在步骤S1022中，采用OpenCV中的cv2.threshold()方法对所述红色通道灰度图进行二值化处理。

在步骤S1023中，设定参数cv2.THRESH_OTSU自动寻找最优阈值，通过最优阈值对红色通道灰度图中的每个像素进行筛选，若像素的灰度值大于所述最优阈值，则将电子卷宗图像对应的像素置为白色，否则将电子卷宗图像对应的像素置为黑色。

在步骤S1024中，在遍历完所述红色通道灰度图上的像素后，将得到的黑白图像转换为三通道图像，得到目标电子卷宗图像。

在这里，本发明实施例使用opencv色彩通道分离方法对电子卷宗图像进行处理，去除电子卷宗图像中红色印章等对后续文本区域检测产生的干扰，加强文本识别的稳健性。相比于传统DBNet文本检测方法，通过增加对电子卷宗图像预先进行红色印章等干扰的分离，有利于更好地检测到文本区域，提取更稳健的文本特征。

在步骤S103中，以所述目标电子卷宗图像作为所述电子卷宗文本检测网络的输入，通过训练好的电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域。

对步骤S102输出的目标电子卷宗图像，在输入电子卷宗文本检测网络之前，需要缩放为固定尺寸的图片，即缩放为宽640个像素、高640个像素的大小。采用缩放后的目标电子卷宗图像作为所述训练好的电子卷宗文本检测网络的输入，通过所述结合特征金字塔的主干网络ResNet50提取目标电子卷宗图像的多尺度融合特征，然后通过所述自适应阈值算法得到所述目标电子卷宗图像对应的近似二值矩阵，根据所述近似二值矩阵判断所述目标电子卷宗图像对应的文字区域，从而实现对所述电子卷宗图像的文本检测。

应理解，上述实施例中各步骤的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

在一实施例中，本发明还提供一种基于深度学习的电子卷宗文本检测装置，该基于深度学习的电子卷宗文本检测装置与上述实施例中基于深度学习的电子卷宗文本检测方法一一对应。如图3所示，该基于深度学习的电子卷宗文本检测装置包括构建模块31、预处理模块32、检测模块33。各功能模块详细说明如下：

构建模块31，用于构建电子卷宗文本检测网络，对所述电子卷宗文本检测网络进行训练；

预处理模块32，用于获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像，所述目标电子卷宗图像为去除红色印章后的电子卷宗图像；

检测模块33，用于以所述目标电子卷宗图像作为所述电子卷宗文本检测网络的输入，通过训练好的电子卷宗文本检测网络提取所述目标电子卷宗图像中的文字区域。

可选地，所述自适应阈值算法包括：

可选地，所述预处理模块32包括：

获取单元，用于采用OpenCV中的cv.split()方法获取所述电子卷宗图像中的红色通道灰度图；

二值化单元，用于采用OpenCV中的cv2.threshold()方法对所述红色通道灰度图进行二值化处理；

筛选单元，用于设定参数cv2.THRESH_OTSU自动寻找最优阈值，通过最优阈值对红色通道灰度图中的每个像素进行筛选，若像素的灰度值大于所述最优阈值，则将电子卷宗图像对应的像素置为白色，否则将电子卷宗图像对应的像素置为黑色；

转换单元，用于在遍历完所述红色通道灰度图上的像素后，将得到的黑白图像转换为三通道图像，得到目标电子卷宗图像。

关于基于深度学习的电子卷宗文本检测装置的具体限定可以参见上文中对于基于深度学习的电子卷宗文本检测方法的限定，在此不再赘述。上述基于深度学习的电子卷宗文本检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是服务器，其内部结构图可以如图4所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于深度学习的电子卷宗文本检测方法。

在一个实施例中，提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现以下步骤：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，仅以上述各功能单元、模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能单元、模块完成，即将所述装置的内部结构划分成不同的功能单元或模块，以完成以上描述的全部或者部分功能。

以上所述实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的电子卷宗文本检测方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于深度学习的电子卷宗文本检测方法，其特征在于，所述电子卷宗文本检测网络包括结合特征金字塔的主干网络ResNet50和自适应阈值算法层；

3.如权利要求2所述的基于深度学习的电子卷宗文本检测方法，其特征在于，所述结合特征金字塔的主干网络ResNet50包括第一阶段、第二阶段、第三阶段、第四阶段和第五阶段，其中所述第三阶段、第四阶段和第五阶段分别采用特征金字塔；

4.如权利要求3所述的基于深度学习的电子卷宗文本检测方法，其特征在于，所述自适应阈值算法包括：

5.如权利要求4所述的基于深度学习的电子卷宗文本检测方法，其特征在于，所述电子卷宗文本检测网络的输入图像的尺寸为640*640像素。

6.如权利要求4所述的基于深度学习的电子卷宗文本检测方法，其特征在于，在对所述电子卷宗文本检测网络进行训练时，所述概率矩阵和近似二值矩阵采用Tversky损失函数，所述阈值矩阵采用L2损失函数。

7.如权利要求1所述的基于深度学习的电子卷宗文本检测方法，其特征在于，所述获取待处理的电子卷宗图像，采用OpenCV技术对所述电子卷宗图像进行色彩通道分离，得到目标电子卷宗图像包括：

8.一种基于深度学习的电子卷宗文本检测装置，其特征在于，所述装置包括：

9.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于深度学习的电子卷宗文本检测方法。

10.一种计算机设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述的基于深度学习的电子卷宗文本检测方法。