CN112597918A

CN112597918A - 文本检测方法及装置、电子设备、存储介质

Info

Publication number: CN112597918A
Application number: CN202011574458.XA
Authority: CN
Inventors: 张发恩; 陆强
Original assignee: Innovation Qizhi Xi'an Technology Co ltd
Current assignee: Innovation Qizhi Xi'an Technology Co ltd
Priority date: 2020-12-25
Filing date: 2020-12-25
Publication date: 2021-04-02
Anticipated expiration: 2040-12-25
Also published as: CN112597918B

Abstract

本申请提供一种文本检测方法及装置、电子设备、存储介质，该方法包括：获取待处理文本图像；将待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图；将不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图；将融合特征图分别作为概率分支网络和二值化分支网络的输入，得到概率分支网络输出的概率分布图和二值化分支网络输出的文本区域掩膜图；利用概率分布图修正文本区域掩膜图中框出的文本区域。由此可以简化计算，提高文本检测的准确性。

Description

文本检测方法及装置、电子设备、存储介质

技术领域

本申请涉及图像处理技术领域，特别涉及一种文本检测方法及装置、电子设备、计算机可读存储介质。

背景技术

文本检测是文字识别算法流程的一部分，一般是指对文本图像进行文本行信息的检测与提取，获取文字图像上各文本行的位置的过程，以便后续用于对各文本行进行文本识别从而构成一个基本的OCR文字识别流程。

随着深度学习的兴起，文本检测方法由原有的基于传统图像处理的方法，慢慢变为使用深度学习方法，常用方法为图像目标检测、图像目标分割等计算机视觉领域的方法，不同场景的缺陷检测需求不同，因此检测方法也多种多样。目前一种比较流行的文本检测方法是基于滑动窗口的文本检测方法。该方法基于通用目标检测的思想，设置大量不同长宽比、不同大小的锚点框，以这些锚点框为滑动窗口，在图像上或者在从图像上进行过卷积操作得到的特征映射图上进行遍历搜索，对于每个搜索到的位置框，进行框内是否是文本的分类判定。但是，这种方法计算量过大，不仅需要耗费大量计算资源，而且耗时较长。

发明内容

本申请实施例提供了一种文本检测方法，可以减少耗费的计算资源。

本申请实施例提供了一种文本检测方法，所述方法包括：

获取待处理文本图像；

将所述待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图；

将所述不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图；

将所述融合特征图分别作为概率分支网络和二值化分支网络的输入，得到所述概率分支网络输出的概率分布图和所述二值化分支网络输出的文本区域掩膜图；

利用所述概率分布图修正所述文本区域掩膜图中框出的文本区域。

在一实施例中，按照尺度由大到小，所述多张深度特征图包括第一特征图、第二特征图和第三特征图；所述将所述不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图，包括：

将所述第三特征图通过训练的第一卷积核进行卷积计算，并将计算结果按照第一倍数上采样生成第三放大特征图；

将所述第三特征图与所述第二特征图进行特征融合，得到第二放大特征图；

将所述第二特征图与所述第一特征图进行特征融合，得到第一放大特征图；

将所述第一放大特征图、所述第二放大特征图和所述第一放大特征图拼接得到所述融合特征图。

在一实施例中，所述将所述第三特征图与所述第二特征图进行特征融合，得到第二放大特征图，包括:

将所述第三特征图通过训练的第二卷积核进行卷积计算，并将计算结果按照第二倍数进行上采样，得到第一中间特征图；

将所述第一中间特征图与所述第二特征图进行叠加；

将叠加结果通过训练的第三卷积核进行卷积计算，并将计算结果按照第三倍数进行上采样，得到所述第二放大特征图。

在一实施例中，所述将所述第二特征图与所述第一特征图进行特征融合，得到第一放大特征图，包括：

将所述第二特征图通过训练的第四卷积核进行卷积计算，并将计算结果按照第四倍数进行上采样，得到第二中间特征图；

将所述第二中间特征图与所述第一特征图进行叠加；

将叠加结果通过训练的第五卷积核进行卷积计算，并将计算结果按照第五倍数进行上采样，得到所述第一放大特征图。

在一实施例中，所述利用所述概率分布图修正所述文本区域掩膜图中框出的文本区域，包括：

将所述概率分布图中的最小概率值作为阈值，找出概率大于所述阈值的像素点；

根据所述像素点的位置，修正所述文本区域掩膜图中框出的文本区域。

在一实施例中，在所述将所述待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图之前，所述方法还包括：

利用已知概率分布图和文本区域掩膜图的样本图像进行深度学习，训练得到所述骨干网络、所述特征融合架构、所述概率分支网络以及所述二值化分支网络。

在一实施例中，所述利用已知概率分布图和文本区域掩膜图的样本图像进行深度学习，包括：

通过初始骨干网络、初始特征融合架构、初始概率分支网络以及初始二值化分支网络，提取所述样本图像的预测概率分布图和预测文本区域掩膜图；

根据所述样本图像的预测概率分布图和预测文本区域掩膜图，按照预设融合公式，得到二值化图；

根据所述样本图像的已知概率分布图和文本区域掩膜图、预测概率分布图和预测文本区域掩膜图以及所述二值化图，计算损失函数值；

反向优化所述初始骨干网络、初始特征融合架构、初始概率分支网络以及初始二值化分支网络的网络参数，直到使所述损失函数值满足预设条件。

本申请实施例提供了一种文本检测装置，该装置包括：

图像获取模块，用于获取待处理文本图像；

特征提取模块，用于将所述待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图；

特征融合模块，用于将所述不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图；

分支检测模块，用于将所述融合特征图分别作为概率分支网络和二值化分支网络的输入，得到所述概率分支网络输出的概率分布图和所述二值化分支网络输出的文本区域掩膜图；

文本修正模块，用于利用所述概率分布图修正所述文本区域掩膜图中框出的文本区域。

本申请实施例提供了一种电子设备，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行上述文本检测方法。

本申请实施例提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成上述文本检测方法。

本申请上述实施例提供的技术方案，通过骨干网络和特征融合架构可以提起待处理图像的融合特征图，进而通过两个分支网络得到概率分布图和文本区域掩膜图；概率分布图可以用于修正文本区域掩膜图中框出的文图区域，由此可以简化计算，提高文本检测的准确性，

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例中所需要使用的附图作简单地介绍。

图1是本申请实施例提供的电子设备的结构示意图；

图2是本申请实施例提供的文本检测方法的流程示意图；

图3是图2对应实施例中步骤S230的细节流程图；

图4是本申请实施例提供的特征融合架构示意图；

图5是本申请实施例提供的两个网络分支的示意图；

图6是本申请实施例提供的样本图像的标签示意图；

图7是本申请实施例提供的文本检测模型的训练流程示意图；

图8是本申请实施例提供的文本检测装置的框图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行描述。

相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步定义和解释。同时，在本申请的描述中，术语“第一”、“第二”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

图1是本申请实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本申请实施例提供的文本检测方法。如图1所示，该电子设备100包括：一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中，所述处理器102被配置为执行本申请下述实施例提供的文本检测方法。

所述处理器102可以是网关，也可以为智能终端，或者是包含中央处理单元(CPU)、图像处理单元(GPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备，可以对所述电子设备100中的其它组件的数据进行处理，还可以控制所述电子设备100中的其它组件以执行期望的功能。

所述存储器104可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器102可以运行所述程序指令，以实现下文所述的文本检测方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据，例如所述应用程序使用和/或产生的各种数据等。

在一实施例中，图1所示电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110，这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意，图1所示的电子设备100的组件和结构只是示例性的，而非限制性的，根据需要，所述电子设备100也可以具有其他组件和结构。

所述输入装置106可以是用户用来输入指令的装置，并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如，用户)输出各种信息(例如，图像或声音)，并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像，并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地，该数据采集装置110可以为摄像头。

在一实施例中，用于实现本申请实施例的文本检测方法的示例电子设备100中的各器件可以集成设置，也可以分散设置，诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体，而将数据采集装置110分离设置。

在一实施例中，用于实现本申请实施例的文本检测方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、智能手表、车载设备等智能终端。

图2是本申请实施例提供的文本检测方法的流程示意图。该方法可以上述电子设备100执行，如图2所示，该方法包括以下步骤S210-步骤S240。

步骤S210：获取待处理文本图像。

其中，待处理文本图像可以由电子设备直接采集得到，也可以由外部设备发送到此电子设备。其中，待处理文本图像是指包含文本的图像，且文本的位置未知。

步骤S220：将所述待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图。

其中，骨干网络可以提前训练得到，不同尺度是指深度特征图的尺寸不同。深度特征图用于表征待处理文本图像的特征。举例来说，骨干网络(backbone)可以是ResNet50网络。在一实施例中，待处理图像的大小可以是640×640，经ResNet50网络的最后三级特征层，依次可以得到大小为80×80，40×40，20×20的特征图。为进行区分，按照尺度由大到小，依次可以称为第一特征图、第二特征图和第二特征图。

步骤S230：将所述不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图。

其中，特征融合架构的参数可以提前训练得到，特征融合架构又可以称为encoder(编码)模块。其中，特征融合是指将多张深度特征图合并为一张特征图，为进行区分，合并得到特征图，称为融合特征图。

在一实施例中，如图3所示，上述步骤S230可以包括以下步骤S231-步骤S234。

步骤S231：将所述第三特征图通过训练的第一卷积核进行卷积计算，并将计算结果按照第一倍数上采样生成第三放大特征图。

其中，第三特征图即尺度最小的特征图。举例来说，如图4所示，第三特征图R3通过训练的1×1卷积核(即第一卷积核)进行卷积计算，之后将卷积计算结果进行8倍(即第一倍数)上采样得到R3’(相当于第三放大特征图)。上采样可以采用已有的插值方法。

步骤S232：将所述第三特征图与所述第二特征图进行特征融合，得到第二放大特征图。

如图4所示，第二特征图R2与第三特征图R3，融合可以得到第二放大特征图R2’。具体可以将第三特征图R3通过训练的第二卷积核(1×1)进行卷积计算，并将计算结果按照第二倍数(如2倍)进行上采样，得到第一中间特征图；将第一中间特征图与第二特征图R2进行叠加(element-wise add)；将叠加结果通过训练的第三卷积核(1×1)进行卷积计算，并将计算结果按照第三倍数(如4倍)进行上采样，得到第二放大特征图R2’。

步骤S233：将所述第二特征图与所述第一特征图进行特征融合，得到第一放大特征图。

如图4所示，第二特征图R2与第一特征图R1，融合得到第一放大特征图R1’。具体可以将第二特征图R2通过训练的第四卷积核(1×1)进行卷积计算，并将计算结果按照第四倍数(如2倍)进行上采样，得到第二中间特征图；将第二中间特征图与第一特征图R1进行叠加(element-wise add)；将叠加结果通过训练的第五卷积核(1×1)进行卷积计算，并将计算结果按照第五倍数(如2倍)进行上采样，得到第一放大特征图R1’。

步骤S234：将所述第一放大特征图、所述第二放大特征图和所述第一放大特征图拼接得到所述融合特征图。

如图4所示，第一放大特征图R1’、第二放大特征图R2’、第三放大特征图R3’拼接(concat)得到融合特征图R。

步骤S240：将所述融合特征图分别作为概率分支网络和二值化分支网络的输入，得到所述概率分支网络输出的概率分布图和所述二值化分支网络输出的文本区域掩膜图。

其中，概率分支网络和二值化分支网络可以提前训练得到。概率分支网络和二值化分支网络又可以称为decoder(解码)模块。融合特征图输入概率分支网络，即可输出概率分布图。融合特征图输入二值化分支网络，即可输出文本区域掩膜图。

其中，概率分布图用于指示每个像素点属于文本所在区域的概率。越靠近文本行中心概率越大，文本行边界和背景的概率较小。文本区域掩膜图是二值化图像，其中，预测的文本区域可以用白色表示，非文本区域用黑色表示。

在一实施例中，如图5所示，融合特征图R通过两个分支网络分别进行3x3卷积+1x1卷积+4倍上采样+sigmoid操作(两个分支网络的权重参数不同)，得到概率分布图(即global threshold map)以及文本区域掩膜图(即shrink text map)。

步骤S250：利用所述概率分布图修正所述文本区域掩膜图中框出的文本区域。

由于概率分布图指示了每个像素点属于文本位置的概率，故如果某个像素点属于文本的概率较高，而此像素点如果不在文本区域掩膜图框出的文本区域内，例如此像素点不在文本区域掩膜图的白色区域内，则可以修改文本区域掩膜图，将此像素点作为文本区域。

在一实施例中，可以将概率分布图中的最小概率值作为阈值，找出概率大于阈值的像素点；根据这些像素点的位置，修正文本区域掩膜图中框出的文本区域。即如果这些像素点中的某个像素点不在文本区域掩膜图框出的文本区域内，则需要修改文本区域掩膜图框出的文本区域，使其包含这些像素点。之后通过连通域计算和轮廓回归可以得到各个文本行的位置。

其中，仅基于概率图的文本检测模型在后处理过程中需要采用人为按经验设定阈值得到各文本行的位置，且后处理较为复杂，本申请实施例将后处理时的阈值加入到网络训练中，且后处理简单。

在一实施例中，在上述步骤S220之前，本申请实施例提供的方法还包括：利用已知概率分布图和文本区域掩膜图的样本图像进行深度学习，训练得到所述骨干网络、所述特征融合架构、所述概率分支网络以及所述二值化分支网络。

其中，样本图像可以认为是已知概率分布图和文本区域掩膜图的包含文本的图像。如图6所示，第一列为样本图像，第二列为第一列的样本图像的文本区域掩膜图，第三列为第一列的样本图像的概率分布图。其中，样本图像的文本区域掩膜图可以根据标注数据，制作各文本行的二值化mask(掩膜)图像，并向多边形内shrink(缩短)一定距离(例如采用高的一半)。制作文本行区域的概率分布图，可以使越靠近文本行中心概率越大，其中文本区域掩膜图中的白色像素范围内的概率都是一样的，都是取最大值，文本行边界和背景的概率最小，概率范围为0.3-0.7。

在一实施例中，骨干网络、所述特征融合架构、所述概率分支网络以及所述二值化分支网络一起可以称为文本检测模型。如图7所示，文本检测模型的训练步骤可以包括步骤S710-步骤S740。

步骤S710：通过初始骨干网络、初始特征融合架构、初始概率分支网络以及初始二值化分支网络，提取所述样本图像的预测概率分布图和预测文本区域掩膜图。

为进行区分，参数未训练完成之前的网络模型可以称为初始xx网络，例如，初始骨干网络在权重参数训练完成可以称为骨干网络。同样的，初始特征融合架构在权重参数训练完成之后，可以称为特征融合架构，以此类推。

为进行区分，样本图像通过未完成训练的文本检测模型获得的概率分布图和文本区域掩膜图，可以称为预测概率分布图和预测文本区域掩膜图。

步骤S720：根据所述样本图像的预测概率分布图和预测文本区域掩膜图，按照预设融合公式，得到二值化图。

其中，预设融合公式可以是1/(1+e^-100*(s-g))，式中s代表预测文本区域掩膜图，g代表预测概率分布图。预测文本区域掩膜图和预测概率分布图通过此公式计算得到的结果，可以称为binarymap(二值化图)。该预设融合公式可以起到一个跟固定阈值类似的区分值的效果，同时计算loss(损失)时把预测文本区域掩膜图和预测概率分布图联系了起来。

步骤S730：根据所述样本图像的已知概率分布图和文本区域掩膜图、预测概率分布图和预测文本区域掩膜图以及所述二值化图，计算损失函数值。

其中，基于样本图像已知的概率分布图和文本区域掩膜图，可以计算出样本图像真实的二值化图。损失函数值可以分为三个部分，cross entropy loss(交叉熵损失)、diceloss以及L1 loss(L1范数损失函数，也被称为最小绝对值偏差LAD，最小绝对值误差LAE)。

具体的，可以根据样本图像的预测概率分布图、预测文本区域掩膜图以及预测的二值化图，以及根据样本图像真实的概率分布图、真实的文本区域掩膜图以及真实的二值化图，按照cross entropy loss损失函数公式、dice loss损失函数公式以及L1 loss损失函数公式，计算cross entropy loss(交叉熵损失)、dice loss以及L1 loss。其中，总体的损失函数值，可以是这三部分损失函数值之和。

步骤S740：反向优化所述初始骨干网络、初始特征融合架构、初始概率分支网络以及初始二值化分支网络的网络参数，直到使所述损失函数值满足预设条件。

在一实施例中，可以通过反向传播算法，调整初始骨干网络、初始特征融合架构、初始概率分支网络以及初始二值化分支网络的网络参数，直到总体的损失函数值满足预设条件。预设条件可以是损失函数值小于阈值。

下述为本申请装置实施例，可以用于执行本申请上述文本检测方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请文本检测方法实施例。

图8为本申请一实施例示出的文本检测装置的框图，如图8所示，该装置包括：图像获取模块810、特征提取模块820、特征融合模块830、分支检测模块840以及文本修正模块850。

图像获取模块810，用于获取待处理文本图像；

特征提取模块820，用于将所述待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图；

特征融合模块830，用于将所述不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图；

分支检测模块840，用于将所述融合特征图分别作为概率分支网络和二值化分支网络的输入，得到所述概率分支网络输出的概率分布图和所述二值化分支网络输出的文本区域掩膜图；

文本修正模块850，用于利用所述概率分布图修正所述文本区域掩膜图中框出的文本区域。

上述装置中各个模块的功能和作用的实现过程具体详见上述文本检测方法中对应步骤的实现过程，在此不再赘述。

在本申请所提供的几个实施例中，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或两个以上模块集成形成一个独立的部分。

功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims

1.一种文本检测方法，其特征在于，所述方法包括：

获取待处理文本图像；

2.根据权利要求1所述的方法，其特征在于，按照尺度由大到小，所述多张深度特征图包括第一特征图、第二特征图和第三特征图；所述将所述不同尺度的多张深度特征图按照特征融合架构进行特征融合，得到融合特征图，包括：

3.根据权利要求2述的方法，其特征在于，所述将所述第三特征图与所述第二特征图进行特征融合，得到第二放大特征图，包括:

将所述第一中间特征图与所述第二特征图进行叠加；

4.根据权利要求2述的方法，其特征在于，所述将所述第二特征图与所述第一特征图进行特征融合，得到第一放大特征图，包括：

将所述第二中间特征图与所述第一特征图进行叠加；

5.根据权利要求1的方法，其特征在于，所述利用所述概率分布图修正所述文本区域掩膜图中框出的文本区域，包括：

6.根据权利要求1的方法，其特征在于，在所述将所述待处理文本图像通过骨干网络转换成不同尺度的多张深度特征图之前，所述方法还包括：

7.根据权利要求6的方法，其特征在于，所述利用已知概率分布图和文本区域掩膜图的样本图像进行深度学习，包括：

8.一种文本检测装置，其特征在于，包括：

图像获取模块，用于获取待处理文本图像；

9.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为执行权利要求1-7任意一项所述的文本检测方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序可由处理器执行以完成权利要求1-7任意一项所述的文本检测方法。