CN112991168A

CN112991168A - 一种基于目标检测和超分辨率的文本检测方法

Info

Publication number: CN112991168A
Application number: CN202110171639.6A
Authority: CN
Inventors: 王道累; 李超; 朱瑞; 韩清鹏; 袁斌霞; 康博; 孙嘉珺; 张天宇
Original assignee: Shanghai University of Electric Power
Current assignee: Shanghai University of Electric Power
Priority date: 2021-02-08
Filing date: 2021-02-08
Publication date: 2021-06-18
Anticipated expiration: 2041-02-08
Also published as: CN112991168B

Abstract

本发明涉及一种基于目标检测和超分辨率的文本检测方法，包括以下步骤：S1：建立文本图像数据库，构建改进文本检测模型，并利用文本图像数据库对改进文本检测模型进行训练；S2：搭建超分辨率模型，利用文本图像数据库对超分辨率模型进行训练；S3：将待检测图像输入改进文本检测模型，获取改进文本检测模型的输出文本框的置信度，若置信度大于等于设定置信度，将改进文本检测模型的输出作为文本检测结果输出，否则，对待检测图像进行超分辨率重建，将重建后图像输入改进文本检测模型并获取文本检测结果。与现有技术相比，本发明具有等检测效率高，识别能力强等优点。

Description

一种基于目标检测和超分辨率的文本检测方法

技术领域

本发明涉及文本检测领域，尤其是涉及一种基于目标检测和超分辨率的文本检测方法。

背景技术

静脉输注是患者接受治疗的主要手段之一，在我国医疗体系高达80％以上。医院静脉药物配置中心在合理用药，防止空气中微生物、微粒进入输液，减少输液反应，促进临床药学的发展等方面发挥了较大作用。在医药检测领域，静脉配置中心负责进行医院患者静脉输液药品的配置，使用视频监控配置人员药品配置的同时，检测药品配置无误可以降低工作人员的负担，减小错配概率，降低医疗风险。

静脉配置中心负责进行医院患者静脉输液药品的配置，在符合国际标准，依据药物特性设计的操作环境下，受过培训的药技人员、护理人员严格按照操作程序，进行包括全静脉营养液、细胞毒性药物和抗生素等药物配置。在静脉配置中心，由于病患所使用的输液因不同病症而异，因此要求医护人员配置输液前认真核查药品清单以保证配药正确，现阶段主要通过人为的“七查十对”来实现，但是由于输液配药的工作量很大，在占用大量的护理资源，降低护理工作质量的同时，也使医护人员容易出现操作疲劳，导致在病员拥挤的情况下出现配药差错，造成潜在的医疗纠纷。因此为了提高药品清单、药品文本的检测准确性和检测效率，现有技术中采用文本检测的方法对药品文本图像进行自动图像检测，但是现有的文本检测方法检测效率低，不能针对药品文本图像这一特殊场景下的图像进行有效检测，检测效率低。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于目标检测和超分辨率的文本检测方法。

本发明的目的可以通过以下技术方案来实现：

一种基于目标检测和超分辨率的文本检测方法，包括以下步骤：

S1：建立文本图像数据库，构建改进文本检测模型，并利用文本图像数据库对改进文本检测模型进行训练；

S2：搭建超分辨率模型，利用文本图像数据库对超分辨率模型进行训练；

S3：将待检测图像输入改进文本检测模型，获取改进文本检测模型的输出文本框的置信度，若置信度大于等于设定置信度，将改进文本检测模型的输出作为文本检测结果输出，否则，对待检测图像进行超分辨率重建，将重建后图像输入改进文本检测模型并获取文本检测结果。

优选地，所述的改进文本检测模型包括特征提取单元和预测器单元，所述的特征提取单元对改进文本检测模型的输入图像进行特征提取，获取预检测图，所述的预测器单元包括二值图提取模块、阈值图提取模块、复合特征图模块和检测头，所述的二值图提取模块将预检测图二值化获取二值图，所述的阈值图提取模块对于预检测图进行阈值分析获取阈值图，所述的复合特征图模块将二值图、阈值图加权合并获取复合特征图，将二值图、阈值图、复合特征图送入检测头，获取文本检测结果。

优选地，所述的特征提取单元包括骨干网模块、SKNet模块、FPN模块，所述的骨干网模块提取改进文本检测模型的输入图像的特征，获取骨干网特征图{C2，C3，C4，C5}，将骨干网特征图{C5}横向卷积后生成特征图{P5}，特征图{P5}自顶向下扩展的每层与对应的经1X1卷积处理的骨干网特征图{C2，C3，C4}横向融合分别形成特征图{P2，P3，P4}，完成特征金字塔{P2，P3，P4，P5}的构建，SKNet模块对{C5}进行处理获取{S5}，FPN模块将{P2，P3，P4，P5}和{S5}分别进行如下步骤拼接：将{S5}和{P5}扩大8倍，{P4}扩大4倍，{P3}扩大2倍后与{P2}合并拼接成Concat特征图。Concat特征图经卷积处理后得到预检测图。

优选地，所述的二值图提取模块基于二值化公式对与检测特征图进行二值化处理，所述的二值化公式为：

其中，X＝P(m,n)-T(m,n)，P(m,n)是预检测图中每一个特征值，T(m,n)为阈值图中的特征值，m、n为预检测图的坐标。

优选地，阈值图的获取步骤包括：确认判定阈值，将判定阈值与特征图中的每一个值进行比较，特征图中大于判定阈值的值变为1，特征图小于判定阈值的值变为0，获取阈值图。

优选地，所述的复合特征图模块将阈值图、二值图、预检测图相加后取均值获取复合特征图。

优选地，所述的改进文本检测模型的整体损失Loss为：

Loss＝αL_b+βL_t+γL_c

其中，L_b为二值图损失，L_t为阈值图损失，L_c为复合特征图损失，α为二值图权重，β为阈值图损失权重，γ为复合特征图损失权重。

优选地，所述的二值图损失L_b为交叉熵损失：

其中，L_b为二值图损失，R_i为二值图的预测区域，x_i为二值图目标值、y_i为二值图预测值。

优选地，所述的阈值图损失L_t为：

其中，L_t为阈值图损失，R_d为阈值图的预测区域，

为阈值图目标值，

为阈值图预测值。

优选地，所述的复合特征图损失Lc为：

其中，Lc为复合特征图损失，Y'为'复合特征图输出的预测框，Y为目标框，Y'^T为Y'的转置。

优选地，所述的超分辨率模型为采用SRFlow模型或基于GAN的图像增强超分辨率模型。

与现有技术相比，本发明具有如下优点：

(1)本发明利用改进文本检测模型与超分辨率模型配合，对输入的图像能够进行先检测，若置信度低，进行超分辨率重建后再检测，有效提高本发明的图像文本检测准确性，并且与直接超分辨率重建后进行文本检测相比，本发明的检测效率高，检测流程合理，针对药品文本这一特殊场景下的文本检测有良好的识别效果，同时针对难以检测的模糊文本和较小文本有较好的识别能力；

(2)本发明的改进文本检测模型的预测器单元采用二值图提取模块、阈值图提取模块、复合特征图模块，根据预检测图分别提取阈值图、二值图、复合特征图，进行后续的预测，能够充分获取预检测图的图像特征，有效提高本发明对文本图像检测的识别准确性和识别效率；

(3)本发明的特征提取单元包括骨干网模块、SKNet模块、FPN模块，能够有效对输入的待检测图像进行特征提取，提高本发明后续流程对文本图像识别的准确性。

附图说明

图1为本发明的流程图；

图2为本发明的改进文本检测模型的结构示意图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。注意，以下的实施方式的说明只是实质上的例示，本发明并不意在对其适用物或其用途进行限定，且本发明并不限定于以下的实施方式。

实施例

一种基于目标检测和超分辨率的文本检测方法，如图1所示，包括以下步骤：

S1：建立文本图像数据库，构建改进文本检测模型，并利用文本图像数据库对改进文本检测模型进行训练。

本发明中将文本图像数据库中每一张图像中每个文本框的多个顶点坐标进行标注，将其坐标、边框、检测信息类别一起写入到标签文件中，构建文本图像数据库中每一张图片对应一个标签，对于存在特殊倾斜曲面的文本在标注中添加困难样本特征，并将其中每一个字体进行标注，特别的，对模糊和文本较小的数据同时使用超分辨率模型进行修复后，将处理前后的图像数据标注后放入检测数据集中。特别的，针对可能存在的曲面文本采用余弦损失进行推理，有效提高对药品图像内容检测的效果。

本发明的改进文本检测模型包括特征提取单元和预测器单元。

对于特征提取单元，如图2所示，特征提取单元包括骨干网模块、SKNet模块、FPN模块，骨干网模块可采用ResNet、MobileNet等通用架构。

本实施例中，骨干网模块提取改进文本检测模型的输入图像的特征，获取骨干网特征图{C2，C3，C4，C5}，将骨干网特征图{C5}横向卷积后生成特征图{P5}，特征图{P5}自顶向下扩展的每层与对应的经1X1卷积处理的骨干网特征图{C2，C3，C4}横向融合分别形成特征图{P2，P3，P4}，完成特征金字塔{P2，P3，P4，P5}的构建。具体地：{C4}经过卷积处理的输出与{P5}进行融合获取输出层特征图{P4}，{C3}经过卷积处理的的输出与{P4}进行融合获取输出层特征图{P3}，{C2}经过卷积处理模块的输出与{P3}进行融合获取输出层特征图{P2}，在骨干网特征图进行深度学习中，{C2，C3，C4，C5}特征图的H和W维度分别降低成1/2，1/4，1/8，1/16。

进一步地，SKNet模块对{C5}进行处理获取{S5}，FPN模块将{P2，P3，P4，P5}和{S5}分别进行如下步骤拼接：将{S5}和{P5}扩大8倍，{P4}扩大4倍，{P3}扩大2倍后与{P2}合并拼接成Concat特征图，Concat特征图经卷积处理后得到预检测图。

对于预测器单元，预测器单元包括二值图提取模块、阈值图提取模块、复合特征图模块和检测头，所述的二值图提取模块将预检测图二值化获取二值图，所述的阈值图提取模块对于预检测图进行阈值分析获取阈值图，所述的复合特征图模块将二值图、阈值图加权合并获取复合特征图，将二值图、阈值图、复合特征图送入检测头，获取文本检测结果。

进一步地，二值图、阈值图、复合特征图的获取方式如下：

二值图提取模块基于二值化公式对与检测特征图进行二值化处理，所述的二值化公式为：

阈值图的获取步骤包括：确认判定阈值，将判定阈值与特征图中的每一个值进行比较，特征图中大于判定阈值的值变为1，特征图小于判定阈值的值变为0，获取阈值图。

所述的复合特征图模块将阈值图、二值图、预检测图相加后取均值获取复合特征图，复合特征图＝(二值图+阈值图+特征图)/3。

本实施例中，二值图、阈值图、复合特征图输入检测头，选取置信度最高的文本检测结果作为检测头的输出。

综合地，对于改进文本检测模型，改进文本检测模型的整体损失Loss为：

Loss＝αL_b+βL_t+γL_c

具体地，所述的二值图损失L_b为交叉熵损失：

其中，L_b为二值图损失，R_i为二值图的预测区域，x_i为二值图目标值、y_i为二值图预测值；

阈值图损失L_t为：

其中，L_t为阈值图损失，R_d为阈值图的预测区域，

为阈值图目标值，

为阈值图预测值；

复合特征图损失Lc为：

S2：搭建超分辨率模型，利用文本图像数据库对超分辨率模型进行训练。本发明的超分辨率模型为采用SRFlow模型或基于GAN的图像增强超分辨率模型。

S3：将待检测图像输入改进文本检测模型，获取改进文本检测模型的输出文本框的置信度，若置信度大于等于设定置信度，将文本检测模型的输出作为文本检测结果输出，否则，对待检测图像进行超分辨率重建，将重建后图像输入改进文本检测模型并获取文本检测结果。

具体地，S3的流程为：

S31：将待检测图像输入改进文本检测模型，获取改进文本检测模型的输出文本框及其置信度；

S32：判断输出文本框的置信度是否置信度大于等于设定置信度，若是将输出文本框作为文本检测结果输出，否则进入步骤S33：

S33：将待检测图像输入超分辨率模型，对待检测图像进行超分辨率重建，并将重建后的图像输入改进文本检测模型，获取改进文本检测模型的输出文本框作为文本检测结果输出。

上述实施方式仅为例举，不表示对本发明范围的限定。这些实施方式还能以其它各种方式来实施，且能在不脱离本发明技术思想的范围内作各种省略、置换、变更。