CN111027637A

CN111027637A - 一种文字检测方法及计算机可读存储介质

Info

Publication number: CN111027637A
Application number: CN201911315621.8A
Authority: CN
Inventors: 何健; 吕学强; 吴松博; 游新冬; 董志安
Original assignee: Beijing Luoqi Intelligent Medical Technology Co Ltd; Beijing Information Science and Technology University
Current assignee: Beijing Luoqi Intelligent Medical Technology Co Ltd; Beijing Information Science and Technology University
Priority date: 2019-12-19
Filing date: 2019-12-19
Publication date: 2020-04-17

Abstract

本申请公开了一种文字检测方法及计算机可读存储介质，方法包括：对图像进行预处理；利用CTPN网络模型对预处理后的图像进行文字检测。所述对图像进行预处理包括图像矫正、图像切割和图像增强。所述图像切割包括：通过霍夫直线检测，得到若干线段；通过水平扫描来拼接线段；统计每一行像素覆盖的情况，最大覆盖行即为直线行；将检测的若干条水平直线进行排序，最大间隔的相邻直线之间即为待检测区域；剔除敏感区域，保留待检测区域。本申请实施例提供的文字检测方法，进行图像矫正，敏感信息去除和图像增强的预处理，采用改进的CTPN网络进行文字检测，检测的准确率、召回率、F1值均大大提升，能够很好地满足实际应用的需要。

Description

一种文字检测方法及计算机可读存储介质

技术领域

本申请涉及计算机技术领域，具体涉及一种文字检测方法及计算机可读存储介质。

背景技术

近年来，人工智能的发展为智慧医疗提供了强大的技术支持，以计算机视觉为基础的化验单解读能够有效的提高就医效率，减缓就医压力。自2014年起， R-CNN深度学习算法在目标检测领域取得优异的成绩，使整个学术界以及工业界掀起了一股人工智能的浪潮，各类检测算法应运而生。在现代生产活动中，机器大有取代人类完成复杂繁重的工作之势，智慧医疗的出现能够很好的缓解看病难的问题。对于自然场景下化验单文字检测并去除敏感区域，目前存在的检测方法都存在一定的缺陷，存在化验单文字检测方法效果无法达到实用标准以及敏感信息区域无法有效过滤的问题。

发明内容

本申请的目的是提供一种文字检测方法及计算机可读存储介质。为了对披露的实施例的一些方面有一个基本的理解，下面给出了简单的概括。该概括部分不是泛泛评述，也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念，以此作为后面的详细说明的序言。

根据本申请实施例的一个方面，提供一种文字检测方法，包括：

对图像进行预处理；

利用CTPN网络模型对预处理后的图像进行文字检测。

进一步地，所述对图像进行预处理包括图像矫正、图像切割和图像增强。

进一步地，所述图像矫正包括：

构建尺度空间金字塔，构造n个2倍下采样层和n个1.5倍下采样层；

通过FAST5-8和FAST9-16对2n+1张图进行特征点检测，选取26邻域FAST 的得分最大值作为特征点；

对位置方向进行二维二次函数插值，再对尺度方向进行一维插值；

对特征点周围的采样区域进行旋转到主方向，得到新的采样区域；

通过计算特征描述的汉明距离进行特征点匹配。

进一步地，所述图像切割包括：

通过霍夫直线检测，得到若干线段；

通过水平扫描来拼接线段；

统计每一行像素覆盖的情况，最大覆盖行即为直线行；

将检测的若干条水平直线进行排序，最大间隔的相邻直线之间即为待检测区域；

剔除敏感区域，保留待检测区域。

进一步地，所述图像增强包括：

进行前景提取，通过预估出原图的背景图与原图做差得到前景图；

通过选取某点邻域最高亮度的若干个点，去掉最大值，剩余值的平均值设为该点的背景像素值。

进一步地，所述图像增强还包括：

对图像进行二值化，以某像素点为中心，根据当前像素点邻域内的灰度均值与标准方差来动态计算该像素点的阈值。

进一步地，所述CTPN网络模型以VGG网络作为骨干网络，引入1*1卷积核，引入多尺度卷积核，对n*n卷积核进行1*n和n*1拆分；n为正整数。

进一步地，所述CTPN网络模型采用的损失函数包括：第一部分是二分类，使用交叉熵损失函数；第二部分垂直方向偏移量回归，使用smooth L1损失函数；第三部分为水平方向偏移量回归，使用smooth L1损失函数。

进一步地，所述利用CTPN网络模型对预处理后的图像进行文字检测，包括：

浅层特征提取；

深度特征提取；

使用BiLSTM进行位置关联；

通过设定anchor进行位置预测，并通过NMS对文本框进行过滤；

构造文本线得到最终的预测结果。

根据本申请实施例的另一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现所述的文字检测方法。

本申请实施例的其中一个方面提供的技术方案可以包括以下有益效果：

本申请实施例提供的文字检测方法，进行图像矫正，敏感信息去除和图像增强的预处理，采用改进的CTPN网络进行文字检测，检测的准确率、召回率、 F1值均大大提升，能够很好地满足实际应用的需要。

本申请的其他特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者，部分特征和优点可以从说明书中推知或毫无疑义地确定，或者通过实施本申请实施例了解。本申请的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请的一个实施例的文字检测方法的流程图；

图2示出了本申请的一个实施例中的霍夫变换的过程示意图；

图3示出了本申请的一个实施例的改进的CTPN网络的模型结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，下面结合附图和具体实施例对本申请做进一步说明。应当理解，此处所描述的具体实施例仅用以解释本申请，并不用于限定本申请。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本申请的一个实施例提供了一种文字检测方法，包括：

对图像进行预处理；

利用CTPN网络模型对预处理后的图像进行文字检测。

在某些实施方式中，所述对图像进行预处理包括图像矫正、图像切割和图像增强。

在某些实施方式中，所述图像矫正包括：

通过计算特征描述的汉明距离进行特征点匹配。

在某些实施方式中，所述图像切割包括：

通过霍夫直线检测，得到若干线段；

通过水平扫描来拼接线段；

统计每一行像素覆盖的情况，最大覆盖行即为直线行；

剔除敏感区域，保留待检测区域。

在某些实施方式中，所述图像增强包括：

在某些实施方式中，所述图像增强还包括：

在某些实施方式中，所述CTPN网络模型以VGG网络作为骨干网络，引入 1*1卷积核，引入多尺度卷积核，对n*n卷积核进行1*n和n*1拆分；n为正整数。

在某些实施方式中，所述CTPN网络模型采用的损失函数包括：第一部分是二分类，使用交叉熵损失函数；第二部分垂直方向偏移量回归，使用smooth L1 损失函数；第三部分为水平方向偏移量回归，使用smooth L1损失函数。

在某些实施方式中，所述利用CTPN网络模型对预处理后的图像进行文字检测，包括：

浅层特征提取；

深度特征提取；

使用BiLSTM进行位置关联；

通过设定anchor进行位置预测，并通过NMS对文本框进行过滤；

构造文本线得到最终的预测结果。

本实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以实现所述的文字检测方法。

如图1所示，本申请的另一个实施例提供了一种文字检测方法，分为四个部分对自然场景下化验单的文字区域进行检测，包括：

第一步，图像矫正，将倾斜的图片矫正为水平方向。

第二步，图像切割，切除脱敏信息区域，只保留待检测区域。

第三步，使用前景提取和二值化进行图像增强，

第四步，训练基于改进的CTPN网络。

具体地：

基于BRISK算法的图像矫正

自然场景下化验单并不是水平拍摄的，存在不同程度的倾斜，为了解决这个问题，引用了BRISK角点检测匹配算法，使最终的化验单都呈现水平方向。 BRISK角点检测匹配算法具有旋转不变形，尺度不变形，有较好的鲁棒性，性能极为出色。BRISK角点检测匹配算法主要包含三步：角点检测、特征描述、特征匹配；主要利用匹配的特征角点，构建映射关系，然后通过模板匹配还原任意角度拍摄的化验单。

首先，构建尺度空间金字塔，构造n个2倍下采样层和n个1.5倍下采样层。接下来通过FAST5-8和FAST9-16对2n+1张图进行特征点检测，选取26邻域FAST的得分最大值作为特征点。然后对位置方向进行二维二次函数插值，再对尺度方向进行一维插值，得到比较精确的特征点。特征点的描述采用均匀采样模式，为了解决旋转不变性，需要对特征点周围的采样区域进行旋转到主方向，得到新的采样区域。最后通过计算特征描述的汉明距离进行特征点匹配。

根据化验单表头不变性进行矫正设计，使用场景化验单与模板化验单进行特征匹配，最终可以得到场景化验单到模板化验单的变化对应关系，通过变化轨迹构建拟合函数，如式(1)所示，其中k表示比例系列，x表示场景化验单特征点对应的坐标位置，y表示模板化验单特征点对应的坐标位置。通过使用拟合的函数，可以将任意角度拍摄的化验单进行矫正处理。

基于改进的霍夫直线检测(图像切割)

在化验单检测过程中，化验单中可能会包含用户的一些敏感信息，为了脱敏，基于改进的霍夫变换直线检测算法，剔除敏感信息部位，保留必要的检测区域。霍夫变换直线检测，是将图像空间映射到参数空间，图像空间中的点与参数空间中的直线是一一对应的。因此检测图像空间中的直线可以转换为检测参数空间中直线的交点。霍夫变换过程如下图2所示：

在实际应用中，当图像空间上的直线垂直x轴时，无法映射到参数空间。采用极坐标方式作为参数空间，如式(2)所示：

r＝x cosθ+y sinθ

由于图像的复杂性，图像中的直线并不在同一水平线上。通过霍夫直线检测，会得到许多小的直线线段，这些小线段分布在直线的两侧。采用水平扫描，线段覆盖的思想来拼接线段，为了避免倾斜问题，设定线段上下k个像素波动，统计每一行像素覆盖的情况，最大覆盖行即为直线行。将检测的若干条水平直线进行排序，最大间隔的相邻直线之间即为待检测区域，最后对化验单进行裁切，剔除敏感区域，保留待检测区域。

基于Sauvola算法的图像增强

自然场景下化验单数据一般是通过手机拍照，其中存在了很多干扰因素，例如，光照强度，手机像素，拍摄抖动等影响，会导致拍出的照片出现不同程度的噪声。同时还存在字迹不清晰，化验单表面污渍等问题。这些问题极大的干扰后期工作的进行，因此需要对图像进行增强，从而减少或消除这些干扰因素对文字检测的干扰。提出了对不均匀光照下化验单图像进行二值化。

首先进行前景提取，通过预估出原图的背景图与原图做差得到前景图。通过选取某点邻域最高亮度的n个点，去掉最大值，剩余值的平均值设为该点的背景像素值。对于深色背景，若直接利用原图减去背景，会造成提取的文本字迹模糊，根据背景像素值来提升文本对比度。s(x，y)表示原图像素值，p(x，y)表示背景像素值，e(x，y)表示图像增强后的像素值，k表示对比度放大倍数。图片背景颜色越深，那么k的值对应就越小。其中B₁＝2.5，B₂＝1.0，分段函数如式(3) 所示：

增强后的图像像素值如式(4)所示：

e(x，y)＝255-k(p(x，y)-s(x，y)) (4)

通过上述步骤得到增强后的图像，然后对图像进行二值化，选用Sauvola 算法，进行局部阈值二值化，以某像素点为中心，根据当前像素点邻域内的灰度均值与标准方差来动态计算该像素点的阈值。m(x，y)表示均值，s(x，y)表示标准差。阈值T(x，y)计算如式(5)所示，其中R＝128表示8位的灰度图像，k∈(0，1) 表示修正参数。

改进的CTPN网络模型

通过上述一系列预处理步骤，可以得到一张方便网络处理的化验单，接下需要对化验单的文本位置进行检测。提出了一种改进的CTPN文本检测模型，主要在以下三个方面进行了改进：(1)特征提取时卷积核的设计方面；(2) anchor(初始区域建议窗口)的设定方面。(3)文本框合并方面。

CTPN网络使用VGG网络作为骨干网络，进行特征提取。通过修改VGG网络来提取更加丰富的图像特征。首先引入1*1卷积核，主要用来调节通道数，对不同通道上的像素进行线性组合，达到降维的效果。其次引入多尺度卷积核，对于不同尺度的卷积核其感受野不同，提取特征的着重点也不同，使最终提取的特征更加丰富。最后是对n*n卷积核进行1*n和n*1拆分，同样的提取效果，但是参数量和计算量大幅降低。

统计分析洛奇实验室提供的真实化验单数据，可以将不定长文本检测转化为固定宽度的anchor进行预测，化繁为简。根据真实场景下的化验单每个字符的宽度约为16个像素，将anchor宽度设置为16像素；通过不同角度和距离远近拍摄发现，可以将anchor的高度设置为16-198像素之间，每个anchor高度计算公式如式(6)所示例，系数k＝0.7。

通过特征提取，anchor预测，可以得到若干个文本块，接下来需要对文本块进行合并得到文本线。主要思想是将相邻的两个文本块进行合并，直至无法合并为止。结合实际数据，两个文本框合并的条件是先将文本框按得分排序，然后从最大得分的文本框向前和向后搜索32像素，寻找范围内得分最大的文本框，进行合并操作，合并时同时要求两文本框的垂直重复率大于0.7。重复上述操作直至得到最后的文本检测框。

模型采用的损失函数由三部分构成，第一部分是二分类(文本/非文本)，使用交叉熵损失函数，第二部分垂直方向偏移量回归，使用smooth L1损失函数，第三部分为水平方向偏移量回归，使用smooth L1损失函数。

模型整体结构如图3所示，第一步是浅层特征提取，第二步使用改进的VGG 网络进行深度特征提取，第三步使用BiLSTM进行位置关联，第四步通过设定 anchor进行位置预测，并通过NMS对文本框进行过滤。最后构造文本线得到最终的预测结果。

针对传统文字检测方法和基于深度学习的文字检测方法在自然场景下化验单检测效果欠佳的情况下，本申请提出了BHS-CTPN：一种自然场景下的化验单文字检测方法，主要包括一系列预处理方法和改进的CTPN模型，在预处理方面，引入了针对性的预处理，进行图像矫正，敏感信息去除和图像增强。在模型改进方面，使用不同尺度的卷积核以及对卷积核进行拆分，并且根据真实数据设定相应的anchor。经过大量的实验，分别与传统方法，基于深度学习的方法，以及与知名企业产品进行对比，实验证明，提出的BHS-CTPN方法在应用场景下具有明显的优势，对构建智慧医疗，检验结果解读一体化具有重要的作用。

本申请实施例提出了一种自然场景下的化验单文字检测方法(BHS-CTPN)， BHS-CTPN方法引入BRISK、Hough、Sauvola等一系列预处理方法进行化验单矫正、敏感信息区域去除和图像增强。同时在特征提取时卷积核的设计、anchor 设定和文本框合并等方面来改进CTPN网络模型。BHS-CTPN方法与CTPN模型相比，准确率、召回率、F1值分别提升了8％、10％、9％，与目前化验单文字检测领域效果最好的华为API接口相比，准确率、召回率、F1值分别提升了6％、3％、 5％。大量实验结果表明，BHS-CTPN方法能够有效准确的检测到自然场景下化验单文本位置，为后期文字识别和化验单解读奠定了坚实的基础。

需要说明的是：

术语“模块”并非意图受限于特定物理形式。取决于具体应用，模块可以实现为硬件、固件、软件和/或其组合。此外，不同的模块可以共享公共组件或甚至由相同组件实现。不同模块之间可以存在或不存在清楚的界限。

在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述，构造这类装置所要求的结构是显而易见的。此外，本申请也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本申请的内容，并且上面对特定语言所做的描述是为了披露本申请的最佳实施方式。

在此处所提供的说明书中，说明了大量具体细节。然而，能够理解，本申请的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。

类似地，应当理解，为了精简本公开并帮助理解各个发明方面中的一个或多个，在上面对本申请的示例性实施例的描述中，本申请的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释成反映如下意图：即所要求保护的本申请要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如下面的权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本申请的单独实施例。

本领域那些技术人员可以理解，可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件，以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外，可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述，本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。

此外，本领域的技术人员能够理解，尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征，但是不同实施例的特征的组合意味着处于本申请的范围之内并且形成不同的实施例。例如，在下面的权利要求书中，所要求保护的实施例的任意之一都可以以任意的组合方式来使用。

本申请的各个部件实施例可以以硬件实现，或者以在一个或者多个处理器上运行的软件模块实现，或者以它们的组合实现。本领域的技术人员应当理解，可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本申请实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本申请还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序 (例如，计算机程序和计算机程序产品)。这样的实现本申请的程序可以存储在计算机可读介质上，或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到，或者在载体信号上提供，或者以任何其他形式提供。

应该注意的是上述实施例对本申请进行说明而不是对本申请进行限制，并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中，不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本申请可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中，这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

应该理解的是，虽然附图的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，其可以以其他的顺序执行。而且，附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，其执行顺序也不必然是依次进行，而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

以上所述实施例仅表达了本申请的实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请的保护范围应以所附权利要求为准。

Claims

1.一种文字检测方法，其特征在于，包括：

对图像进行预处理；

利用CTPN网络模型对预处理后的图像进行文字检测。

2.根据权利要求1所述的方法，其特征在于，所述对图像进行预处理包括图像矫正、图像切割和图像增强。

3.根据权利要求2所述的方法，其特征在于，所述图像矫正包括：

通过FAST5-8和FAST9-16对2n+1张图进行特征点检测，选取26邻域FAST的得分最大值作为特征点；

通过计算特征描述的汉明距离进行特征点匹配。

4.根据权利要求2所述的方法，其特征在于，所述图像切割包括：

通过霍夫直线检测，得到若干线段；

通过水平扫描来拼接线段；

统计每一行像素覆盖的情况，最大覆盖行即为直线行；

剔除敏感区域，保留待检测区域。

5.根据权利要求2所述的方法，其特征在于，所述图像增强包括：

6.根据权利要求5所述的方法，其特征在于，所述图像增强还包括：

7.根据权利要求1所述的方法，其特征在于，所述CTPN网络模型以VGG网络作为骨干网络，引入1*1卷积核，引入多尺度卷积核，对n*n卷积核进行1*n和n*1拆分；n为正整数。

8.根据权利要求7所述的方法，其特征在于，所述CTPN网络模型采用的损失函数包括：第一部分是二分类，使用交叉熵损失函数；第二部分垂直方向偏移量回归，使用smooth L1损失函数；第三部分为水平方向偏移量回归，使用smooth L1损失函数。

9.根据权利要求1所述的方法，其特征在于，所述利用CTPN网络模型对预处理后的图像进行文字检测，包括：

浅层特征提取；

深度特征提取；

使用BiLSTM进行位置关联；

通过设定anchor进行位置预测，并通过NMS对文本框进行过滤；

构造文本线得到最终的预测结果。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以实现如权利要求1-9中任一所述的文字检测方法。