CN118053151A

CN118053151A - 一种基于字符特征改进的文字符号识别方法及系统

Info

Publication number: CN118053151A
Application number: CN202410302686.3A
Authority: CN
Inventors: 王天昊; 韩进
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2024-03-18
Filing date: 2024-03-18
Publication date: 2024-05-17

Abstract

本发明公开了一种基于字符特征改进的文字符号识别方法及系统，涉及符号检测技术领域，方法包括以下步骤：接收图像数据，对图像数据进行预处理得到图像处理数据；其中，对图像数据进行预处理包括降噪和校准；将图像处理数据输入至预先建立的基于DBNet的文字检测算法模型内，得到图像内文本的位置；将图像内文本的位置输入至预先建立的基于SVTR的文字识别算法模型内，得到图像内C与T的位置；根据图像内C与T的位置获取C线和T线所在区域，对C线和T线所在区域进行标记，根据标记后的C线和T线所在区域，获得识别结果。

Description

一种基于字符特征改进的文字符号识别方法及系统

技术领域

本发明涉及符号检测技术领域，具体的是一种基于字符特征改进的文字符号识别方法及系统。

背景技术

而目前主流的文字符号检测方法分为：基于回归的文字检测和基于分割的文字检测。基于回归的文字检测典型如CTPN算法，该算法通过判断形成并连接一系小文本框为候选区域。重复上述操作，直到每个标注文本框的候选区域都生成完毕对每个候选区域的大小进行微调。基于分割的文字符号检测。而基于分割的文字符号检测典型如PSENet使用了渐进式的尺度扩张网络学习文本分割区域，预测并逐个扩大检测到的文本区域。在传统的文本字符识别方法中，任务分为3个步骤，即图像预处理、字符分割和字符识别。需要对特定场景进行建模，一旦场景变化就会失效。

发明内容

为解决上述背景技术中提到的不足，本发明的目的在于提供一种基于字符特征改进的文字符号识别方法及系统。

本发明的目的可以通过以下技术方案实现：一种基于字符特征改进的文字符号识别方法，方法包括以下步骤：

接收图像数据，对图像数据进行预处理得到图像处理数据；其中，对图像数据进行预处理包括降噪和校准；

将图像处理数据输入至预先建立的基于DBNet的文字检测算法模型内，得到图像内文本的位置；

将图像内文本的位置输入至预先建立的基于SVTR的文字识别算法模型内，得到图像内C与T的位置；

根据图像内C与T的位置获取C线和T线所在区域，对C线和T线所在区域进行标记，根据标记后的C线和T线所在区域，获得识别结果。

优选地，所述降噪使用基于RIDNet的深度学习模型进行降噪，基于RIDNet的深度学习模型首先对图像数据进行卷积，然后经过残差模块学习残差输出特征，最后将残差输出特征输入重构模块，从而起到对图像数据降噪的作用。

优选地，所述校准首先使用Canny算子获得图像边缘，然后使用霍夫变换检测直线，通过求直线斜率得旋转角度，根据旋转角度旋转后即为校正后的图片。

优选地，所述基于DBNet的文字检测算法模型通过分割网络获取概率图和阈值图，所述阈值图通过网络预测得出。

优选地，所述基于DBNet的文字检测算法模型通过可微分二值化输出阈值图，公式如下：

式中，k为放大倍数，P是概率图，T是阈值图；B为生成的近似二值图；坐标（i，j）表示特征图中的坐标点位置。

优选地，所述基于SVTR的文字识别算法模型由block 与下采样模块组成。

优选地，检测到对应区域后通过对区域长宽比进行筛选，仅保留作为字母区域特征的比例近似的文本区域，筛选公式如下：

式中，(i₁, j₁)表示图像进过校正后由DBNet检测出的置信区域的左上角横坐标与纵坐标；(i₂, j₂)表示置信区域的右下角横坐标与纵坐标；x与y即表示置信区域长宽比的阈值，这里分别设置为0.45与2.1；L代表该置信区域是否通过筛选的状态。

优选地，所述获取C线和T线所在区域的过程如下：通过横纵坐标差值比较验证，取对应C和T的字母间隔1.5倍字母区域长度的位置，C线和T线所在区域取两倍字母区域大小；

首先通过以下公式计算得出字母C、T的所在区域的中心点，使用公式如下：

式中，(Ci₁, Cj₁)表示字母C的所在区域的左上角横坐标与纵坐标；(Ci₂, Cj₂)表示右下角横坐标与纵坐标；O即为对应所在区域的中心点，记为O_C；坐标记为(C_i0,C_j0)，字母T区域参数表示与字母C对应相同；

随后计算中心点横纵坐标差值，按照图像特征规律寻找C线和T线所在的位置中心点，通过比较字母C、T区域中心的相对位置，若纵坐标差值更小，则说明字母C、T的所在区域为同一水平线，可得出C线和T线所在的位置位于上方或下方，反之则说明C线和T线所在的位置位于左侧或右侧，可进一步验证，使用公式如下：

式中，(C'_i0, C'_j0)、(T'_i0, T'_j0)分别代表C线和T线所在区域的中心点坐标，由于根据图像特征规律将间隔长度取为1.5倍字母区域长度的位置区域，且C线和T线所在区域取两倍字母区域大小，则k的最终取值设定为3，即1.5+1/2+2/2；

最终根据中心点与区域大小定位到C线和T线区域位置，定位C线区域位置，使用公式如下：

式中，(Ci₁, Cj₁)表示C线的所在区域的左上角横坐标与纵坐标；(Ci₂, Cj₂)表示右下角横坐标与纵坐标，因C线和T线所在区域取两倍字母区域大小，x在本环境下取值为1，定位T线区域位置同样适用上公式。

优选地，所述C线和T线所在区域提取C线与T线颜色待检测以减少干扰，对C线和T线所在区域进行再次进行霍夫直线检测以判断线条，进一步减少干扰。

第二方面，为了达到上述目的，本发明公开了一种文字符号识别系统，包括：

数据预处理模块：用于接收图像数据，对图像数据进行预处理得到图像处理数据；其中，对图像数据进行预处理包括降噪和校准；

第一模型输入模块：用于将图像处理数据输入至预先建立的基于DBNet的文字检测算法模型内，得到图像内文本的位置；

第二模型输入模块：用于将图像内文本的位置输入至预先建立的基于SVTR的文字识别算法模型内，得到图像内C与T的位置；

识别模块：用于根据图像内C与T的位置获取C线和T线所在区域，对C线和T线所在区域进行标记，根据标记后的C线和T线所在区域，获得识别结果。

本发明的有益效果：

本发明通过场景文本检测算法与文字识别算法以实现对CT位置的识别。同时对场景文本检测算法进行了检测效率上的优化，得以更快处理大量的数据，颜色提取与直线检测的叠加使用令判断条件足以进一步简化，消耗较少的运算量即可得出结果。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图；

图1是本发明方法流程示意图；

图2是本发明DBNet 算法架构示意图；

图3是本发明系统结构示意图；

图4是本发明图像预处理过程示意图；

图5是本发明文字检测与识别过程示意图。

图6是本发明的模型与未优化模型消融实验的对比验证数据图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

如图1所示，一种基于字符特征改进的文字符号识别方法，并基于该方法进一步判断检测试剂识别场景下的检测结果，方法包括以下步骤：

在本识别场景下，为精确识别检测试剂的检测结果，需要根据图像中试剂上C与T的位置获得C线和T线所在区域并判断其状态。

需要说明的是，在本实施例中，步骤1. 训练模型

1.1训练基于DBNet的文字检测算法模型，对识别效率进行针对性优化

DBNet算法架构构见图2。DBNet通过分割网络获取概率图和阈值图。其中阈值图是网络预测得出，并不是固定的值，这样就可以很好将背景与前景分离出来，但是这样的操作会给训练带来梯度不可微的情况。针对这个问题，DBNet 提出可微分二值化的概念：即对每一个像素点进行自适应二值化，彻底将二值化这一步骤加入到网络里一起训练，这样最终的输出图对于阈值就会非常鲁棒。

可微二值化就是将标准二值化中的阶跃函数进行了近似，公式如下所示：

可微二值化本质上是一个取值范围为(0,1)的 sigmoid 函数，k为放大倍数，P是概率图，T是阈值图；B则为生成的近似二值图。这个近似的二值化函数的表现类似于标准的二值化函数，但是因为可微，所以可以直接用于网络训练。

特别地，由于检测的是C与T两个字母，本发明在此基础上针对该条件进行优化，仅保留了与C与T作为字母比例近似的文本区域。设置为仅保留宽高比小于2.1的情况，既保证了能字母被一定程度内拉伸时的准确识别，还有效筛除了其他不符合条件的长文本与干扰文本，提升了识别效率。

1.2训练基于SVTR的文字识别算法模型

SVTR是一个三级逐步下采样的网络，和CNN架构一样，由block 与下采样模块组成。SVTR在进行Patch Embedding时，先使用两个卷积进行1/4下采样得到token，再使用两个步长为2的3×3卷积进行有重叠的patch embedding，这使其感受野更大，提取局部信息的表达能力更好。

随后，SVTR方法使用了两个混合块（全局Mix和局部Mix），Global Mixing评估所有字符组件之间的依赖性，即字符与其他字符和场景间的关系。Local mixing评估了预定义窗口内组件之间的相关性，即字符部件在字符内的相关性。最后通过使用不同接收场的self-attention来感知上下文的相关性。最后，将字符压缩为一个特征序列，利用组合特征，通过一个并行线性预测来实现识别。

1.3验证在识别字母的条件下本方法的优越性

从网络与synth800k数据集中筛选并收集图片共3000余张，作为特化识别场景中字母的数据集，每图片的数据大小控制在0.1mb-2.5mb范围内。在该数据集中，本发明的模型与未优化模型消融实验的对比如图6所示。较未优化的检测模型，本发明的模型在保持了准确率的同时较大地提高了检测速度。

步骤2. 数据预处理

2.1使用RIDNet对数据进行降噪

使用基于RIDNet的深度学习方法降噪，可以同时处理高斯和泊松噪声。模型包括三个主要的模块：特征提取，残差模块上的特征学习残差和重构。模型首先对输入图像进行卷积。随后经过残差模块，学习残差特征。残差模块由增强注意模块组成。得益于残差结构，可以使用非常深的网络来改善去噪性能。虽然网络较浅，但通过核扩散提供了广阔的感受野，最后将输出特征送到重构模块，实现对噪声的学习并进行去噪,在此使用场景中可以发挥较大的优势。

2.2 对数据做霍夫变换以校准文本位置

霍夫直线检测抗干扰能力强，同时对图像中直线的残缺部分、噪声以及其它共存的非直线结构不敏感，在本实验中判断较小区域场景的情况下具有较大的优势。在操作过程中首先使用Canny算子获得图像边缘，然后使用霍夫变换检测直线。知道线条后通过求斜率得旋转角度。旋转后即为校正后的图片。

步骤3. 使用算法模型得到图片数据中C与T的位置

读入数据集，对数据进行步骤2的处理后读入步骤1训练好的模型中运行，先经过基于DBNet的文字检测算法模型得到可能存在文本的位置，检测到对应区域后通过对区域长宽比进行筛选，仅保留作为字母区域特征的比例近似的文本区域。筛选公式如下：

式中，(i₁, j₁)表示图像进过校正后由DBNet检测出的置信区域的左上角横坐标与纵坐标；(i₂, j₂)表示置信区域的右下角横坐标与纵坐标；x与y即表示置信区域长宽比的阈值，这里分别设置为0.45与2.1；L代表该置信区域是否通过筛选的状态，该筛选方式既能保证字母在一定程度内被纵向拉伸或横向拉伸时的准确识别，还能提前筛除其他不符合条件的长文本与干扰文本，提升识别效率。

再通过基于SVTR的文字识别算法模型得到指定的C与T的位置，并将其标记出来。

步骤4.根据C与T和C线T线图像部位的关联性定位并标记相应区域

所述获取C线和T线所在区域的过程如下：通过横纵坐标差值比较验证，取对应C和T的字母间隔1.5倍字母区域长度的位置，C线和T线所在区域取两倍字母区域大小；

检测试纸的C线T线区域基本都位于字母C与T的左侧，且区域大小与间隔大小都略大于字母C与T的区域大小。根据图像部位关联识别，通过步骤3中标记出来的位置取字母左侧间隔1.5倍字母区域长度的位置，可得到C线T线位置，为减小误差提升容错，C线T线区域取两倍字母区域大小。

特别地，在非标准拍摄场景下图像被拉伸变形时，由于图像部位关联使用的是按区域大小的比例关联定位，使得字母C与T的区域与关联的C线T线区域保证了同一比例的拉伸，令该方法同样可以保持较高的准确率。

步骤5.提取标记的对应区域的红色与紫色

在中得到C线T线区域后，在该区域提取C线与T线颜色待检测以减少干扰。由于C线T线一般呈现出淡红色至深紫色，可以通过仅提取C线T线位置中在该范围内的颜色以筛除剩余区域，降低图像中可能存在的干扰。

步骤6.检测直线存在情况，根据对应结果判断图像数据中抗原检测的结果

精确提取出所需区域后，对该区域进行再次进行霍夫直线检测以判断线条，进一步减少干扰。

此时由于提取区域较小，且检测的直线相对较短，可能会出现检测不出直线的情况。因此检测直线时降低了累加平面的阈值,即识别某部分为图中的一条直线时它在累加平面中必须达到的值。虽然因此可能会出现检测出多条直线的情况，但不存在红色区域的图片仍不会检测出线条。因此只需要将判断直线数量改为判断是否存在直线即可消除该步骤所产生的误差。最后根据C线T线的直线存在情况即可判断出该检测试纸的检测结果。

在另一方面，如图3所示，本发明实施例还提供了一种文字符号识别系统，包括：

基于同一种发明构思，本发明还提供一种计算机设备，该计算机设备包括包括：一个或多个处理器，以及存储器，用于存储一个或多个计算机程序；程序包括程序指令，处理器用于执行存储器存储的程序指令。处理器可能是中央处理单元(Central ProcessingUnit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor、DSP)、专用集成电路(Application SpecificIntegrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等，其是终端的计算核心以及控制核心，其用于实现一条或一条以上指令，具体用于加载并执行计算机存储介质内一条或一条以上指令从而实现上述方法。

需要进一步进行说明的是，基于同一种发明构思，本发明还提供一种计算机存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行上述方法。该存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电、磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑磁盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

在本说明书的描述中，参考术语“一个实施例”、“示例”、“具体示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本公开的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

以上显示和描述了本公开的基本原理、主要特征和本公开的优点。本行业的技术人员应该了解，本公开不受上述实施例的限制，上述实施例和说明书中描述的只是说明本公开的原理，在不脱离本公开精神和范围的前提下，本公开还会有各种变化和改进，这些变化和改进都落入要求保护的本公开范围内容。

Claims

1.一种基于字符特征改进的文字符号识别方法，其特征在于，方法包括以下步骤：

2.根据权利要求1所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述降噪使用基于RIDNet的深度学习模型进行降噪，基于RIDNet的深度学习模型首先对图像数据进行卷积，然后经过残差模块学习残差输出特征，最后将残差输出特征输入重构模块，从而起到对图像数据降噪的作用。

3.根据权利要求1所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述校准首先使用Canny算子获得图像边缘，然后使用霍夫变换检测直线，通过求直线斜率得旋转角度，根据旋转角度旋转后即为校正后的图片。

4.根据权利要求1所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述基于DBNet的文字检测算法模型通过分割网络获取概率图和阈值图，所述阈值图通过网络预测得出。

5.根据权利要求4所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述基于DBNet的文字检测算法模型通过可微分二值化输出阈值图，公式如下：

式中，k为放大倍数，P是概率图，T是阈值图；B为生成的近似二值图；坐标(i, j)表示特征图中的坐标点位置。

6.根据权利要求1所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述基于SVTR的文字识别算法模型由block 与下采样模块组成。

7.根据权利要求1所述的一种基于字符特征改进的文字符号识别方法，其特征在于，检测到对应区域后通过对区域长宽比进行筛选，仅保留作为字母区域特征的比例近似的文本区域，筛选公式如下：

8.根据权利要求1所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述获取C线和T线所在区域的过程如下：通过横纵坐标差值比较验证，取对应C和T的字母间隔1.5倍字母区域长度的位置，C线和T线所在区域取两倍字母区域大小；

9.根据权利要求8所述的一种基于字符特征改进的文字符号识别方法，其特征在于，所述C线和T线所在区域提取C线与T线颜色待检测以减少干扰，对C线和T线所在区域进行再次进行霍夫直线检测以判断线条，进一步减少干扰。

10.一种文字符号识别系统，其特征在于，包括：