CN115376118A

CN115376118A - 一种街景文字识别方法、系统、设备和介质

Info

Publication number: CN115376118A
Application number: CN202211024989.0A
Authority: CN
Inventors: 叶武剑; 袁凯奕; 劳俊明; 刘怡俊
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2022-08-25
Filing date: 2022-08-25
Publication date: 2022-11-22

Abstract

本发明公开了一种街景文字识别方法、系统、设备和介质，当接收到街景图像时，通过预设的轻量级实例分割模型对街景图像进行检测识别，并分割街景图像，对分割出来的初始文本区域进行投影转换，得到中间文本区域。通过预设的场景文本检测模型对中间文本区域进行文本区域检测，确定场景文本特征所在的目标文本区域，接着通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字。通过轻量级实例分割模型将图片中的非文本区域剔除，通过对投影转换，将图片中的扭曲、畸变等干扰因素去除，再结合场景文本检测模型和文本识别模型进行识别，不仅识别效率快，且识别准确率高。

Description

一种街景文字识别方法、系统、设备和介质

技术领域

本发明涉及文字识别技术领域，尤其涉及一种街景文字识别方法、系统、设备和介质。

背景技术

随着人工智能的不断发展，越来越多的应用场景被发掘，其中，街景文字识别为当前人工智能应用的方向之一。街景文字识别是一个光学字符识别(Optical CharacterRecognition，OCR)问题，OCR是指对文本资料的图像文件进行分析识别，获取文字及版面信息的过程，即对图像中的文字进行识别，并以文本的形式返回。

典型的OCR问题解决思路是图像预处理-检测文字区域-文本识别，其中影响识别准确率的技术瓶颈是检测文字区域和文本识别，同时模糊、扭曲、畸变、复杂背景和光线不清等图像问题也是影响识别准确率的因素。

但现有的街景文字识别方法主要对文本识别部分进行改进，没有考虑模糊、扭曲、畸变、复杂背景和光线不清等图像问题对识别结果的影响，导致图像中噪声较多，识别结果准确率低。

发明内容

本发明提供了一种街景文字识别方法、系统、设备和介质，解决了现有的街景文字识别方法主要对文本识别部分进行改进，没有考虑模糊、扭曲、畸变、复杂背景和光线不清等图像问题对识别结果的影响，导致图像中噪声较多，识别结果准确率低的技术问题。

本发明提供的一种街景文字识别方法，包括：

当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域；

对所述初始文本区域进行投影转换，得到中间文本区域；

通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域；

通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字。

可选地，所述预设的轻量级实例分割模型包括多个轻量级层、特征金字塔网络层和预测类别处理层；所述当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域的步骤，包括：

当接收到街景图像时，通过各所述轻量级层分别提取所述街景图像在不同尺度下的语义特征；

通过所述特征金字塔网络层对所述语义特征进行多尺度特征融合，得到语义特征图；

通过所述预测类别处理层对所述语义特征图进行预测，得到多个预测类别对应的预测框和所述预测框内的类别像素概率图；

按照所述预测类别分别采用所述预测框分割对应的所述类别像素概率图，并结合所述街景图像生成初始文本区域。

可选地，所述预测类别处理层包括原型特征分割层和实例类别预测层；所述通过所述预测类别处理层对所述语义特征图进行预测，得到多个预测类别对应的预测框和所述预测框内的类别像素概率图的步骤，包括：

通过所述原型特征分割层分割所述语义特征图，得到多个原型特征图；

通过所述实例类别预测层对所述语义特征图进行预测，得到所述语义特征图内多个预测类别分别对应的多个候选框和多个初始特征系数；

按照非极大值抑制算法分别去除所述预测类别对应的多个所述候选框内重复的候选框，得到所述预测类别对应的预测框和多个目标特征系数；

将全部所述原型特征图分别与对应的所述目标特征系数相乘，得到所述预测框内的类别像素概率图。

可选地，所述按照所述预测类别分别采用所述预测框分割对应的所述类别像素概率图，并结合所述街景图像生成初始文本区域的步骤，包括：

分别按照所述预测框分割对应的所述类别像素概率图，得到所述预测类别对应的多个初始类别像素分割概率图；

按照预设的分割阈值选取所述初始类别像素分割概率图，得到所述预测类别对应的目标类别像素分割概率图；

将全部所述目标类别像素分割概率图与所述街景图像相乘，生成所述街景图像对应的初始文本区域。

可选地，所述对所述初始文本区域进行投影转换，得到中间文本区域的步骤，包括：

对所述初始文本区域进行二值化操作，得到二值化区域；

计算所述二值化区域内白色区域对应的最小外接矩形，得到中间文本区域的四个顶点坐标；

计算所述顶点坐标对应的投影变换矩阵，结合预设的指定坐标得到各顶点坐标对应的目标顶点坐标；

依次连接所述目标顶点坐标，得到中间文本区域。

可选地，所述预设的场景文本检测模型包括特征提取层、特征金字塔层和训练好的推测层；所述通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域的步骤，包括：

通过所述特征提取层提取所述中间文本区域内的多个场景文本特征；

通过所述特征金字塔层对所述场景文本特征进行多尺度特征融合，得到场景特征图；

通过所述推测层推测所述场景特征图对应的预测概率图和阈值图；

按照所述预测概率图和所述阈值图对应的像素点，结合预设的近似二值图公式，计算得到所述特征图对应的近似二值图；

基于所述近似二值图，确定目标文本区域。

可选地，所述预设的文本识别模型包括卷积网络层、循环网络层和转录层；所述通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字的步骤，包括：

通过所述卷积网络层提取所述目标文本区域内的多个文本特征图，并将所述文本特征图分别转换为文本特征序列；

通过所述循环网络层分别计算所述文本特征序列对应的特征值；

对全部所述特征值进行指数函数转换和缩放，得到后验概率矩阵；

通过转录层采用归一化指数函数计算所述后验概率矩阵内每列数值对应的文字概率序列；

分别选取所述文字概率序列内的最大值，将所述最大值对应的字符作为目标字符；

将全部所述目标字符作为所述街景图像对应的图像文字。

本发明还提供了一种街景文字识别系统，包括：

初始文本区域分割模块，用于当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域；

中间文本区域得到模块，用于对所述初始文本区域进行投影转换，得到中间文本区域；

目标文本得到模块，用于通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域；

图像文本得到模块，用于通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字。

本发明还提供了一种电子设备，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行实现如上述任一项街景文字识别方法的步骤。

本发明还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被执行时实现如上述任一项街景文字识别方法。

从以上技术方案可以看出，本发明具有以下优点：

本发明通过当接收到街景图像时，通过预设的轻量级实例分割模型对街景图像进行检测识别，并分割街景图像，得到初始文本区域。对分割出来的初始文本区域进行投影转换将初始文本区域内的文本由原来的大小和位置转换为自定义的标准大小和位置，得到中间文本区域。通过预设的场景文本检测模型对中间文本区域进行文本区域检测，确定场景文本特征所在的目标文本区域。通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字，解决了现有的街景文字识别方法主要对文本识别部分进行改进，没有考虑模糊、扭曲、畸变、复杂背景和光线不清等图像问题对识别结果的影响，导致图像中噪声较多，识别结果准确率低的技术问题。通过轻量级实例分割模型将图片中的非文本区域剔除，通过对投影转换，将图片中的扭曲、畸变等干扰因素去除，再结合场景文本检测模型和文本识别模型分别实现文本区域划定以及文本识别操作，不仅识别效率快，且识别准确率高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例一提供的一种街景文字识别方法的步骤流程图；

图2为本发明实施例二提供的一种街景文字识别方法的步骤流程图；

图3本发明实施例三提供的一种街景文字识别系统的结构框图。

具体实施方式

本发明实施例提供了一种街景文字识别方法、系统、设备和介质，用于解决现有的街景文字识别方法主要对文本识别部分进行改进，没有考虑模糊、扭曲、畸变、复杂背景和光线不清等图像问题对识别结果的影响，导致图像中噪声较多，识别结果准确率低的技术问题。

为使得本发明的发明目的、特征、优点能够更加的明显和易懂，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，下面所描述的实施例仅仅是本发明一部分实施例，而非全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

请参阅图1，图1为本发明实施例一提供的一种街景文字识别方法的步骤流程图。

本发明提供的一种街景文字识别方法，包括：

步骤101、当接收到街景图像时，通过预设的轻量级实例分割模型分割街景图像，得到初始文本区域。

预设的轻量级实例分割模型分割街景图像包括多个轻量级层、特征金字塔网络层和预测类别处理层，其中预测类别处理层包括原型特征分割层和实例类别预测层。轻量级实例分割模型采用轻量级改进yolact深度神经网络算法对街景图像中文本区域进行检测识别，将文本从复杂场景中提取出来，网络最终的输出结果仅保留原有文本区域像素值，其余的像素值均被置0，使用轻量级改进yolact深度神经网络在光照差异或是背景复杂的情况下能够完整地将文本区域提取出来。轻量级实例分割模型通常采用五个轻量级层，而轻量级层又称Shufflenet层，采用五个轻量级的Shufflenet层替换yolact中的卷积模块，从而实现了逐点分组卷积，分组卷积可以有效的减少网络的容量，使网络更加轻量。

初始文本区域是指街景图像经过轻量级实例分割模型分割处理后得到保留街景图像上文本区域的图像。

在本发明实施例中，当接收到街景图像时，将街景图像输入轻量级实例分割模型，首先通过各个轻量级层分别提取街景图像在不同尺度下的语义特征。接着通过特征金字塔网络层对语义特征进行多尺度特征融合，得到语义特征图。然后通过预测类别处理层对语义特征图进行预测，得到多个预测类别对应的预测框和预测框内的类别像素概率图。最后按照预测类别分别采用预测框分割对应的类别像素概率图，并结合街景图像生成初始文本区域。

步骤102、对初始文本区域进行投影转换，得到中间文本区域。

中间文本区域是指采用二值化算法以及轮廓检测算法确定初始文本区域内的文本位置，然后采用投影转换技术将文本由原来的大小和位置转换为自定义的标准大小和位置，将转换好的文本所在的区域作为文本区域的图像。

在本发明实施例中，对初始文本区域进行二值化操作，得到二值化区域，计算二值化区域内白色区域对应的最小外接矩形，得到中间文本区域的四个顶点坐标，计算顶点坐标对应的投影变换矩阵，结合预设的指定坐标得到各顶点坐标对应的目标顶点坐标，依次连接目标顶点坐标，得到中间文本区域。

步骤103、通过预设的场景文本检测模型检测中间文本区域，确定场景文本特征所在的目标文本区域。

预设的场景文本检测模型又称DBNet深度神经网络，包括特征提取层、特征金字塔层和训练好的推测层。特征提取层采用3*3的卷积核提取中间文本区域内的多个场景文本特征。特征金字塔层采样到相同的尺寸，同时融合不同层级的场景文本特征最终得到原图1/4的场景特征图。训练好的推测层采用预设的训练样本对预测概率图、阈值图、近似二值图进行监督训练，预测概率图和近似二值图采用的相同的监督信号，使得训练好的推测层可以基于场景特征图推测出对应的预测概率图和阈值图。

目标文本区域是指将中间文本区域输入场景文本检测模型进行检测后得到的文本区域的图像。

在本发明实施例中，将中间文本区域输入场景文本检测模型，首先通过特征提取层提取中间文本区域内的多个场景文本特征。接着通过特征金字塔层对场景文本特征进行多尺度特征融合，得到场景特征图。然后通过推测层推测场景特征图对应的预测概率图和阈值图，按照预测概率图和阈值图对应的像素点，结合预设的近似二值图公式，计算得到特征图对应的近似二值图。最后基于近似二值图，框选文本区域，从而得到目标文本区域。

步骤104、通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字。

预设的文本识别模型采用的是CRNN深度神经网络，包括卷积网络层、循环网络层和转录层。卷积网络层通过多次卷积操作提取目标文本区域内有用信息即多个文本特征图，并将文本特征图分别转换为文本特征序列。循环网络层采用BLSTM网络计算文本特征序列对应的特征值。转录层采用归一化指数函数计算后验概率矩阵内每列数值对应的文字概率序列，选取概率大的位置对应的字符作为目标字符。

在本发明实施例中，将目标文本区域输入文本识别模型，通过卷积网络层提取目标文本区域内的多个文本特征图，并将文本特征图分别转换为文本特征序列。然后通过循环网络层分别计算文本特征序列对应的特征值，对全部特征值进行指数函数转换和缩放得到后验概率矩阵。通过转录层采用归一化指数函数计算后验概率矩阵内每列数值对应的文字概率序列，分别选取文字概率序列内的最大值，将最大值对应的字符作为目标字符，将全部目标字符作为街景图像对应的图像文字。

在本发明实施例中，通过当接收到街景图像时，通过预设的轻量级实例分割模型对街景图像进行检测识别，并分割街景图像，得到初始文本区域。对分割出来的初始文本区域进行投影转换将初始文本区域内的文本由原来的大小和位置转换为自定义的标准大小和位置，得到中间文本区域。通过预设的场景文本检测模型对中间文本区域进行文本区域检测，确定场景文本特征所在的目标文本区域。通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字，解决了现有的街景文字识别方法主要对文本识别部分进行改进，没有考虑模糊、扭曲、畸变、复杂背景和光线不清等图像问题对识别结果的影响，导致图像中噪声较多，识别结果准确率低的技术问题。通过轻量级实例分割模型将图片中的非文本区域剔除，通过对投影转换，将图片中的扭曲、畸变等干扰因素去除，再结合场景文本检测模型和文本识别模型分别实现文本区域划定以及文本识别操作，不仅识别效率快，且识别准确率高。

请参阅图2，图2为本发明实施例二提供的一种街景文字识别方法的步骤流程图。

步骤201、当接收到街景图像时，通过各轻量级层分别提取街景图像在不同尺度下的语义特征。

在本发明实施例中，当接收到街景图像时，将街景图像输入训练好的轻量级实例分割模型，轻量级实例分割模型的主干网络(Backbone)由五个轻量级的Shufflenet层组成，通过Shufflenet层分别对街景图像进行特征提取，输出语义特征的尺寸分别为112×112、56×56、28×28、14×14、7×7，各轻量级层分别提取街景图像中低层次的颜色等浅层特征以及高层次的语义特征。将输出的语义特征传送至特征金字塔网络层进行下一步处理。

步骤202、通过特征金字塔网络层对语义特征进行多尺度特征融合，得到语义特征图。

在本发明实施例中，将不同尺度下的语义特征输入特征金字塔网络层，特征金字塔网络层提取语义特征多尺度特征表示，然后再把这些特征表示进行组合，确保能够提取到深层次的、大的语义特征图。

步骤203、通过预测类别处理层对语义特征图进行预测，得到多个预测类别对应的预测框和预测框内的类别像素概率图。

进一步地，预测类别处理层包括原型特征分割层和实例类别预测层，步骤203可以包括以下子步骤S11-S14：

S11、通过原型特征分割层分割语义特征图，得到多个原型特征图。

在本发明实施例中，将语义特征图并行输入原型特征分割层和实例类别预测层，语义特征图输入原型特征分割层即Protonet分支后会产生32个原型特征图，原型特征图又称原型mask特征图。

S12、通过实例类别预测层对语义特征图进行预测，得到语义特征图内多个预测类别分别对应的多个候选框和多个初始特征系数。

在本发明实施例中，实例类别预测层又称Prediction Head分支，将语义特征图输入Prediction Head分支后会生成预测类别对应的多个候选框、每个候选框对应的置信度、每个候选框对应的坐标以及与Protonet分支输出的32个原型mask特征图一一对应的32个初始特征系数。

S13、按照非极大值抑制算法分别去除预测类别对应的多个候选框内重复的候选框，得到预测类别对应的预测框和多个目标特征系数。

在本发明实施例中，由于Prediction Head分支输出预测类别对应的多个候选框内存在着大量重复覆盖的区域，因此，语义特征图经过Prediction Head分支输出后，再采用非极大值抑制算法NMS对多个候选框去重后，每个类别仅保留一个候选框，将该候选框作为预测框、预测框对应的置信度、预测框对应的坐标以及与Protonet分支输出的32个原型mask特征图一一对应的32个目标特征系数。

S14、将全部原型特征图分别与对应的目标特征系数相乘，得到预测框内的类别像素概率图。

在本发明实施例中，将Protonet分支输出的32个原型mask特征图分别与Prediction Head分支所生成的一一对应32个目标特征系数相乘，得到每个预测框中待分割的类别像素概率图。

步骤204、按照预测类别分别采用预测框分割对应的类别像素概率图，并结合街景图像生成初始文本区域。

进一步地，步骤204执行以下子步骤S21-S23：

S21、分别按照预测框分割对应的类别像素概率图，得到预测类别对应的多个初始类别像素分割概率图。

在本发明实施例中，按照预测类别将采用Prediction Head分支中经过NMS输出的预测类别的预测框分割对应的类别像素概率图，得到预测类别对应的多个初始类别像素分割概率图。

S22、按照预设的分割阈值选取初始类别像素分割概率图，得到预测类别对应的目标类别像素分割概率图。

在本发明实施例中，基于检测需要事先设置分割阈值，当得到预测类别对应的多个初始类别像素分割概率图时，按照分割阈值从多个初始类别像素分割概率图中选取预测类别对应的目标类别像素分割概率图。

S23、将全部目标类别像素分割概率图与街景图像相乘，生成街景图像对应的初始文本区域。

在本发明实施例中，按照分割阈值确定每个预测类别对应的目标像素分割概率图后，由于该目标像素分割概率图为包含预测类别检测概率以及类别像素分割概率的掩码图，因此将街景图像与掩码图相乘，就可生成初始文本区域。

步骤205、对初始文本区域进行投影转换，得到中间文本区域。

进一步地，步骤205可以包括以下子步骤S31-S34：

S31、对初始文本区域进行二值化操作，得到二值化区域。

在本发明实施例中，采用自适应阈值的最大类间方差法对初始文本区域进行二值化操作，得到二值化区域即该二值化区域内文本区域像素值为255，而非文本区域为0。

S32、计算二值化区域内白色区域对应的最小外接矩形，得到中间文本区域的四个顶点坐标。

在本发明实施例中，白色区域是指二值化区域内的文本区域即像素值为255的区域，采用轮廓检测算法计算计算二值化区域内白色区域对应的最小外接矩形，从而确定中间文本区域的四个顶点坐标。

S33、计算顶点坐标对应的投影变换矩阵，结合预设的指定坐标得到各顶点坐标对应的目标顶点坐标。

在本发明实施例中，在确定中间文本区域的顶点坐标(x,y)后，预设的指定坐标为(X,Y,Z)，基于已知的顶点坐标和指定坐标，结合下述转换矩阵公式计算各顶点坐标对应的目标顶点坐标。

转换矩阵公式为：

其中，(X,Y,Z)为指定坐标，(x,y,1)为中间文本区域对应的顶点坐标，M为需要求取的投影变换矩阵。

令m₃₃＝1后将中间文本区域的四个顶点分别代入转换矩阵公式中将得到8个方程，求解8个未知数。最终解出投影变换矩阵，具体公式如下：

其中，(X’,Y’,Z’)为二维坐标中对应的指定坐标。

S34、依次连接目标顶点坐标，得到中间文本区域。

在本发明实施例中，将通过转换矩阵公式计算得到各顶点坐标对应的目标顶点坐标后，依次连接目标顶点坐标，得到中间文本区域。

步骤206、通过预设的场景文本检测模型检测中间文本区域，确定场景文本特征所在的目标文本区域。

进一步地，预设的场景文本检测模型包括特征提取层、特征金字塔层和训练好的推测层，步骤206可以包括以下子步骤S41-S45：

S41、通过特征提取层提取中间文本区域内的多个场景文本特征。

在本发明实施例中，将中间文本区域输入场景文本检测模型后，场景文本检测模型的特征提取层提取中间文本区域的主干即通过3*3的卷积核提取中间文本区域内的多个场景文本特征。

S42、通过特征金字塔层对场景文本特征进行多尺度特征融合，得到场景特征图。

在本发明实施例中，将多个场景文本特征输入特征金字塔层，特征金字塔层上采样到相同的尺寸，同时融合不同层级的场景文本特征最终得到街景图像1/4的场景特征图。

S43、通过推测层推测场景特征图对应的预测概率图和阈值图。

在本发明实施例中，推测层事先采用大量的预测概率图、阈值图、近似二值图进行监督训练，使得推测层可以基于场景特征图推测出对应的预测概率图和阈值图。当场景特征图输入推测层时，训练好的推测层能基于场景特征图快速推测出对应的预测概率图和阈值图。

S44、按照预测概率图和阈值图对应的像素点，结合预设的近似二值图公式，计算得到特征图对应的近似二值图。

在本发明实施例中，将预测概率图和阈值图对应的像素点分别代入预设的近似二值图公式，计算得到特征图对应的近似二值图。

近似二值图的计算公式为：

其中，B_i,j为近似二值图中坐标为(i,j)的像素点；P_i,j是预测概率图中坐标为(i,j)的像素点，T_i,j是阈值图中坐标为(i,j)的像素点；k为放大倍数，根据实验取值为50。

S45、基于近似二值图，确定目标文本区域。

在本发明实施例中，得到特征图对应的近似二值图后，基于近似二值图上灰度值的分布情况，确定目标文本区域。

步骤207、通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字。

进一步地，预设的文本识别模型包括卷积网络层、循环网络层和转录层，步骤207可以包括以下子步骤S51-S56：

S51、通过卷积网络层提取目标文本区域内的多个文本特征图，并将文本特征图分别转换为文本特征序列。

在本发明实施例中，将目标文本区域输入文本识别模型，文本识别模型的卷积网络层通过多次卷积操作提取目标文本区域中多个文本特征，生成文本特征图，为了方便后续循环网络层的使用，将上述文本特征图分别转换为对应的文本特征序列。

S52、通过循环网络层分别计算文本特征序列对应的特征值。

在本发明实施例中，将文本特征序列输入循环网络层，循环网络层分别计算各文本特征序列对应的特征值。

S53、对全部特征值进行指数函数转换和缩放，得到后验概率矩阵。

在本发明实施例中，对全部特征值进行softmax操作，将全部特征值分别进行指数函数转换和缩放，从而生成后验概率矩阵。

例如：对于一个k维向量x，采用softmax将上述结果把这个结果转换为一个k个类别的概率分布p(x)。具体计算公式为：

其中，x是一个向量，x_i和x_j是其中的一个元素。

对于k维向量x来说，其中x_i∈R，使用指数函数变换可以将元素的取值范围变换到(0,+∞)，之后再把所有元素求和将最终结果缩放到[0,1]，形成概率分布，最终形成后验概率矩阵。

S54、通过转录层采用归一化指数函数计算后验概率矩阵内每列数值对应的文字概率序列。

在本发明实施例中，将后验概率矩阵输入转录层，转录层把验概率矩阵每一列数值进行归一化指数函数计算，得到每列数值对应的文字概率序列。

S55、分别选取文字概率序列内的最大值，将最大值对应的字符作为目标字符。

在本发明实施例中，从全部位置概率序列内分别选取最大值，并将最大值对应的字符作为目标字符。

S56、将全部目标字符作为街景图像对应的图像文字。

在本发明实施例中，采用全部目标字符构建街景图像对应的图像文字，将图像文字最终输出反馈给用户。

在本发明实施例中，通过当接收到街景图像时，通过各轻量级层分别提取街景图像在不同尺度下的语义特征，通过特征金字塔网络层对语义特征进行多尺度特征融合，得到语义特征图。通过预测类别处理层对语义特征图进行预测，得到多个预测类别对应的预测框和预测框内的类别像素概率图，按照预测类别分别采用预测框分割对应的类别像素概率图，并结合街景图像生成初始文本区域。对初始文本区域进行二值化操作，得到二值化区域，计算二值化区域内白色区域对应的最小外接矩形，得到中间文本区域的四个顶点坐标，计算顶点坐标对应的投影变换矩阵，结合预设的指定坐标得到各顶点坐标对应的目标顶点坐标，依次连接目标顶点坐标，得到中间文本区域。通过预设的场景文本检测模型检测中间文本区域，确定场景文本特征所在的目标文本区域，通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字。通过轻量级实例分割模型对街景图像分割可以准确的将图中文字区域分割出来，使用这种方式去除干扰信息文本的识别将会更加准确。随后的投影转换可将图中文本存在的扭曲纠正，从而方便后续文本识别。最后的部分使用的是DBNet以及CRNN两个深度网络，分别实现目标文本区域划定以及文本识别操作，由于增加去噪处理以及后续的多模型融合，上述方法的整体识别效率相比于目前识别算法其准确率均有较大提升。

请参阅图3，图3本发明实施例三提供的一种街景文字识别系统的结构框图。

本发明实施例提供一种街景文字识别系统，包括：

初始文本区域分割模块301，用于当接收到街景图像时，通过预设的轻量级实例分割模型分割街景图像，得到初始文本区域。

中间文本区域得到模块302，用于对初始文本区域进行投影转换，得到中间文本区域。

目标文本得到模块303，用于通过预设的场景文本检测模型检测中间文本区域，确定场景文本特征所在的目标文本区域。

图像文本得到模块304，用于通过预设的文本识别模型识别目标文本区域内的目标字符，确定街景图像对应的图像文字。

可选地，预设的轻量级实例分割模型包括多个轻量级层、特征金字塔网络层和预测类别处理层，初始文本区域分割模块301包括：

语义特征提取模块，用于当接收到街景图像时，通过各轻量级层分别提取街景图像在不同尺度下的语义特征。

语义特征图得到模块，用于通过特征金字塔网络层对语义特征进行多尺度特征融合，得到语义特征图。

类别像素概率图得到模块，用于通过预测类别处理层对语义特征图进行预测，得到多个预测类别对应的预测框和预测框内的类别像素概率图。

初始文本区域生成模块，用于按照预测类别分别采用预测框分割对应的类别像素概率图，并结合街景图像生成初始文本区域。

可选地，预测类别处理层包括原型特征分割层和实例类别预测层，类别像素概率图得到模块包括：

原型特征图得到模块，用于通过原型特征分割层分割语义特征图，得到多个原型特征图。

候选框和初始特征系数得到模块，用于通过实例类别预测层对语义特征图进行预测，得到语义特征图内多个预测类别分别对应的多个候选框和多个初始特征系数。

预测框和目标特征系数得到模块，用于按照非极大值抑制算法分别去除预测类别对应的多个候选框内重复的候选框，得到预测类别对应的预测框和多个目标特征系数。

类别像素概率图得到子模块，用于将全部原型特征图分别与对应的目标特征系数相乘，得到预测框内的类别像素概率图

可选地，初始文本区域生成模块包括：

初始类别像素分割概率图得到模块，用于分别按照预测框分割对应的类别像素概率图，得到预测类别对应的多个初始类别像素分割概率图。

目标类别像素分割概率图得到模块，用于按照预设的分割阈值选取初始类别像素分割概率图，得到预测类别对应的目标类别像素分割概率图。

初始文本区域生成子模块，用于将全部目标类别像素分割概率图与街景图像相乘，生成街景图像对应的初始文本区域。

可选地，中间文本区域得到模块302包括：

二值化区域得到模块，用于对初始文本区域进行二值化操作，得到二值化区域。

顶点坐标得到模块，用于计算二值化区域内白色区域对应的最小外接矩形，得到中间文本区域的四个顶点坐标。

目标顶点坐标得到模块，用于计算顶点坐标对应的投影变换矩阵，结合预设的指定坐标得到各顶点坐标对应的目标顶点坐标。

中间文本区域得到子模块，用于依次连接目标顶点坐标，得到中间文本区域。

可选地，预设的场景文本检测模型包括特征提取层、特征金字塔层和训练好的推测层，目标文本得到模块303包括：

场景文本特征提取模块，用于通过特征提取层提取中间文本区域内的多个场景文本特征。

场景特征图得到模块，用于通过特征金字塔层对场景文本特征进行多尺度特征融合，得到场景特征图。

预测概率图和阈值图推测模块，用于通过推测层推测场景特征图对应的预测概率图和阈值图。

近似二值图计算模块，用于按照预测概率图和阈值图对应的像素点，结合预设的近似二值图公式，计算得到特征图对应的近似二值图。

目标文本得到子模块，用于基于近似二值图，确定目标文本区域。

可选地，预设的文本识别模型包括卷积网络层、循环网络层和转录层，图像文本得到模块304包括：

文本特征序列得到模块，用于通过卷积网络层提取目标文本区域内的多个文本特征图，并将文本特征图分别转换为文本特征序列。

特征值计算模块，用于通过循环网络层分别计算文本特征序列对应的特征值。

后验概率矩阵得到模块，用于对全部特征值进行指数函数转换和缩放，得到后验概率矩阵。

文字概率序列计算模块，用于通过转录层采用归一化指数函数计算后验概率矩阵内每列数值对应的文字概率序列。

目标字符得到模块，用于分别选取文字概率序列内的最大值，将最大值对应的字符作为目标字符。

图像文本得到子模块，用于将全部目标字符作为街景图像对应的图像文字。

本发明实施例还提供了一种电子设备，电子设备包括：存储器及处理器，存储器中储存有计算机程序；计算机程序被处理器执行时，使得处理器执行如上述任一实施例的街景文字识别方法。

存储器可以是诸如闪存、EEPROM(电可擦除可编程只读存储器)、EPROM、硬盘或者ROM之类的电子存储器。存储器具有用于执行上述方法中的任何方法步骤的程序代码的存储空间。例如，用于程序代码的存储空间可以包括分别用于实现上面的方法中的各种步骤的各个程序代码。这些程序代码可以从一个或者多个计算机程序产品中读出或者写入到这一个或者多个计算机程序产品中。这些计算机程序产品包括诸如硬盘，紧致盘(CD)、存储卡或者软盘之类的程序代码载体。程序代码可以例如以适当形式进行压缩。这些代码当由计算处理设备运行时，导致该计算处理设备执行上面所描述的街景文字识别方法中的各个步骤。

本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一实施例的街景文字识别方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种街景文字识别方法，其特征在于，包括：

对所述初始文本区域进行投影转换，得到中间文本区域；

2.根据权利要求1所述的街景文字识别方法，其特征在于，所述预设的轻量级实例分割模型包括多个轻量级层、特征金字塔网络层和预测类别处理层；所述当接收到街景图像时，通过预设的轻量级实例分割模型分割所述街景图像，得到初始文本区域的步骤，包括：

3.根据权利要求2所述的街景文字识别方法，其特征在于，所述预测类别处理层包括原型特征分割层和实例类别预测层；所述通过所述预测类别处理层对所述语义特征图进行预测，得到多个预测类别对应的预测框和所述预测框内的类别像素概率图的步骤，包括：

4.根据权利要求2所述的街景文字识别方法，其特征在于，所述按照所述预测类别分别采用所述预测框分割对应的所述类别像素概率图，并结合所述街景图像生成初始文本区域的步骤，包括：

5.根据权利要求1所述的街景文字识别方法，其特征在于，所述对所述初始文本区域进行投影转换，得到中间文本区域的步骤，包括：

对所述初始文本区域进行二值化操作，得到二值化区域；

依次连接所述目标顶点坐标，得到中间文本区域。

6.根据权利要求1所述的街景文字识别方法，其特征在于，所述预设的场景文本检测模型包括特征提取层、特征金字塔层和训练好的推测层；所述通过预设的场景文本检测模型检测所述中间文本区域，确定场景文本特征所在的目标文本区域的步骤，包括：

基于所述近似二值图，确定目标文本区域。

7.根据权利要求1所述的街景文字识别方法，其特征在于，所述预设的文本识别模型包括卷积网络层、循环网络层和转录层；所述通过预设的文本识别模型识别所述目标文本区域内的目标字符，确定所述街景图像对应的图像文字的步骤，包括：

将全部所述目标字符作为所述街景图像对应的图像文字。

8.一种街景文字识别系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括存储器及处理器，所述存储器中储存有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如权利要求1-7任一项所述的街景文字识别方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时实现如权利要求1-7任一项所述的街景文字识别方法。