CN114998859A

CN114998859A - 交通文本识别方法、装置、设备及存储介质

Info

Publication number: CN114998859A
Application number: CN202210422626.6A
Authority: CN
Inventors: 王润民; 刘明昊; 刘莹莹; 朱桂林; 张翔宇; 朱彦斌; 陈华; 朱祯琳; 徐尉翔; 丁亚军; 钱盛友; 代建华
Original assignee: Hunan Normal University
Current assignee: Hunan Normal University
Priority date: 2022-04-21
Filing date: 2022-04-21
Publication date: 2022-09-02
Anticipated expiration: 2042-04-21
Also published as: CN114998859B

Abstract

本申请涉及交通目标检测与识别的技术领域，本申请公开了一种交通文本识别方法、装置、设备以及计算机可读存储介质，该方法包括利用由FPN网络和ResNet50网络共同构建的主干网络模型对待识别图像进行特征运算获得特征图，对待识别图像进行SIFT特征算法运算，获得特征描述向量；对特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图；将精细特征图和特征描述向量进行特征融合，获得融合特征；对融合特征进行交通文本所在区域检测识别，确定待识别图像中交通文本所在位置区域，以便对位置区域内的交通文本进行语义识别。本申请获取交通文本提供可靠的数据信息，有助于提升汽车的行驶安全。

Description

交通文本识别方法、装置、设备及存储介质

技术领域

本发明涉及交通目标检测与识别技术领域，特别是涉及一种交通文本识别方法、装置、设备以及计算机可读存储介质。

背景技术

汽车出现大大便利了人类的出行方式，但随着汽车广泛普及，也带来了交通事故频发的问题。在汽车车辆行驶过程中，驾驶员通过自身的视觉系统感知交通环境信息并对车辆行驶状态进行控制，从而形成一个“驾驶员-车-路-环境”的闭环系统。在这个闭环系统中，驾驶员是控制决策的核心。但真实的行车环境复杂多样、道路情况不可穷尽。在车辆行进过程中，机动车、非机动车、行人混杂的交通模式使得驾驶员受到许多未知因素干扰，从而迫使驾驶员花费更多的精力来处理行车状况，进而导致其驾驶状态具有很大的不稳定性。这种以驾驶员为核心的传统车辆行驶方式在交通路况愈发复杂的情况下缺点日益突出，同时也成为交通事故频发的主要原因。

尽管随着人工智能的技术的发展，自动驾驶技术也逐渐在汽车行驶过程中得以应用。相对于传统的汽车驾驶而言，自动驾驶技术更多的依赖各种卫星、GPS定位等技术对路况信息进行判断。这往往就要求自动驾驶车辆时刻保持在线联网状态，一旦汽车的通讯网络因故障原因导致断网，很可能会引发交通事故。由此可见在自动驾驶技术中，车辆对无线网络过分依赖同样对车辆的自动驾驶造成很大的安全隐患。

综上所述，如何有效解决车辆行驶的安全问题，是业内热门研究的问题之一。

发明内容

本发明的目的是提供一种交通文本识别方法、装置、设备以及计算机可读存储介质，有利于为车辆行驶提供可靠的交通文本数据。

为解决上述技术问题，本发明提供一种交通文本识别方法，包括：

利用主干网络模型对待识别图像进行特征运算获得特征图；其中，所述主干网络模型为预先经过学习训练并由FPN网络和ResNet50网络共同构建的模型；

对所述待识别图像进行SIFT特征算法运算，获得特征描述向量；

对所述特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图；

将所述精细特征图和所述特征描述向量进行特征融合，获得融合特征；

对所述融合特征进行交通文本所在区域检测识别，确定所述待识别图像中交通文本所在位置区域，以便对所述位置区域内的交通文本进行语义识别。

可选地，对所述特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图，包括：

对所述特征图进行非文本特征剔除获得文本特征；

对所述特征图进行文本框粗检测，获得所述特征图中文本所在区域的粗检测框；

将所述粗检测框和所述特征图共同进行可形变卷积运算，获得检测框；

将所述文本特征和所述检测框共同进行精细检测运算，获得精细特征图。

可选地，对所述特征图进行非文本特征剔除获得文本特征，包括：

将所述特征图通过文本分类头中的第一1×1卷积层、尺度归一层、第一激活层、第二1×1卷积层、第二激活层依次运算，生成文本分类得分图；

将所述文本分类得分图中分数小于预设阈值的特征作为非文本特征剔除，获得分数不小于所述预设阈值的特征作为文本特征。

可选地，对所述特征图进行文本框粗检测，获得所述特征图中文本所在区域的粗检测框，包括：

将所述特征图通过粗检测模型中的3×3卷积层、尺度归一层、激活层以及1×1卷积层依次进行粗检测运算，获得粗检测框；

所述文本特征和所述检测框共同进行精细检测运算，获得精细特征图，包括：

将所述文本特征和所述检测框共同通过精细检测模型中的3×3卷积层、尺度归一层、激活层以及1×1卷积层依次进行精细检测运算，获得精细特征图。

可选地，对所述融合特征进行交通文本所在区域检测识别，确定所述待识别图像中交通文本所在位置区域，包括：

对所述融合特征进行交通文本所在区域检测识别，获得多个文本检测框；

将任意两个重叠度大于预设重叠度的文本检测框中置信度分数小的文本检测框剔除；其中，所述置信度分数为所述文件检测框中的文本是交通文本的概率；

以剔除后的各个所述文本检测框所在区域作为所述待识别图像中交通文本所在位置区域。

可选地，所述主干网络的构建过程，包括：

基于FPN网络和ResNet50网络构建卷积神经网络；

利用所述卷积神经网络对样本图像进行特征提取，获得样本特征；

将所述样本特征分别通过1×1卷积层和RBOX包围框，获得所述样本图像的预测文本位置和预测文本得分；

利用骰损失函数将所述预测文本位置和所述预测文本得分与所述样本图像的真实文本位置和真实文本得分进行误差损失运算，并根据运算结果对所述卷积神经网络进行优化，获得所述主干网络模型。

可选地，在利用主干网络模型对待识别图像进行特征运算获得特征图，对所述待识别图像SIFT特征算法运算，获得特征描述向量之前，还包括：

将所述待识别图像进行灰度化处理，获得灰度图像；

根据所述灰度图像中各个像素点的灰度值大小，确定所述待识别图像的明暗度是否达到要求明暗度；

若否，则通过Gamma校正对所述待识别图像进行图像增强运算；

根据经过增强运算之后的所述待识别图像，执行利用主干网络模型对待识别图像进行特征运算获得特征图，对所述待识别图像SIFT特征算法运算，获得特征描述向量的步骤。

一种交通文本识别装置，包括：

第一运算模块，用于利用主干网络模型对待识别图像进行特征运算获得特征图；其中，所述主干网络模型为预先经过学习训练并由FPN网络和ResNet50网络共同构建的模型；

第二运算模块，用于对所述待识别图像进行SIFT特征算法运算，获得特征描述向量；

第三运算模块，用于对所述特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图；

第四运算模块，用于将所述精细特征图和所述特征描述向量进行特征融合，获得融合特征；

文本识别模块，用于对所述融合特征进行交通文本所在区域检测识别，确定所述待识别图像中交通文本所在位置区域，以便对所述位置区域内的交通文本进行语义识别。

一种交通文本识别设备，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如上任一项所述的交通文本识别方法的步骤。

一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如上任一项所述的交通文本识别方法的步骤。

本发明所提供的一种交通文本识别方法，包括利用主干网络模型对待识别图像进行特征运算获得特征图；其中，主干网络模型为预先经过学习训练并由FPN网络和ResNet50网络共同构建的模型；对待识别图像进行SIFT特征算法运算，获得特征描述向量；对特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图；将精细特征图和特征描述向量进行特征融合，获得融合特征；对融合特征进行交通文本所在区域检测识别，确定待识别图像中交通文本所在位置区域，以便对位置区域内的交通文本进行语义识别。

本申请中利用FPN网络和ResNet50网络共同构建形成的主干网络模型和SIFT特征算法相结合分别从不同角度获得待识别图像的特征图和特征描述向量，在此基础上，对特征图进行交通文本所在区域识别获得精细特征图，并将该精细特征图和特征描述向量进行融合之后，根据融合特征再次进行更精准的交通文本的识别；本申请中利用了主干网络模型和SIFT特征算法两种不同方式提取待识别图像的特征信息，并将两种不同方式提取的特征信息进行了融合后实现交通文本的定位识别，提升了待识别图像中交通文本的位置区域识别的准确性，为后续进一步识别交通文本的语义信息提供可靠的数据信息，有利于后续基于交通文本的语义为汽车驾驶提供有效的驾驶信息，有助于提升汽车的行驶安全。

本申请中还提供了一种交通文本识别装置、设备以及计算机可读存储介质。

附图说明

为了更清楚的说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的交通文本识别方法的流程示意图；

图2为本申请另一实施例提供的交通文本识别方法的流程示意图；

图3为本发明实施例提供的交通文本识别装置的结构框图。

具体实施方式

无论是人工驾驶的汽车、自动驾驶的汽车甚至目前较为热门的物流机器人等等车辆或者是类似于车辆的设备，只要在道路上行驶，尤其是错综复杂的城市道路上行驶，正确有效的读取道路上的交通指示牌上的文本信息都是至关重要的，既可以给人工驾驶的驾驶员提供正确的驾驶提示，也能够为无人驾驶的车辆提供准确的导航信息。

为此，为了更准确定获得交通指示牌上的交通文本，本申请中提供了一种交通文本识别的技术方案。

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为本申请实施例提供的交通文本识别方法的流程示意图，该识别方法可以包括：

S11：利用主干网络模型对待识别图像进行特征运算获得特征图。

其中，主干网络模型为预先经过学习训练并由FPN网络和ResNet50网络共同构建的模型。

该待识别图像可以是行驶在交通道路上的车辆本身所携带的摄像头、行车记录仪以及手机上的摄像头等，在车辆行进的过程中对道路上环境进行实时拍摄获得的图像。而本实施例中也即需要识别该图像中是否包含有交通文本。

此外，对于由FPN网络和ResNet50网络共同构建的主干网络模型中，FPN(FeaturePyramid Networks，特征金字塔网络)主要解决的是物体检测中的多尺度问题，大幅度提升了小物体检测的性能；在利用神经网络获得图像特征的过程中，随着网络的逐渐加深，深层的网络对于文本的轮廓特征捕捉的更加敏感而忽略了文本的一些细节特征，这些细节特征往往是由浅层的网络去捕捉的，将深层和浅层提取到的特征图结合起来，应对不同尺度的文本也能有比较好的效果，也因为网络的连接方式酷似金字塔，所以叫特征金字塔网络。

ResNet50是一种卷积神经网络结构，因为其跳跃连接的方式，ResNet又名残差神经网络，指的是在传统卷积神经网络中加入残差学习(residual learning)的思想，解决了深层网络中梯度消失和精度下降的问题；在运算中网络能够越来越深，随着网络的逐渐加深数据量也会变大，所以采用残差网络(ResNet)这一结构跳跃连接卷积层，达到减少计算量的目的，由此既保证了精度，又控制了速度；后面的数字50代表卷积层数。

ResNet50神经网络和FPN神经网络一起构成模型主干网络模型，初步提取图片中关于交通文本的特征图。例如可以将输入的待识别图像固定至256*128分辨率，经过主干网络模型运算后，输出特征大小为(256，128，12)的特征图。

S12：对待识别图像进行SIFT特征算法运算，获得特征描述向量。

在对待识别图像利用主干网络模型进行特征提取获得特征图的同时，还可以利用SIFT特征算法运算，获得特征描述向量。

SIFT(Scale-invariant feature transform，尺度不变特征转换)是一种电脑视觉的算法用来侦测与描述影像中的局部性特征，在空间尺度中寻找极值点，并提取出其位置、尺度、旋转不变量等组合形成特征描述向量。

SIFT特征算法对待识别图像的运算可以看作是另一种对待识别图像进行特征提取的方式，具体经过了特征提取、特征描述和特征匹配这三个过程；特征提取就是从图像中提取出关键点或特征点、角点等；特征描述就是用一组数学向量对特征点进行描述，其主要保证不同的向量和不同的特征点之间是一种对应的关系，同时相似的关键点之间的差异尽可能小；特征匹配其实就是特征向量之间的距离计算，常用的距离有欧氏距离、汉明距离、余弦距离等。对于旋转、尺度缩放、亮度变化保持不变性，而且对视角变化、仿射变换、噪声也保持一定程度的稳定性，这使得整个模型具有更强的鲁棒性。

本实施例中SIFT特征算法运算中对特征点的个数和有效点的比例没有要求，当特征点不是很多时，经优化的SIFT匹配算法甚至可以达到实时的要求，而且可以很方便的与其他形式的特征向量进行联合。

S13：对特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图。

本实施例中对特征图中的交通文本所在区域的检测识别方式可以是采用一个依次包括3×3卷积层、尺度归一层、激活层以及1×1卷积层的文本框检测模型进行文本框检测运算获得的包围交通文本的文本框的特征图。

该文本框检测模型由3×3的卷积层→尺度归一层→激活层(可以将通道数量减少到64个)和1×1卷积层组成，输出几何图的形状为H/4×W/4×5的粗检测框。其中，H和W分别代表输入的特征图的长和宽，五个通道分别表示到文本四边形的四个边的距离和文本四边形的旋转角度。

可以理解的是，该文本框检测模型可以是预先利用交通文本的样本图像经过训练获得的，通过样本训练修正该文本框检测模型的参数，进而使得该文本框检测模型能够识别出输入的图像中可能是交通文本的像素点，并形成包围该交通文本的文本框。

但进一步地考虑到仅仅只采用一个文本框检测模型识别出的交通文本的文本框可能并不能很好的保证其准确性；因此，在本申请的一种可选地实施例中，对于步骤S12中对特征图进行文本框特征检测，获得精细特征图的具体过程可以包括：

步骤一：对特征图进行非文本特征剔除获得文本特征；

步骤二：对特征图进行文本框粗检测，获得特征图中文本所在区域的粗检测框；

步骤三：将粗检测框和特征图共同进行可形变卷积运算，获得检测框；

步骤四：将文本特征和检测框共同进行精细检测运算，获得精细特征图。

首先，对于步骤一中对特征图进行非文本特征剔除过程中，可以采用文本分类头对特征图进行运算；该运算过程可以包括：

将特征图通过文本分类头中的第一1×1卷积层、尺度归一层、第一激活层、第二1×1卷积层、第二激活层依次运算，生成文本分类得分图；

将文本分类得分图中分数小于预设阈值的特征作为非文本特征剔除，获得分数不小于预设阈值的特征作为文本特征。

文本分类头在对输入的特征图先通过3×3的卷积层→尺度归一层→激活层，将通道数量减少到64个，再通过1×1卷积层→激活层生成文本分类得分图；输出文本分类得分图的形状为H/4×W/4×4且值在0到1之间，输出文本分类得分图中分数大于某一阈值判断为文本特征输出到下一层，分数小于某一阈值判断为非文本特征(树叶、行人之类的背景)则舍弃。

可选地，在上述步骤二中特征图进行文本框粗检测过程中，是采用了一个粗检测模型来实现的，而在上述步骤四中，对文本特征和检测框共同进行精细检测运算的过程，则可以采用一个精细检测模型来完成的。对于粗检测模型和精细检测模型的结构层构成和上述文本框检测模型的结构层相同，均是属于包括3×3卷积层、尺度归一层、激活层以及1×1卷积层等结构层的文本框检测模型。

也即是说，在利用粗检测模型进行文本框粗检测的过程可以包括：

将特征图通过粗检测模型中的3×3卷积层、尺度归一层、激活层以及1×1卷积层依次进行粗检测运算，获得粗检测框。

在利用精细检测模型进行精细检测运算的过程可以包括：

将文本特征和可形变卷积运算获得的检测框共同通过精细检测模型中的3×3卷积层、尺度归一层、激活层以及1×1卷积层依次进行精细检测运算，获得精细特征图。

但可以理解的是粗检测模型和精细检测模型的结构层参数可能存在不同，具体的参数设置，可以在具体的样本训练中确定。

本实施例中进行了两次文本框检测，在第一次进行的粗检测过程中，可以大致确定出待检测图像中交通文本成像的粗略文本框；再将该粗略文本框和包含有待识别图像的完整特征的特征图共同进行可形变卷积运算，实现对特征图中的检测点的形变，使得检测点向可能存在交通文本的区域偏移；并在此基础上，再次利用精细检测模型对可形变卷积运算后的检测框和进行非文本剔除的文本特征进行文本框的检测运算，也就可以在一定程度上提升精细检测模型对包含交通文本区域检测的精度，进而获得精细特征图。

基于上述论述，可形变卷积提取特征，使得网络能更加聚焦于感兴趣的文本区域(即可能存在交通文本的区域)，从而提高检测精度。可形变卷积是指卷积核在每一个元素上额外增加了一个方向参数，卷积核就能在训练过程中扩展到更大的范围提取网络感兴趣的区域。首先使用粗检测的结果来产生采样点，然后将采样点应用于可形变卷积算子以获得用于精确定位的合并特征；该合并特征可以被后续的精细定位头进一步用来生成比粗略检测更好地包围文本区域的精细检测。例如，本实施例中可以利用可形变卷积通过移动卷积层的采样点，使采样点更多的落在交通文本区域，提取的特征将会更加精确。

S14：将精细特征图和特征描述向量进行特征融合，获得融合特征。

S15：对融合特征进行交通文本所在区域检测识别，确定待识别图像中交通文本所在位置区域，以便对所述位置区域内的交通文本进行语义识别。

需要说明的是，在对融合特征进行文本框检测过程中，同样可以采用上述包括3×3卷积层、尺度归一层、激活层以及1×1卷积层的文本框检测模型来实现。当然，在本步骤中的文本检测模块的各个结构层参数也可能和上述粗检测模型以及精细检测模型的结构层参数不同，仅仅是结构层的构成类似。

将精细检测得到的精细特征图和用SIFT特征算法得到的特征描述向量进行合并操作，通道数不变，再经过文本框检测模型进行进一步的检测，显然即可获得更准确的包围交通文本的文本检测框。

结合实际应用可知，在实际拍摄的待识别图像中，交通指示牌上的交通文本可能包含多行文字，那么最终形成的文本检测框可能就存在多个，每个文本检测框中包含一部分的交通文本，各个文本检测框中的内容共同拼凑形成交通文本所在位置的文本框。

但在实际检测运算过程中，还有可能对于交通文本中相同的一个字或几个字对应生成好几个略有偏移的文本检测框，造成文本框杂乱的问题；为此，可以考虑对重合度较高的多个文本检测框进行部分剔除或合并。

需要说明的是，经过上述文本框检测模型检测的各个文本检测框分别包括：

矩形框结构的文本检测框的四个顶点的坐标信息，每个顶点包括X坐标和Y坐标；

每个文本检测框的置信度分数，即文本检测框所包围的文本是交通文本的概率；

每个文本检测框的几何分数，即文本检测框所包围交通文本的有效率；

以及每个文本检测框的角度信息，文本检测框和对应的交通文本行之间的偏移量。

为此，在实际提出重合度过高的文本检测框过程中，即可利用上述信息来实现。

在本申请一种可选的实施例中为了进一步地简化检测结果，还可以包括：

S151：对融合特征进行交通文本所在区域检测识别，获得多个文本检测框；

S152：将任意两个重叠度大于预设重叠度的文本检测框中置信度分数小的文本检测框剔除；其中，置信度分数为文件检测框中的文本是交通文本的概率；几何分数为文件检测框包围交通文本的有效率。

S153：以剔除后的各个文本检测框所在区域作为待识别图像中交通文本所在位置区域。

为了尽可能的剔除重合度过高的文本检测框，在实际应用中可以利用NMS算法对每个文件检测框进行筛选。NMS算法即非极大值抑制(Non-Maximum Suppression，NMS)算法，用来筛选得到最后的文本检测框。

例如：假设当前存在6个文本检测框A、B、C、D、E、F，对文本检测框的筛选过程如下：

1)将各个文本检测框按照置信度分数从小到大做排序，排序后的顺序即为A、B、C、D、E、F。

2)从置信度分数最大的文件检测框F开始，根据各个文本检测框所在的位置区域分别判断A～E与F的重叠度IOU是否大于设定阈值(阈值设定是超参，可以基于实际需要设定，会影响最后的输出结果，本实施例中设置为IOU>0.7)；

3)假设B、D与F的重叠度超过阈值，则可以认为B、D和F所包围的交通文本为相同的交通文本，由此即可剔除B、D；并标记第一个文本检测框F。

4)从剩下的文本检测框A、C、E中，选择置信度分数最大的检测文本框E，并判断E与A、C的重叠度，并剔除A、C重叠度大于设定阈值的文本检测框；并标记E是第二个文本检测框。

如此循环往复，直到任意两个文本检测框之间的重叠度均不大于设定阈值；最终标记的文本检测框均属于待识别图像中交通文本所对应的文本检测框，最终也即可识别出交通文本所在的区域。

当然上述实施例中，是以置信度分数作为剔除多余文本检测框的标准，在实际应用中，也并不排除采用几何分数或者其他依据作为标准剔除多余的文本检测框，对此本申请中不做具体赘述。

基于上述论述可知，对于精细特征图是经过深度学习获得的神经网络的运算最终提取出的关于交通文本的特征图；而特征描述向量则是利用SIFT特征算法运算获得的；本实施例中将SIFT特征算法和深度学习相结合的方式，合并的特征更加精确，提高了模型的精度。

在准确确定待识别图像中交通文本所在位置区域后，即可利用目前常规的图像中文字语义识别的方式，对待识别图像中的交通文本语义进行识别解读，获得该交通文本实际代表的语义含义之后，既可以直接语音播报或显示屏显示等方式告知驾驶者，也可以直接上传至车辆的导航系统，使得导航系统可以利用该交通文本的指示信息对行驶道路进行合理规划，从而为车辆的安全驾驶提供实时有效的信息数据，有利于提升车辆行驶的安全性。

综上所述，本申请中利用经过学习训练获得的主干网络模型和SIFT特征算法分别对车辆行驶道路上的待识别图像进行特征提取，分别获得该待识别图像中的特征图和特征描述向量，并将该特征图进行初步的交通文本识别之后获得的精细特征图和特征描述向量相融合，最终以融合后的特征作为识别交通文本所在区域的特征数据，在一定程度上保证了对待识别图像中交通文本位置识别的准确性，为进一步识别交通文本的语义识别提供可靠的数据依据，有利于为车辆驾驶提供有效的交通指示信息，提升车辆行驶的安全性。

基于上述任一实施例，在本申请的一种可选地实施例中，对于上述主干网络模型的构建过程可以包括：

基于FPN网络和ResNet50网络构建卷积神经网络；

利用卷积神经网络对样本图像进行特征提取，获得样本特征；

将样本特征分别通过1×1卷积层和RBOX包围框，获得样本图像的预测文本位置和预测文本得分；

利用骰损失函数将预测文本位置和预测文本得分与样本图像的真实文本位置和真实文本得分进行误差损失运算，并根据运算结果对卷积神经网络进行优化，获得主干网络模型。

如前所述，对于待识别图像而言，其并不仅仅只包含交通文本的内容，还可能存在广告文字、或者其他对车辆行驶无意义的文本等内容；甚至在大部分的待识别图像中可能并不包含有交通指示牌的图像，也就不包含交通文本；为了保证经过主干网络运算提取的特征图在经过后续交通文本检测过程中，能够更准确的区分筛选出包含有交通指示牌成像区域的特征图。在主干网络模型的训练过程中，先采集包含交通指示牌的图像和不包含交通指示牌的图像共同作为样本图像，并对该样本图像中的文本位置以及文本得分先进行标定，也即获得样本图像真实的文本位置和文本得分，以便后续训练获得的主干网络模型的准确性作为参照依据。

本实施例中在对主干网络模型进行训练创建的过程中，先输入样本图像，通过FPN网络和ResNet50网络构建的卷积网络提取特征，将提取获得的特征分别通过1×1的卷积层运算之后，通过RBOX包围框得到文本位置还有文本得分，通过骰损失函数计算预测出的文本位置和文本得分与真实文本位置还有真实文本得分的比较；显然，若是预测值和真实值相差较大，则说明上述构建的卷积神经网络并不准确，可以将这一结果反馈给卷积网络，改变卷积网络的结构(例如卷积层数，卷积核大小等参数)，使得下一次预测的结果越来越接近真实的结果的过程，经过反复优化迭代，最终即可获得能够准确提取交通文本的准确特征的主干网络模型。

本实施例中使用骰损失函数代替类平衡损失，选取RBOX包围框的输出预测方式，舍弃了源码中的QUAD包围方式，减小了输出的文本框的计量。

基于上述论述，上述实施例中的待识别图像是在车辆实际行驶过程中实时拍摄获得的；考虑到因为待识别图像是车辆在实际行驶过程中实时拍摄的，而车辆的行驶环境可能是夜间环境、阴雨天气等光线亮度不足的环境，相应地，拍摄获得的待识别图像的清晰度也可能存在一定的影响。为此，在本申请的一种可选地实施例中，在采集获得待识别图像之后，还可以进一步地包括：

将待识别图像进行灰度化处理，获得灰度图像；

根据灰度图像中各个像素点的灰度值大小，确定待识别图像的明暗度是否达到要求明暗度；

若否，则通过Gamma校正对待识别图像进行图像增强运算。

在确定待识别图像的明暗度是否达到要求明暗度时，可以先将图像转为灰度图像，使用均方根(Root Mean Square,RMS)算法来计算灰度图像的各个像素点灰度值的均方根值，也可称其为有效值，也即对各个像素点灰度值依次取二次方、平均和开方。如果均方根值小于设定的阈值，则将待识别图像判定为光线较弱，需进行增强处理；如果均方根值大于等于设定的阈值，则无需进行增强处理。

可以理解的是若是待识别图像的明暗度达到要求的明暗度，显然，则无需对待识别图像进行图像增强运算，可以直接对待识别图像进行主干网络模型的特征运算以及SIFT特征算法运算。

而对于明暗度不足的待识别图像，可以在进行Gamma校正的图像增强运算之后，形成光线增强后的待识别图像，在将该增强之后的待识别图像进行主干网络模型的特征运算获得以及进行SIFT特征算法运算。

自然场景中的光照与图像灰度值之间往往存在幂函数的关系，Gamma即为幂函数的次数。所谓Gamma校正就是对图片的颜色进行指数运算，获得符合人眼特性的可辨识精度，通常被应用于增强图中偏暗部分的细节信息，属于一种非线性变换。

Gamma校正通过幂律表达式s＝c·r^γ来定义，该幂律表达式可被简单解释为输出值s等于输入值r的γ(即为Gamma值)次方。其中，c是常数，输入值r及输出值s均为非负值，γ即为Gamma值。根据该幂律表达式可知，当Gamma值等于1时，对输入图像不矫正，输出值等于输入值；当Gamma值大于1时，使输出值小于输入值，此时图像中偏亮部分对比度被加强，偏暗部分对比度被减弱，整体图像的灰度值变小；当Gamma值小于1时，输出值大于输入值，此时图中偏亮部分对比度被减弱，偏暗部分对比度被加强，整体图像的灰度值变大。以上分析可知，将Gamma值设定为小于1则可达到增强光线较弱的图像的目的。例如，本实施例中可以将Gamma值设为0.5，使图像的整体亮度更加均匀，在灰暗的背景中突出文本的显示。

基于上述任一实施例，在本申请的一种可选地实施例中交通文本识别方法的过程可以如图2所示，先对车辆行驶过程中对实时拍摄道路周围图像获得待识别图像；再对该待识别图像进行明暗度判断，若判断该待识别图像的明暗程度为“明”，也即是该待识别图像满足亮度要求，反之，如果该待识别图像的明暗度为“暗”，也即是该待识别图像不满足亮度要求，则需要对该待识别图像进行图像增强；将明暗度为“明”的待识别图像或者进行图像增强后的待识别图像通过主干网络模型的特征提取，获得特征图；与此同时，还将明暗度为“明”的待识别图像或者进行图像增强后的待识别图像进行SIFT特征算法运算，获得特征描述向量。将上述主干网络模型运算获得的特征图经过文本分类头进行运算后，进行文本和非文本的判断，并剔除非文本数据；与此同时还将主干网络模型运算获得的特征图经过粗检测运算，并将粗检测运算的结果和特征图共同进行可形变卷积运算；还将特征图利用文本分类头进行非文本特征的剔除，获得剔除后的文本特征；将可形变卷积运算的结果和文本特征共同进行精细检测，获得精细特征图；根据该精细特征图和上述特征描述向量进行特征融合，即可检测识别出交通文本。

本实施例中对待识别图像先进行明暗程度的判断，对于弱光条件下采集的待识别图像会采用Gamma校正(幂律变换)进行增强处理还采用可形变卷积提取特征，使得神经网络能更加聚焦于感兴趣的文本区域，从而提高检测精度；并且采用SIFT特征算法和深度学习神经网络相结合的方式，合并的特征更加精确，提高了对交通文本的识别精度。

下面对本发明实施例提供的交通文本识别装置进行介绍，下文描述的交通文本识别装置与上文描述的交通文本识别装置可相互对应参照。

图3为本发明实施例提供的交通文本识别装置的结构框图，参照图3中交通文本识别装置可以包括：

第一运算模块100，用于利用主干网络模型对待识别图像进行特征运算获得特征图；其中，所述主干网络模型为预先经过学习训练并由FPN网络和ResNet50网络共同构建的模型；

第二运算模块200，用于对所述待识别图像进行SIFT特征算法运算，获得特征描述向量；

第三运算模块300，用于对所述特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图；

第四运算模块400，用于将所述精细特征图和所述特征描述向量进行特征融合，获得融合特征；

文本识别模块500，用于对所述融合特征进行交通文本所在区域检测识别，确定所述待识别图像中交通文本所在位置区域，以便对所述位置区域内的交通文本进行语义识别。

在本申请的一种可选地实施例中，第三运算模块300具体包括：

文本剔除单元，用于对所述特征图进行非文本特征剔除获得文本特征；

粗检测单元，用于对所述特征图进行文本框粗检测，获得所述特征图中文本所在区域的粗检测框；

可形变卷积单元，用于将所述粗检测框和所述特征图共同进行可形变卷积运算，获得检测框；

精细检测单元，用于将所述文本特征和所述检测框共同进行精细检测运算，获得精细特征图。

在本申请的一种可选地实施例中，文本剔除单元，具体用于将所述特征图通过文本分类头中的第一1×1卷积层、尺度归一层、第一激活层、第二1×1卷积层、第二激活层依次运算，生成文本分类得分图；将所述文本分类得分图中分数小于预设阈值的特征作为非文本特征剔除，获得分数不小于所述预设阈值的特征作为文本特征。

在本申请的一种可选地实施例中，粗检测单元具体用于将所述特征图通过粗检测模型中的3×3卷积层、尺度归一层、激活层以及1×1卷积层依次进行粗检测运算，获得粗检测框；

精细检测单元具体用于将所述文本特征和所述检测框共同通过精细检测模型中的3×3卷积层、尺度归一层、激活层以及1×1卷积层依次进行精细检测运算，获得精细特征图。

在本申请的一种可选地实施例中，文本识别模块500，具体包括：

文本框检测单元，用于对所述融合特征进行交通文本所在区域检测识别，获得多个文本检测框；

文本框剔除单元，用于将任意两个重叠度大于预设重叠度的文本检测框中置信度分数最小的文本检测框剔除；其中，所述置信度分数为所述文件检测框中的文本是交通文本的概率；

位置确定单元，用于以剔除后的各个所述文本检测框所在区域作为所述待识别图像中交通文本所在位置区域。

在本申请的一种可选地实施例中，还包括模型训练模块，用于基于FPN网络和ResNet50网络构建卷积神经网络；利用所述卷积神经网络对样本图像进行特征提取，获得样本特征；将所述样本特征分别通过1×1卷积层和RBOX包围框，获得所述样本图像的预测文本位置和预测文本得分；利用骰损失函数将所述预测文本位置和所述预测文本得分与所述样本图像的真实文本位置和真实文本得分进行误差损失运算，并根据运算结果对所述卷积神经网络进行优化，获得所述主干网络。

在本申请的一种可选地实施例中，还包括明暗度识别模块，用于在利用主干网络模型对待识别图像进行特征运算获得特征图，并对所述待识别图像SIFT特征算法运算，获得特征描述向量之前，将所述待识别图像进行灰度化处理，获得灰度图像；根据所述灰度图像中各个像素点的灰度值大小，确定所述待识别图像的明暗度是否达到要求明暗度；若否，则通过Gamma校正对所述待识别图像进行图像增强运算；根据经过增强运算之后的所述待识别图像，执行利用主干网络模型对待识别图像进行特征运算获得特征图，并对所述待识别图像SIFT特征算法运算，获得特征描述向量的步骤。

本实施例的交通文本识别装置用于实现前述的交通文本识别方法，因此交通文本识别装置中的具体实施方式可见前文中的交通文本识别方法的实施例部分，在此不再赘述。

本申请中还提供了一种交通文本识别设备，包括：

存储器，用于存储计算机程序；

该处理器执行的所示交通文本识别方法的步骤可以包括：

本申请还提供了一种计算机可读存储介质，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如上任一项所述的交通文本识别方法的步骤。

该计算机可读存储介质可以为随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外，本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明，以免过多赘述。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种交通文本识别方法，其特征在于，包括：

2.如权利要求1所述的交通文本识别方法，其特征在于，对所述特征图进行交通文本所在区域的检测识别，获得对交通文本所在位置区域进行标记的精细特征图，包括：

对所述特征图进行非文本特征剔除获得文本特征；

3.如权利要求2所述的交通文本识别方法，其特征在于，对所述特征图进行非文本特征剔除获得文本特征，包括：

4.如权利要求2所述的交通文本识别方法，其特征在于，对所述特征图进行文本框粗检测，获得所述特征图中文本所在区域的粗检测框，包括：

将所述文本特征和所述检测框共同进行精细检测运算，获得精细特征图，包括：

5.如权利要求1所述的交通文本识别方法，其特征在于，对所述融合特征进行交通文本所在区域检测识别，确定所述待识别图像中交通文本所在位置区域，包括：

6.如权利要求1所述的交通文本识别方法，其特征在于，所述主干网络模型的构建过程，包括：

基于FPN网络和ResNet50网络构建卷积神经网络；

7.如权利要求1至6任一项所述的交通文本识别方法，其特征在于，在利用主干网络模型对待识别图像进行特征运算获得特征图，对所述待识别图像SIFT特征算法运算，获得特征描述向量之前，还包括：

将所述待识别图像进行灰度化处理，获得灰度图像；

8.一种交通文本识别装置，其特征在于，包括：

9.一种交通文本识别设备，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，以实现如权利要求1至7任一项所述的交通文本识别方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储计算机程序，所述计算机程序被处理器执行，以实现如权利要求1至7任一项所述的交通文本识别方法的步骤。