CN108256493A

CN108256493A - 一种基于车载视频的交通场景文字识别系统及识别方法

Info

Publication number: CN108256493A
Application number: CN201810078324.5A
Authority: CN
Inventors: 金东勇; 连捷; 肖文光; 陆迪; 胡进忠; 陈俊霞; 李艳华
Original assignee: CETC 38 Research Institute
Current assignee: CETC 38 Research Institute
Priority date: 2018-01-26
Filing date: 2018-01-26
Publication date: 2018-07-06

Abstract

本发明提出一种基于车载视频的交通场景文字识别系统及识别方法。该系统先对视频单帧图像进行预处理，搜索图像中的最稳定极值区域作为文字候选区，再用先验知识对候选区进行筛选，得到符合先验知识的候选区。对符合先验知识的候选区作笔画宽度变换，设定笔画宽度均值方差阈值，再过滤一些不符合笔画宽度特征的候选区域，最后用二分类器得到最终文字区域。得到文字区域后，使用投影法和连通域法将整个文字区域分割成单个文字，最后将单个文字送入训练好的CNN文字分类器进行文字识别。为了提高识别效率，下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配，进行跟踪检测。该系统对交通场景文字的定位和识别精度高，对不同光照环境有较好的鲁棒性。

Description

一种基于车载视频的交通场景文字识别系统及识别方法

技术领域

本发明属于模式识别与图像处理领域，涉及一种基于视频的交通场景文字识别系统及识别方法。

背景技术

驾驶辅助系统是智能交通系统的重要组成部分，对于提高驾驶安全性有着重要作用。由行车记录仪拍摄的视频图像中通常含有语义信息，这些信息包含了路径提示、限速标识、避免疲劳驾驶提醒等信息，而这些信息为驾驶员对交通场景的认知起着重要作用。通过对行车记录仪视频中的文字进行自动识别，可以为驾驶员提取警示、提醒和导向标识，进行选择性的自动文字信息播报或存储，以便驾驶员提前做出路径选择，能够节省时间且提高安全性。

交通场景文字识别的挑战主要来自于高度复杂的背景信息，复杂的背景如树叶、路灯和天桥等为文字定位带来了难度。此外，文字分辨率较低、字体形态各异、以及光照条件的变换都为文字识别增加了挑战难度。

近年来，用于自然场景文字文本检测的方法主要两类，一类是基于滑动窗的方法，另一类是基于连通域的方法。基于滑动窗的方法首先在在不同尺度下滑动窗口提取特征，如边缘特征、局部二值特征和直方图特征等，然后用分类器对每个窗口进行文字检测，最后对文字进行分类，这类方法检测效率比较低，对于复杂场景文字识别效果较差。基于连通域方法主要是使用颜色、极值区域等连通域特征提取文字候选区域，再利用一些人为设定的规则或自动分类器对非文字区域进行过滤，该类方法对旋转、尺度变化和字体差异不敏感，为场景文字识别的主流方法。

随着计算机图像处理能力的提高和计算机视觉技术的发展，基于视频的交通场景文字识别得以实现。以行车记录仪作为车载视频传感器，对交通场景文字进行识别，并对识别内容进行记录存储，不仅可以为驾驶员认知交通场景提供有用信息，还为场景信息事后查询提供记录和索引。

发明内容

本发明的目的是为了解决现有技术中对于交通场景文字的定位和识别精度不高，且不同光照环境下的鲁棒性差的缺陷，提供一种基于车载视频的交通场景文字识别系统及识别方法来解决上述问题。

为了实现上述目的，本发明的技术方案如下：

一种基于视频的交通场景文字识别系统，用于自动检测和识别车载视频中交通标志和广告文字，其特征在于：包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块；

所述视频采集模块采集视频并将该视频信息发送给图像预处理模块；

所述图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理，搜索预处理后图像的最稳定极值区域作为文字候选区，并将文字候选区发送给MSER检测模块；

所述MSER检测模块对候选区域进行筛选，得到符合先验知识的文字候选区，并将符合先验只是的文字候选区发送给候选区域筛选模块；

所述候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换，设定笔画宽度均值方差阈值，得到符合笔画宽度特征的文字候选区域，并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块；

所述级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类，并去除重合区域得到最终文字区域，并将最终文字区域发送给文字分割模块；

所述文字分割模块对文字区域进行二值化，将文字区域分割为单个字，并将单个字发送给CNN文字识别模块；

所述CNN文字识别模块逐个对文字进行识别，得到单帧图像识别结果。

本发明还提供一种基于视频的交通场景文字识别方法，用于自动检测和识别车载视频中交通标志和广告文字，包括以下步骤：

1)将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理，搜索预处理后图像的最稳定极值区域作为文字候选区；

2)利用几何形状等先验知识对候选区域进行筛选，得到符合先验知识的文字候选区；

3)对符合先验知识的文字候选区域做笔画宽度变换，设定笔画宽度均值方差阈值，得到符合笔画宽度特征的文字候选区域；

4)用一个级联文字非文字二分类器对候选区域进行分类，并使用非极大值抑制法去除重合区域得到最终文字区域；

5)对文字区域进行二值化，结合连通域法和投影法将文字区域分割为单个字；

6)训练CNN文字分类器，逐个文字进行识别，得到单帧图像识别结果；

7)下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配，进行跟踪检测，重复步骤二至步骤七识别当前帧文字。

优选的，所述步骤1)中，首先读取车载视频中的关键帧，并将图像转换成灰度图；然后使用Retinex算法进行对比度增强处理；之后搜索预处理后图像的最稳定极值区域作为文字候选区；

Retinex算法提升对比度步骤如下；将原始图像S(x,y)看成是光照图像L(x,y)和反射率图像R(x,y)的乘积，即S(x,y)＝R(x,y)×L(x,y)；将图像变换到对数域；

s(x,y)＝log S(x,y),

l(x,y)＝log L(x,y),

r(x,y)＝log R(x,y),

s＝r+l；

Retinex理论假设图像的噪声来源于图像各个位置反射率不同，因此去除反射图像的噪声便可还原图像，反射分量噪声可通过归一化去除，r'(x,y)为归一化后的反射分量,r(x,y)为反射分量，max(r(x,y))为反射分量中的最大值，

将去噪后的反射分量求指数反变换到实数域即得到增强后的图像；

最稳定极值区域的提取方法如下；对一幅灰度图像取阈值进行二值化处理，阈值从0到255依次递增，在得到的所有二值图像中，图像中的变化很小，甚至没有变化的一些连通区域被称为最大稳定极值区域，连通区域变化的数学定义为：

q(i)＝|Q_i+Δ-Q_i-Δ|/|Q_i|。

优选的，所述步骤2)中，利用先验知识对候选区域进行筛选，得到符合先验知识的文字候选区；

先验知识包括：区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度；外接矩形为对该区域取最小外接矩形；区域面积即为该区域内像素点个数；区域矩形度即为区域面积与外接矩形面积之比，该值越接近1，该区域外形越接近矩形；外接矩形宽高比即外接矩形宽度与高度之比；对以上先验知识设定阈值，可以得到符合先验知识的文字候选区域。

优选的，所述步骤3)中，笔画宽度计算过程如下：每一个候选区域都作为一幅图像进行笔画宽度特征提取，先使用Canny算子对图像进行边缘检测，得到每个边缘像素点的方向梯度值，设边缘像素点p方向梯度值为d_p，从点p沿梯度方向d_p出发寻找像素点q，该点方向梯度d_q与d_p大致相反若存在满足条件的点q，则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q，该路径舍弃；这样得到该图像的每一边缘像素点的笔画宽度值，从而计算出图像笔画宽度的标准差率；设定一个标准差率阈值，得到符合笔画宽度特征的文字候选区域。

优选的，所述步骤4)中，级联的文字非文字二分类器的训练主要分成两步，弱分类器的训练和分类器级联；

弱分类器的训练过程如下：对于每个特征计算所有训练样本的特征值，并将特征值排序；对顺序排列的每个元素计算四个指标，全部文字样本的权重和T₀，全部非文字样本的权重和最小T₀，在此元素前文字样本的权重和S₀，在此元素前非文字样本的权重和S₁；选取当前元素特征值和它前面一个特征值之间的一个值作为阈值，该阈值的分类误差为e＝min(S₁+(T₀-S₀),S₀+(T₁-S₁))；将误差最小的阈值作为最优阈值，得到弱分类器；

将若干个弱分类器级联成强分类器过程如下：训练库样本数为N，其中文字样本为N₀和非文字样本数为N₁，最大迭代次数为T,初始化样本权重为1/N；第一次迭代训练所有样本训练得到第一个弱分类器；提高上一步中被误识别的样本权重；将错分类样本和新样本作为下一个弱分类器的训练样本；重复训练新的弱分类器，T轮迭代后得到T个最优弱分类器；将弱分类器按如下方式组合成强分类器：

优选的，所述步骤5)中，用大津法对文字区域图像二值化，之后进行中值滤波平滑噪点；在二值图上找连通域，根据先验知识设定最小面积阈值，得到满足阈值要求的连通域，找出连通的字符；对于不连通的字符采用投影法得到分割点，对文字区域进行分割，最终得到单个文字。

优选的，所述步骤6)中，训练CNN分类器步骤如下：将训练图像归一化为28*28的灰度图像；构建一个CNN网络，该网络包括2个卷积层、2个下采样层和1个全连接层；将训练图像送入CNN中训练得到训练好的CNN分类器；

将得到的单个文字图像归一化为28*28的灰度图后送入训练好的CNN分类器得到字符识别结果，文字结果共有136类，包括100个交通场景常用汉字、10个阿拉伯数字和26个英文字母。

优选的，所述步骤7)中，直方图匹配搜索算法步骤为：先提取上一帧文字区域的灰度直方图H_pre，在下一帧图像内，根据设定的搜索窗口，滑动计算窗口内每个位置对应的区域的灰度直方图H_cur_i，使用交叉核计算直方图H_pre和H_cur_i的相似度，找到相似度最高的区域，即为下一帧的文字区域。

本发明与现有技术相比，具有以下有益效果：

该方法先对视频单帧图像进行预处理，搜索图像中的最稳定极值区域作为文字候选区，再用先验知识对候选区进行筛选，得到符合先验知识的候选区。对符合先验知识的候选区作笔画宽度变换，设定笔画宽度均值方差阈值，再过滤一些不符合笔画宽度特征的候选区域，最后用二分类器得到最终文字区域。得到文字区域后，使用投影法和连通域法将整个文字区域分割成单个文字，最后将单个文字送入训练好的CNN文字分类器进行文字识别。为了提高识别效率，下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配，进行跟踪检测。该方法对交通场景文字的定位和识别精度高，对不同光照环境有较好的鲁棒性。

附图说明

图1为实施例1的系统框图；

图2为实施例2的方法流程图；

图3为本发明中的笔画宽度示意图；

图4为本发明中的Adaboost级联分类器示意图；

图5为本发明中卷积神经网络结构图。

具体实施方式

为使对本发明的结构特征及所达成的功效有更进一步的了解与认识，用以较佳的实施例及附图配合详细的说明，说明如下：

实施例1

如图1所示,一种基于视频的交通场景文字识别系统，用于自动检测和识别车载视频中交通标志和广告文字，包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块；

视频采集模块采集视频并将该视频信息发送给图像预处理模块；

图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理，搜索预处理后图像的最稳定极值区域作为文字候选区，并将文字候选区发送给MSER检测模块；

MSER检测模块对候选区域进行筛选，得到符合先验知识的文字候选区，并将符合先验只是的文字候选区发送给候选区域筛选模块；

候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换，设定笔画宽度均值方差阈值，得到符合笔画宽度特征的文字候选区域，并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块；

级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类，并去除重合区域得到最终文字区域，并将最终文字区域发送给文字分割模块；

文字分割模块对文字区域进行二值化，将文字区域分割为单个字，并将单个字发送给CNN文字识别模块；

CNN文字识别模块逐个对文字进行识别，得到单帧图像识别结果。

实施例2

如图2所示，基于上述系统,本发明还公开的一种基于视频的交通场景文字识别方法，用于自动检测和识别车载视频中交通标志和广告文字，包括以下步骤：

首先读取车载视频中的关键帧，并将图像转换成灰度图；然后使用Retinex算法进行对比度增强处理，针对雾天、逆光场景能很好地还原图像；之后搜索预处理后图像的最稳定极值区域作为文字候选区，该算法对图像具有较强的仿射变换不变性；

Retinex算法提升对比度步骤如下；原始图像S(x,y)可以看成是光照图像L(x,y)和反射率图像R(x,y)的乘积，即S(x，y)＝R(x，y)，L(x，y)；将图像变换到对数域：

s(x,y)＝log S(x,y),

l(x,y)＝log L(x,y),

r(x,y)＝log R(x,y),

s＝r+l；

Retinex理论假设图像的噪声来源于图像各个位置反射率不同，因此去除反射图像的噪声便可还原图像，反射分量噪声可通过归一化去除，将去噪后的反射分量求指数，反变换到实数域即得到增强后的图像；

最稳定极值区域的提取方法如下；对一幅灰度图像(灰度值为0-255)取阈值进行二值化处理，阈值从0到255依次递增，在得到的所有二值图像中，图像中的某些连通区域变化很小，甚至没有变化，则该区域就被称为最大稳定极值区域，连通区域变化的数学定义为q(i)＝|Q_i+Δ-Q_i-Δ|/|Q_i|。

2)利用几何形状等先验知识对候选区域进行筛选，得到符合先验知识的文字候选区；先验知识主要包括，区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度等；区域是一个点集，包含该区域内每个像素点坐标，外接矩形就是对该区域取最小外接矩形；区域面积即为该区域内像素点个数；区域矩形度即为区域面积与外接矩形面积之比，该值越接近1，该区域外形越接近矩形；外接矩形宽高比即外接矩形宽度与高度之比；对以上先验知识设定阈值，可以得到符合先验知识的文字候选区域。

3)如图3所示，对符合先验知识的文字候选区域做笔画宽度变换，设定笔画宽度均值方差阈值，得到符合笔画宽度特征的文字候选区域；笔画宽度特征基本上属于文字的独有特征，一般而言统一的文本都具有统一的笔画宽度，见附图3。笔画宽度计算过程如下，每一个候选区域都作为一幅图像进行笔画宽度特征提取，先使用Canny算子对图像进行边缘检测，得到每个边缘像素点的方向梯度值，设边缘像素点p方向梯度值为d_p，从点p沿梯度方向d_p出发寻找像素点q，该点方向梯度d_q与d_p大致相反若存在满足条件的点q，则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q，该路径舍弃；这样得到该图像的每一边缘像素点的笔画宽度值，从而可以计算出图像笔画宽度的标准差率；设定一个标准差率(标准差与均值之比)阈值，得到符合笔画宽度特征的文字候选区域。

4)如图4所示，用一个级联文字非文字二分类器对候选区域进行分类，并使用非极大值抑制法去除重合区域得到最终文字区域；

级联的文字非文字二分类器是基于局部二值特征和Adaboost算法进行分类器的级联，级联分类器示意图如附图3。该分类器的训练主要分成两步，弱分类器的训练和分类器级联；

5)对文字区域进行二值化，结合连通域法和投影法将文字区域分割为单个字；用大津法对文字区域图像二值化，之后进行中值滤波平滑噪点；在二值图上找连通域，根据先验知识设定最小面积阈值，得到满足阈值要求的连通域，该步骤能找出连通的字符；对于不连通的字符采用投影法得到分割点，对文字区域进行分割，最终得到单个文字。

6)训练CNN文字分类器，逐个文字进行识别，得到单帧图像识别结果；训练一个CNN文字分类器，CNN分类器结构如附图5。将逐个文字送入分类器进行识别，得到单帧图像识别结果：

训练CNN分类器步骤如下：将训练图像归一化为28*28的灰度图像；构建一个CNN网络，该网络包括2个卷积层、2个下采样层、1个全连接层和一个Softmax分类器；将训练图像送入CNN中训练得到训练好的CNN分类器；

7)下一帧图像感兴趣区域为上一帧图像上一帧图像文字区域临近区域，根据设定的搜索窗口及区域直方图匹配算法可搜索得到，重复步骤二至步骤七识别当前帧文字：

区域直方图匹配算法步骤如下：先提取上一帧文字区域的灰度直方图H_pre，在下一帧图像内，根据设定的搜索窗口，滑动计算窗口内每个位置对应的区域的灰度直方图H_cur_i，使用交叉核计算直方图H_pre和H_cur_i的相似度，找到相似度最高的区域，即为下一帧的文字区域。

下面以一个具体的实例对本技术方案作举例说明：

第一步：获取车载视频的单帧图像，并将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理，搜索预处理后图像的最稳定极值区域作为文字候选区。

第二步：利用先验知识对候选区域进行筛选，得到符合先验知识的文字候选区。先验知识包括区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度等，对以上先验知识设定阈值，可以得到符合先验知识的文字候选区域。

第三步：对符合先验知识的文字候选区域做笔画宽度变换，设定笔画宽度标准差率阈值，得到符合笔画宽度特征的文字候选区域。

第四步：用一个级联文字非文字二分类器对候选区域进行分类，并使用非极大值抑制法去除重合区域得到最终文字区域。级联的文字非文字二分类器是基于局部二值特征和Adaboost算法进行分类器的级联。

第五步：对文字区域图像进行二值化，使用连通域法结合投影法将文字区域分割为单个字。用大津法对文字区域图像二值化并用中值滤波法平滑噪点，对于连通字符使用找轮廓法找出字符，对不连通的字符采用投影法得到分割点进一步得到单个文字。

第六步：如图5所示，训练一个CNN文字分类器，逐个文字进行识别，得到单帧图像识别结果。该网络包括2个卷积层、2个下采样层、1个全连接层和一个Softmax分类器。将得到的单个文字图像归一化为28*28的灰度图后送入训练好的CNN分类器得到字符识别结果。

第七步：下一帧图像感兴趣区域为上一帧图像文字区域临近区域，根据设定的搜索窗口及区域直方图匹配算法可搜索得到，重复单帧图像识别过程。

以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是本发明的原理，在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims

1.一种基于视频的交通场景文字识别系统，用于自动检测和识别车载视频中交通标志和广告文字，其特征在于：包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块；

2.一种基于视频的交通场景文字识别系统的识别方法，其特征在于：包括以下步骤：

1)图像预处理

将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理，搜索预处理后图像的最稳定极值区域作为文字候选区；

2)MSER检测

利用几何形状等先验知识对候选区域进行筛选，得到符合先验知识的文字候选区；

3)候选区域筛选

对符合先验知识的文字候选区域做笔画宽度变换，设定笔画宽度均值方差阈值，得到符合笔画宽度特征的文字候选区域；

4)级联分类器得到文字区域

用一个级联文字非文字二分类器对符合笔画宽度特征的文字候选区域进行分类，并使用非极大值抑制法去除重合区域得到最终文字区域；

5)文字分割

对文字区域进行二值化，结合连通域法和投影法将文字区域分割为单个字；

6)CNN文字识别

训练CNN文字分类器，逐个文字进行识别，得到单帧图像识别结果；

3.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤1)中，首先读取车载视频中的关键帧，并将图像转换成灰度图；然后使用Retinex算法进行对比度增强处理；之后搜索预处理后图像的最稳定极值区域作为文字候选区；

s(x,y)＝logS(x,y),

l(x,y)＝logL(x,y),

r(x,y)＝logR(x,y),

s＝r+l；

q(i)＝|Q_i+Δ-Q_i-Δ|/|Q_i|。

4.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤2)中，利用先验知识对候选区域进行筛选，得到符合先验知识的文字候选区；

5.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤3)中，笔画宽度计算过程如下：每一个候选区域都作为一幅图像进行笔画宽度特征提取，先使用Canny算子对图像进行边缘检测，得到每个边缘像素点的方向梯度值，设边缘像素点p方向梯度值为d_p，从点p沿梯度方向d_p出发寻找像素点q，该点方向梯度d_q与d_p大致相反若存在满足条件的点q，则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q，该路径舍弃；这样得到该图像的每一边缘像素点的笔画宽度值，从而计算出图像笔画宽度的标准差率；设定一个标准差率阈值，得到符合笔画宽度特征的文字候选区域。

6.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤4)中，级联的文字非文字二分类器的训练主要分成两步，弱分类器的训练和分类器级联；

7.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤5)中，用大津法对文字区域图像二值化，之后进行中值滤波平滑噪点；在二值图上找连通域，根据先验知识设定最小面积阈值，得到满足阈值要求的连通域，找出连通的字符；对于不连通的字符采用投影法得到分割点，对文字区域进行分割，最终得到单个文字。

8.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤6)中，训练CNN分类器步骤如下：将训练图像归一化为28*28的灰度图像；构建一个CNN网络，该网络包括2个卷积层、2个下采样层和1个全连接层；将训练图像送入CNN中训练得到训练好的CNN分类器；

9.根据权利要求2所述的基于视频的交通场景文字识别方法，其特征在于：所述步骤7)中，直方图匹配搜索算法步骤为：先提取上一帧文字区域的灰度直方图H_pre，在下一帧图像内，根据设定的搜索窗口，滑动计算窗口内每个位置对应的区域的灰度直方图H_cur_i，使用交叉核计算直方图H_pre和H_cur_i的相似度，找到相似度最高的区域，即为下一帧的文字区域。