CN108256493A - 一种基于车载视频的交通场景文字识别系统及识别方法 - Google Patents

一种基于车载视频的交通场景文字识别系统及识别方法 Download PDF

Info

Publication number
CN108256493A
CN108256493A CN201810078324.5A CN201810078324A CN108256493A CN 108256493 A CN108256493 A CN 108256493A CN 201810078324 A CN201810078324 A CN 201810078324A CN 108256493 A CN108256493 A CN 108256493A
Authority
CN
China
Prior art keywords
region
image
word
obtains
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810078324.5A
Other languages
English (en)
Inventor
金东勇
连捷
肖文光
陆迪
胡进忠
陈俊霞
李艳华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CETC 38 Research Institute
Original Assignee
CETC 38 Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CETC 38 Research Institute filed Critical CETC 38 Research Institute
Priority to CN201810078324.5A priority Critical patent/CN108256493A/zh
Publication of CN108256493A publication Critical patent/CN108256493A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Abstract

本发明提出一种基于车载视频的交通场景文字识别系统及识别方法。该系统先对视频单帧图像进行预处理,搜索图像中的最稳定极值区域作为文字候选区,再用先验知识对候选区进行筛选,得到符合先验知识的候选区。对符合先验知识的候选区作笔画宽度变换,设定笔画宽度均值方差阈值,再过滤一些不符合笔画宽度特征的候选区域,最后用二分类器得到最终文字区域。得到文字区域后,使用投影法和连通域法将整个文字区域分割成单个文字,最后将单个文字送入训练好的CNN文字分类器进行文字识别。为了提高识别效率,下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测。该系统对交通场景文字的定位和识别精度高,对不同光照环境有较好的鲁棒性。

Description

一种基于车载视频的交通场景文字识别系统及识别方法
技术领域
本发明属于模式识别与图像处理领域,涉及一种基于视频的交通场景文字识别系统及识别方法。
背景技术
驾驶辅助系统是智能交通系统的重要组成部分,对于提高驾驶安全性有着重要作用。由行车记录仪拍摄的视频图像中通常含有语义信息,这些信息包含了路径提示、限速标识、避免疲劳驾驶提醒等信息,而这些信息为驾驶员对交通场景的认知起着重要作用。通过对行车记录仪视频中的文字进行自动识别,可以为驾驶员提取警示、提醒和导向标识,进行选择性的自动文字信息播报或存储,以便驾驶员提前做出路径选择,能够节省时间且提高安全性。
交通场景文字识别的挑战主要来自于高度复杂的背景信息,复杂的背景如树叶、路灯和天桥等为文字定位带来了难度。此外,文字分辨率较低、字体形态各异、以及光照条件的变换都为文字识别增加了挑战难度。
近年来,用于自然场景文字文本检测的方法主要两类,一类是基于滑动窗的方法,另一类是基于连通域的方法。基于滑动窗的方法首先在在不同尺度下滑动窗口提取特征,如边缘特征、局部二值特征和直方图特征等,然后用分类器对每个窗口进行文字检测,最后对文字进行分类,这类方法检测效率比较低,对于复杂场景文字识别效果较差。基于连通域方法主要是使用颜色、极值区域等连通域特征提取文字候选区域,再利用一些人为设定的规则或自动分类器对非文字区域进行过滤,该类方法对旋转、尺度变化和字体差异不敏感,为场景文字识别的主流方法。
随着计算机图像处理能力的提高和计算机视觉技术的发展,基于视频的交通场景文字识别得以实现。以行车记录仪作为车载视频传感器,对交通场景文字进行识别,并对识别内容进行记录存储,不仅可以为驾驶员认知交通场景提供有用信息,还为场景信息事后查询提供记录和索引。
发明内容
本发明的目的是为了解决现有技术中对于交通场景文字的定位和识别精度不高,且不同光照环境下的鲁棒性差的缺陷,提供一种基于车载视频的交通场景文字识别系统及识别方法来解决上述问题。
为了实现上述目的,本发明的技术方案如下:
一种基于视频的交通场景文字识别系统,用于自动检测和识别车载视频中交通标志和广告文字,其特征在于:包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块;
所述视频采集模块采集视频并将该视频信息发送给图像预处理模块;
所述图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区,并将文字候选区发送给MSER检测模块;
所述MSER检测模块对候选区域进行筛选,得到符合先验知识的文字候选区,并将符合先验只是的文字候选区发送给候选区域筛选模块;
所述候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域,并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块;
所述级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类,并去除重合区域得到最终文字区域,并将最终文字区域发送给文字分割模块;
所述文字分割模块对文字区域进行二值化,将文字区域分割为单个字,并将单个字发送给CNN文字识别模块;
所述CNN文字识别模块逐个对文字进行识别,得到单帧图像识别结果。
本发明还提供一种基于视频的交通场景文字识别方法,用于自动检测和识别车载视频中交通标志和广告文字,包括以下步骤:
1)将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区;
2)利用几何形状等先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;
3)对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域;
4)用一个级联文字非文字二分类器对候选区域进行分类,并使用非极大值抑制法去除重合区域得到最终文字区域;
5)对文字区域进行二值化,结合连通域法和投影法将文字区域分割为单个字;
6)训练CNN文字分类器,逐个文字进行识别,得到单帧图像识别结果;
7)下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测,重复步骤二至步骤七识别当前帧文字。
优选的,所述步骤1)中,首先读取车载视频中的关键帧,并将图像转换成灰度图;然后使用Retinex算法进行对比度增强处理;之后搜索预处理后图像的最稳定极值区域作为文字候选区;
Retinex算法提升对比度步骤如下;将原始图像S(x,y)看成是光照图像L(x,y)和反射率图像R(x,y)的乘积,即S(x,y)=R(x,y)×L(x,y);将图像变换到对数域;
s(x,y)=log S(x,y),
l(x,y)=log L(x,y),
r(x,y)=log R(x,y),
s=r+l;
Retinex理论假设图像的噪声来源于图像各个位置反射率不同,因此去除反射图像的噪声便可还原图像,反射分量噪声可通过归一化去除,r'(x,y)为归一化后的反射分量,r(x,y)为反射分量,max(r(x,y))为反射分量中的最大值,
将去噪后的反射分量求指数反变换到实数域即得到增强后的图像;
最稳定极值区域的提取方法如下;对一幅灰度图像取阈值进行二值化处理,阈值从0到255依次递增,在得到的所有二值图像中,图像中的变化很小,甚至没有变化的一些连通区域被称为最大稳定极值区域,连通区域变化的数学定义为:
q(i)=|Qi+Δ-Qi-Δ|/|Qi|。
优选的,所述步骤2)中,利用先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;
先验知识包括:区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度;外接矩形为对该区域取最小外接矩形;区域面积即为该区域内像素点个数;区域矩形度即为区域面积与外接矩形面积之比,该值越接近1,该区域外形越接近矩形;外接矩形宽高比即外接矩形宽度与高度之比;对以上先验知识设定阈值,可以得到符合先验知识的文字候选区域。
优选的,所述步骤3)中,笔画宽度计算过程如下:每一个候选区域都作为一幅图像进行笔画宽度特征提取,先使用Canny算子对图像进行边缘检测,得到每个边缘像素点的方向梯度值,设边缘像素点p方向梯度值为dp,从点p沿梯度方向dp出发寻找像素点q,该点方向梯度dq与dp大致相反若存在满足条件的点q,则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q,该路径舍弃;这样得到该图像的每一边缘像素点的笔画宽度值,从而计算出图像笔画宽度的标准差率;设定一个标准差率阈值,得到符合笔画宽度特征的文字候选区域。
优选的,所述步骤4)中,级联的文字非文字二分类器的训练主要分成两步,弱分类器的训练和分类器级联;
弱分类器的训练过程如下:对于每个特征计算所有训练样本的特征值,并将特征值排序;对顺序排列的每个元素计算四个指标,全部文字样本的权重和T0,全部非文字样本的权重和最小T0,在此元素前文字样本的权重和S0,在此元素前非文字样本的权重和S1;选取当前元素特征值和它前面一个特征值之间的一个值作为阈值,该阈值的分类误差为e=min(S1+(T0-S0),S0+(T1-S1));将误差最小的阈值作为最优阈值,得到弱分类器;
将若干个弱分类器级联成强分类器过程如下:训练库样本数为N,其中文字样本为N0和非文字样本数为N1,最大迭代次数为T,初始化样本权重为1/N;第一次迭代训练所有样本训练得到第一个弱分类器;提高上一步中被误识别的样本权重;将错分类样本和新样本作为下一个弱分类器的训练样本;重复训练新的弱分类器,T轮迭代后得到T个最优弱分类器;将弱分类器按如下方式组合成强分类器:
优选的,所述步骤5)中,用大津法对文字区域图像二值化,之后进行中值滤波平滑噪点;在二值图上找连通域,根据先验知识设定最小面积阈值,得到满足阈值要求的连通域,找出连通的字符;对于不连通的字符采用投影法得到分割点,对文字区域进行分割,最终得到单个文字。
优选的,所述步骤6)中,训练CNN分类器步骤如下:将训练图像归一化为28*28的灰度图像;构建一个CNN网络,该网络包括2个卷积层、2个下采样层和1个全连接层;将训练图像送入CNN中训练得到训练好的CNN分类器;
将得到的单个文字图像归一化为28*28的灰度图后送入训练好的CNN分类器得到字符识别结果,文字结果共有136类,包括100个交通场景常用汉字、10个阿拉伯数字和26个英文字母。
优选的,所述步骤7)中,直方图匹配搜索算法步骤为:先提取上一帧文字区域的灰度直方图H_pre,在下一帧图像内,根据设定的搜索窗口,滑动计算窗口内每个位置对应的区域的灰度直方图H_cur_i,使用交叉核计算直方图H_pre和H_cur_i的相似度,找到相似度最高的区域,即为下一帧的文字区域。
本发明与现有技术相比,具有以下有益效果:
该方法先对视频单帧图像进行预处理,搜索图像中的最稳定极值区域作为文字候选区,再用先验知识对候选区进行筛选,得到符合先验知识的候选区。对符合先验知识的候选区作笔画宽度变换,设定笔画宽度均值方差阈值,再过滤一些不符合笔画宽度特征的候选区域,最后用二分类器得到最终文字区域。得到文字区域后,使用投影法和连通域法将整个文字区域分割成单个文字,最后将单个文字送入训练好的CNN文字分类器进行文字识别。为了提高识别效率,下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测。该方法对交通场景文字的定位和识别精度高,对不同光照环境有较好的鲁棒性。
附图说明
图1为实施例1的系统框图;
图2为实施例2的方法流程图;
图3为本发明中的笔画宽度示意图;
图4为本发明中的Adaboost级联分类器示意图;
图5为本发明中卷积神经网络结构图。
具体实施方式
为使对本发明的结构特征及所达成的功效有更进一步的了解与认识,用以较佳的实施例及附图配合详细的说明,说明如下:
实施例1
如图1所示,一种基于视频的交通场景文字识别系统,用于自动检测和识别车载视频中交通标志和广告文字,包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块;
视频采集模块采集视频并将该视频信息发送给图像预处理模块;
图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区,并将文字候选区发送给MSER检测模块;
MSER检测模块对候选区域进行筛选,得到符合先验知识的文字候选区,并将符合先验只是的文字候选区发送给候选区域筛选模块;
候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域,并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块;
级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类,并去除重合区域得到最终文字区域,并将最终文字区域发送给文字分割模块;
文字分割模块对文字区域进行二值化,将文字区域分割为单个字,并将单个字发送给CNN文字识别模块;
CNN文字识别模块逐个对文字进行识别,得到单帧图像识别结果。
实施例2
如图2所示,基于上述系统,本发明还公开的一种基于视频的交通场景文字识别方法,用于自动检测和识别车载视频中交通标志和广告文字,包括以下步骤:
1)将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区;
首先读取车载视频中的关键帧,并将图像转换成灰度图;然后使用Retinex算法进行对比度增强处理,针对雾天、逆光场景能很好地还原图像;之后搜索预处理后图像的最稳定极值区域作为文字候选区,该算法对图像具有较强的仿射变换不变性;
Retinex算法提升对比度步骤如下;原始图像S(x,y)可以看成是光照图像L(x,y)和反射率图像R(x,y)的乘积,即S(x,y)=R(x,y),L(x,y);将图像变换到对数域:
s(x,y)=log S(x,y),
l(x,y)=log L(x,y),
r(x,y)=log R(x,y),
s=r+l;
Retinex理论假设图像的噪声来源于图像各个位置反射率不同,因此去除反射图像的噪声便可还原图像,反射分量噪声可通过归一化去除,将去噪后的反射分量求指数,反变换到实数域即得到增强后的图像;
最稳定极值区域的提取方法如下;对一幅灰度图像(灰度值为0-255)取阈值进行二值化处理,阈值从0到255依次递增,在得到的所有二值图像中,图像中的某些连通区域变化很小,甚至没有变化,则该区域就被称为最大稳定极值区域,连通区域变化的数学定义为q(i)=|Qi+Δ-Qi-Δ|/|Qi|。
2)利用几何形状等先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;先验知识主要包括,区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度等;区域是一个点集,包含该区域内每个像素点坐标,外接矩形就是对该区域取最小外接矩形;区域面积即为该区域内像素点个数;区域矩形度即为区域面积与外接矩形面积之比,该值越接近1,该区域外形越接近矩形;外接矩形宽高比即外接矩形宽度与高度之比;对以上先验知识设定阈值,可以得到符合先验知识的文字候选区域。
3)如图3所示,对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域;笔画宽度特征基本上属于文字的独有特征,一般而言统一的文本都具有统一的笔画宽度,见附图3。笔画宽度计算过程如下,每一个候选区域都作为一幅图像进行笔画宽度特征提取,先使用Canny算子对图像进行边缘检测,得到每个边缘像素点的方向梯度值,设边缘像素点p方向梯度值为dp,从点p沿梯度方向dp出发寻找像素点q,该点方向梯度dq与dp大致相反若存在满足条件的点q,则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q,该路径舍弃;这样得到该图像的每一边缘像素点的笔画宽度值,从而可以计算出图像笔画宽度的标准差率;设定一个标准差率(标准差与均值之比)阈值,得到符合笔画宽度特征的文字候选区域。
4)如图4所示,用一个级联文字非文字二分类器对候选区域进行分类,并使用非极大值抑制法去除重合区域得到最终文字区域;
级联的文字非文字二分类器是基于局部二值特征和Adaboost算法进行分类器的级联,级联分类器示意图如附图3。该分类器的训练主要分成两步,弱分类器的训练和分类器级联;
弱分类器的训练过程如下:对于每个特征计算所有训练样本的特征值,并将特征值排序;对顺序排列的每个元素计算四个指标,全部文字样本的权重和T0,全部非文字样本的权重和最小T0,在此元素前文字样本的权重和S0,在此元素前非文字样本的权重和S1;选取当前元素特征值和它前面一个特征值之间的一个值作为阈值,该阈值的分类误差为e=min(S1+(T0-S0),S0+(T1-S1));将误差最小的阈值作为最优阈值,得到弱分类器;
将若干个弱分类器级联成强分类器过程如下:训练库样本数为N,其中文字样本为N0和非文字样本数为N1,最大迭代次数为T,初始化样本权重为1/N;第一次迭代训练所有样本训练得到第一个弱分类器;提高上一步中被误识别的样本权重;将错分类样本和新样本作为下一个弱分类器的训练样本;重复训练新的弱分类器,T轮迭代后得到T个最优弱分类器;将弱分类器按如下方式组合成强分类器:
5)对文字区域进行二值化,结合连通域法和投影法将文字区域分割为单个字;用大津法对文字区域图像二值化,之后进行中值滤波平滑噪点;在二值图上找连通域,根据先验知识设定最小面积阈值,得到满足阈值要求的连通域,该步骤能找出连通的字符;对于不连通的字符采用投影法得到分割点,对文字区域进行分割,最终得到单个文字。
6)训练CNN文字分类器,逐个文字进行识别,得到单帧图像识别结果;训练一个CNN文字分类器,CNN分类器结构如附图5。将逐个文字送入分类器进行识别,得到单帧图像识别结果:
训练CNN分类器步骤如下:将训练图像归一化为28*28的灰度图像;构建一个CNN网络,该网络包括2个卷积层、2个下采样层、1个全连接层和一个Softmax分类器;将训练图像送入CNN中训练得到训练好的CNN分类器;
将得到的单个文字图像归一化为28*28的灰度图后送入训练好的CNN分类器得到字符识别结果,文字结果共有136类,包括100个交通场景常用汉字、10个阿拉伯数字和26个英文字母。
7)下一帧图像感兴趣区域为上一帧图像上一帧图像文字区域临近区域,根据设定的搜索窗口及区域直方图匹配算法可搜索得到,重复步骤二至步骤七识别当前帧文字:
区域直方图匹配算法步骤如下:先提取上一帧文字区域的灰度直方图H_pre,在下一帧图像内,根据设定的搜索窗口,滑动计算窗口内每个位置对应的区域的灰度直方图H_cur_i,使用交叉核计算直方图H_pre和H_cur_i的相似度,找到相似度最高的区域,即为下一帧的文字区域。
下面以一个具体的实例对本技术方案作举例说明:
第一步:获取车载视频的单帧图像,并将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区。
第二步:利用先验知识对候选区域进行筛选,得到符合先验知识的文字候选区。先验知识包括区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度等,对以上先验知识设定阈值,可以得到符合先验知识的文字候选区域。
第三步:对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度标准差率阈值,得到符合笔画宽度特征的文字候选区域。
第四步:用一个级联文字非文字二分类器对候选区域进行分类,并使用非极大值抑制法去除重合区域得到最终文字区域。级联的文字非文字二分类器是基于局部二值特征和Adaboost算法进行分类器的级联。
第五步:对文字区域图像进行二值化,使用连通域法结合投影法将文字区域分割为单个字。用大津法对文字区域图像二值化并用中值滤波法平滑噪点,对于连通字符使用找轮廓法找出字符,对不连通的字符采用投影法得到分割点进一步得到单个文字。
第六步:如图5所示,训练一个CNN文字分类器,逐个文字进行识别,得到单帧图像识别结果。该网络包括2个卷积层、2个下采样层、1个全连接层和一个Softmax分类器。将得到的单个文字图像归一化为28*28的灰度图后送入训练好的CNN分类器得到字符识别结果。
第七步:下一帧图像感兴趣区域为上一帧图像文字区域临近区域,根据设定的搜索窗口及区域直方图匹配算法可搜索得到,重复单帧图像识别过程。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是本发明的原理,在不脱离本发明精神和范围的前提下本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明的范围内。本发明要求的保护范围由所附的权利要求书及其等同物界定。

Claims (9)

1.一种基于视频的交通场景文字识别系统,用于自动检测和识别车载视频中交通标志和广告文字,其特征在于:包括视频采集模块、图像预处理模块、MSER检测模块、候选区域筛选模块、级联分类器得到文字区域模块、文字分割模块、CNN文字识别模块;
所述视频采集模块采集视频并将该视频信息发送给图像预处理模块;
所述图像预处理模块将单帧图像转化成灰度图像并进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区,并将文字候选区发送给MSER检测模块;
所述MSER检测模块对候选区域进行筛选,得到符合先验知识的文字候选区,并将符合先验只是的文字候选区发送给候选区域筛选模块;
所述候选区域筛选对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域,并将符合笔画宽度特征的文字候选区域发送给级联分类器得到文字区域模块;
所述级联分类器得到文字区域模块对符合笔画宽度特征的文字候选区域进行分类,并去除重合区域得到最终文字区域,并将最终文字区域发送给文字分割模块;
所述文字分割模块对文字区域进行二值化,将文字区域分割为单个字,并将单个字发送给CNN文字识别模块;
所述CNN文字识别模块逐个对文字进行识别,得到单帧图像识别结果。
2.一种基于视频的交通场景文字识别系统的识别方法,其特征在于:包括以下步骤:
1)图像预处理
将单帧图像转化成灰度图像并使用Retinex算法进行对比度增强预处理,搜索预处理后图像的最稳定极值区域作为文字候选区;
2)MSER检测
利用几何形状等先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;
3)候选区域筛选
对符合先验知识的文字候选区域做笔画宽度变换,设定笔画宽度均值方差阈值,得到符合笔画宽度特征的文字候选区域;
4)级联分类器得到文字区域
用一个级联文字非文字二分类器对符合笔画宽度特征的文字候选区域进行分类,并使用非极大值抑制法去除重合区域得到最终文字区域;
5)文字分割
对文字区域进行二值化,结合连通域法和投影法将文字区域分割为单个字;
6)CNN文字识别
训练CNN文字分类器,逐个文字进行识别,得到单帧图像识别结果;
7)下一帧图像感兴趣区域为上一帧图像文字区域使用灰度直方图匹配,进行跟踪检测,重复步骤二至步骤七识别当前帧文字。
3.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤1)中,首先读取车载视频中的关键帧,并将图像转换成灰度图;然后使用Retinex算法进行对比度增强处理;之后搜索预处理后图像的最稳定极值区域作为文字候选区;
Retinex算法提升对比度步骤如下;将原始图像S(x,y)看成是光照图像L(x,y)和反射率图像R(x,y)的乘积,即S(x,y)=R(x,y)×L(x,y);将图像变换到对数域;
s(x,y)=logS(x,y),
l(x,y)=logL(x,y),
r(x,y)=logR(x,y),
s=r+l;
Retinex理论假设图像的噪声来源于图像各个位置反射率不同,因此去除反射图像的噪声便可还原图像,反射分量噪声可通过归一化去除,r'(x,y)为归一化后的反射分量,r(x,y)为反射分量,max(r(x,y))为反射分量中的最大值,
将去噪后的反射分量求指数反变换到实数域即得到增强后的图像;
最稳定极值区域的提取方法如下;对一幅灰度图像取阈值进行二值化处理,阈值从0到255依次递增,在得到的所有二值图像中,图像中的变化很小,甚至没有变化的一些连通区域被称为最大稳定极值区域,连通区域变化的数学定义为:
q(i)=|Qi+Δ-Qi-Δ|/|Qi|。
4.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤2)中,利用先验知识对候选区域进行筛选,得到符合先验知识的文字候选区;
先验知识包括:区域面积、区域矩形度、外接矩形的宽高比和外接矩形高度;外接矩形为对该区域取最小外接矩形;区域面积即为该区域内像素点个数;区域矩形度即为区域面积与外接矩形面积之比,该值越接近1,该区域外形越接近矩形;外接矩形宽高比即外接矩形宽度与高度之比;对以上先验知识设定阈值,可以得到符合先验知识的文字候选区域。
5.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤3)中,笔画宽度计算过程如下:每一个候选区域都作为一幅图像进行笔画宽度特征提取,先使用Canny算子对图像进行边缘检测,得到每个边缘像素点的方向梯度值,设边缘像素点p方向梯度值为dp,从点p沿梯度方向dp出发寻找像素点q,该点方向梯度dq与dp大致相反若存在满足条件的点q,则该路径上p和q之间像素点的笔画宽度值为若不存在满足条件的点q,该路径舍弃;这样得到该图像的每一边缘像素点的笔画宽度值,从而计算出图像笔画宽度的标准差率;设定一个标准差率阈值,得到符合笔画宽度特征的文字候选区域。
6.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤4)中,级联的文字非文字二分类器的训练主要分成两步,弱分类器的训练和分类器级联;
弱分类器的训练过程如下:对于每个特征计算所有训练样本的特征值,并将特征值排序;对顺序排列的每个元素计算四个指标,全部文字样本的权重和T0,全部非文字样本的权重和最小T0,在此元素前文字样本的权重和S0,在此元素前非文字样本的权重和S1;选取当前元素特征值和它前面一个特征值之间的一个值作为阈值,该阈值的分类误差为e=min(S1+(T0-S0),S0+(T1-S1));将误差最小的阈值作为最优阈值,得到弱分类器;
将若干个弱分类器级联成强分类器过程如下:训练库样本数为N,其中文字样本为N0和非文字样本数为N1,最大迭代次数为T,初始化样本权重为1/N;第一次迭代训练所有样本训练得到第一个弱分类器;提高上一步中被误识别的样本权重;将错分类样本和新样本作为下一个弱分类器的训练样本;重复训练新的弱分类器,T轮迭代后得到T个最优弱分类器;将弱分类器按如下方式组合成强分类器:
7.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤5)中,用大津法对文字区域图像二值化,之后进行中值滤波平滑噪点;在二值图上找连通域,根据先验知识设定最小面积阈值,得到满足阈值要求的连通域,找出连通的字符;对于不连通的字符采用投影法得到分割点,对文字区域进行分割,最终得到单个文字。
8.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤6)中,训练CNN分类器步骤如下:将训练图像归一化为28*28的灰度图像;构建一个CNN网络,该网络包括2个卷积层、2个下采样层和1个全连接层;将训练图像送入CNN中训练得到训练好的CNN分类器;
将得到的单个文字图像归一化为28*28的灰度图后送入训练好的CNN分类器得到字符识别结果,文字结果共有136类,包括100个交通场景常用汉字、10个阿拉伯数字和26个英文字母。
9.根据权利要求2所述的基于视频的交通场景文字识别方法,其特征在于:所述步骤7)中,直方图匹配搜索算法步骤为:先提取上一帧文字区域的灰度直方图H_pre,在下一帧图像内,根据设定的搜索窗口,滑动计算窗口内每个位置对应的区域的灰度直方图H_cur_i,使用交叉核计算直方图H_pre和H_cur_i的相似度,找到相似度最高的区域,即为下一帧的文字区域。
CN201810078324.5A 2018-01-26 2018-01-26 一种基于车载视频的交通场景文字识别系统及识别方法 Pending CN108256493A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810078324.5A CN108256493A (zh) 2018-01-26 2018-01-26 一种基于车载视频的交通场景文字识别系统及识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810078324.5A CN108256493A (zh) 2018-01-26 2018-01-26 一种基于车载视频的交通场景文字识别系统及识别方法

Publications (1)

Publication Number Publication Date
CN108256493A true CN108256493A (zh) 2018-07-06

Family

ID=62743366

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810078324.5A Pending CN108256493A (zh) 2018-01-26 2018-01-26 一种基于车载视频的交通场景文字识别系统及识别方法

Country Status (1)

Country Link
CN (1) CN108256493A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109117841A (zh) * 2018-09-03 2019-01-01 厦门金龙联合汽车工业有限公司 基于笔画宽度变换与卷积神经网络的场景文本检测方法
CN109376740A (zh) * 2018-10-19 2019-02-22 天津天地伟业投资管理有限公司 一种基于视频的水尺读数检测方法
CN109559536A (zh) * 2018-12-10 2019-04-02 百度在线网络技术(北京)有限公司 交通灯、交通灯识别方法、装置、设备及存储介质
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN109800757A (zh) * 2019-01-04 2019-05-24 西北工业大学 一种基于布局约束的视频文字追踪方法
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置
CN109977729A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种文本检测方法及装置
CN110070509A (zh) * 2019-04-26 2019-07-30 国家卫星气象中心 一种可见光遥感图像实时可视化系统及可视化方法
CN110598703A (zh) * 2019-09-24 2019-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
CN111046872A (zh) * 2019-12-12 2020-04-21 深圳市杰恩世智能科技有限公司 一种光学字符识别方法
CN111080554A (zh) * 2019-12-20 2020-04-28 成都极米科技股份有限公司 一种投影内容中字幕区域增强方法、装置及可读存储介质
CN111383054A (zh) * 2020-03-10 2020-07-07 中国联合网络通信集团有限公司 广告检验方法和装置
CN111767909A (zh) * 2020-05-12 2020-10-13 合肥联宝信息技术有限公司 一种字符识别方法、设备及计算机可读存储介质
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN113642556A (zh) * 2021-08-04 2021-11-12 五八有限公司 一种图像处理方法、装置、电子设备及存储介质
CN114092938A (zh) * 2022-01-19 2022-02-25 腾讯科技(深圳)有限公司 图像的识别处理方法、装置、电子设备及存储介质
US11373063B2 (en) * 2018-12-10 2022-06-28 International Business Machines Corporation System and method for staged ensemble classification
CN116758559A (zh) * 2023-08-15 2023-09-15 山东唐和智能科技有限公司 一种图文文字转换识别系统及方法

Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492379A (zh) * 2002-10-22 2004-04-28 中国科学院计算技术研究所 利用快速人脸检测对新闻被采访者进行脸部遮挡的方法
US20050259866A1 (en) * 2004-05-20 2005-11-24 Microsoft Corporation Low resolution OCR for camera acquired documents
CN101761038A (zh) * 2009-12-31 2010-06-30 华南理工大学 一种铁路临时限速标志识别系统及方法
CN101833859A (zh) * 2010-05-14 2010-09-15 山东大学 基于虚拟线圈的自触发车牌识别方法
CN101957920A (zh) * 2010-09-08 2011-01-26 中国人民解放军国防科学技术大学 基于数字视频的车牌查找方法
CN102043945A (zh) * 2010-11-23 2011-05-04 聊城大学 基于车辆实时跟踪和二进指数分类车牌字符识别的方法
CN102509091A (zh) * 2011-11-29 2012-06-20 北京航空航天大学 一种飞机尾号识别方法
CN102789693A (zh) * 2012-08-10 2012-11-21 深圳市路畅科技股份有限公司 一种道路标志牌自动识别方法及车载识别装置
CN103065489A (zh) * 2012-12-28 2013-04-24 天津爱迪尔软件开发有限公司 一种即时导航路况系统及导航方法
CN103581614A (zh) * 2012-08-01 2014-02-12 通号通信信息集团有限公司 基于ptz的视频中目标跟踪方法及系统
CN104732245A (zh) * 2015-04-14 2015-06-24 万里运业股份有限公司 用于长途客车前方出现危险品运输车时的识别与预警方法
US20160026859A1 (en) * 2014-07-25 2016-01-28 Rakuten, Inc. Image processing apparatus, image processing method and image processing program
CN105893817A (zh) * 2016-03-29 2016-08-24 乐视控股(北京)有限公司 一种移动设备应用权限管理方法及系统
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN107045634A (zh) * 2017-05-02 2017-08-15 电子科技大学 一种基于最大稳定极值区域与笔画宽度的文本定位方法
CN107273896A (zh) * 2017-06-15 2017-10-20 浙江南自智能科技股份有限公司 一种基于图像识别的车牌检测识别方法
CN107563380A (zh) * 2017-09-08 2018-01-09 上海理工大学 一种基于mser和swt相结合的车辆车牌检测识别方法
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法

Patent Citations (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1492379A (zh) * 2002-10-22 2004-04-28 中国科学院计算技术研究所 利用快速人脸检测对新闻被采访者进行脸部遮挡的方法
US20050259866A1 (en) * 2004-05-20 2005-11-24 Microsoft Corporation Low resolution OCR for camera acquired documents
CN101761038A (zh) * 2009-12-31 2010-06-30 华南理工大学 一种铁路临时限速标志识别系统及方法
CN101833859A (zh) * 2010-05-14 2010-09-15 山东大学 基于虚拟线圈的自触发车牌识别方法
CN101957920A (zh) * 2010-09-08 2011-01-26 中国人民解放军国防科学技术大学 基于数字视频的车牌查找方法
CN102043945A (zh) * 2010-11-23 2011-05-04 聊城大学 基于车辆实时跟踪和二进指数分类车牌字符识别的方法
CN102509091A (zh) * 2011-11-29 2012-06-20 北京航空航天大学 一种飞机尾号识别方法
CN103581614A (zh) * 2012-08-01 2014-02-12 通号通信信息集团有限公司 基于ptz的视频中目标跟踪方法及系统
CN102789693A (zh) * 2012-08-10 2012-11-21 深圳市路畅科技股份有限公司 一种道路标志牌自动识别方法及车载识别装置
CN103065489A (zh) * 2012-12-28 2013-04-24 天津爱迪尔软件开发有限公司 一种即时导航路况系统及导航方法
US20160026859A1 (en) * 2014-07-25 2016-01-28 Rakuten, Inc. Image processing apparatus, image processing method and image processing program
CN104732245A (zh) * 2015-04-14 2015-06-24 万里运业股份有限公司 用于长途客车前方出现危险品运输车时的识别与预警方法
CN105893817A (zh) * 2016-03-29 2016-08-24 乐视控股(北京)有限公司 一种移动设备应用权限管理方法及系统
CN106650721A (zh) * 2016-12-28 2017-05-10 吴晓军 一种基于卷积神经网络的工业字符识别方法
CN107045634A (zh) * 2017-05-02 2017-08-15 电子科技大学 一种基于最大稳定极值区域与笔画宽度的文本定位方法
CN107273896A (zh) * 2017-06-15 2017-10-20 浙江南自智能科技股份有限公司 一种基于图像识别的车牌检测识别方法
CN107563377A (zh) * 2017-08-30 2018-01-09 江苏实达迪美数据处理有限公司 一种利用边缘和文字区域的证件关键区域检测定位方法
CN107563380A (zh) * 2017-09-08 2018-01-09 上海理工大学 一种基于mser和swt相结合的车辆车牌检测识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
M.TANAKA等: "Autonomous Text Capturing Robot Using Improved DCT Feature", 《NINTH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION (ICDAR 2007)》 *
张国和等: "最大稳定极值区域与笔画宽度变换的自然场景文本提取方法", 《西安交通大学学报》 *
彭艳兵等: "基于区域特征与支持向量机的场景文字定位算法", 《计算机与现代化》 *
欧先锋等: "基于Caffe深度学习框架的车牌数字字符识别算法研究", 《四川大学学报(自然科学版)》 *
路敬祎等: "基于改进的连通域算法与垂直投影相结合的车牌字符分割", 《自动化技术与应用》 *

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977729A (zh) * 2017-12-27 2019-07-05 中移(杭州)信息技术有限公司 一种文本检测方法及装置
CN109117841A (zh) * 2018-09-03 2019-01-01 厦门金龙联合汽车工业有限公司 基于笔画宽度变换与卷积神经网络的场景文本检测方法
CN109117841B (zh) * 2018-09-03 2020-12-11 厦门金龙联合汽车工业有限公司 基于笔画宽度变换与卷积神经网络的场景文本检测方法
CN109376740A (zh) * 2018-10-19 2019-02-22 天津天地伟业投资管理有限公司 一种基于视频的水尺读数检测方法
CN109583443A (zh) * 2018-11-15 2019-04-05 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN109559536A (zh) * 2018-12-10 2019-04-02 百度在线网络技术(北京)有限公司 交通灯、交通灯识别方法、装置、设备及存储介质
US11373063B2 (en) * 2018-12-10 2022-06-28 International Business Machines Corporation System and method for staged ensemble classification
CN109918987B (zh) * 2018-12-29 2021-05-14 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置
CN109918987A (zh) * 2018-12-29 2019-06-21 中国电子科技集团公司信息科学研究院 一种视频字幕关键词识别方法及装置
CN109800757B (zh) * 2019-01-04 2022-04-19 西北工业大学 一种基于布局约束的视频文字追踪方法
CN109800757A (zh) * 2019-01-04 2019-05-24 西北工业大学 一种基于布局约束的视频文字追踪方法
CN110070509B (zh) * 2019-04-26 2021-08-27 国家卫星气象中心 一种可见光遥感图像实时可视化系统及可视化方法
CN110070509A (zh) * 2019-04-26 2019-07-30 国家卫星气象中心 一种可见光遥感图像实时可视化系统及可视化方法
CN110598703B (zh) * 2019-09-24 2022-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
CN110598703A (zh) * 2019-09-24 2019-12-20 深圳大学 一种基于深度神经网络的ocr识别方法及装置
CN112749599A (zh) * 2019-10-31 2021-05-04 北京金山云网络技术有限公司 图像增强方法、装置和服务器
CN111046872B (zh) * 2019-12-12 2023-10-24 深圳市杰恩世智能科技有限公司 一种光学字符识别方法
CN111046872A (zh) * 2019-12-12 2020-04-21 深圳市杰恩世智能科技有限公司 一种光学字符识别方法
CN111080554B (zh) * 2019-12-20 2023-08-04 成都极米科技股份有限公司 一种投影内容中字幕区域增强方法、装置及可读存储介质
CN111080554A (zh) * 2019-12-20 2020-04-28 成都极米科技股份有限公司 一种投影内容中字幕区域增强方法、装置及可读存储介质
CN111383054A (zh) * 2020-03-10 2020-07-07 中国联合网络通信集团有限公司 广告检验方法和装置
CN111767909A (zh) * 2020-05-12 2020-10-13 合肥联宝信息技术有限公司 一种字符识别方法、设备及计算机可读存储介质
CN111767909B (zh) * 2020-05-12 2022-02-01 合肥联宝信息技术有限公司 一种字符识别方法、设备及计算机可读存储介质
CN113642556A (zh) * 2021-08-04 2021-11-12 五八有限公司 一种图像处理方法、装置、电子设备及存储介质
CN114092938A (zh) * 2022-01-19 2022-02-25 腾讯科技(深圳)有限公司 图像的识别处理方法、装置、电子设备及存储介质
CN116758559A (zh) * 2023-08-15 2023-09-15 山东唐和智能科技有限公司 一种图文文字转换识别系统及方法
CN116758559B (zh) * 2023-08-15 2023-11-07 山东唐和智能科技有限公司 一种图文文字转换识别系统及方法

Similar Documents

Publication Publication Date Title
CN108256493A (zh) 一种基于车载视频的交通场景文字识别系统及识别方法
Khorsheed Off-line Arabic character recognition–a review
CN110210413A (zh) 一种基于深度学习的多学科试卷内容检测与识别系统及方法
CN109685065B (zh) 试卷内容自动分类的版面分析方法、系统
CN105760891A (zh) 一种中文字符验证码的识别方法
Obaidullah et al. A system for handwritten script identification from Indian document
Das et al. Optical character recognition using artificial neural network
CN108154144A (zh) 一种基于图像的船名字符定位方法及系统
Mustafa et al. A deep learning approach for handwritten Arabic names recognition
Shelke et al. A novel multistage classification and wavelet based kernel generation for handwritten marathi compound character recognition
Raj et al. Grantha script recognition from ancient palm leaves using histogram of orientation shape context
Abdo et al. An approach to analysis of Arabic text documents into text lines, words, and characters
Lue et al. A novel character segmentation method for text images captured by cameras
Chaturvedi et al. Automatic license plate recognition system using surf features and rbf neural network
Srinivasan et al. Automated Vehicle Number Plate Recognition System, Using Convolution Long Short-Term Memory Technique
Oladele et al. Offline yorùbá handwritten word recognition using geometric feature extraction and support vector machine classifier
Nath et al. Improving various offline techniques used for handwritten character recognition: a review
Thilagavathy et al. Recognition of distorted character using edge detection algorithm
Sathya et al. Vehicle license plate recognition (vlpr)
Alzebdeh et al. Arabic handwritten recognition based on deep convolutional neural network
Tonge et al. Automatic Number Plate Recognition
AlKhateeb et al. Interactive knowledge discovery for baseline estimation and word segmentation in handwritten Arabic text
Tofiq et al. Kurdish Text Segmentation using projection-based approaches
Khosravi A sliding and classifying approach towards real time Persian license plate recognition
Garg et al. Text graphic separation in Indian newspapers

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20180706

RJ01 Rejection of invention patent application after publication