CN113971792A - 交通标志牌的字符识别方法、装置、设备和存储介质 - Google Patents

交通标志牌的字符识别方法、装置、设备和存储介质 Download PDF

Info

Publication number
CN113971792A
CN113971792A CN202010640286.5A CN202010640286A CN113971792A CN 113971792 A CN113971792 A CN 113971792A CN 202010640286 A CN202010640286 A CN 202010640286A CN 113971792 A CN113971792 A CN 113971792A
Authority
CN
China
Prior art keywords
character
traffic sign
sign board
result
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010640286.5A
Other languages
English (en)
Inventor
李兵
肖映彩
朱虹兆
虢旭升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changsha Intelligent Driving Research Institute Co Ltd
Original Assignee
Changsha Intelligent Driving Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changsha Intelligent Driving Research Institute Co Ltd filed Critical Changsha Intelligent Driving Research Institute Co Ltd
Priority to CN202010640286.5A priority Critical patent/CN113971792A/zh
Publication of CN113971792A publication Critical patent/CN113971792A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种交通标志牌的字符识别方法、装置、设备和存储介质,所述方法包括:获取视频图像,识别视频图像中的交通标志牌所在图像区域;对交通标志牌所在图像区域进行分类,获得分类结果;基于分类结果对交通标志牌所在图像区域进行字符分割,得到交通标志牌所在图像区域中的所有字符区域;识别各字符区域,得到交通标志牌所在图像区域的字符识别结果。上述方法在一定程度上解决了交通标志牌字符图像存在模糊、粘滞、切斜、曝光不均衡等导致的难以分割的问题,可以提高交通标志牌中的字符识别的检测精度。

Description

交通标志牌的字符识别方法、装置、设备和存储介质
技术领域
本申请涉及图像识别技术领域,特别是涉及一种交通标志牌的字符识别方法、装置、计算机设备和存储介质。
背景技术
交通标志牌是用文字或符号传递引导、限制、警告或指示信息的道路设施。交通标志牌中含有重要的驾驶指示信息,这些信息对驾驶有重要的意义,为了更好的辅助驾驶,可以借助字符识别技术对交通标志牌中的文字进行识别。
车载识别往往与目标交通标志牌距离较远,交通标志牌上的文字显得比较模糊,且交通标志牌牌上的文字又具有笔画紧凑,存在粘滞、曝光不均衡、倾斜、遮挡的问题。传统的自然场景字符识别技术通常包括字符分割、字符识别两个阶段,然而交通标志牌通常距离较远、文字显示模糊、文字存在粘滞等特点,传统的字符识别方法检测精度不高。
发明内容
基于此,有必要针对上述技术问题,提供一种能够检测精度较高的交通标志牌的字符识别方法、装置、设备和存储介质。
一种交通标志牌的字符识别方法,所述方法包括:
获取视频图像,识别所述视频图像中的交通标志牌所在图像区域;
对所述交通标志牌所在图像区域进行分类,获得分类结果;
基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域;
识别各所述字符区域,得到所述交通标志牌所在图像区域的字符识别结果。
一种交通标志牌的字符识别装置,所述装置包括:
识别模块,用于获取视频图像,识别所述视频图像中的交通标志牌所在图像区域;
分类模块,用于对所述交通标志牌所在图像区域进行分类,获得分类结果;
字符分割模块,用于基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域;
字符识别模块,用于识别各所述字符区域,得到所述交通标志牌所在图像区域的字符识别结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取视频图像,识别所述视频图像中的交通标志牌所在图像区域;
对所述交通标志牌所在图像区域进行分类,获得分类结果;
基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域;
识别各所述字符区域,得到所述交通标志牌所在图像区域中的字符识别结果。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取视频图像,识别所述视频图像中的交通标志牌所在图像区域;
对所述交通标志牌所在图像区域进行分类,获得分类结果;
基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域;
识别各所述字符区域,得到所述交通标志牌所在图像区域中的字符识别结果。
上述交通标志牌的字符识别方法、装置、设备和存储介质,识别获取的视频图像中的交通标志牌所在图像区域;对交通标志牌所在图像区域进行分类获得分类结果,然后基于分类结果对交通标志牌所在图像区域进行字符分割,得到交通标志牌所在图像区域中的字符区域;并对各字符区域进行识别,得到交通标志牌所在图像区域的字符识别结果。上述方法先对交通标志牌所在图像区域进行分类,然后结合分类结果对交通标志牌所在图像区域进行字符分割,可以提高字符分割的结果精准性,进一步对字符分割的结果进行字符识别获得交通标志牌所在图像区域的字符识别结果,一定程度上解决了交通标志牌字符图像存在模糊、粘滞、切斜、曝光不均衡等导致的难以分割的问题,可以提高交通标志牌的字符识别的检测精度。
附图说明
图1为一个实施例中交通标志牌的字符识别方法的应用环境图;
图2为另一个实施例中交通标志牌的字符识别方法的流程示意图;
图3(1)为一个具体实施例中最高限速类交通标志牌的示意图;
图3(2)为一个具体实施例中最低限速类交通标志牌的示意图;
图3(3)为一个具体实施例中限重类交通标志牌的示意图;
图3(4)为一个具体实施例中承重类交通标志牌的示意图;
图3(5)为一个具体实施例中限高类交通标志牌的示意图;
图3(6)为一个具体实施例中限宽类交通标志牌的示意图;
图3(7)为一个具体实施例中指路交通标志牌的示意图;
图4另一个实施例中交通标志牌的字符识别方法的流程示意图;
图5为一个实施例中字符识别模型对各字符区域进行处理的流程示意图;
图6为一个具体实施例中特征提取得到结果的示意图;
图7为一个具体实施例中特征提取与特征降维过程的流程示意图;
图8为一个具体实施例中交通标志牌字符训练样本的确定过程的流程示意图;
图9为一个具体实施例中交通标志牌的字符识别方法的流程示意图;
图10为一个实施例中交通标志牌的字符识别装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种交通标志牌的字符识别方法,本实施例以该方法应用于终端进行举例说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。其中,终端可以是车载终端。本实施例中,该方法步骤S110至步骤S140。
步骤S110,获取视频图像,识别视频图像中的交通标志牌所在图像区域。
在一个具体的实施例中,上述交通标志牌的字符识别方法应用于车辆行驶过程中,对于通过视频采集模块在路径中实时采集车辆所经过的路径中自然场景下的图像,从图像中识别到出现的交通标志牌所在图像区域,进而识别出交通标志牌所在图像区域中的字符区域,用于辅助驾驶。在本实施例中,视频图像是指在行驶过程中车辆的视频采集模块采集的视频图像。
一个实施例中,获取视频图像可以是从车辆的视频采集模块或图像采集模块获取。在一个实施例中,识别视频图像中的交通标志牌所在图像区域通过目标检测完成。目标检测,也叫目标提取,是一种基于目标几何和统计特征的图像分割,它将目标的分割和识别合二为一。进一步地,目标检测可采用通过训练确定的目标检测模型完成。在一个具体实施例中,采用YOLOv3(You Only Look Once)或其变种Gaussian_YOLOv3的方法进行目标检测。
进一步地,在一个实施例中,目标检测输出的结果包括:交通标志牌所在图像区域与其它障碍物在视频图像中的位置坐标,由位置坐标确定的目标子区域称为ROI(regionof interest,感兴趣区域)。在另一个实施例中,目标检测输出的结果还包括交通标志牌在内的所有障碍物的类别标号,例如交通灯,行人,轿车,卡车类别等,这些障碍物的检测结果可以方便用作其它意图。
步骤S120,对交通标志牌所在图像区域进行分类,获得分类结果。
交通标志牌按照不同功能可以划分为不同类别的交通标志牌;在一个实施例中,分类结果包括数字类交通标志牌、文字类交通标志牌、图形类标志牌以及混合类交通标志牌等等。在另一个实施例中,对交通标志牌所在图像区域进行分类获得分类结果还可以划分更加细化一些,例如将交通标志牌划分为限速类交通标志牌、限高类交通标志牌、限宽类交通标志牌、承重类交通标志牌、限重类交通标志牌和指路交通标志牌、其它不含文字的警示类交通标志牌,如禁止鸣笛、全路段、注意儿童等。
在一个实施例中,对交通标志牌所在图像区域进行分类可通过经训练确定的预设分类神经网络完成。在一个具体实施例中,采用CNN(Convolutional Neural Networks,卷积神经网络)进行特征提取,并用softmax网络层对交通标志牌所在图像区域进行分类,分类得到的该所在图像区域对应的交通标志牌的类别包括:指路交通标志牌,最高限速类交通标志牌、最低限速类交通标志牌、限高类交通标志牌、限宽类交通标志牌、限重类交通标志牌、承重类交通标志牌,其它不含文字的警示类交通标志牌,如禁止鸣笛、全路段、注意儿童等101种交通标志牌。进一步地,在一个实施例中,对交通标志牌训练数据集作数据增强与数据平衡策略处理后进行网络训练。在一个具体实施例中,对交通标志牌所在图像区域进行分类的网络采用的是darknet框架的分类网络,在本实施例中,网络有15层卷积层,4层池化层,1层softmax层构成,且每个卷积层都融合了BN(Batch Normalization,批标准化)层,最后一层卷积层的卷积核数量与交通标志的类别数一致,为101个卷积核。在本实施例中,对交通标志类别进行分类采用的是卷积网络,相比于传统图像识别卷积网络,属于轻量级的网络。
在对交通标志牌所在图像区域进行分类的一个实施例中,预设分类网络的学习率采用余弦衰减方式进行确定。
在一个具体实施例中,对预设分类网络的学习率更新策略采用余弦衰减方式可用以下公式表示:
learning_rate_policy=η*0.5*(1+cos(batch_num*PI)/max_batches)
其中,η为常量,代表初始学习率,batch_num为每批量送入网络的图片数量,PI为圆周率,max_batches为迭代的最大次数。在本实施例中,采用学习率更新方式能保证网络快速收敛并防止在网络参数在最优值附近震荡。
可以理解地,在其它实施例中,也可以通过其它方式对交通标志牌所在图像区域进行分类。
步骤S130,基于分类结果对交通标志牌所在图像区域进行字符分割,得到交通标志牌所在图像区域中的所有字符区域。
字符分割可以在图像中提取出字符部分,本实施例中对交通标志牌所在图像区域进行字符分割即提取出交通标志牌所在图像区域中出现的字符区域。
在一个实施例中,如图2所示,在基于分类结果对交通标志牌所在图像区域进行字符分割之前,还包括步骤S210:对交通标志牌所在图像区域进行预处理,获得预处理后的交通标志牌所在图像区域。
在一个实施例中,预处理包括以下至少一项:图像大小归一化处理、数据类型归一化处理、白平衡处理、色彩空间转换处理、图像灰度化处理、以及图像自适应阈值二值化处理。
对交通标志牌所在图像区域进行分类之前先进行图像大小归一化和数据类型归一化的预处理,可以保证特征提取的维度一致,图像数据的位深度一致。对交通标志牌所在的图像区域进行白平衡的预处理,可以在一定程度解决曝光不均匀问题。对交通标志牌的所在图像区域进行色彩空间转换的预处理,方便后续步骤利用颜色信息分割图像。对交通标志牌所在图像区域进行灰度化、自适应阈值二值化,为后续的字符分割做铺垫。
进一步地,在本实施例中,基于分类结果对交通标志牌所在图像区域进行字符分割,得到交通标志牌所在图像区域中的所有字符区域,包括步骤S220至步骤S250。
步骤S220,从预处理后的交通标志牌所在图像区域中确定连通域外接矩形。
连通域(Connected Component)一般是指图像中具有相同像素值且位置相邻的前景像素点组成的图像区域(Region,Blob)。本实施例中,连通域外接矩形是指以二维坐标表示的连通域的最大范围,即以连通域各顶点中的最大横坐标、最小横坐标、最大纵坐标、最小纵坐分别标定左、右、下和上边界的矩形。由于交通标志牌上的文字具有笔画紧凑的特点,大部分文字属于连通的,特别是针对数字而言,因此本实施例中对交通标志牌所在图像区域中的字符区域采用连通域分析的方法进行分割。
在一个实施例中,从预处理后的交通标志牌所在图像区域中确定连通域外接矩形的步骤中输入的是预处理后的交通标志牌所在图像区域,预处理后的交通标志牌所在图像区域为二值化图像。
步骤S230,根据预设交通标志牌通用字符规则对各连通域外接矩形进行筛选得到初步字符分割结果。
由于传统交通标志牌中的文字、数字或者符号等通常具有一定的特点,因此在本实施例中,在得到交通标志牌所在图像区域中的各连通域外接矩形之后,可以结合预设交通标志牌通用字符规则对连通域外接矩形进行筛选,得到初步字符分割结果。其中,预设交通标志牌通用字符规则是指传统交通标志牌中的字符的特点。在一个实施例中,结合预设交通标志牌通用字符规则对连通域外接矩形进行筛选包括:结合预设交通标志牌通用字符规则对各连通域外界矩形进行删除和/或合并,得到初步字符分割结果;在一个实施例中,预设交通标志牌通用字符规则可以根据实际情况进行预先设置。
进一步地,在一个实施例中,结合预设交通标志牌通用字符规则对各连通域外接矩形进行筛选,得到初步字符分割结果,包括:根据各连通域外接矩形之间的大小关系、位置关系、各连通域外接矩形内部的像素颜色的比例以及文字结构,对各连通域外接矩形进行筛选得到初步字符分割结果。
本实施例中,通过连通域外接矩形之间的大小、位置关系比较,过滤掉某些连通域外接矩形,以及通过连通域外接矩形内部的像素颜色的比例和文字结构排除某些不属于字符的连通域外接矩形,可以进一步地提高字符分割获得的结果的准确性。
步骤S240,获取分类结果对应的预设字符分割规则。
步骤S250,基于分类结果对应的预设字符分割规则从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域。
在步骤S230中根据所有传统交通标志牌的字符通用的特点进行筛选得到交通标志牌所在图像区域中的初步字符分割结果,步骤S250中则根据该交通标志牌具体对应的类别的字符特点进一步确定初步字符分割的结果是否正确,即判断初步字符分割的结果是否合理。
在一个实施例中,基于分类结果对应的预设字符分割规则从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域,包括:若分类结果为数字类交通标志牌,根据分类结果对应字符高度规则和位置规则,从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域;若分类结果为文字类交通标志牌,根据文字规律从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域。
由于传统不同类别的交通标志牌中的字符通常具有一定的特点和规律,例如限速类交通标志牌中各字符大小通常是相同的,位置关系也较为紧密;又如限宽类、限高类交通标志牌中可能出现小数位,整数位与小数位的字符的高度存在一定的差值;再如指路交通标志牌中的字符主要为文字,其中的文字必定符合文字结构,等等;且交通标志牌中的字符与背景颜色通常是确定且固定的,因此可根据分类结果确定该分类结果对应的交通标志牌中的字符的像素颜色及其比例,进而根据从交通标志牌所在图像区域中确定的连通域外接矩形中像素颜色比例,来对其进行一些筛选。在本实施例中根据分类结果确定对应的预设字符分割结果对初步字符分割结果进行筛选,得到所有交通标志牌所在图像区域中的所有字符区域。
数字类交通标志牌是指交通标志牌中重要信息多为数字的交通标志牌;在一个实施例中,数字类交通标志牌包括限速类交通标志牌、限重类交通标志牌、承重类交通标志牌、限高类交通标志牌、限宽类交通标志牌等等。文字类交通标志牌是指交通标志牌中重要信息多为文字的交通标志牌;在一个实施例中,文字类交通标志牌包括指路交通标志牌。可以理解地,在其它实施例中,分类结果还可以是其它分类结果。
在一个具体实施例中,若分类结果为限速类交通标志牌,从初步字符分割结果中筛选出相邻两个字符的高度差小于第一预设阈值的字符,确定为限速类交通标志牌所在图像区域中的所有字符区域;若分类结果为限高类交通标志牌或限宽类交通标志牌,从初步字符分割结果中筛选出相邻两个字符的高度差大于第二预设阈值的字符区域,确定为限高类交通标志牌或限宽类交通标志牌所在图像区域中的所有字符区域;若分类结果为限重类交通标志牌或承重类交通标志牌,从初步字符分割结果中筛选出相邻两个字符的高度差小于第三预设阈值的字符区域,确定为限重类交通标志牌或承重类交通标志牌所在图像区域中的所有字符区域;若分类结果为指路标志交通标志牌,从初步字符分割结果中删除孤立的字符区域,可通过将与其它字符之间的位置距离大于预设距离阈值的确定为孤立的字符区域,得到指路标志交通标志牌所在图像区域中的所有字符区域。其中,第一预设阈值、第二预设阈值和第三预设阈值分别可以根据实际情况进行设置。
若交通标志牌为数字类交通标志牌,则可以结合数字类交通标志牌所在图像区域中各字符的高度、位置的特点从初步字符分割结果中进行筛选。例如限速类的交通标志牌中,数字字符通常没有小数位,且字符的高度通常相同,因此可在初步字符分割结果中筛选出具有高度基本相等,距离较近的特点的数字字符区域,如图3(1)和图3(2)所示,分别为一个具体的最高限速类交通标志牌和最低限速类交通标志牌的示意图。又如限重类和承重类等类型的交通标志牌中的数字字符通常没有小数位,且字符的高度通常相同,因此可在初步字符分割结果中筛选出具有高度基本相等,距离较近的特点的数字字符区域,如图3(3)和图3(4)所示,分别为一个具体的限重类交通标志牌和承重类交通标志牌的示意图。又如限高类和限宽等类型的交通标志牌中的数字字符可能存在小数部分,因此可在初步字符分割结果中筛选出存在高度相差较大的两个框的情况,需要确定位置较近,且以高矩形、矮矩形的顺序出现的两个矩形区域,如图3(5)和图3(6)所示,分别为一个具体的限高类交通标志牌和限宽类交通标志牌的示意图。若交通标志牌为文字类交通标志牌,则可以结合文字类交通标志牌中各文字的位置特点从初步字符分割结果中进行筛选;又如在指路交通标志中,文字字符通常不会单独出现,因此可在初步字符分割结果中删除掉孤立的文字字符,如图3(7)所示为一个具体实施例中的指路交通标志的示意图。
上述实施例中,在对交通标志牌所在图像区域进行分类得到对应的分类结果后,通常属于同一类别的交通标志牌具有相同的特征,因此在本实施例中基于分类结果对交通标志牌所在图像区域进行字符分割,可以获得更为精准的字符分割结果。结合分类结果进行字符分割,采用了具有针对性的分割规则,对交通标志牌而言,分割效果泛化能力更强,且可解决交通标志牌中文字图像存在模糊、粘滞、切斜、曝光不均衡等导致的传统方法难以分割的问题。
步骤S140,识别各字符区域,得到交通标志牌所在图像区域中的字符识别结果。
在从交通标志牌所在图像区域中提取出各字符区域后,对各字符区域进行识别,即可获得该交通标志牌所在图像区域的字符识别结果。在一个实施例中,识别字符可通过预设的字符识别模型实现;在另一个实施例中,识别字符也可以通过其它方式实现。
上述交通标志牌的字符识别方法中,识别获取的视频图像中的交通标志牌所在图像区域;对交通标志牌所在图像区域进行分类获得分类结果,然后基于分类结果对交通标志牌所在图像区域进行字符分割,获得交通标志牌所在图像区域中的字符区域;并对各字符区域进行识别,得到交通标志牌所在图像区域的字符识别结果。上述方法先对交通标志牌所在图像区域进行分类,然后结合分类结果对交通标志牌所在图像区域进行字符分割,可以提高字符分割的结果精准性,进一步对字符分割的结果进行字符识别得到交通标志牌所在图像区域的字符识别结果,一定程度上解决了交通标志牌字符图像存在模糊、粘滞、切斜、曝光不均衡等导致的难以分割的问题,可以提高交通标志牌的字符识别的检测精度。
进一步地,在一个实施例中,如图4所示,在基于分类结果对交通标志牌所在图像区域进行字符分割,获得交通标志牌所在图像区域中的所有字符区域之后,还包括步骤S410:确定各字符区域对应的位置;步骤S420,根据各字符区域对应的位置之间的位置关系,确定处于同一文本行各字符区域,将处于同一文本行的各相邻字符组合得到交通标志牌所在图像区域中的目标区域;在本实施例中,识别各字符区域,得到交通标志牌所在图像区域的字符识别结果包括步骤S430:识别各目标区域,得到交通标志牌所在图像区域的字符识别结果。
其中,文本行是指字符区域在所在交通标志牌中所处的位置对应的行,将处于同一高度且相互之间位置关系较为紧密的字符区域确定为属于同一文本行;在本实施例中处于同一文本行的相邻字符区域依次组合得到同一目标区域,例如最高限速类交通标志牌中识别到处于同一文本行的三个字符区域“1”、“1”和“0”,则将这三个字符区域确定为同一目标区域,即“110”对应的区域。进一步地,根据各字符区域对应的位置之间的位置关系,确定处于同一文本行各字符区域,包括:对每两个字符区域的位置进行计算,当两个字符区域的位置高度差值和左右位置差值均小于对应的阈值时,则判定该两个字符区域处于同一文本行。
进一步地,在一个实施例中,根据各字符区域对应的位置之间的位置关系,确定处于同一文本行各字符区域,包括:对各字符区域对应的位置中同一顶点的位置在预设方向上进行排序得到排序结果;基于排序结果分别计算相邻两个字符区域的水平方向位置差值和垂直方向位置差值;将水平方向位置差值和垂直方向位置差值均小于阈值的相邻字符区域,确定为属于同一文本行的字符区域。
其中,字符区域对应的位置通常包括该字符区域的上下左右四个顶点的位置,可用坐标表示,在确定文本行时取各字符区域的同一个顶点位置,进行位置排序;进一步地,可根据各字符区域的该同一顶点位置在预设方向上(例如从左至右,或者从右至左)进行排序,得到排序结果;进而根据该排序结果可确定相邻的字符区域。水平方向位置差值体现的是字符之间的横向距离,而垂直方向位置差值体现的字符之间在所处的高度的差异;其中,水平方向位置差值对应的阈值和垂直方向位置差值对应的阈值可以是两个不同的阈值,也可以是相同的阈值,只要两个差值同时满足小于其各自对应的阈值即可。
在一个具体实施例中,确定字符的文本行是根据字符区域之间的位置关系而且定的,所述的位置关系包括:1、相邻两个外接矩形的上下偏离程度很小;2、相邻两个外接矩形的左右距离很小。设现需确定连通域外接矩形r(i)(i=0,1,...,N-1,N为字符区域的个数)确定的字符区域所在的文本行,首先对外接矩形按在图像中从左至右的顺序排序:
Figure BDA0002571253900000111
其中,xr(i)为r(i)矩形框左上角的横坐标,代表离交通标志ROI图像左上角的水平像素个数,设集合T={r(i)}为r(i)所在文本行中的所有字符区域集合,则集合T的元素更新方式为:
Figure BDA0002571253900000112
其中yr(i),yr(j)分别为两个字符对应矩形框左上角的纵坐标,代表离交通标志ROI图像左上角竖直方向的像素个数,ythr,xthr为设定的阈值,如果存在满足条件的r(j),将其加入集合T,然后让j=i,继续进行上述条件判断,迭代找出所有的r(j),并且在T中的元素不再进行重复的条件判断。
在本实施例中,识别得到单个的字符区域后,结合各字符区域同一顶点的位置在预设方向上进行排序之后,结合排序结果计算相邻两个字符区域之间的水平方向差值和垂直方向差值,可确定处于同一文本行的各字符区域,采用先进行位置排序然后确定字符区域所在文本行的方式,可减少计算量,提高处理效率;进而将处于同一文本行的字符区域组成为目标区域,对目标区域进行字符识别,同一目标区域可能属于同一语义单位,方便对语义进行理解。
在一个实施例中,识别各字符区域,得到交通标志牌所在图像区域的字符识别结果,包括:分别将各字符区域输入预设字符识别模型;预设字符识别模型由交通标志牌字符训练样本经过训练确定;获取字符识别模型对各字符区域进行处理之后,输出的交通标志牌所在图像区域的字符识别结果。
本实施例中,通过预先训练确定的字符识别模型进行字符识别,本实施例中记为预设字符识别模型。将各字符输入预设字符识别模型中,由该预设字符识别模型对各字符区域进行字符识别,输出字符识别结果。通过训练确定的字符识别模型对字符区域进行识别,可高效的输出较为准确的识别结果。
在一个实施例中,字符识别模块对各字符区域进行处理包括:对各字符区域依次进行特征提取和特征降维,得到字符区域对应的特征向量,分别计算各字符区域的特征向量与各训练集特征向量的距离;将距离最小的训练特征向量对应的训练字符样本确定为各字符区域对应的字符识别结果。
进一步地,在一个实施例中,如图5所示,字符识别模型对各字符区域进行处理,包括步骤S510至步骤S570。
步骤S510,分别采用预设尺度和预设方向的Gabor滤波器对各字符区域进行滤波,得到各字符区域对应的多个滤波图像。
Gabor滤波器可以在频域上不同尺度、不同方向上提取相关的特征,在本实施例中,采用Gabor滤波器提取的是字符区域的纹理信息,能描述字符区域的空间局部频度信息。在一个具体实施例中,预设尺度为3个尺度,预设方向为8个方向,则在本实施例中共3*8=24个滤波器,滤波后得到24个滤波图像。可以理解地,在其它实施例中,预设尺度和预设方向也可以设置为其他值。
本步骤实际上是对各字符区域进行特征提取,在提取得到图像特征后,后续对各图像特征进行降维,然后进行字符识别。
特征提取是计算机视觉和图像处理中的一个概念,它指的是使用计算机提取图像信息,决定每个图像的点是否属于一个图像特征。特征提取的结果是把图像上的点分为不同的子集,这些子集往往属于孤立的点、连续的曲线或者连续的区域。特征的好坏对泛化性能有至关重要要的影响。特征降维是指在某些限定条件下,降低随机变量(特征)个数,得到一组“不相关”主变量的过程.
步骤S520,基于预设尺度筛选规则和预设方向筛选规则对同一字符区域对应的各滤波图像进行筛选,得到筛选后图像。
相邻的尺度或方向上的滤波图像往往特征比较相似,因此在本步骤中结合预设尺度筛选规则和预设方向筛选规则对同一字符区域对应的各滤波图像进行筛选,可过滤掉部分特征,以降低滤波图像的维度。
在一个具体实施例中,预设尺度筛选规则和预设方向筛选规则包括:V=U;V=U-2;V=U-4;V=U-6;V=U+2。其中,V代表3个不同的尺度,U代表8个不同的方向。可以理解地,预设尺度筛选规则和预设方向筛选规则也可以设置为其它形式的规则。
步骤S530,对同一字符区域对应的各筛选后图像进行分块归一化,得到归一化图像。
分块归一化是指对筛选后图像进行划分区域块之后,在所有区域块中进行归一化处理。在一个具体实施例中,假设对某一筛选后图像的宽均分为d1份,对高均分为d2份,则分块归一化为方式为:
Figure BDA0002571253900000131
其中,W为筛选后图像的像素宽度,H为筛选后图像的像素高度,ai,j为筛选后图像划分后第k个子区域的第i行j列的像素值,e(k)为代表这个子区域的归一化特征。
步骤S540,对同一字符区域对应的各归一化图像进行有监督降维,得到维度小于预设数目的降维后图像。
在一个具体实施例中,采用LDA(linear discriminant analysis,线性判别分析)对各归一化图像进行有监督降维,得到降维后图像;进一步地,本实施例中,对于有监督降维得到的结果,限定其维度小于预设数目。在一个具体实施例中,预设数目对应的是对本申请中对所有交通标志牌设置的分类类别数目。
步骤S550,对同一字符区域对应的各降维后图像求平均值,得到字符区域对应的特征向量。
对同一字符区域对应的各降维后图像求得平均值,以该平均值确定为该字符区域对应的特征向量,可以进一步减少该字符区域对应的特征向量的数据量。
上述步骤S520至步骤S550实际上是对步骤S510中提取的字符区域对应的图像特征进行特征降维。特征降维的目的是减少特征属性的个数,确保特征属性之间的相互独立性,最终目的就是解决过拟合现象。在本实施例中,通过对各字符区域进行特征提取得到特征,然后对提取到的特征进行特征降维,得到各字符对应的特征向量。
在一个具体实施例中,特征提取采用不同尺度与方向的gabor滤波器对原始图像滤波,提取的是图像的纹理信息,能描述图像的空间局部频度信息;进一步地,尺度与方向可以分别选取3个尺度,8个方向,共3*8=24个滤波器,滤波后得到24个滤波图像,此时特征数据是滤波图像的每一个像素值,设每个滤波图像的宽为W,高为H,则此时特征向量的维数为24*(W*H)。
更进一步地,采用一种规则对滤波图像筛选,然后进行多重特征降维与特征归一化处理。例如特征降维可包括步骤1)至步骤4):
1)针对得到的24个滤波图像,如图6所示,每一小块代表一个滤波图像,由于相邻的尺度或方向上的滤波图像往往特征比较相似,因此可以不予考虑,所述的对滤波图像筛选的规则为:
V=U;V=U-2;V=U-4;V=U-6;V=U+2.
其中,V代表3个不同的尺度,U代表8个不同的方向,阴影部分代表选中的滤波图像,这样,此时特征向量的维数为12*(W*H),特征向量的数据量缩小了2倍。
2)然后,考虑到计算机内存消耗,对选中的每一个滤波图像分块归一化,设对某一滤波图像的宽均分为d1份,对高均分为d2份,则分块归一化为方式为:
Figure BDA0002571253900000141
其中,W为滤波图像的像素宽度,H为滤波图像的像素高度,ai,j为滤波图像划分后第k个子区域的第i行j列的像素值,e(k)为代表这个子区域的归一化特征,此时特征向量的维数为(d1*d2)*12,这样特征向量的数据量又缩小了(W*H)/(d1*d2)倍。
3)然后,采用有监督降维,如LDA将上述特征向量进一步降到一个小于类别数的维数,例如128维,则此时特征向量的数据量缩小了(d1*d2)*12/128倍。
4)最后,特征归一化处理是对各类别训练样本的特征向量求均值,由于每类字符图像112个训练样本,让这112个样本的均值向量作为这个类别的代表,此时特征向量的维数不变,但数据量又缩小了112倍。
上述特征提取与特征降维具体过程如图7所示,最终的特征向量为128维,且数据量总共缩小了:2*(W*H)/(d1*d2)*(d1*d2)*12/128*112=21*(W*H)倍。在一个实施例中,上述特征降维的步骤1)可选。在另一个实施例中,由于LDA使得样本类间距离最大化、类内距离最小化,进行字符识别时采用距离分类器。
在本实施例中,通过上述方法进行特征降维,在保证准确率的前提下,极大程度降低了字符识别的时间开销与识别模型的复杂度,可提高字符识别的效率,使得交通标志牌的字符识别方法可满足智能驾驶对程序执行速度的要求。
步骤S560,分别计算各字符区域的特征向量与各训练集特征向量的距离。
在一个实施例中,采用距离分类器计算各字符区域的特征向量与各训练集特征向量的距离。进一步地,在一个实施例中,预设字符识别模型的训练包括步骤:获取交通标志牌字符训练样本;分别对各交通标志牌字符训练样本进行特征提取,获得样本特征向量;对样本特征向量进行降维,获得训练集特征向量。进而在识别过程中,分别计算各字符区域的特征向量与训练集特征向量的距离,距离越近表示结果越相符。
步骤S570,将距离最小的训练特征向量对应的训练字符样本确定为各字符区域对应的字符识别结果。
通过计算确定距离最小的训练特征向量,读取最小的训练特征向量对应的训练字符样本确定为字符区域对应的字符识别结果;对各字符区域分别确定的距离最小的训练特征向量,可获得交通标志牌所在图像区域中所有字符区域对应的字符识别结果。
在采用距离分类器计算各字符区域的特征向量与各训练集特征向量的距离的一个具体实施例中,距离分类器采用的是KNN分类器,并令k=1,即得到最近邻分类器,特征向量之间的距离采用欧氏距离。对于KNN分类器,训练过程就是特征向量的保存过程,在一系列降维处理后,得到一个.yml模型文件,这个文件就是保存的训练集特征向量,利用这个文件即可求新样本的类别。
在一个实施例中,如图8所示,预设字符识别模型在训练过程中所使用的交通标志牌字符训练样本的确定过程包括步骤S610至步骤S640。
步骤S610,获取预设字符。
预设字符可根据实际情况进行设定;在一个具体实施例中,预设字符包括汉字字符和数字字符;汉字字符库取自中国各省市区的交通街道、学校、景点、社区等地名中可能出现的汉字,包含多个常见的中文汉字,而阿拉伯数字取自交通标志牌上的实景图像。本实施例中,以预设字符为基础进行字体合成得到交通标志牌字符训练样本。
步骤S620,读取预设字体格式,根据预设字符合成预设字体格式对应的字符样本。
其中,预设字体格式包括预设字体类型和预设字体颜色。在一个实施例中,预设字体格式中的预设字体类型与交通标志牌中常用的字体样式相同或者接近,预设字体颜色与交通标志牌中字符的颜色相同;在读取到预设字体格式后,可通过字体样式的调整,来实现将预设字符转换为预设字体格式的字符样本,以及改变其字体颜色,合成得到与交通标志牌中文字常用的字体的字符样本,在以该字符样本训练确定的字符识别模型中,可以获得更准确的交通标志牌的字符识别结果。在一个具体实施例中,交通标志牌图像有蓝底白字、白底黑字、白底蓝字等样式,预设字体颜色包括白色、黑色和蓝色等等,可根据实际情况进行设置。
步骤S630,对字符样本进行随机角度倾斜,获得各角度的倾斜字符样本,确定为交通标志牌字符训练样本。
由于在行驶过程中实时采集到包含交通标志牌在内的图像中,交通标志牌有可能出现倾斜角度的情况,因此在本实施例中在合成得到训练用的字符样本时,还对字符进行一定角度的倾斜,得到不同角度的字符样本。进一步地,随机角度可预先设定,例如具体可设置为±15°之间,采用均值为0,标准差为1的正态分布随机采样一系列角度值。
本实施例中,通过上述一系列步骤合成的交通标志牌字符训练样本,更符合在行驶途中实时采集的交通标志牌,因此利用该交通标志牌字符训练样本训练获得的预设字符识别模型对于实时采集的交通标志牌中字符的识别更加准确。合成训练样本考虑了交通标志牌的场景特点,即实景字符图像前景、背景、字体、倾斜情况等,可在一定程度上解决训练集样本分布不均匀、字符图像难以获得的难点。
可以理解地,在其它实施例中,也可以通过其它方式对各字符区域进行字符识别。
在一个实施例中,识别各字符区域,得到交通标志牌所在图像区域的字符识别结果,包括:识别各字符区域,结合分类结果对字符区域识别获得的结果进行纠偏,得到交通标志牌的字符识别结果。
在识别获得字符识别结果后,结合交通标志牌的分类结果所对应的先验知识可对字符识别结果进行纠偏,进一步减少识别错误的可能。
在一个实施例中,若分类结果为数字类交通标志牌,根据有效数字的个数以及首位有效数字的大小,对字符识别获得的结果进行纠偏;若分类结果为文字类交通标志牌,根据在连续多个视频图像中经字符识别获得的结果,对字符识别获得的结果进行纠偏。
首位有效数字是指从左往右有效数字的第一个;通常交通标志牌中数字的位数、数字大小均是存在一定规律的,因此在本实施例中,可结合分类结果的先验知识对字符识别结果进行纠偏,若结合先验知识确定字符识别结果中出现不合理的结果,可对其进行合理的纠偏和调整,使识别结果更加合理,从而提高识别的准确性。
进一步地,在一个具体实施例中,数字类交通标识牌包括限速类交通标志牌、限宽类交通标志牌、限高类交通标志牌、限重类交通标志牌和承重类交通标志牌等;文字类交通标志牌包括指路交通标志牌等。在本实施例中,若分类结果为限速类交通标志牌且字符识别获得的结果超过3位有效数字,从字符识别获得的结果中至多保留3位,若保留3位有效数字,首位数字小于第一预设数值。在一个具体实施例中,第一预设数值可设置为1。若分类结果为限宽类交通标志牌或限高类交通标志牌且字符识别获得的结果超过2位有效数字,从字符识别获得的结果中保留2位有效数字,且保留的2位有效数字中的首位数字小于第二预设数值;若分类结果为限重类交通标志牌且字符识别获得的结果超过2位有效数字,从字符识别获得的结果中保留2位有效数字,且保留的2位有效数字中的首位数字小于第三预设数值;若分类结果为承重类交通标志牌且字符识别获得的结果超过2位有效数字,从字符识别获得的结果中保留2位有效数字,且保留的2位有效数字中的首位数字小于第四预设数值;若分类结果为指路交通标志牌,获取连续的视频图像中识别同一字符获得的结果相同,将字符识别获得的结果保留。
更为具体地,最高、最低限速交通标志牌一般不超过3位数,如是3位数,百位数一般不超过1,如果百位数是大于1的数,则去掉百位数,并认为百位数属于字符分割错的区域,正确的结果应该只有两位数;如果识别的结果有4位数,则千位数不超过1,如千位数为1则去掉个位数,最终只有三位数,如果千位数大于1则去掉千位数,进一步看百位数是否为1,百位数大于1则再删除百位数;限宽、限高交通标志牌一般不多于2位数,且2位数中包含1位小数部分,实数部分一般不超过6,若识别结果实数位大于6,则去掉实数位数字,且小数位数字变为实数位;限重交通标志牌一般不超过2位数,且十位数最大一般不超过5,如果结果是3位数,且百位数大于5,应该删除百位数,进一步看十位数,如果十位数也大于5,则删除十位数,如果百位数小于等于5,则直接删除个位数;承重交通标志牌一般不超过2位数,且十位数最大一般不超过1,如果结果是3位数,且百位数大于1,则删除百位数,进一步看十位数,如果十位数不为1也删除,否则若百位数为1,则直接删除个位数;通过目标跟踪手段,对比视频当前帧图像与过去N帧图像对同一个交通标志牌的识别结果,如果结果连续发生跳变,且跳变结果持续出现N次(可自行设定),则更新结果,否则保留以前的结果。例如数字识别,当前帧识别的结果是2,下一帧识别结果是3,那么此时还是认为结果是2,直到这个结果跳变比如4次,则真的就认为此时识别结果是改变了,这样能增加识别结果的稳定性,不会导致某个结果一直跳。
在另一个实施例中,针对指路标志牌进行如下纠偏处理:指路标志牌中某一个字连续2帧都检测到,那么认为真的有这个字,并保留下来,否则,认为是字符分割阶段误判的非文本区域,给与删除。
在本实施例中,通过对识别结果进行纠偏得到最终的字符识别结果,虽不能使纠偏后的结果一定正确,但却能使结果更合理,更接近正确结果,因此往往能有效的提高识别率。
在一个具体实施例中,如图8所示,以一个详细的实施例中对上述交通标志牌的字符识别方法进行完整的流程描述,包括以下步骤:
获取视频图像,识别视频图像中的交通标志牌;该步骤属于目标检测阶段,采用目标检测网络完成,如YOLOv3或其变种Gaussian_YOLOv3。
根据交通标志牌的警示类型对交通标志牌所在图像区域进行细分类,得到分类结果;细分类后的分类结果包括:指路交通标志牌,最高限速、最低限速、限高、限宽、限重、承重交通标志牌,其它不含文字的警示交通标志牌,如禁止鸣笛、全路段、注意儿童等共101种类型的交通标志牌。对检测出的交通标志牌目标子区域(交通标志牌)采用CNN网络进行特征提取,并用softmax网络层对交通标志牌所在图像区域进行分类。
预处理待进行字符识别的交通标志牌原始图像;预处理包括图像大小归一化、数据类型归一化、图像白平衡处理、图像色彩空间转换,以及图像灰度化、自适应阈值二值化。
结合交通标志牌的分类结果分割待字符识别图像中的字符区域,并确定文本行;采用连通域外接矩形分析方法进行分割,并结合分类结果对连通域外接矩形进行一定的合理筛选,得到字符分割结果,并确定各字符区域所在文本行。
识别图像中的单个字符区域,并对识别结果纠偏,获得交通标志牌所在图像区域的字符识别结果。可采用预设字符识别模型进行字符的识别,其中依次对于输入的图像进行特征提取和特征降维,可提高识别效率;识别完成后还结合字符所在行、分类结果对应的先验知识对识别结果进行纠偏获得最后的字符识别结果。其中,训练文字模型所用的训练样本为人工合成,考虑了交通标志牌的场景特点,即实景字符图像前景、背景、字体、倾斜情况等。
上述交通标志牌的字符识别方法,交通标志类别细分类采用的卷积网络,相比于传统图像识别卷积网络,属于轻量级的网络,学习率更新方式能保证网络快速收敛并防止在网络参数在最优值附近震荡。上述交通标志牌的字符分割方法,一定程度上解决了交通标志牌文字图像存在模糊、粘滞、切斜、曝光不均衡等导致的传统方法难以分割的问题,取得了比较准确、泛化能力强的字符分割效果。训练数据中的汉字字符图像为人工合成,且合成的图像与交通标志牌中的场景图像保持了一定的相似性,解决了传统方法中训练集样本(包括通过实景采集得到,或者通过从开源数据集或者已有的数据集中获取得到,或者以手写字符、艺术字作为的训练集样本等)分布不均匀、字符图像难以获得的难点。字符的识别阶段采用了机器学习的方法,对特征向量进行了有效的降维和归一化处理,在保证准确率的前提下,极大程度降低了字符识别的时间开销与识别模型的复杂度,一个文字从视频图像输入到识别只需10ms左右,环境为ubuntu16、GTX1050TI。采用了识别结果纠偏技术,识别模型能对最终的识别结果进行合理性判断,提高了字符图像识别的精度与稳定性。
应该理解的是,虽然图1-7的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-7中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种交通标志牌的字符识别装置,包括:识别模块1010、分类模块1020、字符分割模块1030和字符识别模块1040,其中:
识别模块1010,用于获取视频图像,识别视频图像中的交通标志牌所在图像区域;
分类模块1020,用于对交通标志牌所在图像区域进行分类,获得分类结果;
字符分割模块1030,用于基于分类结果对交通标志牌所在图像区域进行字符分割,得到交通标志牌所在图像区域中的所有字符区域;
字符识别模块1040,用于识别各字符区域,得到交通标志牌所在图像区域的字符识别结果。
上述交通标志牌的字符识别装置,识别获取的视频图像中的交通标志牌;对交通标志牌所在图像区域进行分类获得分类结果,然后基于分类结果对交通标志牌所在图像区域进行字符分割,获得交通标志牌所在图像区域中的字符区域;并对各字符区域进行识别,得到交通标志牌所在图像区域的字符识别结果。上述装置先对交通标志牌所在图像区域进行分类,然后结合分类结果对交通标志牌所在图像区域进行字符分割,可以提高字符分割的结果精准性,进一步对字符分割的结果进行字符识别获得交通标志牌所在图像区域的字符识别结果,一定程度上解决了交通标志牌文字图像存在模糊、粘滞、切斜、曝光不均衡等导致的难以分割的问题,可以提高交通标志牌的字符识别的检测精度。
在一个实施例中,上述装置还包括:预处理模块,用于对交通标志牌所在图像区域进行预处理,获得预处理后的交通标志牌所在图像区域;在本实施例中,字符分割模块包括:连通域外接矩形确定单元,用于从预处理后的交通标志牌所在图像区域中确定连通域外接矩形;处理单元,用于根据预设交通标志牌通用字符规则对各连通域外接矩形进行筛选得到初步字符分割结果;分割规则获取单元,用于获取分类结果对应的预设字符分割规则;筛选单元,用于基于分类结果对应的预设字符分割规则从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域。
在一个实施例中,上述装置的筛选单元,具体用于:若分类结果为数字类交通标志牌,根据分类结果对应字符高度规则和位置规则,从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域;若分类结果为文字类交通标志牌,根据文字结构从初步字符分割结果中筛选得到交通标志牌所在图像区域中的所有字符区域。
在一个实施例中,上述装置还包括:字符位置确定模块,用于确定各字符区域对应的位置;文本行确定模块,用于根据各字符区域对应的位置之间的位置关系,确定处于同一文本行各字符区域,将处于同一文本行的各相邻字符区域组合得到交通标志牌所在图像区域中的目标区域;在本实施例中,识别模块用于识别各目标区域,得到交通标志牌中的字符识别结果。
在一个实施例中,上述装置的文本行确定模块包括:位置差计算单元,用于分别计算各字符区域的水平方向位置差值和垂直方向位置差值;文本行确定单元,用于将水平方向位置差值和垂直方向位置差值均小于对应阈值的各字符区域,确定为属于同一文本行的字符区域。
在一个实施例中,上述装置的字符识别模块包括:输入单元,用于分别将各字符区域输入预设字符识别模型;预设字符识别模型由交通标志牌字符训练样本经过训练确定;模型处理单元,用于获取字符识别模型对各字符区域进行处理之后,输出的交通标志牌所在图像区域的字符识别结果。
在一个实施例中,上述装置的模型处理单元包括:滤波子单元,用于分别采用预设尺度和预设方向的Gabor滤波器对各字符区域进行滤波,得到各所述字符区域对应的多个滤波图像;筛选子单元,用于基于预设尺度筛选规则和预设方向筛选规则对同一字符区域对应的各滤波图像进行筛选,得到筛选后图像;分块归一化子单元,用于对同一字符区域对应的各筛选后图像进行分块归一化,得到归一化图像;有监督降维子单元,用于对同一字符区域对应的各归一化图像进行有监督降维,得到同一字符区域对应的维度小于预设数目的降维后图像;平均值计算子单元,用于对同一字符区域对应的各降维后图像求平均值,得到字符区域对应的特征向量;距离计算子单元,用于分别计算各字符区域的特征向量与各训练集特征向量的距离;结果确定子单元用于将距离最小的训练特征向量对应的训练字符样本确定为各字符区域对应的字符识别结果。
在一个实施例中,上述装置还包括:样本确定模块,其中,样本确定模块包括:字符获取单元,用于获取预设字符;字体样式读取单元,用于读取预设字体格式,根据预设字符合成预设字体格式对应的字符样本;倾斜处理单元,用于对字符样本进行随机角度倾斜,获得各角度的倾斜字符样本,确定为交通标志牌字符训练样本。
在一个实施例中,上述装置的字符识别模块中还包括:字符识别单元,用于对各字符区域进行字符识别;纠偏单元模块,用于若分类结果为数字类交通标志牌,根据有效数字的个数以及首位有效数字的大小,对字符识别获得的结果进行纠偏;以及,若分类结果为文字类交通标志牌,根据在连续多个视频图像中经字符识别获得的结果,对字符识别获得的结果进行纠偏。
关于交通标志牌的字符识别装置的具体限定可以参见上文中对于交通标志牌的字符识别方法的限定,在此不再赘述。上述交通标志牌的字符识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种交通标志牌的字符识别方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述任意一个实施例中的交通标志牌的字符识别方法的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述任意一个实施例中的交通标志牌的字符识别方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (13)

1.一种交通标志牌的字符识别方法,其特征在于,所述方法包括:
获取视频图像,识别所述视频图像中的交通标志牌所在图像区域;
对所述交通标志牌所在图像区域进行分类,获得分类结果;
基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域;
识别各所述字符区域,得到所述交通标志牌所在图像区域的字符识别结果。
2.根据权利要求1所述的方法,其特征在于,在基于所述分类结果对所述交通标志牌所在图像区域进行字符分割之前,还包括:对所述交通标志牌所在图像区域进行预处理,获得预处理后的交通标志牌所在图像区域;
所述基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域,包括:
从所述预处理后的交通标志牌所在图像区域中确定连通域外接矩形;
根据预设交通标志牌通用字符规则对各所述连通域外接矩形进行筛选得到初步字符分割结果;
获取所述分类结果对应的预设字符分割规则;
基于所述分类结果对应的预设字符分割规则从所述初步字符分割结果中筛选得到所述交通标志牌所在图像区域中的所有字符区域。
3.根据权利要求2所述的方法,其特征在于,所述基于所述分类结果对应的预设字符分割规则从所述初步字符分割结果中筛选得到所述交通标志牌所在图像区域中的所有字符区域,包括:
若所述分类结果为数字类交通标志牌,根据所述分类结果对应字符高度规则和位置规则,从所述初步字符分割结果中筛选得到所述交通标志牌所在图像区域中的所有字符区域;
若所述分类结果为文字类交通标志牌,根据文字规律从所述初步字符分割结果中筛选得到所述交通标志牌所在图像区域中的所有字符区域。
4.根据权利要求1所述的方法,其特征在于:
在所述基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域之后,还包括:
确定各所述字符区域对应的位置;
根据各所述字符区域对应的位置之间的位置关系,确定处于同一文本行各所述字符区域,将所述处于同一文本行的各相邻的所述字符区域组合得到所述交通标志牌所在图像区域中的目标区域;
所述识别各所述字符区域,得到所述交通标志牌所在图像区域中的字符识别结果包括:识别各所述目标区域,得到所述交通标志牌所在图像区域的字符识别结果。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述字符区域对应的位置之间的位置关系,确定处于同一文本行各所述字符区域,包括:
对各所述字符区域对应的位置中同一顶点的位置在预设方向上进行排序得到排序结果;
基于所述排序结果分别计算相邻两个所述字符区域之间的水平方向位置差值和垂直方向位置差值;
将所述水平方向位置差值和垂直方向位置差值均小于对应阈值的相邻字符区域,确定为属于同一文本行的字符区域。
6.根据权利要求1所述的方法,其特征在于,所述识别各所述字符区域,得到所述交通标志牌所在图像区域的字符识别结果,包括:
分别将各所述字符区域输入预设字符识别模型;所述预设字符识别模型由交通标志牌字符训练样本经过训练确定;
获取所述字符识别模型对各所述字符区域进行处理之后,输出的所述交通标志牌所在图像区域的字符识别结果。
7.根据权利要求6所述的方法,其特征在于,所述字符识别模型对各所述字符区域进行处理,包括:
分别采用预设尺度和预设方向的Gabor滤波器对各所述字符区域进行滤波,得到各所述字符区域对应的多个滤波图像;
基于预设尺度筛选规则和预设方向筛选规则对同一字符区域对应的各所述滤波图像进行筛选,得到筛选后图像;
对同一字符区域对应的各所述筛选后图像进行分块归一化,得到归一化图像;
对同一字符区域对应的各所述归一化图像进行有监督降维,得到同一字符区域对应的维度小于预设数目的降维后图像;
对同一字符区域对应的各所述降维后图像求平均值,得到所述字符区域对应的特征向量;
分别计算各所述字符区域的特征向量与各训练集特征向量的距离;
将距离最小的训练特征向量对应的训练字符样本确定为各所述字符区域对应的字符识别结果。
8.根据权利要求6所述的方法,其特征在于,所述交通标志牌字符训练样本的确定过程包括步骤:
获取预设字符;
读取预设字体格式,根据所述预设字符合成所述预设字体格式对应的字符样本;
对所述字符样本进行随机角度倾斜,得到各角度的倾斜字符样本,确定为所述交通标志牌字符训练样本。
9.根据权利要求1至8任意一项所述的方法,其特征在于,所述识别各所述字符区域,得到所述交通标志牌所在图像区域的字符识别结果,包括:
对各所述字符区域进行字符识别;
若所述分类结果为数字类交通标志牌,根据有效数字的个数以及首位有效数字的大小,以及根据在连续多个视频图像中经所述字符识别获得的结果,对所述字符识别获得的结果进行纠偏,得到所述交通标志牌所在图像区域的字符识别结果;
若所述分类结果为文字类交通标志牌,根据在连续多个视频图像中经所述字符识别获得的结果,对所述字符识别获得的结果进行纠偏,得到所述交通标志牌所在图像区域的字符识别结果。
10.根据权利要求1所述的交通标志牌的字符识别方法,其特征在于,所述对所述交通标志牌所在图像区域进行分类,获得分类结果,包括:
采用预设分类网络对所述交通标志牌所在图像区域进行分类,获得分类结果;其中,所述预设分类网络的学习率采用余弦衰减方式进行确定。
11.一种交通标志牌的字符识别装置,其特征在于,所述装置包括:
识别模块,用于获取视频图像,识别所述视频图像中的交通标志牌所在图像区域;
分类模块,用于对所述交通标志牌所在图像区域进行分类,获得分类结果;
字符分割模块,用于基于所述分类结果对所述交通标志牌所在图像区域进行字符分割,得到所述交通标志牌所在图像区域中的所有字符区域;
字符识别模块,用于识别各所述字符区域,得到所述交通标志牌所在图像区域的字符识别结果。
12.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10中任一项所述的方法的步骤。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至10中任一项所述的方法的步骤。
CN202010640286.5A 2020-07-06 2020-07-06 交通标志牌的字符识别方法、装置、设备和存储介质 Pending CN113971792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010640286.5A CN113971792A (zh) 2020-07-06 2020-07-06 交通标志牌的字符识别方法、装置、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010640286.5A CN113971792A (zh) 2020-07-06 2020-07-06 交通标志牌的字符识别方法、装置、设备和存储介质

Publications (1)

Publication Number Publication Date
CN113971792A true CN113971792A (zh) 2022-01-25

Family

ID=79584512

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010640286.5A Pending CN113971792A (zh) 2020-07-06 2020-07-06 交通标志牌的字符识别方法、装置、设备和存储介质

Country Status (1)

Country Link
CN (1) CN113971792A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792421A (zh) * 2022-05-11 2022-07-26 平安科技(深圳)有限公司 一种面向复杂交通场景的字符识别方法、装置、设备和介质
CN115620265A (zh) * 2022-12-19 2023-01-17 华南理工大学 基于深度学习的机车标志牌信息智能识别方法及系统
CN115937843A (zh) * 2023-01-09 2023-04-07 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备
CN116152784A (zh) * 2023-04-21 2023-05-23 深圳市夜行人科技有限公司 一种基于图像处理的信号灯预警方法及系统

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114792421A (zh) * 2022-05-11 2022-07-26 平安科技(深圳)有限公司 一种面向复杂交通场景的字符识别方法、装置、设备和介质
CN115620265A (zh) * 2022-12-19 2023-01-17 华南理工大学 基于深度学习的机车标志牌信息智能识别方法及系统
WO2024131380A1 (zh) * 2022-12-19 2024-06-27 华南理工大学 基于深度学习的机车标志牌信息智能识别方法及系统
CN115937843A (zh) * 2023-01-09 2023-04-07 苏州浪潮智能科技有限公司 图像的文本检测方法、装置、存储介质和电子设备
CN116152784A (zh) * 2023-04-21 2023-05-23 深圳市夜行人科技有限公司 一种基于图像处理的信号灯预警方法及系统

Similar Documents

Publication Publication Date Title
Yuan et al. A robust and efficient approach to license plate detection
USRE47889E1 (en) System and method for segmenting text lines in documents
CN113971792A (zh) 交通标志牌的字符识别方法、装置、设备和存储介质
JP3748172B2 (ja) 画像処理装置
Liu et al. Hybrid cascade structure for license plate detection in large visual surveillance scenes
US8442319B2 (en) System and method for classifying connected groups of foreground pixels in scanned document images according to the type of marking
CN110232713B (zh) 一种图像目标定位修正方法及相关设备
CN103034848B (zh) 一种表单类型的识别方法
CN110598566A (zh) 图像处理方法、装置、终端和计算机可读存储介质
CN111259893A (zh) 一种基于深度学习的智能工具管理方法
EP0949579A2 (en) Multiple size reductions for image segmentation
Parvin et al. Vehicle number plate detection and recognition techniques: a review
Shambharkar et al. An automatic framework for number plate detection using ocr and deep learning approach
JP6377214B2 (ja) テキスト検出方法および装置
Okun et al. A survey of texture-based methods for document layout analysis
Al Awaimri et al. Automatic number plate recognition system for Oman
CN111881897B (zh) 一种停车场地面中文标志识别方法及其系统、存储介质
CN114783042A (zh) 基于多移动目标的人脸识别方法、装置、设备及存储介质
JP3476595B2 (ja) 画像領域分割方法、および画像2値化方法
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition
Agarwal Computer Vision Techniques for Smart Healthcare Infrastructure
CN118072336B (zh) 基于OpenCV的固定版式卡证和表单结构化识别方法
Tokmurzina Road marking condition monitoring and classification using deep learning for city of Helsinki.
CN117710985B (zh) 光学字符识别方法、装置及智能终端
CN117095423B (zh) 一种银行单据字符的识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination