CN110751151A - 车身图像的文本字符检测方法及设备 - Google Patents
车身图像的文本字符检测方法及设备 Download PDFInfo
- Publication number
- CN110751151A CN110751151A CN201910968728.6A CN201910968728A CN110751151A CN 110751151 A CN110751151 A CN 110751151A CN 201910968728 A CN201910968728 A CN 201910968728A CN 110751151 A CN110751151 A CN 110751151A
- Authority
- CN
- China
- Prior art keywords
- bounding box
- polygonal
- image
- rectangular
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 100
- 238000000034 method Methods 0.000 claims abstract description 39
- 230000006870 function Effects 0.000 claims description 24
- 238000012549 training Methods 0.000 claims description 22
- 238000013527 convolutional neural network Methods 0.000 claims description 18
- 230000015654 memory Effects 0.000 claims description 18
- 238000012937 correction Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 10
- 238000013507 mapping Methods 0.000 claims description 8
- 238000012423 maintenance Methods 0.000 abstract description 3
- 230000005291 magnetic effect Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 239000007921 spray Substances 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
Abstract
本发明提供了一种车身图像的文本字符检测方法,能够对需要检测的车身图像进行文本字符边界框检测,并得到该图像中包括文本字符的子图像所对应的多边形边界框,再进一步对该多边形边界框确定的子图像进行坐标矫正,将其转换为包含对应文本字符的矩形图像,从而能够更好地拟合车身图像中不同形状、大小和显示方向的文本字符,提高了车身图像中文本字符检测的通用性和检测效率,降低了检测系统的维护成本和技术资源消耗,具有较高的实用价值。
Description
技术领域
本发明涉及车辆安全检验领域,尤其涉及一种车身图像的文本字符检测方法及设备。
背景技术
在机动车安全技术检验过程中,车辆外观检测项目中的文本字符检测的检验效率在整个检验过程中起着十分重要的作用,直接影响后续文本识别的效率。
由于车身外观字符有多种类型,例如车牌字符、车身喷涂字符、车身广告字符、轮胎规格字符等,这些字符的显示角度不一、形状大小也各不相同,而现有的车身文本字符检测方法针对根据车身不同种类的文本字符提取不同类型的特征,如检测车牌需要提取车牌字符特征,检测喷涂字符需要提取喷涂字符特征等,因此检测效率低下且耗费大量人力和计算资源。
因此,需要为车辆外观字符检测提供能够适应字符显示方向和不同形状大小的车身字符的新的文本字符检测方案。
发明内容
本发明的一个目的是提供一种车身图像的文本字符检测方法及设备,用于解决现有的车身字符检测技术难以适应对形状、大小、和显示方向不同的多种车身字符进行检测的问题。
为实现上述目的,本发明提供了一种车身图像的文本字符检测方法,其中,该方法包括:
构建多边形边界框检测模型;
根据所述多边形边界框检测模型对待检测车身图像进行文本字符边界框检测,获取所述待检测车身图像中包含文本字符的子图像所对应的多边形边界框,所述多边形边界框检测模型输出的多边形边界框至少有六条边且边数为偶数;
构建图像坐标矫正模型;
根据所述图像坐标矫正模型,将由所述多边形边界框确定的所述包含文本字符的子图像转换为包含对应文本字符的矩形图像。
进一步地,构建多边形边界框检测模型,包括:
获取样本车身图像和矩形边界框检测模型;
根据所述矩形边界框检测模型对所述样本车身图像进行文本字符边界框检测,获取所述样本车身图像中包含文本字符的子图像所对应的矩形边界框;
将所述矩形边界框扩展为与所述包含文本字符的子图像对应的多边形边界框,并根据该多边形边界框和与该子图像对应的预先标注的多边形边界框确定多边形边界框检测模型的参数。
进一步地,所述预先标注的多边形边界框为十边形边界框。
进一步地,将所述矩形边界框扩展为与所述包含文本字符的子图像对应的多边形边界框,并根据该多边形边界框和与该子图像对应的预先标注的多边形边界框确定多边形边界框检测模型的参数,包括:
所述预先标注的多边形边界框为GT,其顶点坐标为(GTx1,GTy1,GTx2,GTy2...GTx9,GTy9,GTx10,GTy10),所述矩形边界框G表示为(Gx,Gy,Gw,Gh),Gx和Gy为G的左上角坐标,Gw为G的宽度,Gh为G的高度,所述多边形边界框检测模型输出的多边形边界框为P,其顶点坐标为(Px1,Py1,Px2,Py2...Px9,Py9,Px10,Py10),通过如下公式计算P的顶点坐标值:
其中,所述多边形边界框检测模型参数(dx1(G),dy1(G)...dx10(G),dy10(G))通过损失函数L(x,c,l,g)训练获得,所述L(x,c,l,g)定义如下:
L(x,c,l,g)=σ*Lconf(x,c)+β*Lloc(x,l,g);其中,σ和β分别表示所述分类损失函数和所述位置回归损失函数的贡献系数,分类损失函数Lconf(x,c)定义为:
其中,
位置回归损失函数Lloc(x,l,g)定义为:
其中,x表示当前框对应的样本车身图像区域是否预测为文本字符区域,所述当前框是指模型训练过程中对样本车身图像进行边界框遍历时当前步骤的边界框,c表示当前框对应的样本车身图像区域预测为文本字符区域且预测正确的概率,l表示当前框的顶点坐标,g表示GT的顶点坐标,p表示所述当前框的类别为文本字符。
进一步地,所述矩形边界框检测模型的构建方法,包括:
将用于训练的车身图像输入卷积神经网络和区域建议网络,获取所述用于训练的车身图像中包含文本字符的子图像所对应的矩形边界框;
通过损失函数计算所述矩形边界框与所述包含文本字符的子图像对应的预先标注的矩形边界框之间的信息差距;
根据所述信息差距持续训练所述卷积神经网络和区域建议网络的参数,在所述信息差距满足预设条件时,将所述卷积神经网络和区域建议网络的当前参数确定为所述矩形边界框检测模型的参数。
进一步地,构建图像坐标矫正模型,包括:
根据所述多边形边界框确定其最小外接矩形,并旋转所述最小外接矩形至其长边与坐标系中X轴的夹角为0,获取旋转后多边形边界框;
获取所述旋转后多边形边界框的顶点所连接曲线的二次曲线拟合方程;
根据所述二次曲线拟合方程,建立所述旋转后多边形边界框中点的坐标与该点在矫正后矩形边界框中坐标的映射关系。
进一步地,获取所述旋转后多边形边界框的顶点所连接曲线的二次曲线拟合方程,包括:
获取所述旋转后多边形边界框中位于文本字符上方的顶点所连接曲线的二次曲线拟合方程和所述多边形边界框中位于文本字符下方的顶点所连接曲线的二次曲线拟合方程,
其中,所述旋转后多边形边界框中位于文本字符上方的顶点为(A1...A5),位于文本字符下方的顶点为(B1...B5),用于拟合的二次曲线为:y=ax2+bx1+cx0,(A1...A5)和(B1...B5)对应的二次曲线拟合方程根据如下公式确定:
进一步地,根据所述二次曲线拟合方程,建立所述旋转后多边形边界框中点的坐标与该点在矫正后矩形边界框中坐标的映射关系,包括:
所述矫正后矩形边界框的长度和宽度为(w,h),所述旋转后多边形边界框中位于文本字符上方的顶点为(A1...A5),位于文本字符下方的顶点为(B1...B5),(A1...A5)的连接曲线拟合的二次曲线方程为y=aAx2+bAx1+cAx0,(B1...B5)的连接曲线拟合的二次曲线方程为y=aBx2+bBx1+cBx0,所述矫正后矩形边界框中任意一点坐标为(p,q),该点在所述旋转后多边形边界框中对应的坐标(x,y)由如下公式确定:
基于本发明的另一方面,本发明还提供了一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行前述车身图像的文本字符检测方法。
本发明还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述车身图像的文本字符检测方法。
与现有技术相比,本发明提供的方案能够对需要检测的车身图像进行文本字符边界框检测,并得到该图像中包括文本字符的子图像所对应的多边形边界框,再进一步对该多边形边界框确定的子图像进行坐标矫正,将其转换为包含对应文本字符的矩形图像,从而能够更好地拟合车身图像中不同形状、大小和显示方向的文本字符,提高了车身图像中文本字符检测的通用性和检测效率,降低了检测系统的维护成本和技术资源消耗,具有较高的实用价值。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明的一些实施例提供的一种车身图像的文本字符检测方法的流程示意图;
图2为本发明的一些实施例提供的通过车身图像获得文本字符图像的流程示意图;
图3为本发明的一些优选实施例提供的通过车身图像获得文本字符的流程示意图;
图4为本发明的一些优选实施例提供的一种车身图像的文本字符检测方法的结构示意图;
图5为本发明的一些优选实施例提供的多边形边界框检测模型相关边界框的示意图;
图6为本发明的一些实施例提供的对包含文本字符的子图像进行旋转和矫正的流程示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本发明一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
图1示出了本发明的一些实施例提供的一种车身图像的文本字符检测方法,该方法具体可包括如下步骤:
步骤S101,构建多边形边界框检测模型;
步骤S102,根据所述多边形边界框检测模型对待检测车身图像进行文本字符边界框检测,获取所述待检测车身图像中包含文本字符的子图像所对应的多边形边界框,所述多边形边界框检测模型输出的多边形边界框至少有六条边且边数为偶数;
步骤S103,构建图像坐标矫正模型;
步骤S104,根据所述图像坐标矫正模型,将由所述多边形边界框确定的所述包含文本字符的子图像转换为包含对应文本字符的矩形图像。
该方法尤其适合用于希望对车身字符进行区域检测的场合,能够通过构建的多边形边界框检测模型对车身图像的文本字符进行区域检测并获得对应该文本字符的多边形边界框,再将包含该文本字符的多边形图像通过图像坐标矫正模型矫正为矩形图像,该矩形图像可作为后续的图像文本字符识别的输入。
图2示出了本发明的一些实施例中对车身图像中的文本字符进行区域检测并输出矫正结果的流程,首先将原始车身图像输入到多边形边界框检测模型,多边形边界框检测模型对原始图像进行文本字符边界框检测,获得字符区域,再将得到的字符区域输入图像坐标矫正模型,通过该矫正模型对字符区域进行矫正,最终将矫正后的字符图像输出。图3示出了本发明的一些优选实施例中根据输入的原始图像得到矫正后字符图像的流程步骤所得到的中间结果。
在步骤S101中,首先构建多边形边界框检测模型,在此,多边形边界框模型用于作为输入的待检测车身图像进行文本字符边界框检测,该模型是通过使用大量样本车身图像进行训练后得到的。其中,待检测车身图像为需要进行多边形边界框检测的车身图像,该图像中的文本字符并未使用多边形边界框进行预先标注,该边界框为该待检测车身图像通过多边形边界框检测模型后输出的结果。与待检测车身图像不同的是,样本车身图像中的文本字符对应有预先标注的多边形边界框,对样本车身图像中的文本字符进行预先标注可通过人工方式进行标注。
本发明的一些实施例中,构建多边形边界框检测模型可包括如下步骤:
1)获取样本车身图像和矩形边界框检测模型;
2)根据所述矩形边界框检测模型对所述样本车身图像进行文本字符边界框检测,获取所述样本车身图像中包含文本字符的子图像所对应的矩形边界框;
3)将所述矩形边界框扩展为与所述包含文本字符的子图像对应的多边形边界框,并根据该多边形边界框和与该子图像对应的预先标注的多边形边界框确定多边形边界框检测模型的参数。
在此,多边形边界框检测模型基于预先构建的矩形边界框检测模型构建,预先构建的矩形边界框检测模型可对车身图像中的文本字符进行文本字符边界框检测,输出文本字符所对应的矩形边界框。由于文本字符对应的矩形边界框难以很好地拟合形状、大小和显示角度不同的文本字符,因此通过将矩形边界框扩展为多边形边界框,可更好地拟合多种类型的文本字符,从而提高检测的准确性,降低检测过程中的信息损失。
其中,样本车身图像中包含文本字符的子图像对应有预先标注的多边形边界框,该包含文本字符的子图像为样本车身图像的一部分,所得到的矩形边界框检测模型为已经训练好的神经网络模型,可根据输入的样本车身图像输出包含文本字符的子图像所对应的矩形边界框。
本发明的一些实施例中,对矩形边界框检测模型进行构建,具体可包括如下步骤:
1)将用于训练的车身图像输入卷积神经网络和区域建议网络,获取所述用于训练的车身图像中包含文本字符的子图像所对应的矩形边界框;
2)通过损失函数计算所述矩形边界框与所述包含文本字符的子图像对应的预先标注的矩形边界框之间的信息差距;
3)根据所述信息差距持续训练所述卷积神经网络和区域建议网络的参数,在所述信息差距满足预设条件时,将所述卷积神经网络和区域建议网络的当前参数确定为所述矩形边界框检测模型的参数。
在此,用于训练的车身图像为用于训练矩形边界框检测模型的车身图像,该车身图像中包含文本字符的子图像对应有预先标注的矩形边界框。卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现,卷积神经网络可包括卷积层(convolutional layer)和池化层(pooling layer)等。卷积神经网络通过卷积操作对图像特征不断提取,最终得到的图像特征可用于进行分类、回归等多种任务,从而实现图像中内容的检测。
区域建议网络(Region Proposal Networks,RPN)用于对卷积神经网络中输出的特征图像进行处理,得到图像中检测对象对应的建议区域,建议区域对应的图像中包含多种不同类型的检测对象。
通过将用于训练的车身图像输入卷积神经网络和区域建议网络,可得到包含文本字符的子图像所对应的矩形边界框(即建议区域),该矩形边界框在模型训练之初并不能很好地拟合包含文本字符的子图像,因此需要通过包含文本字符的子图像对应的预先标注的矩形边界框来进行结果修正,一般通过损失函数来定义通过模型得到的矩形边界框与预先标注的矩形边界框之间的信息差距,得到信息差距之后,再通过减小信息差距的方法例如梯度下降法调整卷积神经网络和区域建议网络中的参数,使得模型预测得到的矩形边界框与预先标注的矩形边界框之间的信息差距越来越小,直到满足一定的预设条件时,停止对卷积神经网络和区域建议网络的参数调整(即训练),最终确定的卷积神经网络和区域建议网络的参数即为矩形边界框检测模型的参数,该预设条件可以为训练次数、预设阈值等。
本发明的一些实施例中,预先标注的多边形边界框优选为十边形边界框,经过实践发现,通过十边形即可很好拟合车身上的任意字符,在检测准确性和检测效率之间达到很好的平衡,是性价比最佳的方案。十边形边界框包括十个顶点,这十个顶点组成一个封闭的多边形,在对该多边形进行预先标注时,可使用多种不同的标注顺序,优选的方案为从该多边形对应的文本字符的左上角开始,顺时针旋转十个点。
本发明的一些实施例中,将矩形边界框扩展为与包含文本字符的子图像对应的多边形边界框,并根据该多边形边界框和与该子图像对应的预先标注的多边形边界框确定多边形边界框检测模型的参数,可通过如下方式实现:
预先标注的多边形边界框为GT,其顶点坐标为(GTx1,GTy1,GTx2,GTy2...GTx9,GTy9,GTx10,GTy10),矩形边界框G表示为(Gx,Gy,Gw,Gh),Gx和Gy为G的左上角坐标,Gw为G的宽度,Gh为G的高度,多边形边界框检测模型输出的多边形边界框为P,其顶点坐标为(Px1,Py1,Px2,Py2...Px9,Py9,Px10,Py10),通过如下公式计算P的顶点坐标值:
其中,多边形边界框检测模型参数(dx1(G),dy1(G)...dx10(G),dy10(G))通过损失函数L(x,c,l,g)训练获得,L(x,c,l,g)定义如下:
L(x,c,l,g)=σ*Lconf(x,c)+β*Lloc(x,l,g);其中,σ和β分别表示分类损失函数和所述位置回归损失函数的贡献系数,分类损失函数Lconf(x,c)定义为:
其中,
位置回归损失函数Lloc(x,l,g)定义为:
其中,x表示当前框对应的样本车身图像区域是否预测为文本字符区域,当前框是指模型训练过程中对样本车身图像进行边界框遍历时当前步骤的边界框,c表示当前框对应的样本车身图像区域预测为文本字符区域且预测正确的概率,l表示当前框的顶点坐标,g表示GT的顶点坐标,p表示当前框的类别为文本字符。
另外,i∈Pos和i∈Neg用于指明当前框为分类预测的正样本或负样本,正样本说明对当前框的预测为包含有文本字符,负样本说明对当前框的预测为不包含有文本字符。当前框在分类损失函数和位置回归损失函数中的形状不同,在分类损失函数中为矩形框,在位置回归损失函数中为多边形框,例如十边形框。x的取值可为0或1,若当前框位于预先标注的多边形边界框,且该当前框预测为对应包含文本字符的子图像的边界框时,x的值为1,否则为0。
图5示出了本发明的一些优选实施例提供的包含文本字符的子图像对应的边界框,由RPN网络生成的边界框为G,通过对G的坐标进行扩展得到多边形边界框预测模型所预测得到的边界框为P,P与预先标注的多边形边界框GT在顶点位置上存在一定的差异,并没有完全拟合GT。
在步骤S102中,根据该多边形边界框检测模型对待检测车身图像进行文本字符边界框检测,获取待检测车身图像中包含文本字符的子图像所对应的多边形边界框,该多边形边界框检测模型输出的多边形边界框至少有六条边且边数为偶数。在此,多边形边界框至少为六条边且边数为偶数能够比矩形边界框更好地拟合图像中的文本字符。
图4示出了本发明的一些优选实施例提供的车身图像的文本字符检测方法,其中的卷积神经网络使用ResNet50网络,待检测车身图像输入ResNet50网络后生成的特征图像输入到RPN网络,RPN网络根据特征图像生成多个矩形边界框,矩形边界框对应的子图像包含有多种检测对象,再对矩形边界框进行X坐标回归和Y坐标回归,同时对矩形边界框对应的子图像进行分类预测,如果预测到子图像中包含文本字符,将包含文本字符的子图像及其对应的多边形边界框输出。
在步骤S103中,构建图像坐标矫正模型。在此,得到的多边形边界框所对应的包含文本字符的子图像中的文本字符通常没有排列在同一水平线上,因此需要对该子图像进行矫正得到位于同一水平线上的文本字符图像,以方便后续的文本字符识别。
本发明的一些实施例中,构建图像坐标矫正模型,具体包括如下步骤:
1)根据多边形边界框确定其最小外接矩形,并旋转该最小外接矩形至其长边与坐标系中X轴的夹角为0,获取旋转后多边形边界框;
2)获取该旋转后多边形边界框的顶点所连接曲线的二次曲线拟合方程;
3)根据该二次曲线拟合方程,建立该旋转后多边形边界框中点的坐标与该点在矫正后矩形边界框中坐标的映射关系。
在此,确定和旋转多边形边界框的最小外接矩形至该矩形与X轴的夹角为0,可通过现有的图像旋转算法实现。
通过对该最小外接矩形的旋转,多边形边界框的顶点坐标也进行了相应的调整,位于文本字符上方的多个顶点的连接曲线与位于文本字符下方的多个顶点的连接曲线可分别通过二次曲线方程来进行拟合,从而通过二次曲线方程来确定多边形顶点的位置坐标。
本发明的一些实施例中,获取旋转后多边形边界框的顶点所连接曲线的二次曲线拟合方程,具体包括如下方法:
获取旋转后多边形边界框中位于文本字符上方的顶点所连接曲线的二次曲线拟合方程和多边形边界框中位于文本字符下方的顶点所连接曲线的二次曲线拟合方程,
其中,旋转后多边形边界框中位于文本字符上方的顶点为(A1...A5),位于文本字符下方的顶点为(B1...B5),用于拟合的二次曲线为:y=ax2+bx1+cx0,(A1...A5)和(B1...B5)对应的二次曲线拟合方程根据如下公式确定:
在得到位于文本字符上方的顶点所连接曲线的二次曲线拟合方程和位于文本字符下方的顶点所连接曲线的二次曲线拟合方程后,可通过这两个二次曲线拟合方程来获得旋转后多边形边界框中任意一点在矫正后得到的矩形边界框中对应点的坐标,从而实现对多边形边界框对应的子图像的矫正。
本发明的一些实施例中,根据二次曲线拟合方程,建立旋转后多边形边界框中点的坐标与该点在矫正后矩形边界框中坐标的映射关系,具体包括如下方法:
矫正后矩形边界框的长度和宽度为(w,h),旋转后多边形边界框中位于文本字符上方的顶点为(A1...A5),位于文本字符下方的顶点为(B1...B5),(A1...A5)的连接曲线拟合的二次曲线方程为y=aAx2+bAx1+cAx0,(B1...B5)的连接曲线拟合的二次曲线方程为y=aBx2+bBx1+cBx0,矫正后矩形边界框中任意一点坐标为(p,q),该点在所述旋转后多边形边界框中对应的坐标(x,y)由如下公式确定:
通过上述方法,可得到旋转后多边形边界框所对应的包含文本字符的子图像中任意一点的坐标与该点在矫正后的图像中坐标的映射关系,通过该映射关系可对任意一点进行坐标转换,得到矫正后的图像。
在步骤S104中,根据图像坐标矫正模型,将由多边形边界框确定的包含文本字符的子图像转换为包含对应文本字符的矩形图像。图6示出了本发明的一些优选实施例提供的对包含文本字符的子图像进行旋转和矫正的过程,其中,(A01...A05,B01...B05)为多边形边界框的十个顶点,(A01...A05)为文本字符上方的5个顶点,(B01...B05)为文本字符下方的5个顶点,(A1...A5,B1...B5)为旋转后多边形边界框的十个顶点,(A1...A5)为旋转后文本字符上方的5个顶点,对应旋转前的顶点(A01...A05),(B1...B5)为旋转后文本字符下方的5个顶点,对应旋转前的顶点(B01...B05)。经过矫正后,(A1...A5)对应的点为(A11...A15),矫正后的5个点位于同一水平线上,(B1...B5)对应的点为(B11...B15),这5个点同样位于同一水平线上。
本发明的一些实施例还提供了一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行前述车身图像的文本字符检测方法。
本发明的一些实施例还提供了一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现前述车身图像的文本字符检测方法。
综上所述,本发明提供的方案能够对需要检测的车身图像进行文本字符边界框检测,并得到该图像中包括文本字符的子图像所对应的多边形边界框,再进一步对该多边形边界框确定的子图像进行坐标矫正,将其转换为包含对应文本字符的矩形图像,从而能够更好地拟合车身图像中不同形状、大小和显示方向的文本字符,提高了车身图像中文本字符检测的通用性和检测效率,降低了检测系统的维护成本和技术资源消耗,具有较高的实用价值。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该设备运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。
Claims (10)
1.一种车身图像的文本字符检测方法,其中,该方法包括:
构建多边形边界框检测模型;
根据所述多边形边界框检测模型对待检测车身图像进行文本字符边界框检测,获取所述待检测车身图像中包含文本字符的子图像所对应的多边形边界框,所述多边形边界框检测模型输出的多边形边界框至少有六条边且边数为偶数;
构建图像坐标矫正模型;
根据所述图像坐标矫正模型,将由所述多边形边界框确定的所述包含文本字符的子图像转换为包含对应文本字符的矩形图像。
2.根据权利要求1所述的方法,其中,构建多边形边界框检测模型,包括:
获取样本车身图像和矩形边界框检测模型;
根据所述矩形边界框检测模型对所述样本车身图像进行文本字符边界框检测,获取所述样本车身图像中包含文本字符的子图像所对应的矩形边界框;
将所述矩形边界框扩展为与所述包含文本字符的子图像对应的多边形边界框,并根据该多边形边界框和与该子图像对应的预先标注的多边形边界框确定多边形边界框检测模型的参数。
3.根据权利要求2所述的方法,其中,所述预先标注的多边形边界框为十边形边界框。
4.根据权利要求3所述的方法,其中,将所述矩形边界框扩展为与所述包含文本字符的子图像对应的多边形边界框,并根据该多边形边界框和与该子图像对应的预先标注的多边形边界框确定多边形边界框检测模型的参数,包括:
所述预先标注的多边形边界框为GT,其顶点坐标为(GTx1,GTy1,GTx2,GTy2...GTx9,GTy9,GTx10,GTy10),所述矩形边界框G表示为(Gx,Gy,Gw,Gh),Gx和Gy为G的左上角坐标,Gw为G的宽度,Gh为G的高度,所述多边形边界框检测模型输出的多边形边界框为P,其顶点坐标为(Px1,Py1,Px2,Py2...Px9,Py9,Px10,Py10),通过如下公式计算P的顶点坐标值:
其中,所述多边形边界框检测模型参数(dx1(G),dy1(G)...dx10(G),dy10(G))通过损失函数L(x,c,l,g)训练获得,所述L(x,c,l,g)定义如下:
L(x,c,l,g)=σ*Lconf(x,c)+β*Lloc(x,l,g);其中,σ和β分别表示所述分类损失函数和所述位置回归损失函数的贡献系数,分类损失函数Lconf(x,c)定义为:
其中,
位置回归损失函数Lloc(x,l,g)定义为:
其中,x表示当前框对应的样本车身图像区域是否预测为文本字符区域,所述当前框是指模型训练过程中对样本车身图像进行边界框遍历时当前步骤的边界框,c表示当前框对应的样本车身图像区域预测为文本字符区域且预测正确的概率,l表示当前框的顶点坐标,g表示GT的顶点坐标,p表示所述当前框的类别为文本字符。
5.根据权利要求2所述的方法,其中,所述矩形边界框检测模型的构建方法,包括:
将用于训练的车身图像输入卷积神经网络和区域建议网络,获取所述用于训练的车身图像中包含文本字符的子图像所对应的矩形边界框;
通过损失函数计算所述矩形边界框与所述包含文本字符的子图像对应的预先标注的矩形边界框之间的信息差距;
根据所述信息差距持续训练所述卷积神经网络和区域建议网络的参数,在所述信息差距满足预设条件时,将所述卷积神经网络和区域建议网络的当前参数确定为所述矩形边界框检测模型的参数。
6.根据权利要求1所述的方法,其中,构建图像坐标矫正模型,包括:
根据所述多边形边界框确定其最小外接矩形,并旋转所述最小外接矩形至其长边与坐标系中X轴的夹角为0,获取旋转后多边形边界框;
获取所述旋转后多边形边界框的顶点所连接曲线的二次曲线拟合方程;
根据所述二次曲线拟合方程,建立所述旋转后多边形边界框中点的坐标与该点在矫正后矩形边界框中坐标的映射关系。
9.一种设备,该设备包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,使该设备执行权利要求1至8中任一项所述的方法。
10.一种计算机可读介质,其上存储有计算机可读指令,所述计算机可读指令可被处理器执行以实现如权利要求1至8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910968728.6A CN110751151A (zh) | 2019-10-12 | 2019-10-12 | 车身图像的文本字符检测方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910968728.6A CN110751151A (zh) | 2019-10-12 | 2019-10-12 | 车身图像的文本字符检测方法及设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110751151A true CN110751151A (zh) | 2020-02-04 |
Family
ID=69278144
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910968728.6A Pending CN110751151A (zh) | 2019-10-12 | 2019-10-12 | 车身图像的文本字符检测方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110751151A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753812A (zh) * | 2020-07-30 | 2020-10-09 | 上海眼控科技股份有限公司 | 文本识别方法及设备 |
CN112258558A (zh) * | 2020-10-23 | 2021-01-22 | 复旦大学 | 基于多尺度孪生网络的目标追踪方法、电子设备及介质 |
CN112801092A (zh) * | 2021-01-29 | 2021-05-14 | 重庆邮电大学 | 一种自然场景图像中字符元素检测方法 |
WO2022095318A1 (zh) * | 2020-11-06 | 2022-05-12 | 上海商汤智能科技有限公司 | 字符检测方法、装置、电子设备、存储介质及程序 |
CN115482538A (zh) * | 2022-11-15 | 2022-12-16 | 上海安维尔信息科技股份有限公司 | 一种基于Mask R-CNN的物料标号提取方法及系统 |
CN116862980A (zh) * | 2023-06-12 | 2023-10-10 | 上海玉贲智能科技有限公司 | 图像边缘的目标检测框位置优化校正方法、系统、介质及终端 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070160290A1 (en) * | 2006-01-09 | 2007-07-12 | Apple Computer, Inc. | Text flow in and around irregular containers |
CN101945257A (zh) * | 2010-08-27 | 2011-01-12 | 南京大学 | 基于监控视频内容提取车辆底盘图像的合成方法 |
CN104809436A (zh) * | 2015-04-23 | 2015-07-29 | 天津大学 | 一种弯曲书面文字识别方法 |
CN110147786A (zh) * | 2019-04-11 | 2019-08-20 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110276287A (zh) * | 2019-06-17 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 车位检测方法、装置、计算机设备以及存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
-
2019
- 2019-10-12 CN CN201910968728.6A patent/CN110751151A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070160290A1 (en) * | 2006-01-09 | 2007-07-12 | Apple Computer, Inc. | Text flow in and around irregular containers |
CN101945257A (zh) * | 2010-08-27 | 2011-01-12 | 南京大学 | 基于监控视频内容提取车辆底盘图像的合成方法 |
CN104809436A (zh) * | 2015-04-23 | 2015-07-29 | 天津大学 | 一种弯曲书面文字识别方法 |
CN110147786A (zh) * | 2019-04-11 | 2019-08-20 | 北京百度网讯科技有限公司 | 用于检测图像中的文本区域的方法、装置、设备以及介质 |
CN110210400A (zh) * | 2019-06-03 | 2019-09-06 | 上海眼控科技股份有限公司 | 一种表格文件检测方法及设备 |
CN110276287A (zh) * | 2019-06-17 | 2019-09-24 | 百度在线网络技术(北京)有限公司 | 车位检测方法、装置、计算机设备以及存储介质 |
CN110287960A (zh) * | 2019-07-02 | 2019-09-27 | 中国科学院信息工程研究所 | 自然场景图像中曲线文字的检测识别方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111753812A (zh) * | 2020-07-30 | 2020-10-09 | 上海眼控科技股份有限公司 | 文本识别方法及设备 |
CN112258558A (zh) * | 2020-10-23 | 2021-01-22 | 复旦大学 | 基于多尺度孪生网络的目标追踪方法、电子设备及介质 |
CN112258558B (zh) * | 2020-10-23 | 2022-11-04 | 复旦大学 | 基于多尺度孪生网络的超声颈动脉斑块视频追踪方法 |
WO2022095318A1 (zh) * | 2020-11-06 | 2022-05-12 | 上海商汤智能科技有限公司 | 字符检测方法、装置、电子设备、存储介质及程序 |
CN112801092A (zh) * | 2021-01-29 | 2021-05-14 | 重庆邮电大学 | 一种自然场景图像中字符元素检测方法 |
CN115482538A (zh) * | 2022-11-15 | 2022-12-16 | 上海安维尔信息科技股份有限公司 | 一种基于Mask R-CNN的物料标号提取方法及系统 |
CN116862980A (zh) * | 2023-06-12 | 2023-10-10 | 上海玉贲智能科技有限公司 | 图像边缘的目标检测框位置优化校正方法、系统、介质及终端 |
CN116862980B (zh) * | 2023-06-12 | 2024-01-23 | 上海玉贲智能科技有限公司 | 图像边缘的目标检测框位置优化校正方法、系统、介质及终端 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110751151A (zh) | 车身图像的文本字符检测方法及设备 | |
TWI713366B (zh) | 對影像進行目標取樣的方法及裝置 | |
US11763575B2 (en) | Object detection for distorted images | |
CN108038474B (zh) | 人脸检测方法、卷积神经网络参数的训练方法、装置及介质 | |
CN110210400B (zh) | 一种表格文件检测方法及设备 | |
EP3620981B1 (en) | Object detection method, device, apparatus and computer-readable storage medium | |
CN104680144B (zh) | 基于投影极速学习机的唇语识别方法和装置 | |
CN110827247A (zh) | 一种识别标签的方法及设备 | |
CN114066900A (zh) | 图像分割方法、装置、电子设备和存储介质 | |
US20140064558A1 (en) | Object tracking apparatus and method and camera | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
CN115641332B (zh) | 产品边缘外观缺陷的检测方法及装置、介质、设备 | |
CN113592886B (zh) | 建筑图纸的审图方法、装置、电子设备及介质 | |
CN110879972B (zh) | 一种人脸检测方法及装置 | |
CN113591746B (zh) | 一种文档表格结构检测方法及装置 | |
CN113095316B (zh) | 基于多级融合和角点偏移的图像旋转目标检测方法 | |
CN113989604B (zh) | 基于端到端深度学习的轮胎dot信息识别方法 | |
CN110598698A (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
US9824289B2 (en) | Exploiting color for license plate recognition | |
CN115731477A (zh) | 图像识别方法、违建检测方法、终端设备以及存储介质 | |
CN114387346A (zh) | 一种图像识别、预测模型处理方法、三维建模方法和装置 | |
CN113326734A (zh) | 一种基于YOLOv5的旋转目标检测方法 | |
CN113971809A (zh) | 一种基于深度学习的文本识别方法、设备及存储介质 | |
CN109492697B (zh) | 图片检测网络训练方法及图片检测网络训练装置 | |
CN110929726B (zh) | 一种铁路接触网支柱号牌识别方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
AD01 | Patent right deemed abandoned |
Effective date of abandoning: 20230228 |
|
AD01 | Patent right deemed abandoned |