CN107886093A - 一种字符检测方法、系统、设备及计算机存储介质 - Google Patents
一种字符检测方法、系统、设备及计算机存储介质 Download PDFInfo
- Publication number
- CN107886093A CN107886093A CN201711086040.2A CN201711086040A CN107886093A CN 107886093 A CN107886093 A CN 107886093A CN 201711086040 A CN201711086040 A CN 201711086040A CN 107886093 A CN107886093 A CN 107886093A
- Authority
- CN
- China
- Prior art keywords
- msub
- mrow
- character
- mover
- response
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/158—Segmentation of character regions using character size, text spacings or pitch estimation
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种字符检测方法、系统、设备及计算机存储介质,其中该方法包括:接收外界输入的字符图像;将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;提取响应图中的感兴趣区域;识别感兴趣区域中的字符。本发明公开的一种字符检测方法、系统、设备及计算机存储介质均实现了利用深度学习来完成字符检测,与现有的字符检测方法相比,具有较好的准确率和识别效率。综上所述,本发明实施例提供的一种字符检测方法、系统、设备及计算机存储介质均在一定程度上解决了如何提高雷管编码字符的检测方法的准确率和识别效率的技术问题。
Description
技术领域
本发明涉及图像处理与识别技术领域,更具体地说,涉及一种字符检测方法、系统、设备及计算机存储介质。
背景技术
在爆破工程中,常用的爆破设备是雷管。在雷管的生产过程中,会在雷管上雕刻独一无二的编码字符,之后,会对雷管的编码字符进行登记,这个过程中需要对雷管的编码字符进行检测。
现有的雷管编码字符的检测方法有基于自适应阈值分割的方法、基于笔画宽度的方法、基于字符特征检测技术的方法、基于宽线检测的方法及基于字符笔画特征的方法等。
然而,现有的雷管编码字符的检测方法的准确率和识别效率较低。
综上所述,如何提高雷管编码字符的检测方法的准确率和识别效率是目前本领域技术人员亟待解决的问题。
发明内容
本发明的目的是提供一种字符检测方法,其能在一定程度上解决如何提高雷管编码字符的检测方法的准确率和识别效率的技术问题。本发明还提供了一种字符检测系统、设备及计算机存储介质。
为了实现上述目的,本发明提供如下技术方案:
一种字符检测方法,包括:
接收外界输入的字符图像;
将所述字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
提取所述响应图中的感兴趣区域;
识别所述感兴趣区域中的字符。
优选的,所述将所述字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图,包括:
将所述字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图;
将所述字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图;
基于预先设置的卷积层将所述第一卷积图和所述第二卷积图合成为所述响应图。
优选的,所述提取所述响应图中的感兴趣区域,包括:
二值化所述响应图,得到二值化图;
提取所述二值化图中的连通分量;
基于置信度计算公式计算每一个连通分量的置信度,确定置信度值最大的连通分量对应的区域为所述感兴趣区域;
所述置信度计算公式为:
其中,w和h分别表示当前计算的连通分量的宽和高,和分别表示字符区域的平均宽度和平均高度,m表示当前计算的连通分量的平均响应强度。
优选的,所述识别所述感兴趣区域中的字符,包括:
将所述感兴趣区域与预先训练的识别卷积参数进行卷积运算,得到识别图;
基于预设数量的分类器识别所述识别图中的每一个字符。
优选的,预先训练响应卷积参数,包括:
将预设的训练图像与预设的当前卷积参数进行卷积操作,得到当前响应图;
基于损失函数计算当前响应图与所述训练图像对应的训练响应图间的误差;
判断所述误差是否小于预设的阈值,若是,则确定当前卷积参数为响应卷积参数,若否,则调整当前卷积参数,返回执行将预设的训练图像与预设的当前卷积参数进行卷积操作的步骤;
所述损失函数为:
其中,Yt表示所述训练响应图中字符所在区域的像素集合,Yn表示所述训练响应图中背景区域的像素集合,Yw表示所述训练响应图中所述字符所在区域与所述背景区域的交界区域的像素集合,|Yt|表示Yt的个数,表示相应的y的预测值,λ表示相应区域的关注度。
本发明还提供了一种字符检测系统,包括:
接收模块,用于接收外界输入的字符图像;
响应图模块,用于将所述字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
提取模块,用于提取所述响应图中的感兴趣区域;
识别模块,用于识别所述感兴趣区域中的字符。
优选的,所述响应图模块包括:
背景运算单元,用于将所述字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图;
文本运算单元,用于将所述字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图;
合成单元,用于基于预先设置的卷积层将所述第一卷积图和所述第二卷积图合成为所述响应图。
优选的,所述提取模块包括:
二值化单元,用于二值化所述响应图,得到二值化图;
提取单元,用于提取所述二值化图中的连通分量;
确定单元,用于基于置信度计算公式计算每一个连通分量的置信度,确定置信度值最大的连通分量对应的区域为所述感兴趣区域;
所述置信度计算公式为:
其中,w和h分别表示当前计算的连通分量的宽和高,和分别表示字符区域的平均宽度和平均高度,m表示当前计算的连通分量的平均响应强度。
本发明还提供了一种字符检测设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如上任一所述一种字符检测方法的步骤。
本发明还提供了一种计算机存储介质,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述一种字符检测方法的步骤。
本发明提供的一种字符检测方法,先接收外界输入的字符图像;然后将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;接着提取响应图中的感兴趣区域;最后识别感兴趣区域中的字符。实现了利用深度学习来完成字符检测,与现有的字符检测方法相比,具有较好的准确率和识别效率。综上所述,本发明实施例提供的一种字符检测方法在一定程度上解决了如何提高雷管编码字符的检测方法的准确率和识别效率的技术问题。本发明实施例提供的一种字符检测系统、设备及计算机存储介质也解决了相应的技术问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本发明实施例提供的一种字符检测方法的流程图;
图2为检测系统根据字符图像得到响应图的运算流程图;
图3为检测系统识别感兴趣区域中的字符的运算流程图;
图4为本发明实施例提供的一种字符检测系统的结构示意图;
图5为本发明实施例提供的一种字符检测设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供的一种字符检测方法中,各个步骤的动作执行主体可以为本发明实施例提供的一种字符检测系统,而该系统可以内置于计算机、服务器、开发板等上,所以本发明实施例提供的一种字符检测方法中各个步骤的动作执行主体也可以为计算机、服务器、开发板等。为了描述方便,这里将本发明实施例提供的一种字符检测方法中各个步骤的动作执行主体设定为本发明实施例提供的一种字符检测系统,为了描述方便,简称为检测系统。
请参阅图1,图1为本发明实施例提供的一种字符检测方法的流程图。
本发明实施例提供的一种字符检测方法,可以包括以下步骤:
步骤S101:接收外界输入的字符图像。
实际应用中,检测系统可以先接收外界输入的字符图像,可以是接收图像采集器发送的自身采集的字符图像,也可是接收计算机等传输的字符图像等。实际应用中,还可以根据需要在检测系统中设置可以采集字符图像的图像采集器,比如摄像机、激光视觉传感器等,这样,检测系统可以自主获取字符图像,可以在一定程度上提高检测系统的适用性。这里所说的字符图像指的是包含待检测图像的字符图像,比如在雷管字符检测中,字符图像便为包含雷管表面相应字符的图像。
步骤S102:将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图。
检测系统在接收到外界输入的字符图像后,便可以将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图。这里的响应卷积参数指的是能将字符图像转化为相应响应图的参数,响应卷积参数的层数可以根据实际需要确定,具体的参数值也可以根据实际需要预先训练。这里所说的响应图的大小与字符图像的大小相同。
步骤S103:提取响应图中的感兴趣区域。
检测系统在得到响应图后,便可以提取响应图中的感兴趣区域。这里所说的感兴趣区域为响应图中包含字符的最适合区域或最小区域,感兴趣区域的形状可以根据具体应用场景下字符的排列形式确定,比如在字符排列形式为长方形的时候,感兴趣区域的形状可以优先设置为矩形,而在字符排列形式为近圆形时,感兴趣区域的形状可以优先设置为圆形等。
步骤S104:识别感兴趣区域中的字符。
检测系统在得到感兴趣区域后,便可以识别感兴趣区域中的字符,也即得到字符图像中的待检测字符。
本发明提供的一种字符检测方法,先接收外界输入的字符图像;然后将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;接着提取响应图中的感兴趣区域;最后识别感兴趣区域中的字符。实现了利用深度学习来完成字符检测,与现有的字符检测方法相比,具有较好的准确率和识别效率。综上所述,本发明实施例提供的一种字符检测方法在一定程度上解决了如何提高雷管编码字符的检测方法的准确率和识别效率的技术问题。
本发明实施例提供的一种字符检测方法,具体可以为:
接收外界输入的字符图像;
将字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图;
将字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图;
基于预先设置的卷积层将第一卷积图和第二卷积图合成为响应图;
提取响应图中的感兴趣区域;
识别感兴趣区域中的字符。
实际应用中,响应卷积参数可以分为背景卷积参数和文本卷积参数,相应的,检测系统将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图的过程具体可以为:将字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图,第一卷积图的优点是背景区域噪声少,缺点是字符所在区域的响应强度低;检测系统可以将字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图,第二卷积图的优点是字符所在区域的响应强度高,缺点是背景区域噪声大;之后,检测系统可以利用预先设置的卷积层将第一卷积图和第二卷积图合成为响应图,使得响应图的背景区域噪声少,且字符所在区域的响应强度高。应当指出,检测系统可以在得到第一卷积图之后再得到第二卷积图,也可以是得到第二卷积图之后再得到第一卷积图,也可以是同时得到第一卷积图和第二卷积图,本发明在这里不做具体限定。
请参阅图2,图2为检测系统根据字符图像得到响应图的运算流程图。
图2中,输入图像也即字符图像,T-Net分支对应的是检测系统得到第一卷积图的运算过程,B-Net分支对应的是检测系统得到第二卷积图的过程。concat操作对应的是检测系统基于预先设置的卷积层将第一卷积图和第二卷积图合成为响应图的运算过程。图中的池化层用于对输入的图像进行压缩操作;卷积层用于对输入的图像进行特征提取;conv_N表示第几个卷积层,conv_N的下方数字表示该卷积层的卷积核参数,比如conv_1表示第一个卷积层,3*3-20则表示第一个卷积层的卷积核参数,其他卷积层及相应卷积核参数如图所示,这里不再赘述;虚线箭头表示对输入的图像进行上采样和1*1卷积操作,虚线箭头旁的Nx表示对输入图像进行相应倍数的放大操作,比如2x表示将输入图像放大2倍等。实际应用中,背景卷积参数和文本卷积参数的层数和具体数值可以根据实际需要确定。
图2中的背景卷积参数和文本卷积参数为本发明提供的一种字符检测方法应用于雷管检测中的相应参数,具体数值请参阅图2,这里不再赘述。在T-Net分支中,检测系统对输入图像依次进行3*3-20的卷积运算、第一池化运算、3*3-40的卷积运算、第二池化运算、3*3-40的卷积运算、第三池化运算、1*1-100的卷积运算得到第一图像,然后对第一图像进行分操作处理,fc_conv_2及fc_conv_3卷积层用字符/非字符标签对第一图像进行监督学习,fc_conv_4及fc_conv_5卷积层用15类别的标签(0-9,A,H,X,S和背景)对第一图像进行监督学习,之后将两个操作的结果合成为第二图像,将第二图像进行8倍上采样及1*1卷积层运算得到第一卷积图。在B-Net分支中,检测系统对输入图像依次进行7*1-40的卷积运算、第四池化运算、7*1-50的卷积运算、3*1-60的卷积运算、第五池化运算、3*1-70的卷积运算,然后将每次卷积运算的结果进行上采样及1*1卷积处理,并将每次处理的结果合成为第二卷积图;其中,对7*1-40的卷积运算结果进行1倍上采样,对7*1-50的卷积运算结果进行2倍上采样,对3*1-60的卷积运算结果进行2倍上采样,对3*1-70的卷积运算结果进行4倍上采样。检测系统还可以直接将第一卷积图与B-Net分支中每次卷积运行的结果合成为响应图。实际应用中,可以借助计算机等将图2中各个动作及参数封装成网络层,这样检测网络在接收到字符图像后,便可以直接将字符图像输入该网络层,然后获取该网络层输出的响应图即可,此外,网络层便于传输,可以提高本发明提供的一种字符检测方法的适用性。
本发明实施例提供的一种字符检测方法,具体可以为:
接收外界输入的字符图像;
将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
二值化响应图,得到二值化图;
提取二值化图中的连通分量;
基于置信度计算公式计算每一个连通分量的置信度,确定置信度值最大的连通分量对应的区域为感兴趣区域;
识别感兴趣区域中的字符;
置信度计算公式为:
其中,w和h分别表示当前计算的连通分量的宽和高,和分别表示字符区域的平均宽度和平均高度,m表示当前计算的连通分量的平均响应强度。
实际应用中,检测系统提取响应图中的感兴趣区域具体可以为:检测系统先二值化响应图,得到二值化图;然后提取二值化图中的连通分量;最后基于置信度公式计算每一个连通分量的置信度,并确定置信度值最大的连通分量所对应的区域为感兴趣区域。具体应用场景中,检测系统可以使用经典的OSTU二值化方法对响应图进行二值化,也可以采用其他方法对响应图进行二值化,本发明在这里不做具体限定;检测系统可以使用传统的连通分量分析方法将二值化图中的连通分量提取出来,也可以借助其他方法将二值化图中的连通分量提取出来,本发明在这里不做具体限定。应当指出,置信度公式中的m是一个介于0和1之间的值,通常,响应强度越大,m的值越接近1。
本发明实施例提供的一种字符检测系统,具体可以为:
接收外界输入的字符图像;
将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
提取响应图中的感兴趣区域;
将感兴趣区域与预先训练的识别卷积参数进行卷积运算,得到识别图;
基于预设数量的分类器识别识别图中的每一个字符。
实际应用中,检测系统识别感兴趣区域中的字符的过程具体可以为:检测系统先将感兴趣区域与预先训练的识别卷积参数进行卷积运算,得到识别图;然后基于预设数量的分类识别器识别识别图中的每一个字符。这里所说的识别卷积参数指的是能将感兴趣区域转化为识别图的参数,可以为单一参数,也可以为一组参数;识别图指的是只包含字符图像中的字符、不包含字符图像中背景区域的图。具体应用场景中,检测系统可以借助分类器来识别并输出识别图中的每一个字符,分类器的数量可以为一个,也可以为字符图像中字符的数量,具体的数量可以根据实际需要确定,分类器可以为softmax分类器等。
请参阅图3,图3为检测系统识别感兴趣区域中的字符的运算流程图。
图3中,检测系统对感兴趣区域依次进行5*5-32的卷积运算、第一池化运算、5*5-64的卷积运算、第二池化运算、3*3-128的卷积运算、第三池化运算、3*3-256的卷积运算、第四池化运算、3*3-512的卷积运算得到识别图,然后输入识别图至全连接层,最后基于与全连接层连接的13个softmax分类器输出每一个字符。图3中的参数是检测系统用于雷管字符检测时的参数,当检测系统用于其他字符检测领域时,可以在这些参数的基础上重新设定卷积层数及相应的参数值。由于雷管上的字符数量为13个,所以图3中的softmax分类器的数量也为13个。实际应用中,可以借助计算机等将图3中的各个动作及参数封装成网络层,这样,检测系统得到感兴趣区域后,可以直接将感兴趣区域输入至该网络层,然后直接获取该网络层输出的识别结果。
本发明实施例提供的一种字符检测方法中,预先训练响应卷积参数,可以包括:
将预设的训练图像与预设的当前卷积参数进行卷积操作,得到当前响应图;
基于损失函数计算当前响应图与训练图像对应的训练响应图间的误差;
判断误差是否小于预设的阈值,若是,则确定当前卷积参数为响应卷积参数,若否,则调整当前卷积参数,返回执行将预设的训练图像与预设的当前卷积参数进行卷积操作的步骤;
其中,损失函数为:
其中,Yt表示训练响应图中字符所在区域的像素集合,Yn表示训练响应图中背景区域的像素集合,Yw表示训练响应图中字符所在区域与背景区域的交界区域的像素集合,|Yt|表示Yt的个数;表示相应的y的预测值,即某一点的字符响应强度,也可看作这一点是字符的概率,如表示yb这一点的字符响应强度或这一点是字符的概率;λ表示相应区域的关注度,λ是一个控制检测系统关注度的权重系数,交界区域在此系数上分配了一个大于1的值,表示检测系统对交界区域的关注度比背景区域更高。
实际应用中,在应用本发明实施例提供的一种字符检测方法时,可以预先对方法中的响应卷积参数进行训练。具体训练过程请参阅本实施例中的相关操作。应当指出,这里所说的训练图像是根据实际需要预先设定好的,训练响应图也即预先设定的对应训练图像的响应图,比如在雷管字符检测中,训练图像也即预先设定的包含雷管表面字符的图像,相应的,训练响应图也即包含雷管表面字符的图像所对应的响应图;这里所说的阈值是根据实际需要确定的数值。实际应用中,本实施例提供的训练响应卷积参数的方法同样适用于本发明实施例中的识别卷积参数的训练,具体过程可以如下:将预设的训练感兴趣区域与预设的当前卷积参数进行卷积操作,得到当前识别图;基于损失函数计算当前识别图与训练感兴趣区域对应的训练识别图间的误差;判断误差是否小于预设的阈值,若是,则确定当前卷积参数为识别卷积参数,若否,则调整当前卷积参数,返回执行将预设的训练感兴趣区域与预设的当前卷积参数进行卷积操作的步骤。
本发明还提供了一种字符检测系统,其具有本发明实施例提供的一种字符检测方法具有的对应效果。请参阅图4,图4为本发明实施例提供的一种字符检测系统的结构示意图。
本发明实施例提供的一种字符检测系统,可以包括:
接收模块101,用于接收外界输入的字符图像;
响应图模块102,用于将字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
提取模块103,用于提取响应图中的感兴趣区域;
识别模块104,用于识别感兴趣区域中的字符。
本发明实施例提供的一种字符检测系统中,响应图模块可以包括:
背景运算单元,用于将字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图;
文本运算单元,用于将字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图;
合成单元,用于基于预先设置的卷积层将第一卷积图和第二卷积图合成为响应图。
本发明实施例提供的一种字符检测系统中,提取模块可以包括:
二值化单元,用于二值化响应图,得到二值化图;
提取单元,用于提取二值化图中的连通分量;
确定单元,用于基于置信度计算公式计算每一个连通分量的置信度,确定置信度值最大的连通分量对应的区域为感兴趣区域;
置信度计算公式为:
其中,w和h分别表示当前计算的连通分量的宽和高,和分别表示字符区域的平均宽度和平均高度,m表示当前计算的连通分量的平均响应强度。
本发明实施例提供的一种字符检测系统中,识别模块可以包括:
卷积运算单元,用于将感兴趣区域与预先训练的识别卷积参数进行卷积运算,得到识别图;
识别单元,用于基于预设数量的分类器识别识别图中的每一个字符。
本发明实施例提供的一种字符检测系统中,还可以包括:
训练模块,用于将预设的训练图像与预设的当前卷积参数进行卷积操作,得到当前响应图;基于损失函数计算当前响应图与训练图像对应的训练响应图间的误差;判断误差是否小于预设的阈值,若是,则确定当前卷积参数为响应卷积参数,若否,则调整当前卷积参数,返回执行将预设的训练图像与预设的当前卷积参数进行卷积操作的步骤;
其中,损失函数为:
其中,Yt表示训练响应图中字符所在区域的像素集合,Yn表示训练响应图中背景区域的像素集合,Yw表示训练响应图中字符所在区域与背景区域的交界区域的像素集合,|Yt|表示Yt的个数;表示相应的y的预测值,即某一点的字符响应强度,也可看作这一点是字符的概率,如表示yb这一点的字符响应强度或这一点是字符的概率;λ表示相应区域的关注度,λ是一个控制检测系统关注度的权重系数,交界区域在此系数上分配了一个大于1的值,表示检测系统对交界区域的关注度比背景区域更高。
本发明还提供了一种字符检测设备及计算机存储介质,其均具有本发明实施例提供的一种字符检测方法具有的对应效果。请参阅图5,图5为本发明实施例提供的一种字符检测设备的结构示意图。
本发明实施例提供的一种字符检测设备,可以包括:
存储器201,用于存储计算机程序;
处理器202,用于执行计算机程序时实现如上任一实施例所描述的一种字符检测方法的步骤。
本发明实施例提供的一种计算机存储介质中,计算机存储介质上存储有计算机程序,计算机程序被处理器执行时实现如上任一实施例所描述的一种字符检测方法的步骤。
本发明实施例提供的一种字符检测系统、设备及计算机存储介质中相关部分的说明请参见本发明实施例提供的一种字符检测方法中对应部分的详细说明,在此不再赘述。另外,本发明实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (10)
1.一种字符检测方法,其特征在于,包括:
接收外界输入的字符图像;
将所述字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
提取所述响应图中的感兴趣区域;
识别所述感兴趣区域中的字符。
2.根据权利要求1所述的方法,其特征在于,所述将所述字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图,包括:
将所述字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图;
将所述字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图;
基于预先设置的卷积层将所述第一卷积图和所述第二卷积图合成为所述响应图。
3.根据权利要求1所述的方法,其特征在于,所述提取所述响应图中的感兴趣区域,包括:
二值化所述响应图,得到二值化图;
提取所述二值化图中的连通分量;
基于置信度计算公式计算每一个连通分量的置信度,确定置信度值最大的连通分量对应的区域为所述感兴趣区域;
所述置信度计算公式为:
<mrow>
<mi>s</mi>
<mo>=</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>m</mi>
</mrow>
</mfrac>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>w</mi>
<mo>-</mo>
<mover>
<mi>w</mi>
<mo>&OverBar;</mo>
</mover>
<mo>|</mo>
</mrow>
<mi>w</mi>
</mfrac>
<mo>+</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>h</mi>
<mo>-</mo>
<mover>
<mi>h</mi>
<mo>&OverBar;</mo>
</mover>
<mo>|</mo>
</mrow>
<mi>h</mi>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
其中,w和h分别表示当前计算的连通分量的宽和高,和分别表示字符区域的平均宽度和平均高度,m表示当前计算的连通分量的平均响应强度。
4.根据权利要求1所述的方法,其特征在于,所述识别所述感兴趣区域中的字符,包括:
将所述感兴趣区域与预先训练的识别卷积参数进行卷积运算,得到识别图;
基于预设数量的分类器识别所述识别图中的每一个字符。
5.根据权利要求1至4任一项所述的方法,其特征在于,预先训练响应卷积参数,包括:
将预设的训练图像与预设的当前卷积参数进行卷积操作,得到当前响应图;
基于损失函数计算当前响应图与所述训练图像对应的训练响应图间的误差;
判断所述误差是否小于预设的阈值,若是,则确定当前卷积参数为响应卷积参数,若否,则调整当前卷积参数,返回执行将预设的训练图像与预设的当前卷积参数进行卷积操作的步骤;
所述损失函数为:
<mrow>
<msub>
<mover>
<mi>L</mi>
<mo>~</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
<mi>p</mi>
<mi>r</mi>
<mi>o</mi>
<mi>v</mi>
<mi>e</mi>
<mi>d</mi>
</mrow>
</msub>
<mo>=</mo>
<mn>1</mn>
<mo>-</mo>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>f</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>t</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>f</mi>
</msub>
</mrow>
<mrow>
<mo>|</mo>
<msub>
<mi>Y</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mo>+</mo>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>b</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>n</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>b</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&lambda;&Sigma;</mi>
<mrow>
<mi>w</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>w</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>w</mi>
</msub>
</mrow>
</mfrac>
<mo>;</mo>
</mrow>
<mrow>
<mfrac>
<mrow>
<mo>&part;</mo>
<msub>
<mover>
<mi>L</mi>
<mo>~</mo>
</mover>
<mrow>
<mi>i</mi>
<mi>m</mi>
<mi>p</mi>
<mi>r</mi>
<mi>o</mi>
<mi>v</mi>
<mi>e</mi>
<mi>d</mi>
</mrow>
</msub>
</mrow>
<mrow>
<mo>&part;</mo>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>j</mi>
</msub>
</mrow>
</mfrac>
<mo>=</mo>
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mo>|</mo>
<msub>
<mi>Y</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mo>+</mo>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>b</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>n</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>b</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&lambda;&Sigma;</mi>
<mrow>
<mi>w</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>w</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>w</mi>
</msub>
</mrow>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>r</mi>
<mi> </mi>
<mi>j</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>t</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mfrac>
<mrow>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>f</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>p</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>f</mi>
</msub>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<mo>|</mo>
<msub>
<mi>Y</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mo>+</mo>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>b</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>n</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>b</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&lambda;&Sigma;</mi>
<mrow>
<mi>w</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>w</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>w</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>r</mi>
<mi> </mi>
<mi>j</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>n</mi>
</msub>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mfrac>
<mrow>
<msub>
<mi>&lambda;&Sigma;</mi>
<mrow>
<mi>f</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>p</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>f</mi>
</msub>
</mrow>
<msup>
<mrow>
<mo>(</mo>
<mo>|</mo>
<msub>
<mi>Y</mi>
<mi>t</mi>
</msub>
<mo>|</mo>
<mo>+</mo>
<msub>
<mi>&Sigma;</mi>
<mrow>
<mi>b</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>n</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>b</mi>
</msub>
<mo>+</mo>
<msub>
<mi>&lambda;&Sigma;</mi>
<mrow>
<mi>w</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>w</mi>
</msub>
</mrow>
</msub>
<msub>
<mover>
<mi>y</mi>
<mo>^</mo>
</mover>
<mi>w</mi>
</msub>
<mo>)</mo>
</mrow>
<mn>2</mn>
</msup>
</mfrac>
<mo>,</mo>
</mrow>
</mtd>
<mtd>
<mrow>
<mi>f</mi>
<mi>o</mi>
<mi>r</mi>
<mi> </mi>
<mi>j</mi>
<mo>&Element;</mo>
<msub>
<mi>Y</mi>
<mi>w</mi>
</msub>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
<mo>;</mo>
</mrow>
其中,Yt表示所述训练响应图中字符所在区域的像素集合,Yn表示所述训练响应图中背景区域的像素集合,Yw表示所述训练响应图中所述字符所在区域与所述背景区域的交界区域的像素集合,|Yt|表示Yt的个数,表示相应的y的预测值,λ表示相应区域的关注度。
6.一种字符检测系统,其特征在于,包括:
接收模块,用于接收外界输入的字符图像;
响应图模块,用于将所述字符图像与预先训练的响应卷积参数进行卷积运算,得到响应图;
提取模块,用于提取所述响应图中的感兴趣区域;
识别模块,用于识别所述感兴趣区域中的字符。
7.根据权利要求6所述的系统,其特征在于,所述响应图模块包括:
背景运算单元,用于将所述字符图像与预先训练的背景卷积参数进行卷积运算,得到第一卷积图;
文本运算单元,用于将所述字符图像与预先训练的文本卷积参数进行卷积运算,得到第二卷积图;
合成单元,用于基于预先设置的卷积层将所述第一卷积图和所述第二卷积图合成为所述响应图。
8.根据权利要求6所述的系统,其特征在于,所述提取模块包括:
二值化单元,用于二值化所述响应图,得到二值化图;
提取单元,用于提取所述二值化图中的连通分量;
确定单元,用于基于置信度计算公式计算每一个连通分量的置信度,确定置信度值最大的连通分量对应的区域为所述感兴趣区域;
所述置信度计算公式为:
<mrow>
<mi>s</mi>
<mo>=</mo>
<msup>
<mi>e</mi>
<mrow>
<mo>-</mo>
<mfrac>
<mn>1</mn>
<mrow>
<mn>2</mn>
<mi>m</mi>
</mrow>
</mfrac>
<mrow>
<mo>(</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>w</mi>
<mo>-</mo>
<mover>
<mi>w</mi>
<mo>&OverBar;</mo>
</mover>
<mo>|</mo>
</mrow>
<mi>w</mi>
</mfrac>
<mo>+</mo>
<mfrac>
<mrow>
<mo>|</mo>
<mi>h</mi>
<mo>-</mo>
<mover>
<mi>h</mi>
<mo>&OverBar;</mo>
</mover>
<mo>|</mo>
</mrow>
<mi>h</mi>
</mfrac>
<mo>)</mo>
</mrow>
</mrow>
</msup>
</mrow>
其中,w和h分别表示当前计算的连通分量的宽和高,和分别表示字符区域的平均宽度和平均高度,m表示当前计算的连通分量的平均响应强度。
9.一种字符检测设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述一种字符检测方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种字符检测方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711086040.2A CN107886093B (zh) | 2017-11-07 | 2017-11-07 | 一种字符检测方法、系统、设备及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711086040.2A CN107886093B (zh) | 2017-11-07 | 2017-11-07 | 一种字符检测方法、系统、设备及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107886093A true CN107886093A (zh) | 2018-04-06 |
CN107886093B CN107886093B (zh) | 2021-07-06 |
Family
ID=61779152
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711086040.2A Expired - Fee Related CN107886093B (zh) | 2017-11-07 | 2017-11-07 | 一种字符检测方法、系统、设备及计算机存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107886093B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110414527A (zh) * | 2019-07-31 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 字符识别方法、装置、存储介质及电子设备 |
US20220083808A1 (en) * | 2018-12-29 | 2022-03-17 | Bigo Technology Pte. Ltd. | Method and apparatus for processing images, device and storage medium |
CN114708234A (zh) * | 2022-04-12 | 2022-07-05 | 北京优创新港科技股份有限公司 | 一种识别自动卡口编码一体机上雷管数量的方法及装置 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542268A (zh) * | 2011-12-29 | 2012-07-04 | 中国科学院自动化研究所 | 用于视频中文本区域检测与定位的方法 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105608454A (zh) * | 2015-12-21 | 2016-05-25 | 上海交通大学 | 基于文字结构部件检测神经网络的文字检测方法及系统 |
CN105868759A (zh) * | 2015-01-22 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 分割图像字符的方法及装置 |
CN105989341A (zh) * | 2015-02-17 | 2016-10-05 | 富士通株式会社 | 文字识别方法和装置 |
CN106503715A (zh) * | 2016-11-07 | 2017-03-15 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN106897990A (zh) * | 2016-08-31 | 2017-06-27 | 广东工业大学 | 轮胎模具的字符缺陷检测方法 |
US9727780B2 (en) * | 2014-12-30 | 2017-08-08 | Automotive Research & Testing Center | Pedestrian detecting system |
CN107066933A (zh) * | 2017-01-25 | 2017-08-18 | 武汉极目智能技术有限公司 | 一种道路标牌识别方法及系统 |
-
2017
- 2017-11-07 CN CN201711086040.2A patent/CN107886093B/zh not_active Expired - Fee Related
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542268A (zh) * | 2011-12-29 | 2012-07-04 | 中国科学院自动化研究所 | 用于视频中文本区域检测与定位的方法 |
US9727780B2 (en) * | 2014-12-30 | 2017-08-08 | Automotive Research & Testing Center | Pedestrian detecting system |
CN105868759A (zh) * | 2015-01-22 | 2016-08-17 | 阿里巴巴集团控股有限公司 | 分割图像字符的方法及装置 |
CN105989341A (zh) * | 2015-02-17 | 2016-10-05 | 富士通株式会社 | 文字识别方法和装置 |
CN105608454A (zh) * | 2015-12-21 | 2016-05-25 | 上海交通大学 | 基于文字结构部件检测神经网络的文字检测方法及系统 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN106897990A (zh) * | 2016-08-31 | 2017-06-27 | 广东工业大学 | 轮胎模具的字符缺陷检测方法 |
CN106503715A (zh) * | 2016-11-07 | 2017-03-15 | 南京大学 | 基于深度学习的自然场景多语言文本检测方法 |
CN107066933A (zh) * | 2017-01-25 | 2017-08-18 | 武汉极目智能技术有限公司 | 一种道路标牌识别方法及系统 |
Non-Patent Citations (3)
Title |
---|
JINZHENG CAI 等,: "Improving Deep Pancreas Segmentation in CT and MRI Images via Recurrent Neural Contextual Learning and Direct Loss Function", 《ARXIV》 * |
朱安娜,: "基于卷积神经网络的场景文本定位及多方向字符识别研究", 《中国博士学位论文全文数据库 信息科技辑》 * |
杨东芳 等,: "基于感兴趣区域卷积神经网络的车辆检索方法", 《计算机工程与设计》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220083808A1 (en) * | 2018-12-29 | 2022-03-17 | Bigo Technology Pte. Ltd. | Method and apparatus for processing images, device and storage medium |
CN110414527A (zh) * | 2019-07-31 | 2019-11-05 | 北京字节跳动网络技术有限公司 | 字符识别方法、装置、存储介质及电子设备 |
CN114708234A (zh) * | 2022-04-12 | 2022-07-05 | 北京优创新港科技股份有限公司 | 一种识别自动卡口编码一体机上雷管数量的方法及装置 |
CN114708234B (zh) * | 2022-04-12 | 2022-12-02 | 北京优创新港科技股份有限公司 | 一种识别自动卡口编码一体机上雷管数量的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN107886093B (zh) | 2021-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108549841A (zh) | 一种基于深度学习的老人跌倒行为的识别方法 | |
CN105046277B (zh) | 特征显著性在图像质量评价中的鲁棒机理研究方法 | |
CN109977918A (zh) | 一种基于无监督域适应的目标检测定位优化方法 | |
CN106485235A (zh) | 一种卷积神经网络生成方法、年龄识别方法及相关装置 | |
CN107341452A (zh) | 基于四元数时空卷积神经网络的人体行为识别方法 | |
CN110472627A (zh) | 一种端到端的sar图像识别方法、装置及存储介质 | |
CN106980858A (zh) | 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法 | |
CN107122798A (zh) | 基于深度卷积网络的引体向上计数检测方法及装置 | |
CN107644415A (zh) | 一种文本图像质量评估方法及设备 | |
CN106250931A (zh) | 一种基于随机卷积神经网络的高分辨率图像场景分类方法 | |
CN104103033B (zh) | 图像实时处理方法 | |
CN108388896A (zh) | 一种基于动态时序卷积神经网络的车牌识别方法 | |
CN106407903A (zh) | 基于多尺度卷积神经网络的实时人体异常行为识别方法 | |
CN108960207A (zh) | 一种图像识别的方法、系统及相关组件 | |
CN108108807A (zh) | 学习型图像处理方法、系统及服务器 | |
CN109657582A (zh) | 人脸情绪的识别方法、装置、计算机设备及存储介质 | |
CN107886093A (zh) | 一种字符检测方法、系统、设备及计算机存储介质 | |
CN113128424B (zh) | 基于注意力机制的图卷积神经网络动作识别方法 | |
CN111257341A (zh) | 基于多尺度特征与堆叠式全卷积网络的水下建筑物裂缝检测方法 | |
CN104298981A (zh) | 人脸微表情的识别方法 | |
CN107437083B (zh) | 一种自适应池化的视频行为识别方法 | |
CN108304786A (zh) | 一种基于二值化卷积神经网络的行人检测方法 | |
CN107292249A (zh) | 一种基于结构化分段网络的时间动作检测方法 | |
CN112307984B (zh) | 基于神经网络的安全帽检测方法和装置 | |
CN113343901A (zh) | 基于多尺度注意力图卷积网络的人体行为识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20210706 Termination date: 20211107 |
|
CF01 | Termination of patent right due to non-payment of annual fee |