CN112329765B - 文本检测的方法及装置、存储介质及计算机设备 - Google Patents
文本检测的方法及装置、存储介质及计算机设备 Download PDFInfo
- Publication number
- CN112329765B CN112329765B CN202011071076.5A CN202011071076A CN112329765B CN 112329765 B CN112329765 B CN 112329765B CN 202011071076 A CN202011071076 A CN 202011071076A CN 112329765 B CN112329765 B CN 112329765B
- Authority
- CN
- China
- Prior art keywords
- target
- feature
- module
- image
- map
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 42
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000000034 method Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 230000008447 perception Effects 0.000 claims abstract description 17
- 238000011176 pooling Methods 0.000 claims description 34
- 238000004590 computer program Methods 0.000 claims description 9
- 230000002441 reversible effect Effects 0.000 claims description 5
- 238000012216 screening Methods 0.000 claims description 5
- 238000010276 construction Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 29
- 230000006870 function Effects 0.000 description 16
- 238000013527 convolutional neural network Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 10
- 238000012015 optical character recognition Methods 0.000 description 9
- 238000013528 artificial neural network Methods 0.000 description 8
- 238000010191 image analysis Methods 0.000 description 8
- 238000012545 processing Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000009021 linear effect Effects 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004027 cell Anatomy 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 230000009022 nonlinear effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Multimedia (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例公开了一种文本检测的方法及装置、存储介质及计算机设备,该方法包括:获取第一图像,第一图像包含目标文本,利用特征提取模块对第一图像进行卷积运算得到相应的特征图,利用特征合并模块对特征图进行合并操作得到目标特征图,目标特征图包括目标文本对应的像素点,通过单通道模块对目标特征图进行卷积运算得到目标分数图,通过多通道模块对目标分数图进行卷积运算得到几何形状图,通过局部感知算法根据几何形状图构造出包含目标文本的目标文本框。通过将文本检测模型中的输出模块包含的单通道模块设置为预设个数的单通道,得到了精确度更高的目标分数图,从而提高了目标文本框的精准度并解决了目标文本框不够匹配的问题。
Description
技术领域
本发明涉及文本检测技术领域,尤其涉及一种文本检测的方法及装置、存储介质及计算机设备。
背景技术
目前光学字符识别OCR(Optical Character Recognition)文本检测识别技术已被各行各业广泛使用,作为具备海量图像数据的保险行业,OCR更是能直接为产业赋能的技能。而文本检测是OCR文本检测识别技术中的重要一环,文本检测模型的性能会直接影响到整个OCR模型的性能。OCR技术中的EAST文本检测模型是一种常用的文本检测模型,由于其检测精度高,速度快的优势受到欢迎,但由于模型自身的特性的缘故也存在一些问题,当待识别图像中两个文本行位置较近时会将其误检为一行或者得到的文本检测框与文本行不够匹配。
发明内容
基于此,有必要针对上述问题,提出一种文本检测的方法及装置、存储介质及计算机设备,本发明目的是通过将文本检测模型中的输出模块包含的单通道模块设置为预设个数的单通道,得到了精确度更高的目标分数图,从而提高了目标文本框的精准度并解决了目标文本框不够匹配的问题。
在第一方面,本申请提供了一种文本检测的方法,所述方法用于文本检测模型,所述文本检测模型包括:特征提取模块、特征合并模块和输出模块,所述输出模块包括单通道模块和多通道模块,所述单通道模块包括预设个数的单通道,所述方法包括:
获取第一图像,所述第一图像包含目标文本;
利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
可选的,所述特征提取模块包括多个并联的卷积层,所述利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图,包括:
利用所述多个并联的卷积层分别对所述第一图像进行卷积运算,得到多个不同尺寸的特征图。
可选的,所述利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,包括:
通过反池化的操作对所述多个不同尺寸的特征图进行计算得到所述目标特征图。
可选的,所述通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图,包括:
通过所述预设个数的单通道对所述目标特征图内缩预设个数的像素点,得到预设个数的内缩后的目标特征图;
对预设个数的所述内缩后的目标特征图进行卷积运算得到预设个数的所述分数图;
根据精确程度从预设个数的所述分数图中筛选出所述目标分数图。
可选的,所述通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图,包括:
通过所述多通道模块对所述目标分数图进行卷积运算,得到所述目标分数图中每个像素点与所述目标文本框之间的边界距离,及所述目标文本框的旋转角度;
根据所述边界距离及所述旋转角度得到所述几何形状图。
可选的,所述多通道模块包括:第一通道、第二通道、第三通道、第四通道和第五通道,所述通过所述多通道模块对所述目标分数图进行卷积运算,得到所述目标分数图中每个像素点与所述目标文本框之间的边界距离,及所述目标文本框的旋转角度,包括:
通过所述第一通道、所述第二通道、所述第三通道、所述第四通道分别计算出所述目标分数图中的像素点距离所述目标文本框的四个边框的所述边界距离;
通过所述第五通道计算出所述目标文本框的旋转角度。
在第二方面,本申请提供了一种文本检测的装置,所述装置包括:
获取模块,用于获取第一图像,所述第一图像包含目标文本;
第一运算模块,用于利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
合并模块,用于利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
第二运算模块,用于通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
第三运算模块,用于通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
构造模块,用于通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
可选的,特征提取模块包括多个并联的卷积层;
所述第一运算模块具体用于利用所述多个并联的卷积层分别对所述第一图像进行卷积运算,得到多个不同尺寸的特征图;
所述合并模块具体用于通过反池化的操作对所述多个不同尺寸的特征图进行计算得到所述目标特征图。
在第三方面,本申请提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取第一图像,所述第一图像包含目标文本;
利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
在第四方面,本申请提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取第一图像,所述第一图像包含目标文本;
利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
采用本发明实施例,具有如下有益效果:
采用本发明的一种文本检测的方法及装置、存储介质及计算机设备,该方法包括:获取第一图像,第一图像包含目标文本,利用特征提取模块对第一图像进行卷积运算得到相应的特征图,利用特征合并模块对特征图进行合并操作得到目标特征图,目标特征图包括目标文本对应的像素点,通过单通道模块对目标特征图进行卷积运算得到目标分数图,通过多通道模块对目标分数图进行卷积运算得到几何形状图,通过局部感知算法根据几何形状图构造出包含目标文本的目标文本框。通过将文本检测模型中的输出模块包含的单通道模块设置为预设个数的单通道,得到了精确度更高的目标分数图,从而提高了目标文本框的精准度并解决了目标文本框不够匹配的问题。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
其中:
图1为本申请实施例中文本检测的方法的流程示意图;
图2为本申请实施例中文本检测模型的结构示意图;
图3为本申请实施例中文本检测的装置的结构示意图;
图4为本申请实施例中计算机设备的结构框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1和图2所示,图1为本申请实施例中文本检测的方法的流程示意图,图2为本申请实施例中文本检测模型的结构示意图,该文本检测模型包括:特征提取模块201、特征合并模块202和输出模块203,输出模块203包括单通道模块和多通道模块,单通道模块包括预设个数的单通道,该方法包括:
步骤101、获取第一图像,所述第一图像包含目标文本;
步骤102、利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
在本申请实施例中,特征提取模块201包括多个并联的卷积层,利用多个并联的卷积层分别对第一图像进行卷积运算,得到多个不同尺寸的特征图。
在本申请实施例中,特征提取模块201包括四个并联的卷积层,每个卷积层通过对第一图像进行卷积运算都会得到一个相应的特征图。四个并联的卷积层分别为第一卷积层、第二卷积层、第三卷积层和第四卷积层,其中,第一卷积层通过对第一图像进行卷积运算得到第一特征图,该第一特征图的尺寸为第一图像的尺寸的1/32;第二卷积层通过对第一图像进行卷积运算得到第二特征图,该第二特征图的尺寸为第一图像的尺寸的1/16;第三卷积层通过对第一图像进行卷积运算得到第三特征图,该第三特征图的尺寸为第一图像的尺寸的1/8;第四卷积层通过对第一图像进行卷积运算得到第四特征图,该第四特征图的尺寸为第一图像的尺寸的1/4;因此,每个卷积层通过对第一图像进行卷积运算得到的特征图的尺寸是不同的,在实际应用中,对特征提取模块201包括的卷积层数量不做限制,特征提取模块201包括的卷积层数量可以根据实际需求增加或者减少。
进一步地,卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(pooling layer),这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。
进一步地,卷积神经网络结构包括:卷积层、线性整流层、池化层和损失函数层。
(1)卷积层(Convolutional layer),卷积神经网络中每层卷积层由若干卷积单元组成,每个卷积单元的参数都是通过反向传播算法最佳化得到的。卷积运算的目的是提取输入的不同特征,第一层卷积层可能只能提取一些低级的特征如边缘、线条和角等层级,更多层的网路能从低级特征中迭代提取更复杂的特征。
(2)线性整流层(Rectified Linear Units layer,ReLU layer)使用线性整流(Rectified Linear Units,ReLU)f(x)=max(0,x)作为这一层神经的激励函数(Activation function),它可以增强判定函数和整个神经网络的非线性特性,而本身并不会改变卷积层。事实上,其他的一些函数也可以用于增强网络的非线性特性,如双曲正切函数f(x)=tanh(x)和f(x)=|tanh(x)|,或者Sigmoid函数f(x)=(1+e-x)-1。相比其它函数来说,ReLU函数更受青睐,这是因为它可以将神经网络的训练速度提升数倍,而并不会对模型的泛化准确度造成显著影响。
(3)池化层(Pooling Layer),池化(Pooling)是卷积神经网络中另一个重要的概念,它实际上是一种形式的降采样,有多种不同形式的非线性池化函数,而其中“最大池化(Max pooling)”是最为常见的,它是将输入的图像划分为若干个矩形区域,对每个子区域输出最大值。这种机制能够有效的原因在于,在发现一个特征之后,它的精确位置远不及它和其他特征的相对位置的关系重要。池化层会不断地减小数据的空间大小,因此参数的数量和计算量也会下降,这在一定程度上也控制了过拟合。通常来说,CNN的卷积层之间都会周期性地插入池化层。池化层通常会分别作用于每个输入的特征并减小其大小。最常用形式的池化层是每隔2个元素从图像划分出区块,然后对每个区块中的4个数取最大值,这将会减少75%的数据量。除了最大池化之外,池化层也可以使用其他池化函数,例如“平均池化”甚至“L2-范数池化”等。过去,平均池化的使用曾经较为广泛,但是最近由于最大池化在实践中的表现更好,平均池化已经不太常用。
(4)损失函数层(loss layer)用于决定训练过程如何来“惩罚”网络的预测结果和真实结果之间的差异,它通常是网络的最后一层。各种不同的损失函数适用于不同类型的任务。例如,Softmax交叉熵损失函数常常被用于在K个类别中选出一个;而Sigmoid交叉熵损失函数常常用于多个独立的二分类问题;欧几里德损失函数常常用于结果取值范围为任意实数的问题。
卷积神经网络通常在图像分析(image analysis)和图像处理(imageprocessing)领域中使用,两者有一定程度的交叉,但是又有所不同,图像处理侧重于信号处理方面的研究,比如图像对比度的调节、图像编码、去噪以及各种滤波的研究,但是图像分析更侧重于研究图像的内容,包括但不局限于使用图像处理的各种技术,它更倾向于对图像内容的分析、解释和识别。因而,图像分析和计算机科学领域中的模式识别、计算机视觉关系更密切一些。图像分析一般利用数学模型并结合图像处理的技术来分析底层特征和上层结构,从而提取具有一定智能性的信息。图像分析研究的领域一般包括:基于内容的图像检索(CBIR-Content Based Image Retrieval)、人脸识别(face recognition)、表情识别(emotion recognition)、光学字符识别(OCR-Optical Character Recognition)、手写体识别(handwriting recognition)、医学图像分析(biomedical image analysis)和视频对象提取(video object extraction)。
步骤103、利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
在本申请实施例中,通过反池化的操作对多个不同尺寸的特征图进行计算得到目标特征图。
具体的,特征合并模块202采用的是反池化操作,对上述的第四卷积层通过对第一图像进行卷积运算得到第四特征图进行反池化操作,得到与第三卷积层通过对第一图像进行卷积运算得到第三特征图同样大小的第五特征图,将第五特征图与第三特征图进行拼接,拼接后再依次进入一层1X1和3X3的卷积层,以减少拼接后通道数的增加,得到对应的第六特征图;对第六特征图进行反池化操作得到与第二卷积层通过对第一图像进行卷积运算得到第二特征图同样大小的第七特征图,将第七特征图与第二特征图进行拼接,拼接后再依次进入一层1X1和3X3的卷积层,得到对应的第八特征图;对第八特征图进行反池化操作得到与第一卷积层通过对第一图像进行卷积运算得到第一特征图同样大小的第九特征图,将第九特征图与第一特征图进行拼接,拼接后再依次进入一层1X1和3X3的卷积层,得到对应的第十特征图;第十特征图再通过一层3X3的卷积层得到最终的目标特征图。特征合并分支的作用在于,在场景文字识别中,文字的大小非常极端,较大的文字需要神经网络高层的特征信息,而比较小的文字则需要神经网络浅层的特征信息,因此,只有将网络不同层次的特征进行融合才能满足这样的需求。
步骤104、通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
在本申请实施例中,通过预设个数的单通道对上述目标特征图内缩预设个数的像素点,得到预设个数的内缩后的目标特征图;对预设个数的内缩后的目标特征图进行卷积运算得到预设个数的分数图;根据精确程度从预设个数的分数图中筛选出目标分数图。
具体的,文本检测模型中的输出模块203包括单通道模块和多通道模块,单通道模块包括预设个数的单通道,在本申请实施例中,单通道的个数为4个,将上述得到的目标特征图通过第一单通道的1X1的卷积运算得到第一分数图;将目标特征图内缩4个像素点后通过第二单通道卷积运算得到第二分数图;将目标特征图内缩8个像素点后通过第三单通道卷积运算得到第三分数图;将目标特征图内缩12个像素点后通过第四单通道卷积运算得到第四分数图;从得到的第一分数图、第二分数图、第三分数图和第四分数图筛选出包括第一图像中目标文本对应的像素点最准确的分数图作为目标分数图。
步骤105、通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
在本申请实施例中,通过多通道模块对目标分数图进行卷积运算,得到目标分数图中每个像素点与目标文本框之间的边界距离,及目标文本框的旋转角度;根据边界距离及旋转角度得到几何形状图。
其中,多通道模块包括:第一通道、第二通道、第三通道、第四通道和第五通道,通过多通道模块对目标分数图进行卷积运算;通过第一通道、第二通道、第三通道、第四通道分别计算出目标分数图中的像素点距离目标文本框的四个边框的边界距离;通过第五通道计算出目标文本框的旋转角度。
具体的,将上述得到的目标分数图通过多通道模块1X1的卷积运算得到几何形状图,该几何形状图对应的几何形状为旋转盒子RBOX,因此,该多通道模块包括五个通道分别为第一通道、第二通道、第三通道、第四通道和第五通道,其中,第一通道、第二通道、第三通道和第四通道通过计算得到的是目标分数图中每个像素点距离目标文本框的四个边框的边界距离,第五通道通过计算得到的是目标文本框的旋转角度;根据边界距离及旋转角度得到几何形状图。
步骤106、通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
在本申请实施例中,局部感知算法为当预测结束后,需要对文本线进行构造,为了提高构造的速度而采用了局部感知算法。局部感知算法基本思想是假设相邻的像素点之间是高度相关的,然后按行逐渐合并几何形状,当相邻两个几何形状满足合并条件时,对他们的坐标按照分数进行加权,其计算公式如下:
a=WEIGHTEDMERGE(g,p)
ai=V(g)gi+V(p)pi
V(a)=V(g)+V(p)
其中,g,p分别表示两个满足合并的几何形状,V(g),V(p)分别表示他们的分数,gi,pi分别对应第i个坐标,ai,V(a)分别对应合并后的坐标和分数,当合并完成后,会将合并后的几何形状作为一个整体继续合并下去,直到不满足合并条件,将此时合并后的几何形状作为一个文本线进行保存,重复该过程,直到所有的几何形状都遍历一遍为止。
在本申请实施例中,一种文本检测的方法,该方法包括:获取第一图像,第一图像包含目标文本,利用特征提取模块201对第一图像进行卷积运算得到相应的特征图,利用特征合并模块202对特征图进行合并操作得到目标特征图,目标特征图包括目标文本对应的像素点,通过单通道模块对目标特征图进行卷积运算得到目标分数图,通过多通道模块对目标分数图进行卷积运算得到几何形状图,通过局部感知算法根据几何形状图构造出包含目标文本的目标文本框。通过将文本检测模型中的输出模块203包含的单通道模块设置为预设个数的单通道,得到了精确度更高的目标分数图,从而提高了目标文本框的精准度并解决了目标文本框不够匹配的问题。
如图3所示,为本申请实施例中文本检测的装置的结构示意图,该装置包括:
获取模块301,用于获取第一图像,所述第一图像包含目标文本;
第一运算模块302,用于利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
合并模块303,用于利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
第二运算模块304,用于通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
第三运算模块305,用于通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
构造模块306,用于通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
在本申请实施例中,特征提取模块201包括多个并联的卷积层;第一运算模块302具体用于利用多个并联的卷积层分别对第一图像进行卷积运算,得到多个不同尺寸的特征图;合并模块303具体用于通过反池化的操作对多个不同尺寸的特征图进行计算得到目标特征图。
在本申请实施例中,获取第一图像,第一图像包含目标文本,利用多个并联的卷积层分别对第一图像进行卷积运算,得到多个不同尺寸的特征图,通过反池化的操作对多个不同尺寸的特征图进行计算得到目标特征图,目标特征图包括目标文本对应的像素点,通过单通道模块对目标特征图进行卷积运算得到目标分数图,通过多通道模块对目标分数图进行卷积运算得到几何形状图,通过局部感知算法根据几何形状图构造出包含目标文本的目标文本框。通过将文本检测模型中的输出模块203包含的单通道模块设置为预设个数的单通道,得到了精确度更高的目标分数图,从而提高了目标文本框的精准度并解决了目标文本框不够匹配的问题。
图4示出了一个实施例中计算机设备的内部结构图。该计算机设备具体可以是终端,也可以是服务器。如图4所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,存储器包括非易失性存储介质和内存储器。该计算机设备的非易失性存储介质存储有操作系统,还可存储有计算机程序,该计算机程序被处理器执行时,可使得处理器实现文本检测的方法。该内存储器中也可储存有计算机程序,该计算机程序被处理器执行时,可使得处理器执行文本检测的方法。本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提出了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行以下步骤:
获取第一图像,所述第一图像包含目标文本;
利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
在一个实施例中,提出了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行以下步骤:
获取第一图像,所述第一图像包含目标文本;
利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,所述目标特征图包括所述目标文本对应的像素点;
通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图;
通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图;
通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (7)
1.一种文本检测的方法,其特征在于,所述方法用于文本检测模型,所述文本检测模型包括:特征提取模块、特征合并模块和输出模块,所述输出模块包括单通道模块和多通道模块,所述单通道模块包括预设个数的单通道,所述方法包括:
获取第一图像,所述第一图像包含目标文本;
利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
利用所述特征合并模块对所述特征图进行合并操作得到目标特征图,包括通过反池化的操作对多个不同尺寸的特征图进行计算得到所述目标特征图,所述目标特征图包括所述目标文本对应的像素点;
通过所述单通道模块对所述目标特征图进行卷积运算得到目标分数图,包括通过所述预设个数的单通道对所述目标特征图内缩预设个数的像素点,得到预设个数的内缩后的目标特征图,对预设个数的所述内缩后的目标特征图进行卷积运算得到预设个数的所述分数图,根据精确程度从预设个数的所述分数图中筛选出所述目标分数图;
通过所述多通道模块对所述目标分数图进行卷积运算得到几何形状图,包括通过所述多通道模块对所述目标分数图进行卷积运算,得到所述目标分数图中每个像素点与所述目标文本框之间的边界距离,及所述目标文本框的旋转角度,根据所述边界距离及所述旋转角度得到所述几何形状图;
通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
2.根据权利要求1所述的文本检测的方法,其特征在于,所述特征提取模块包括多个并联的卷积层,所述利用所述特征提取模块对所述第一图像进行卷积运算得到相应的特征图,包括:
利用所述多个并联的卷积层分别对所述第一图像进行卷积运算,得到多个不同尺寸的特征图。
3.根据权利要求1所述的文本检测的方法,其特征在于,所述多通道模块包括:第一通道、第二通道、第三通道、第四通道和第五通道,所述通过所述多通道模块对所述目标分数图进行卷积运算,得到所述目标分数图中每个像素点与所述目标文本框之间的边界距离,及所述目标文本框的旋转角度,包括:
通过所述第一通道、所述第二通道、所述第三通道、所述第四通道分别计算出所述目标分数图中的像素点距离所述目标文本框的四个边框的所述边界距离;
通过所述第五通道计算出所述目标文本框的旋转角度。
4.一种文本检测的装置,其特征在于,所述装置包括:
获取模块,用于获取第一图像,所述第一图像包含目标文本;
第一运算模块,用于利用特征提取模块对所述第一图像进行卷积运算得到相应的特征图;
合并模块,用于利用特征合并模块对所述特征图进行合并操作得到目标特征图,包括通过反池化的操作对多个不同尺寸的特征图进行计算得到所述目标特征图,所述目标特征图包括所述目标文本对应的像素点;
第二运算模块,用于通过单通道模块对所述目标特征图进行卷积运算得到目标分数图,包括通过预设个数的单通道对所述目标特征图内缩预设个数的像素点,得到预设个数的内缩后的目标特征图,对预设个数的所述内缩后的目标特征图进行卷积运算得到预设个数的分数图,根据精确程度从预设个数的所述分数图中筛选出所述目标分数图;
第三运算模块,用于通过多通道模块对所述目标分数图进行卷积运算得到几何形状图,包括通过所述多通道模块对所述目标分数图进行卷积运算,得到所述目标分数图中每个像素点与所述目标文本框之间的边界距离,及所述目标文本框的旋转角度,根据所述边界距离及所述旋转角度得到所述几何形状图;
构造模块,用于通过局部感知算法根据所述几何形状图构造出包含所述目标文本的目标文本框。
5.根据权利要求4所述的一种文本检测的装置,其特征在于,特征提取模块包括多个并联的卷积层;
所述第一运算模块具体用于利用所述多个并联的卷积层分别对所述第一图像进行卷积运算,得到多个不同尺寸的特征图;
所述合并模块具体用于通过反池化的操作对所述多个不同尺寸的特征图进行计算得到所述目标特征图。
6.一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述方法的步骤。
7.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行如权利要求1至3中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011071076.5A CN112329765B (zh) | 2020-10-09 | 2020-10-09 | 文本检测的方法及装置、存储介质及计算机设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011071076.5A CN112329765B (zh) | 2020-10-09 | 2020-10-09 | 文本检测的方法及装置、存储介质及计算机设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329765A CN112329765A (zh) | 2021-02-05 |
CN112329765B true CN112329765B (zh) | 2024-05-24 |
Family
ID=74314613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011071076.5A Active CN112329765B (zh) | 2020-10-09 | 2020-10-09 | 文本检测的方法及装置、存储介质及计算机设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329765B (zh) |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB201110992D0 (en) * | 2011-06-28 | 2011-08-10 | Levine Andrew | Speech-to-text conversion |
CN102147853A (zh) * | 2005-09-19 | 2011-08-10 | 全视技术有限公司 | 用于生成场景的输出图像的方法 |
JP2018026098A (ja) * | 2016-08-09 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 識別制御方法及び識別制御装置 |
CN109711288A (zh) * | 2018-12-13 | 2019-05-03 | 西安电子科技大学 | 基于特征金字塔和距离约束fcn的遥感船舶检测方法 |
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
CN110309876A (zh) * | 2019-06-28 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、计算机可读存储介质和计算机设备 |
CN110516761A (zh) * | 2019-09-03 | 2019-11-29 | 成都容豪电子信息科技有限公司 | 基于深度学习的目标检测系统、方法、存储介质及终端 |
CN110674804A (zh) * | 2019-09-24 | 2020-01-10 | 上海眼控科技股份有限公司 | 文本图像的检测方法、装置、计算机设备和存储介质 |
WO2020051816A1 (en) * | 2018-09-13 | 2020-03-19 | Intel Corporation | Condense-expansion-depth-wise convolutional neural network for face recognition |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
CN111448569A (zh) * | 2017-12-06 | 2020-07-24 | 文塔纳医疗系统公司 | 存储和检索数字病理学分析结果的方法 |
CN111582021A (zh) * | 2020-03-26 | 2020-08-25 | 平安科技(深圳)有限公司 | 场景图像中的文本检测方法、装置及计算机设备 |
CN111738262A (zh) * | 2020-08-21 | 2020-10-02 | 北京易真学思教育科技有限公司 | 目标检测模型训练、检测方法、装置、设备及存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11645835B2 (en) * | 2017-08-30 | 2023-05-09 | Board Of Regents, The University Of Texas System | Hypercomplex deep learning methods, architectures, and apparatus for multimodal small, medium, and large-scale data representation, analysis, and applications |
-
2020
- 2020-10-09 CN CN202011071076.5A patent/CN112329765B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102147853A (zh) * | 2005-09-19 | 2011-08-10 | 全视技术有限公司 | 用于生成场景的输出图像的方法 |
GB201110992D0 (en) * | 2011-06-28 | 2011-08-10 | Levine Andrew | Speech-to-text conversion |
JP2018026098A (ja) * | 2016-08-09 | 2018-02-15 | パナソニックIpマネジメント株式会社 | 識別制御方法及び識別制御装置 |
CN111448569A (zh) * | 2017-12-06 | 2020-07-24 | 文塔纳医疗系统公司 | 存储和检索数字病理学分析结果的方法 |
WO2020051816A1 (en) * | 2018-09-13 | 2020-03-19 | Intel Corporation | Condense-expansion-depth-wise convolutional neural network for face recognition |
CN109711288A (zh) * | 2018-12-13 | 2019-05-03 | 西安电子科技大学 | 基于特征金字塔和距离约束fcn的遥感船舶检测方法 |
CN110222680A (zh) * | 2019-05-19 | 2019-09-10 | 天津大学 | 一种城市生活垃圾物品外包装文本检测方法 |
CN110309876A (zh) * | 2019-06-28 | 2019-10-08 | 腾讯科技(深圳)有限公司 | 目标检测方法、装置、计算机可读存储介质和计算机设备 |
CN110516761A (zh) * | 2019-09-03 | 2019-11-29 | 成都容豪电子信息科技有限公司 | 基于深度学习的目标检测系统、方法、存储介质及终端 |
CN110674804A (zh) * | 2019-09-24 | 2020-01-10 | 上海眼控科技股份有限公司 | 文本图像的检测方法、装置、计算机设备和存储介质 |
CN111079632A (zh) * | 2019-12-12 | 2020-04-28 | 上海眼控科技股份有限公司 | 文本检测模型的训练方法、装置、计算机设备和存储介质 |
CN111582021A (zh) * | 2020-03-26 | 2020-08-25 | 平安科技(深圳)有限公司 | 场景图像中的文本检测方法、装置及计算机设备 |
CN111738262A (zh) * | 2020-08-21 | 2020-10-02 | 北京易真学思教育科技有限公司 | 目标检测模型训练、检测方法、装置、设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
Design of Multi-channel data acquisition system based on single Chip computer and LabVIEW;Bigeng Zheng;Journal of Physics: Conference Series;第1345卷;062050 * |
基于C3D的足球视频场景分类算法;程萍;冯杰;马汉杰;许永恩;王健;;计算机系统应用(第12期);162-168 * |
Also Published As
Publication number | Publication date |
---|---|
CN112329765A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108564127B (zh) | 图像转换方法、装置、计算机设备及存储介质 | |
CN109543627B (zh) | 一种判断驾驶行为类别的方法、装置、及计算机设备 | |
CN107527007B (zh) | 在车辆图像处理系统中检测关注对象的方法 | |
US20200134366A1 (en) | Target recognition method and apparatus for a deformed image | |
CN109241904A (zh) | 文字识别模型训练、文字识别方法、装置、设备及介质 | |
CN110334585A (zh) | 表格识别方法、装置、计算机设备和存储介质 | |
CN108765425B (zh) | 图像分割方法、装置、计算机设备和存储介质 | |
CN112380926B (zh) | 一种田间除草机器人除草路径规划系统 | |
CN111968134B (zh) | 目标分割方法、装置、计算机可读存储介质及计算机设备 | |
EP4006777A1 (en) | Image classification method and device | |
CN112101195A (zh) | 人群密度预估方法、装置、计算机设备和存储介质 | |
CN111242840A (zh) | 手写体字符生成方法、装置、计算机设备和存储介质 | |
CN112861718A (zh) | 一种轻量级特征融合人群计数方法及系统 | |
CN115018039A (zh) | 一种神经网络蒸馏方法、目标检测方法以及装置 | |
CN112818821A (zh) | 基于可见光和红外光的人脸采集源检测方法和装置 | |
CN115083571A (zh) | 病理切片处理方法、计算机设备和存储介质 | |
CN114612709A (zh) | 图像金字塔特征指导的多尺度目标检测方法 | |
CN112329765B (zh) | 文本检测的方法及装置、存储介质及计算机设备 | |
CN112465847A (zh) | 一种基于预测清晰边界的边缘检测方法、装置及设备 | |
CN112686247A (zh) | 一种身份证号码检测方法、装置、可读存储介质和终端 | |
CN114170231A (zh) | 基于卷积神经网络的图像语义分割方法、装置及电子设备 | |
CN111368831A (zh) | 一种竖排文字的定位系统及方法 | |
CN116091596A (zh) | 一种自下而上的多人2d人体姿态估计方法及装置 | |
CN109583584B (zh) | 可使具有全连接层的cnn接受不定形状输入的方法及系统 | |
CN116091823A (zh) | 一种基于快速分组残差模块的单特征无锚框目标检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |