CN113065411A - 基于中心点监督信息的文本检测方法 - Google Patents
基于中心点监督信息的文本检测方法 Download PDFInfo
- Publication number
- CN113065411A CN113065411A CN202110266212.4A CN202110266212A CN113065411A CN 113065411 A CN113065411 A CN 113065411A CN 202110266212 A CN202110266212 A CN 202110266212A CN 113065411 A CN113065411 A CN 113065411A
- Authority
- CN
- China
- Prior art keywords
- text
- disc
- train ticket
- picture
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 49
- 238000000034 method Methods 0.000 claims abstract description 50
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 10
- 238000006073 displacement reaction Methods 0.000 claims description 15
- 238000012545 processing Methods 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 6
- 230000009467 reduction Effects 0.000 claims description 5
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012549 training Methods 0.000 abstract description 8
- 230000004927 fusion Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 230000006870 function Effects 0.000 description 6
- 238000007781 pre-processing Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000012805 post-processing Methods 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000035515 penetration Effects 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011895 specific detection Methods 0.000 description 1
- 230000037303 wrinkles Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computing Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Evolutionary Biology (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于中心点监督信息的文本检测方法,涉及票据文本检测技术领域,尤其是一种基于中心点监督信息的文本检测方法,其包括:寻找火车票的边界;对火车票图片经过ResNet50卷积神经网络做特征提取;通过FPN网络对提取的特征图进行融合;通过FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值产生最终的检测结果。本发明主要针对火车票中的规则文本进行检测。通过将文本拆分为子区域(圆盘)进行预测,降低了训练的难度,FPN模块使得网络更具有泛华性。利用圆盘表示的方法避免了直接利用文本区域带来的粘连问题。本方法能够有效的解决火车票中内容检测问题。
Description
技术领域
本发明属于票据文本检测技术领域,尤其是一种基于中心点监督信息的文本检测方法。
背景技术
火车票是企业差旅费报销中的一个重要组成部分,其中包含了起始站点、出行日期、金额等多项报销所必需信息,然而,目前主要由申请人员手动填写录入信息,非常的耗时耗力,如果能将深度学习技术要用到火车票报销上,实现信息的自动提取,将会极大的节省人力资源成本。
火车票信息自动提取流程包含了检测和识别两个阶段。作为整个流程的基础步骤,检测环节面临着更多的问题。当前的车票主要采用墨式打印,会出现纸张穿透、字体不清晰以及内容倾斜等问题。而且,用户对这些票据的不当保管可能会造成褶皱,这对检测造成影响。并且,现有情况下的扫描设备成像效果、扫描时的光照条件等,均会导致上传的图像不清楚,给检测增加了难度。
针对文本检测问题,现有的基于深度学习的方法主要分为基于回归和基于分割两种。基于回归的方法具有较高的速度但是对文字区域的边界部分无法很好处理,而在火车票的检测场景下,漏检、边界不正确会极大的影响后续其他处理。基于分割的方法往往会产生文本的粘连问题,本专利主要用于解决火车票中的文本检测问题。
发明内容:
本发明提供了一种基于中心点监督信息的文本检测方法,用于解决现有技术中火车票打印和/或保管不当导致采集的图像不清楚增加了检测难度的问题。
本发明的技术方案主要模块包括如下:该系统包括三个部分,第一部分是基于ResNet50的图片特征提取模块;第二部分采用FPN进行不同尺度的信息融合;第三部分为基于融合的结果来产生5类预测结果(文本区域,文本中心线区域,圆盘半径,圆盘的sin值),利用本方法提出的striding方法进行后处理操作。在第一部分中,我们使用ResNet50作为骨干网络,并去掉了最后的池化层和全连接层,得到5种不同尺度的特征。第二部分中,我们利用特征金字塔模块FPN对第一部分中得到的5种不同尺度的特征进行空间信息融合,在融合之后,利用大小为1x1的卷积核对融合后的特征进行降维以减少网络参数,提高系统速度。在第三部分中,利用多层卷积来产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值,并利用本方法提出的striding算法将这五种不同的组件结合在一起形成文本区域。
本发明采用如下技术方案:一种基于中心点监督信息的文本检测方法,包括如下步骤:
S100:寻找火车票的边界;
S200:对火车票图片经过ResNet50卷积神经网络做特征提取;
S300:通过FPN网络对提取的特征图进行融合;
S400:通过FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值产生最终的检测结果。
进一步地,S100:寻找火车票的边界包括如下步骤:
S110:将图片做灰度化处理;
S120:利用opencv寻找到图片中物体的边界信息;
S130:利用火车票的蒙版,对未灰度化的图片进行旋转操作,丢弃背景信息,只保留火车票;
S140:图片尺寸统一调整为预设的固定值。
进一步地,图片尺寸统一调整为680×450。
进一步地,对于尺寸小于680×450的图片,利用双线性插值方法进行变换。
进一步地,用于对火车票图片做特征提取的ResNet50卷积神经网络去掉了最后的全连接层,只使用前五个block。
进一步地,还包括如下步骤S310:采用1x1的卷积核对整个融合的特征进行降维。
进一步地,将FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值通过striding算法得到最终的检测结果。
进一步地,striding算法流程如下:针对中心线区域中的某个中心线,随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始,然后沿两个方向分别进行striding操作,具体为首先找到当前位置的圆盘半径r,圆盘的正弦值sinθ,圆盘的余弦值cosθ,两个方向的位移为(1/2r×cosθ,1/2r×sinθ),(-1/2r×cosθ,-1/2r×sinθ),根据位移值得到新的点,对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作,直到根据位移值得到的点不在中心线区域内,最终得到当前中心线中心点的阵列(P-N,P-N+1,…,P,…,P+M-1,P+M),根据圆盘半径结果中对应点的半径值得到一系列圆盘,产生最终的检测结果。
进一步地,在进行striding算法操作前进行噪点信息过滤:利用文本区域和中心线区域进行相乘操作,过滤掉中心线区域的噪点信息,得到不同文本实例的中心线。
进一步地,还包括S90:文本中心核预测分支的标签制作,该步骤在S100:寻找火车票的边界前进行。
该火车票文本检测方法包含以下主要步骤:
(1)寻找火车票的边界。利用扫描设备或者拍照设备将单张火车票的图片上传系统。正确的火车票边界的识别对整体系统的检测精度意义重大,因此首先进行边界识别,本发明采用opencv进行边界识别,其操作流程可以分为:首先将图片做灰度化处理,火车票和周围信息有明显的灰度值的差异,利用opencv可以精确寻找到图片中物体的边界信息,由于火车票特殊的长宽比,根据这个先验信息过滤掉误检。在得到火车票检测的蒙版之后,对未灰度化的图片进行旋转操作,丢弃背景信息,只保留火车票,由于火车票的大小固定,因此所有最终输入检测系统的图片都被固定为680×450,尺寸不满足的,利用双线性插值方法进行变换。在训练过程中用到的数据增强方法有:随机亮度调整、饱和度/色相调整输入神经网络进行后续处理。
(2)处理后的火车票图片先经过ResNet50卷积神经网络做特征提取。在ResNet中我们去掉了最后的全连接层,只使用前五个block。得到五个不同大小的特征图(featuremap)C×H×W,C、H、W分别表示图像的通道、高度和宽度。
(3)经过ResNet50提取的特征会进一步输入到FPN网络,FPN网络会融合来自不同深度的不同大小的feature map,使得后续的预测对文字的大小更具有鲁棒性。在FPN进行特征融合后,采用1x1的卷积核对整个融合的特征进行降维以减少网络参数。
(4)利用FPN得到的融合后的特征图进一步产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值,圆盘的cos值。首先利用文本区域和中心线区域进行相乘操作,过滤掉中心线区域的噪点信息,得到不同文本实例的中心线,本方法提出了striding算法结合圆盘的预测信息得到最终的检测结果。Striding算法流程如下:针对中心线区域中的某个中心线,随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始,然后沿两个方向分别进行striding操作,具体为首先找到当前位置的圆盘半径r,圆盘的正弦值sinθ,圆盘的余弦值cosθ,两个方向的位移为(1/2r×cosθ,1/2r×sinθ),(-1/2r×cosθ,-1/2r×sinθ),根据位移值得到新的点,对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作,直到根据位移值得到的点不在中心线区域内,最终得到当前中心线中心点的阵列(P-N,P-N+1,…,P,…,P+M-1,P+M),根据圆盘半径结果中对应点的半径值得到一系列圆盘,产生最终的检测结果。
本发明的积极效果如下:
一种基于中心点监督信息的文本检测方法,其包括如下步骤:
100:寻找火车票的边界;
S200:对火车票图片经过ResNet50卷积神经网络做特征提取;
S300:通过FPN网络对提取的特征图进行融合;
S400:通过FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值产生最终的检测结果。
本发明主要针对火车票中的规则文本进行检测。通过将文本拆分为子区域(圆盘)进行预测,降低了训练的难度,FPN模块使得网络更具有泛华性。利用圆盘表示的方法避免了直接利用文本区域带来的粘连问题。本方法能够有效的解决火车票中内容检测问题。
附图说明
图1为本发明实施方式神经网络模型结构图;
图2为本发明实施方式FPN网络的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施方式仅用以解释本发明,并不用于限定本发明。
如图1-2所示,本发明的技术方案主要模块包括如下:该系统包括三个部分,第一部分是基于ResNet50的图片特征提取模块;第二部分采用FPN进行不同尺度的信息融合;第三部分为基于融合的结果来产生5类预测结果(文本区域,文本中心线区域,圆盘半径,圆盘的sin值),利用本方法提出的striding方法进行后处理操作。在第一部分中,我们使用ResNet50作为骨干网络,并去掉了最后的池化层和全连接层,得到5种不同尺度的特征。第二部分中,我们利用特征金字塔模块FPN对第一部分中得到的5种不同尺度的特征进行空间信息融合,在融合之后,利用大小为1x1的卷积核对融合后的特征进行降维以减少网络参数,提高系统速度。在第三部分中,利用多层卷积来产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值,并利用本方法提出的striding算法将这五种不同的组件结合在一起形成文本区域。
本发明采用如下技术方案:一种基于中心点监督信息的文本检测方法,包括如下步骤:
S100:寻找火车票的边界;
S200:对火车票图片经过ResNet50卷积神经网络做特征提取;
S300:通过FPN网络对提取的特征图进行融合;
S400:通过FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值产生最终的检测结果。
进一步地,S100:寻找火车票的边界包括如下步骤:
S110:将图片做灰度化处理;
S120:利用opencv寻找到图片中物体的边界信息;
S130:利用火车票的蒙版,对未灰度化的图片进行旋转操作,丢弃背景信息,只保留火车票;
S140:图片尺寸统一调整为预设的固定值。
进一步地,图片尺寸统一调整为680×450。
进一步地,对于尺寸小于680×450的图片,利用双线性插值方法进行变换。
进一步地,用于对火车票图片做特征提取的ResNet50卷积神经网络去掉了最后的全连接层,只使用前五个block。
进一步地,还包括如下步骤S310:采用1x1的卷积核对整个融合的特征进行降维。
进一步地,将FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值通过striding算法得到最终的检测结果。
进一步地,striding算法流程如下:针对中心线区域中的某个中心线,随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始,然后沿两个方向分别进行striding操作,具体为首先找到当前位置的圆盘半径r,圆盘的正弦值sinθ,圆盘的余弦值cosθ,两个方向的位移为(1/2r×cosθ,1/2r×sinθ),(-1/2r×cosθ,-1/2r×sinθ),根据位移值得到新的点,对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作,直到根据位移值得到的点不在中心线区域内,最终得到当前中心线中心点的阵列(P-N,P-N+1,…,P,…,P+M-1,P+M),根据圆盘半径结果中对应点的半径值得到一系列圆盘,产生最终的检测结果。
进一步地,在进行striding算法操作前进行噪点信息过滤:利用文本区域和中心线区域进行相乘操作,过滤掉中心线区域的噪点信息,得到不同文本实例的中心线。
进一步地,还包括S90:文本中心核预测分支的标签制作,该步骤在S100:寻找火车票的边界前进行。
该火车票文本检测方法包含以下主要步骤:
(1)寻找火车票的边界。利用扫描设备或者拍照设备将单张火车票的图片上传系统。正确的火车票边界的识别对整体系统的检测精度意义重大,因此首先进行边界识别,本发明采用opencv进行边界识别,其操作流程可以分为:首先将图片做灰度化处理,火车票和周围信息有明显的灰度值的差异,利用opencv可以精确寻找到图片中物体的边界信息,由于火车票特殊的长宽比,根据这个先验信息过滤掉误检。在得到火车票检测的蒙版之后,对未灰度化的图片进行旋转操作,丢弃背景信息,只保留火车票,由于火车票的大小固定,因此所有最终输入检测系统的图片都被固定为680×450,尺寸不满足的,利用双线性插值方法进行变换。在训练过程中用到的数据增强方法有:随机亮度调整、饱和度/色相调整输入神经网络进行后续处理。
(2)处理后的火车票图片先经过ResNet50卷积神经网络做特征提取。在ResNet中我们去掉了最后的全连接层,只使用前五个block。得到五个不同大小的特征图(featuremap)C×H×W,C、H、W分别表示图像的通道、高度和宽度。
(3)经过ResNet50提取的特征会进一步输入到FPN网络,FPN网络会融合来自不同深度的不同大小的feature map,使得后续的预测对文字的大小更具有鲁棒性。在FPN进行特征融合后,采用1x1的卷积核对整个融合的特征进行降维以减少网络参数。
(4)利用FPN得到的融合后的特征图进一步产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值,圆盘的cos值。首先利用文本区域和中心线区域进行相乘操作,过滤掉中心线区域的噪点信息,得到不同文本实例的中心线,本方法提出了striding算法结合圆盘的预测信息得到最终的检测结果。Striding算法流程如下:针对中心线区域中的某个中心线,随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始,然后沿两个方向分别进行striding操作,具体为首先找到当前位置的圆盘半径r,圆盘的正弦值sinθ,圆盘的余弦值cosθ,两个方向的位移为(1/2r×cosθ,1/2r×sinθ),(-1/2r×cosθ,-1/2r×sinθ),根据位移值得到新的点,对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作,直到根据位移值得到的点不在中心线区域内,最终得到当前中心线中心点的阵列(P-N,P-N+1,…,P,…,P+M-1,P+M),根据圆盘半径结果中对应点的半径值得到一系列圆盘,产生最终的检测结果。
本发明还提供了一个基于中心点监督信息的火车票内容具体的检测方法,具体过程如下:
1.文本中心核预测分支的标签制作:
现有的标注只提供了车票中内容的四个顶点信息,为了制作网络训练需要的监督信息。将较短的两边作为文本中心线的开端和末端,连接开端和末端的中点以生成中心线,并以相应文字区域平均宽度的1/2作为中心线的宽度,在开端和末端分别缩进1/2平均宽度以防止粘连。为了生成圆盘的监督信息,我们将中心线等分为10个点,每个点产生能不超出文本区域最大的圆盘,用当前点所在的圆盘和下一个圆盘中心点连线和水平方向的夹角计算得到圆盘对应的正弦值和余弦值。
2.火车票图片预处理
由于火车票需要扫描或拍照后上传,人为因素可能会导致导致火车票整体倾斜,而倾斜会影响文字片段提取,因此本方法先采用基于轮廓的矫正方法对图片进行预先处理。首先对图片做灰度处理,用8位的数据将每个像素点的亮度固定在0~255之间,只用采用固定阈值对图片做二值化处理,像素值大于该阈值置为1,小于该阈值则为0,将图片转化为黑白图片。再利用opencv提取轮廓后获得边信息后可计算出倾斜角度。依据该倾斜角度可对图像进行矫正。
火车票的大小固定,因此所有最终输入检测系统的图片都被固定为680x450,尺寸不满足的,利用双线性插值方法进行变换。在训练过程中用到的数据增强方法有:随机亮度调整、饱和度/色相调整。
3.基于中心点监督信息的文本区域预测
火车票经过预处理之后,首先被送入ResNet50进行特征提取,分别得到大小为原图大小1/2,1/4,1/8,1/16,1/32大小的特征图,之后1/32大小的特征图进行上采样和1/16大小的特征图进行逐元素相加,1/16,1/8,1/4大小的特征图分别上采样和1/8,1/4,1/2大小的特征图逐元素相加,得到的特征图全部上采样到1/2大小并且拼接在一起,拼接后的特征图经过1x1大小的卷积核进行通道间的融合和降维。
在降维之后,利用多组卷积产生文本区域,文本中心线区域,圆盘半径,圆盘的sin值,首先利用文本区域和文本中心线区域过滤噪点产生文本实例,之后利用本方法提出的striding算法结合圆盘半径预测和圆盘角度预测针对每个文本实例产生相应的检测区域,最后将检测区域做并集即得到最终检测结果。
4.模型训练
火车票图片经过预处理后送入网络经由FPN进行特征融合,进一步利用融合后的特征图生成检测结果。优化的目标函数为:
L=Lcls+Lreg
Lcls=λ1Ltr+λ2Ltcl
Lreg=λ3Lr+λ4Lsin+λ5Lcos (1)
L代表整体的loss,其中Lcls代表文本区域和文本中心线的loss,Lreg代表r,cosθ,sinθ的loss。Ltr和Ltcl是交叉熵损失函数
Lr代表圆盘半径损失函数,Lcos,Lsin代表圆盘sin值和cos值的损失函数,三者全部采用smoothed L1的损失函数进行监督。
优化器选用ADADELTA来计算梯度并进行反向传播。训练的batch size设置为8,总共训练1200个epoch。
8、模型应用
经过1200个epoch的训练后可以得到多个模型,选取其中最优的模型(目标函数值最小)用于实际应用。在应用过程中火车票依然需要先做预处理,对图片进行矫正并调整大小为680×450。此时不再需要对图片进行数据增强。
以上实施方式仅为本发明的优选实施例,而并非本发明可行实施的穷举。对于本领域一般技术人员而言,在不背离本发明原理和精神的前提下对其所做出的任何显而易见的改动,都应当被认为包含在本发明的权利要求保护范围之内。
Claims (10)
1.一种基于中心点监督信息的文本检测方法,其特征在于,包括如下步骤:
S100:寻找火车票的边界;
S200:对火车票图片经过ResNet50卷积神经网络做特征提取;
S300:通过FPN网络对提取的特征图进行融合;
S400:通过FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值产生最终的检测结果。
2.根据权利要求1所述的基于中心点监督信息的文本检测方法,其特征在于,S100:寻找火车票的边界包括如下步骤:
S110:将图片做灰度化处理;
S120:利用opencv寻找到图片中物体的边界信息;
S130:利用火车票的蒙版,对未灰度化的图片进行旋转操作,丢弃背景信息,只保留火车票;
S140:图片尺寸统一调整为预设的固定值。
3.根据权利要求2所述的基于中心点监督信息的文本检测方法,其特征在于,图片尺寸统一调整为680×450。
4.根据权利要求3所述的基于中心点监督信息的文本检测方法,其特征在于,对于尺寸小于680×450的图片,利用双线性插值方法进行变换。
5.根据权利要求4所述的基于中心点监督信息的文本检测方法,其特征在于,用于对火车票图片做特征提取的ResNet50卷积神经网络去掉了最后的全连接层,只使用前五个block。
6.根据权利要求5所述的基于中心点监督信息的文本检测方法,其特征在于,还包括如下步骤S310:采用1x1的卷积核对整个融合的特征进行降维。
7.根据权利要求6所述的基于中心点监督信息的文本检测方法,其特征在于,将FPN产生五种不同的输出:文本区域,文本中心线区域,圆盘半径,圆盘的sin值以及圆盘的cos值通过striding算法得到最终的检测结果。
8.根据权利要求7所述的基于中心点监督信息的文本检测方法,其特征在于,striding算法流程如下:针对中心线区域中的某个中心线,随机在当中取一个点并找到其在中心线中的对应的中心点P作为开始,然后沿两个方向分别进行striding操作,具体为首先找到当前位置的圆盘半径r,圆盘的正弦值sinθ,圆盘的余弦值cosθ,两个方向的位移为(1/2r×cosθ,1/2r×sinθ),(-1/2r×cosθ,-1/2r×sinθ),根据位移值得到新的点,对新的点重新进行中心化得到P+1,P-1并且继续进行striding操作,直到根据位移值得到的点不在中心线区域内,最终得到当前中心线中心点的阵列(P-N,P-N+1,…,P,…,P+M-1,P+M),根据圆盘半径结果中对应点的半径值得到一系列圆盘,产生最终的检测结果。
9.根据权利要求8所述的基于中心点监督信息的文本检测方法,其特征在于,在进行striding算法操作前进行噪点信息过滤:利用文本区域和中心线区域进行相乘操作,过滤掉中心线区域的噪点信息,得到不同文本实例的中心线。
10.根据权利要求9所述的基于中心点监督信息的文本检测方法,其特征在于,还包括S90:文本中心核预测分支的标签制作,该步骤在S100:寻找火车票的边界前进行。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266212.4A CN113065411A (zh) | 2021-03-10 | 2021-03-10 | 基于中心点监督信息的文本检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110266212.4A CN113065411A (zh) | 2021-03-10 | 2021-03-10 | 基于中心点监督信息的文本检测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113065411A true CN113065411A (zh) | 2021-07-02 |
Family
ID=76560051
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110266212.4A Pending CN113065411A (zh) | 2021-03-10 | 2021-03-10 | 基于中心点监督信息的文本检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113065411A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110322495A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于弱监督深度学习的场景文本分割方法 |
CN111507333A (zh) * | 2020-04-21 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
CN111738255A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种基于深度学习的路牌文本检测与识别算法 |
-
2021
- 2021-03-10 CN CN202110266212.4A patent/CN113065411A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110008950A (zh) * | 2019-03-13 | 2019-07-12 | 南京大学 | 一种对形状鲁棒的自然场景中文本检测的方法 |
CN110322495A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于弱监督深度学习的场景文本分割方法 |
CN111507333A (zh) * | 2020-04-21 | 2020-08-07 | 腾讯科技(深圳)有限公司 | 一种图像矫正方法、装置、电子设备和存储介质 |
CN111738255A (zh) * | 2020-05-27 | 2020-10-02 | 复旦大学 | 一种基于深度学习的路牌文本检测与识别算法 |
Non-Patent Citations (1)
Title |
---|
SHANGBANG LONG 等: "TextSnake: A Flexible Representation for Detecting Text of Arbitrary Shapes", 《ARXIV》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110033410B (zh) | 图像重建模型训练方法、图像超分辨率重建方法及装置 | |
US10353271B2 (en) | Depth estimation method for monocular image based on multi-scale CNN and continuous CRF | |
US9292759B2 (en) | Methods and systems for optimized parameter selection in automated license plate recognition | |
CN104112128B (zh) | 应用于票据影像字符识别的数字图像处理系统及方法 | |
CN108537782B (zh) | 一种基于轮廓提取的建筑物图像匹配与融合的方法 | |
CN107330373A (zh) | 一种基于视频的违章停车监控系统 | |
US20210089763A1 (en) | Animal identification based on unique nose patterns | |
US20210166092A1 (en) | Method of Detecting at Least One Element of Interest Visible in an Input Image by Means of a Convolutional Neural Network | |
CN112287912A (zh) | 基于深度学习的车道线检测方法以及装置 | |
CN110060259A (zh) | 一种基于霍夫变换的鱼眼镜头有效区域提取方法 | |
CN102982520A (zh) | 一种基于轮廓先验的鲁棒性人脸超分辨率处理方法 | |
CN113284037B (zh) | 一种基于深度神经网络的陶瓷水印载体恢复方法 | |
CN109635799B (zh) | 一种燃气表字轮数字的识别方法 | |
CN114581887A (zh) | 车道线的检测方法、装置、设备和计算机可读存储介质 | |
CN116681636A (zh) | 基于卷积神经网络的轻量化红外与可见光图像融合方法 | |
CN111611994B (zh) | 图像提取方法、装置、电子设备和存储介质 | |
CN115082776A (zh) | 一种基于图像识别的电能表自动检测系统及方法 | |
CN114399505A (zh) | 工业检测中的检测方法、检测装置 | |
CN113065404A (zh) | 基于等宽文字片段的火车票内容检测方法与系统 | |
JP3576654B2 (ja) | 露光量決定方法、図形抽出方法及び顔領域判断方法 | |
CN113065411A (zh) | 基于中心点监督信息的文本检测方法 | |
CN114626445B (zh) | 基于光流网络与高斯背景建模的大坝白蚁视频识别方法 | |
CN115994996A (zh) | 对照装置、存储介质及对照方法 | |
CN115376131A (zh) | 一种点状编码标志的设计与识别方法 | |
CN114445814A (zh) | 一种字符区域提取方法、计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210702 |