CN109409356B - 一种基于swt的多方向中文印刷体文字检测方法 - Google Patents

一种基于swt的多方向中文印刷体文字检测方法 Download PDF

Info

Publication number
CN109409356B
CN109409356B CN201810967087.8A CN201810967087A CN109409356B CN 109409356 B CN109409356 B CN 109409356B CN 201810967087 A CN201810967087 A CN 201810967087A CN 109409356 B CN109409356 B CN 109409356B
Authority
CN
China
Prior art keywords
image
text
detection
swt
chinese
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810967087.8A
Other languages
English (en)
Other versions
CN109409356A (zh
Inventor
张华熊
周一枫
胡洁
林翔宇
何利力
王玉平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Nanzhe Information Technology Co.,Ltd.
Original Assignee
Zhejiang University of Technology ZJUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Technology ZJUT filed Critical Zhejiang University of Technology ZJUT
Priority to CN201810967087.8A priority Critical patent/CN109409356B/zh
Publication of CN109409356A publication Critical patent/CN109409356A/zh
Application granted granted Critical
Publication of CN109409356B publication Critical patent/CN109409356B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/25Determination of region of interest [ROI] or a volume of interest [VOI]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/24Aligning, centring, orientation detection or correction of the image
    • G06V10/243Aligning, centring, orientation detection or correction of the image by compensating for image skew or non-uniform image deformations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Input (AREA)

Abstract

本发明提供了一种基于SWT的多方向中文印刷体文字检测方法,其首先通过二维离散傅里叶变换校正倾斜图像,然后通过水平投影直方图,快速提取首行文本区域,对于存在倾斜角度大的图像,提取文本前三行作为识别区域,避免了对整个文本的检测,提高了检测速度;同时本发明对提取完的文本行进行Canny边缘检测,最后基于改进的SWT算法,结合相关文本检测、过滤的启发式规则,检测图像是否是中文印刷体图像。由此可见,本发明通过基于改进的SWT算法,提取中文文本固有的笔画宽度特征,同时结合二维离散傅里叶变化以及设定的文本启发式规则,可以快速、准确的检测图像是否是中文印刷体图像,提高了OCR预处理阶段的文本识别检测效率。

Description

一种基于SWT的多方向中文印刷体文字检测方法
技术领域
本发明属于数字图像处理技术领域,具体涉及一种基于SWT的多方向中文印刷体文字检测方法。
背景技术
现阶段在纸质资料数字化,文本化的大背景下,传统的纸质资料由于占空间、不便保存、查找繁琐、易丢失等缺点正被数字化的资料所取代,然而传统的数字化大量采用的是扫描方式,以图像的形式进行各种资料的存档保存。在实际应用中如何快速从大量的数字化图像文件中找出中文印刷体文本图像文件进行OCR(Optical Character Recognition)识别是一个现实存在的实际需求。
图像文本的检测技术目前主要有以下五种:基于边缘的方法、基于连通域的方法、基于纹理的方法、基于深度学习的方法、基于上述混合的方法;其中由Boris Epshtein等人在标题为Detecting text in natural scenes with stroke width transform(ComputerVision and Pattern Recognition(CVPR),2010IEEE Conference on.IEEE,2010:2963~2970)一文中提出的笔画宽度变换算法(Stroke Width Transform,SWT)由于利用了文字特有的笔画宽度特征,因而在文本检测过程中被广泛使用。传统的SWT算法因为是以英文文字为研究对象,而中文相较英文而言,在字符笔画,结构上都更加复杂,因而在检测中文的效果上,SWT效果并不十分理想,在有倾斜的文本检测效果中,SWT算法由于一般以检测水平文本为目标,在倾斜本文的检测上,效果也较不理想。
Cong Yao等人在标题为Detecting texts of arbitrary orientations innatural images(Computer Vision and Pattern Recognition.IEEE,2012:1083~1090)一文中提出了一种检测自然场景下任意倾斜角度的文本,但该算法处理时间较长,不太适合在OCR预处理阶段使用。Huang W等人在标题为Text Localization in Natural ImagesUsing Stroke Feature Transform and Text Covariance Descriptors(IEEEInternational Conference on Computer Vision.IEEE,2014:1241~1248)一文中通过在SWT算法的基础上,引入图像像素的颜色区域信息来增强文本图像的检测效果,从论文中可以发现,Huang W等人的文本图像测试集主要以ICDAR2005、ICDAR2011这两个英文测试集为主,没有针对中文文本图像检测进行处理优化。Huizhong Chen等人在标题为Robust textdetection in natural images with edge-enhanced Maximally Stable ExtremalRegions Maximally Stable Extremal Regions(IEEE International Conference onImage Processing.IEEE,2011:2609~2612)一文中提出了利用全卷积网络(FCN)模型来检测文本;Zhi Tian等人在标题为Detecting Text inNatural Image with ConnectionistText Proposal Network(European Conference on Computer Vision.Springer,Cham,2016:56~72)一文中提出一种应用卷积模型VGG16结合双向长短时记忆网络(BLSTM)的方法,以检测文本图像,然而神经网络的训练,往往需要大量的训练数据,才能有比较好的训练效果,有时各种数据的获取难度也较大,故也不好利用在OCR预处理的检测算法中。
上述这些方法,基本上都是以检测整个文本图像为目的,同时主要以自然场景文本图像为检测目标,并没有专门针对中文文字,印刷体文本进行优化处理,因此在检测处理速度上,在对中文文本的检测正确率上,并不符合OCR预处理阶段对识别算法快速、准确的要求。
发明内容
鉴于上述,本发明提供了一种基于SWT的多方向中文印刷体文字检测方法,其通过二维离散傅里叶变换对倾斜图像在[-90,90]角度下进行倾斜校正,同时结合改进的SWT算法针对中文固有的文字特征,基于启发式过滤规则检测文字,相比采用单独的SWT算法或者MSER(最大稳定极值区域)算法在处理时间和准确率上有较大优势。
一种基于SWT的多方向中文印刷体文字检测方法,包括如下步骤:
(1)对待检测的图像依次进行灰度化以及缩放的预处理操作,
(2)对预处理后的图像进行倾斜校正;
(3)从经校正后的图像中提取文本行作为ROI(感兴趣区域);
(4)对ROI进行canny边缘检测处理,提取文本行的文字边缘检测图;
(5)采用SWT算法对文字边缘检测图进行文本检测,得到包含文字笔画宽度信息的SWT图像;
(6)基于改进的SWT文本启发式规则对SWT图像中不符合中文文字特征的区域进行过滤,过滤后剩余保留下来的区域即为字符连通域;
(7)对满足相关聚类条件的字符连通域聚类成行,形成文本行连通域;
(8)基于启发式规则对文本行连通域进行检测,从而识别待检测的图像是否为中文印刷体图像。
进一步地,所述步骤(1)中对待检测的图像进行缩放,使其缩放至650×850大小。
进一步地,所述步骤(2)的具体实现过程为:首先,对图像进行二维离散傅里叶变换,得到图像对应的频率分布图;然后,对该频率分布图中左上、右上、左下、右下四个角频率分布块进行象限交换及平移操作,将图像频谱从原点移动到图像中心点,使得四个角频率分布块均集中在频率分布图的中心;最后,对频率分布图进行二值化,通过霍夫线检测技术画出分布图中的倾斜角度线,进而根据该倾斜角度线对原图像进行倾斜校正。
进一步地,所述步骤(3)的具体实现过程为:对校正后的图像进行水平投影处理得到图像的水平投影直方分布图,根据分布图当中文本行与空白行的间隔区间快速提取待检测处理的文本行作为ROI。
进一步地,若图像的倾斜角度在[-30°,30°]范围内,则提取图像中第一行文本作为ROI;若图像的倾斜角度超出[-30°,30°]范围,则提取图像中前三行文本作为ROI;即针对倾斜角度过大的场合,防止校正后出现文本行文字缺失的情况,保证了图像倾斜角度过大时,文字区域校正之后文字消失带来的干扰,同时也避免了对整个文本的检测,也加快了算法检测速度。
进一步地,所述步骤(5)采用SWT算法对文字边缘检测图进行文本检测过程中所涉及的笔画宽度检索方向角满足以下条件:
Figure BDA0001775233630000031
其中:SwtDq为笔画宽度检索方向角。
进一步地,所述步骤(6)中改进的SWT文本启发式规则包含以下判别条件,满足该判别条件的区域即不符合中文文字特征;
Figure BDA0001775233630000041
其中:SwtVariance为区域内笔画宽度的方差,SwtMean为区域内笔画宽度的均值。
进一步地,所述步骤(8)中基于启发式规则对文本行连通域进行检测,即当以下两个条件同时满足的情况下,则判定待检测的图像为中文印刷体图像;
Figure BDA0001775233630000042
②s(h)≥10且s(w)≥30且
Figure BDA0001775233630000043
其中:Stext为文本行连通域中前景像素的面积,Srect为整个文本行连通域的面积,s(h)和s(w)分别为文本行连通域的高和宽。
基于上述技术方案,本发明具有以下有益技术效果:
(1)本发明在图像文本检测多方向上,采用二维离散傅里叶变换对[-90,90]度的倾斜范围内的检测图像,进行倾斜校正,使图像文本检测具有较强的稳定性。
(2)本发明在图像检测感兴趣区域的选择上,利用水平投影直方图方法优先提取第一行文本作为检测对象,同时针对[-90,90]度的倾斜范围内的检测图像,提取的文本行可能存在校正后的文字缺失现象,增加了以文本前三行为检测区域,避免了对整个文本的检测,加快了算法的检测速度。
(3)本发明在图像文本检测过程中基于SWT的改进算法,该改进算法针对中文印刷体的固有特征,进行设计,提高了检测中文印刷体的准确性。
附图说明
图1为本发明中文印刷体图像检测方法的流程示意图。
图2(a)为水平印刷体图像。
图2(b)为倾斜印刷体图像。
图2(c)为图2(b)经倾斜校正后的图像。
图2(d)为从图2(c)中提取得到的文本行区域。
图2(e)为图2(d)经边缘检测得到的文字边缘检测图。
图2(f)为图2(e)经SWT算法文本检测得到的SWT图像。
图2(g)为图2(f)经启发式规则得到的文本行连通域。
具体实施方式
为了更为具体地描述本发明,下面结合附图及具体实施方式对本发明的技术方案进行详细说明。
中文印刷体图像具有以下特点:(1)中文文本,中文是一种笔画多样,结构复杂的象形类文字,不同与结构简单的英文文字,中文复杂多变的笔画结构,常常增加了文本检测的难度;(2)文本区域明显,通过水平投影直方图,可以看出印刷体文本区域与空白区域,依次交替分布;(3)图像易倾斜,通过非固定式摄影设备如手机等拍摄图像,容易存在着倾斜角度,增加检测难度。
如图1所示,针对中文印刷体图像,本发明提出了一种基于SWT的多方向中文印刷体文字检测方法,包括以下步骤:
步骤一:对待处理图像进行预处理;首先进行灰度化,将灰度范围为1%~99%的像素点进行线性拉伸,灰度化计算公式如下:
f(i,j)=0.3×R(i,j)+0.59×G(i,j)+0.11×B(i,j)
其中R、G、B为RGB颜色分量,f(i,j)为图像中一点灰度化后的颜色值。
然后对灰度化的图像进行缩放处理,对图像宽大于650像素且高>850像素的图像,缩放到650*850像素,如图2(a)和图2(b)所示,以加快图像检测速度。
步骤二:图像倾斜校正;对于图2(b),通过二维离散傅里叶变换,移动傅里叶频谱至中心,然后通过二值化的频谱平移图,通过霍夫线检测计算出倾斜角度,从而校正图像。
二维离散傅里叶变换值计算公式如下:
Figure BDA0001775233630000051
其中:(u,v)为图像频率域坐标,(x,y)为图像空间域坐标,f(x,y)代表图像大小为M*N矩阵,F(u,v)表示f(x,y)的傅里叶变换,
Figure BDA0001775233630000061
对于一副图像,图像中灰度变化比较缓慢的区域可以用较低频率的正弦信号近似,而灰度变化较大的边缘地带则需要用高频的正弦信号近似,而图像大部分都是灰度变换缓慢的区域,只有一小部分是边缘,因此变换域的图像能量主要集中在低频部分(对应幅值较高),只有一小部分能量集中在高频部分(对应幅值较低)。
傅里叶变换的平移性是指,将f(x,y)乘以一个指数项相当于将其二维离散傅里叶变换F(u,v)频域中心移动到新的位置。同样,将F(u,v)乘以一个指数项,就相当于将f(x,y)的空域中心移动到新的位置,该性质的计算公式为:
Figure BDA0001775233630000062
Figure BDA0001775233630000063
其中:(u,v)为图像频率域坐标,(x,y)为图像空间域坐标,(u0,v0)为新的频率域坐标,(x0,y0)为新的空间域坐标,M*N为图像大小,;
以上两式说明,当空域中f(x,y)产生移动时,在频域中只发生相移,而傅里叶变换的幅值不变,原因公式为:
Figure BDA0001775233630000064
对频谱从原点移频到图像中心以后,可以看出图像的频率分布是以中心为圆心,对称分布的;再经过二值化之后,就可以清晰的看出图像的倾斜角度线,再根据获得的倾斜角度,就可以校正倾斜的图像,如图2(c)所示,。
步骤三:提取检测文本行,对倾斜校正完的图像,采用大津阈值算法对图像进行二值化处理,该阈值算法可以由以下流程表示:
令{0,1,2,…,L-1}表示一副大小为M*N像素的数字图像中的L个不同的灰度级,ni表示灰度级为i的像素数。图像中的像素总数为MN=n0+n1+n2+。。。+nL-1。归一化的直方图具有分量
Figure BDA0001775233630000065
由此有:
Figure BDA0001775233630000071
3.1计算输入图像的归一化直方图,使用pi(i=0,1,2,…,L-1)表示该直方图的各个分量。
3.2计算背景与前景(文字区)的出现概率,计算方式如下:
Figure BDA0001775233630000072
其中:t为前景和背景的分割阈值,pi为第i个直方图分量灰度级概率,B代表背景,pB(t)为像素被分到背景像素的概率。
Figure BDA0001775233630000073
其中:t为前景和背景的分割阈值,L为图像中不同的灰度级,pF(t)为像素被分到前景像素的概率。
3.3计算前景与背景区域的平均灰度值,计算公式如下:
Figure BDA0001775233630000074
其中:ωB(t)为背景像素的平均灰度值。
Figure BDA0001775233630000075
其中:ωF(t)为前景像素的平均灰度值。
3.4计算图像的全局灰度平局值,计算公式如下:
Figure BDA0001775233630000076
其中:ω0为图像的全局灰度平局值。
3.5计算图像前景与背景两个区域的类间方差,计算公式如下:
σ2=pBB0)2+pFF0)2
其中:σ2为图像前景与背景两个区域的类间方差。
3.6得到大津阈值t*,即使得σ2(t)最大的t值,计算公式如下:
σ2(t*)=max(σ2(t))0≤t≤L-1
通过计算图像水平投影直方图,记录每行中黑色点的个数,然后水平投影按行在y轴上的投影显示,根据文本行与空白行的像素间隔区间,优先提取第一行文本作为处理对象,如图2(d)所示;为了过滤掉过细的明显不符合中文文本行的水平投影区间,取投影像素间隔差Sindex>=20像素的投影区间才作为有效的文本行区域,投影过滤计算公式如下:
Sindex=proEindex-proSindex>=20
其中:proEindex为水平投影图的文本行结束索引,proSindex为文本行开始索引。
同时为了保证对于倾斜角度过大的文本,图像校正之后首行文本消失,我们追加了正文头三行为检测感兴趣区域,保证了图像倾斜角度过大时,文本区域的文字消失给检测带来的干扰,同时也避免了对整个文本的检测,也加快了算法检测速度。
步骤四:改进的笔画宽度变换算法。对经过倾斜检测的图像,通过改进的笔画宽度变换算法SWT,检测中文印刷体图像,具体步骤如下:
4.1进行canny边缘检测,边缘检测提取过程为:首先对提取到的文本行,首先使用高斯滤波器,以平滑图像滤除噪声;一个二维的高斯滤波器公式如下:
Figure BDA0001775233630000081
其中:x,y是图像的坐标,σ是关联的概率分布的标准差。
然后,计算图像中每个像素点的梯度强度和方向,应用非极大值(Non-MaximumSuppression)抑制,以消除边缘检测带来的杂散响应;应用双阈值(Double-Threshold)检测来确定真实的和潜在的边缘;最后通过抑制孤立的弱边缘完成边缘检测,检测结果如图2(e)所示。
4.2计算边缘像素点的笔画宽度;计算每个边缘点m,若m位于笔画边缘,则dm一定大致垂直于笔画方向,沿着射线r=m+n*dm(n>0)梯度查找与之对应的另一个边缘像素点n,那么dm与dn的方向是大致相反的(dm=-dn±π/3),此时会出现两种情况:
①m找不到对应的匹配的n或者dm与dn不满足大致反向的要求,那么该射线r废弃掉。
②如果找到满足要求的n,除非该点已经被指定了一个更小的笔画宽度属性值,否者在[m,n]这条路线上的每个像素点都会被指定笔画宽度属性值
Figure BDA0001775233630000091
(欧氏距离),计算公式如下:
Figure BDA0001775233630000092
其中:(mx,my)为m点的图像坐标,(nx,my)为n点的图像坐标。
对于所有第一次扫描到的路径,求出路径上的中值,将所有这条路径上大于中值的点全部赋值为中值,至此像素笔画宽度值计算完毕,输出包含每个像素笔画宽度信息的SWT图像,如图2(f)所示。
4.3找到字符候选区域,主要有以下几个过滤原则:
①相邻两像素笔画宽度比不超过3.0。
②字符连通域笔画的方差与均值之比小于等于3.4,关系式如下:
Figure BDA0001775233630000093
其中:SwtVariance为字符连通域笔画宽度的方差,SwtMean为文本连通域笔画宽度的均值。
③对于字符候选区域长宽比要求在0.1到10之间,关系式如下:
0.1<aspectRation<10
其中:aspectRation为字符候选区域高宽比。
④一块字符区域的边界框包含不超过两块区域,关系式如下:
boundingBox<2
其中:boundingbox为包含连通域部件个数。
⑤字符连通域高度在10到300之间,关系式如下:
10<height<300
其中:height为字符连通域高。
4.4字符成文本行;如果两个候选字符满足以下几个原则,则合并成文本行连通域,合并后的文本行连通域如图2(g)所示。
①两个候选字符的中值笔画宽度比不超过2.0。
②字符距离不超过3倍于较宽的字符宽度。
③两个字符高度比不超过2.0。
④两个字符颜色相近。
4.5文本检测;根据步骤4.4得到的文本行连通域,进行文本检测判断,两个判别关系式分别为:
Figure BDA0001775233630000101
((s(h)≥10且s(w)≥30)且
Figure BDA0001775233630000102
)
其中:Stext为前景像素数面积,Srect为整体文本行连通域面积,s(h)、s(w)分别为文本行连通域的高与宽。
本发明通过上述的步骤流程实现了中文印刷体文本的快速,高效的检测,整体算法首先利用了二维离散傅里叶变换对文本印刷体倾斜角度检测的鲁棒性,进行印刷体文本图像的倾斜校正;然后通过对文本图像进行图像水平投影处理,通过计算图像水平投影直方图文本行与空白行的像素间隔区间,快速提取待识别的文本行;进而对文本行进行canny边缘检测,提取边缘图像,由欧氏距离公式得到符合条件像素点的笔画宽度,输出包含像素笔画宽度信息的SWT图,通过相应的过滤规则,得到符合中文特性的文本行,完成印刷体中文文本图像的检测。
上述对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改,并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此,本发明不限于上述实施例,本领域技术人员根据本发明的揭示,对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims (2)

1.一种基于SWT的多方向中文印刷体文字检测方法,包括如下步骤:
(1)对待检测的图像依次进行灰度化以及缩放的预处理操作,
(2)对预处理后的图像进行倾斜校正,具体实现过程为:首先,对图像进行二维离散傅里叶变换,得到图像对应的频率分布图;然后,对该频率分布图中左上、右上、左下、右下四个角频率分布块进行象限交换及平移操作,将图像频谱从原点移动到图像中心点,使得四个角频率分布块均集中在频率分布图的中心;最后,对频率分布图进行二值化,通过霍夫线检测技术画出分布图中的倾斜角度线,进而根据该倾斜角度线对原图像进行倾斜校正;
(3)从经校正后的图像中提取文本行作为ROI,具体实现过程为:对校正后的图像进行水平投影处理得到图像的水平投影直方分布图,根据分布图当中文本行与空白行的间隔区间快速提取待检测处理的文本行作为ROI;若图像的倾斜角度在[-30°,30°]范围内,则提取图像中第一行文本作为ROI;若图像的倾斜角度超出[-30°,30°]范围,则提取图像中前三行文本作为ROI;
(4)对ROI进行canny边缘检测处理,提取文本行的文字边缘检测图;
(5)采用SWT算法对文字边缘检测图进行文本检测,得到包含文字笔画宽度信息的SWT图像;文本检测过程中所涉及的笔画宽度检索方向角满足以下条件:
Figure FDA0002614763610000011
其中:SwtDq为笔画宽度检索方向角;
(6)基于改进的SWT文本启发式规则对SWT图像中不符合中文文字特征的区域进行过滤,过滤后剩余保留下来的区域即为字符连通域;
改进的SWT文本启发式规则包含以下判别条件,满足该判别条件的区域即不符合中文文字特征;
Figure FDA0002614763610000012
其中:SwtVariance为区域内笔画宽度的方差,SwtMean为区域内笔画宽度的均值;
(7)对满足相关聚类条件的字符连通域聚类成行,形成文本行连通域;
(8)基于启发式规则对文本行连通域进行检测,从而识别待检测的图像是否为中文印刷体图像,即当以下两个条件同时满足的情况下,则判定待检测的图像为中文印刷体图像;
Figure FDA0002614763610000021
②s(h)≥10且s(w)≥30且
Figure FDA0002614763610000022
其中:Stext为文本行连通域中前景像素的面积,Srect为整个文本行连通域的面积,s(h)和s(w)分别为文本行连通域的高和宽。
2.根据权利要求1所述的多方向中文印刷体文字检测方法,其特征在于:所述步骤(1)中对待检测的图像进行缩放,使其缩放至650×850大小。
CN201810967087.8A 2018-08-23 2018-08-23 一种基于swt的多方向中文印刷体文字检测方法 Active CN109409356B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810967087.8A CN109409356B (zh) 2018-08-23 2018-08-23 一种基于swt的多方向中文印刷体文字检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810967087.8A CN109409356B (zh) 2018-08-23 2018-08-23 一种基于swt的多方向中文印刷体文字检测方法

Publications (2)

Publication Number Publication Date
CN109409356A CN109409356A (zh) 2019-03-01
CN109409356B true CN109409356B (zh) 2021-01-08

Family

ID=65464358

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810967087.8A Active CN109409356B (zh) 2018-08-23 2018-08-23 一种基于swt的多方向中文印刷体文字检测方法

Country Status (1)

Country Link
CN (1) CN109409356B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112016341A (zh) * 2019-05-28 2020-12-01 珠海金山办公软件有限公司 一种文本图片矫正方法及装置
CN110659574B (zh) * 2019-08-22 2022-02-22 北京易道博识科技有限公司 文档图像勾选框状态识别后输出文本行内容的方法及系统
CN110705546B (zh) * 2019-09-06 2023-12-19 平安科技(深圳)有限公司 文本图像角度纠偏方法、装置及计算机可读存储介质
CN113255869B (zh) * 2021-05-09 2023-05-05 中轻长泰(长沙)智能科技股份有限公司 一种基于机器视觉的板材计数方法
CN117078913B (zh) * 2023-10-16 2024-02-02 第六镜科技(成都)有限公司 对象倾斜矫正方法、装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法
CN108269274A (zh) * 2016-12-31 2018-07-10 南京理工大学 基于傅里叶变换和Hough变换的图像配准方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3842992B2 (ja) * 2001-09-20 2006-11-08 インターナショナル・ビジネス・マシーンズ・コーポレーション 文字列読み取り装置及び文字列読み取り方法
US8917935B2 (en) * 2008-05-19 2014-12-23 Microsoft Corporation Detecting text using stroke width based text detection
US8942484B2 (en) * 2011-09-06 2015-01-27 Qualcomm Incorporated Text detection using image regions
CN104408449B (zh) * 2014-10-27 2018-01-30 西安电子科技大学宁波信息技术研究院 智能移动终端场景文字处理方法
CN105760901B (zh) * 2016-01-27 2019-01-04 南开大学 一种多语种倾斜文档图像的自动语言判别方法
CN107798321B (zh) * 2017-12-04 2021-03-02 海南云江科技有限公司 一种试卷分析方法和计算设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104200209A (zh) * 2014-08-29 2014-12-10 南京烽火星空通信发展有限公司 一种图像文字检测方法
CN104751142A (zh) * 2015-04-01 2015-07-01 电子科技大学 一种基于笔划特征的自然场景文本检测算法
CN105809164A (zh) * 2016-03-11 2016-07-27 北京旷视科技有限公司 文字识别方法和装置
CN108269274A (zh) * 2016-12-31 2018-07-10 南京理工大学 基于傅里叶变换和Hough变换的图像配准方法
CN108154151A (zh) * 2017-12-20 2018-06-12 南京邮电大学 一种快速多方向文本行检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
印刷体维吾尔文识别关键技术研究与应用;王小弟;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180415(第04期);第I138-2403页正文第11-36页 *
文本检测算法的发展与挑战;李翌昕等;《信号处理》;20170430;第33卷(第4期);第558-571页 *
文档图像的检索与文字检测研究;李慕风;《中国优秀硕士学位论文全文数据库 信息科技辑》;20180215(第02期);第I138-1634页正文第9-16、25-26、40-42页及图2-4、3-8、3-9 *

Also Published As

Publication number Publication date
CN109409356A (zh) 2019-03-01

Similar Documents

Publication Publication Date Title
CN109409356B (zh) 一种基于swt的多方向中文印刷体文字检测方法
CN104751142B (zh) 一种基于笔划特征的自然场景文本检测方法
CN109389121B (zh) 一种基于深度学习的铭牌识别方法及系统
CN108121991B (zh) 一种基于边缘候选区域提取的深度学习舰船目标检测方法
CN107688806B (zh) 一种基于仿射变换的自由场景文本检测方法
Lu et al. Perspective rectification of document images using fuzzy set and morphological operations
Ye et al. Text detection and restoration in natural scene images
CN103310211B (zh) 一种基于图像处理的填注标记识别方法
US20130129216A1 (en) Text Detection Using Multi-Layer Connected Components With Histograms
CN104361336A (zh) 一种水下视频图像的文字识别方法
JP2003515230A (ja) ビデオストリームの分類可能な記号の分離方法及びシステム
CN105205488A (zh) 基于Harris角点和笔画宽度的文字区域检测方法
Bai et al. Scene text localization using gradient local correlation
CN108154151B (zh) 一种快速多方向文本行检测方法
CN104463134B (zh) 一种车牌检测方法和系统
CN108038458B (zh) 基于特征摘要图的视频中的户外场景文本自动获取方法
Huang et al. Text detection and recognition in natural scene images
Liu et al. A novel multi-oriented chinese text extraction approach from videos
CN112419207A (zh) 一种图像矫正方法及装置、系统
CN108256518A (zh) 文字区域检测方法及装置
CN112418210B (zh) 一种杆塔巡检信息智能分类方法
Gui et al. A fast caption detection method for low quality video images
Chowdhury et al. Scene text detection using sparse stroke information and MLP
CN109635679B (zh) 一种实时的靶纸定位及环线识别方法
CN110619331A (zh) 一种基于颜色距离的彩色影像字段定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20230512

Address after: Room 1908, Building 1, Xiaocheng Tiandi Commercial Center, Qiantang New District, Hangzhou City, Zhejiang Province, 311119

Patentee after: Hangzhou Nanzhe Information Technology Co.,Ltd.

Address before: 310018 No. 2 street, Baiyang street, Hangzhou economic and Technological Development Zone, Zhejiang 928

Patentee before: ZHEJIANG SCI-TECH University