CN111062393B - 一种基于谱聚类的自然场景汉字分割方法 - Google Patents

一种基于谱聚类的自然场景汉字分割方法 Download PDF

Info

Publication number
CN111062393B
CN111062393B CN201911088817.8A CN201911088817A CN111062393B CN 111062393 B CN111062393 B CN 111062393B CN 201911088817 A CN201911088817 A CN 201911088817A CN 111062393 B CN111062393 B CN 111062393B
Authority
CN
China
Prior art keywords
character
class
clustering
segmentation
box
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911088817.8A
Other languages
English (en)
Other versions
CN111062393A (zh
Inventor
赵凡
杨林林
张琳
闻治泉
武吉梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Hudun Information Technology Co ltd
Original Assignee
Xian University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian University of Technology filed Critical Xian University of Technology
Priority to CN201911088817.8A priority Critical patent/CN111062393B/zh
Publication of CN111062393A publication Critical patent/CN111062393A/zh
Application granted granted Critical
Publication of CN111062393B publication Critical patent/CN111062393B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/28Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
    • G06V30/287Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Character Input (AREA)

Abstract

本发明公开了一种基于谱聚类的自然场景汉字分割方法,具体为:首先,采用深度学习方法对场景图像进行文字区域定位,实现快速准确的文本框检测;其次,利用文字的强纹理性提取场景图像的显著图,在显著图上再进行MSER检测得到各个连通的汉字笔画、偏旁部首和英文字母,即一系列的字符候选框;再利用在图像中的几何位置关系得到各文本框中包含的字符框集合,并对各文本框中包含的字符框集合建立对应的无向图;最后,对各个无向图采用谱聚类进行分割,对各分割结果按照类间密度和类内散度之和达到最小找到最优的聚类结果,即为文本框中分割的各个汉字或英文字母。该方法在很大程度上可以提高汉字分割的准确度,进而提高中文的识别率。

Description

一种基于谱聚类的自然场景汉字分割方法
技术领域
本发明属于图像处理技术领域,具体涉及一种基于谱聚类的自然场景汉字分割方法。
背景技术
传统的文字识别技术主要应用于背景简单和文字排列整齐、远近、大小和颜色相同的文档图像,与文档图像相比,自然场景中出现的文字在字体、大小、颜色、方向、位置方面更具多样性以及常受模糊、污染、遮挡等因素的影响,从而导致自然场景中文字的识别挑战性更大。图像和视频中的文本检测和识别技术有着广泛的应用前景,腾讯、百度、阿里、微软、亚马逊、谷歌等很多世界顶点公司也已经开始提供一些图像文字检测和识别的相关服务,但是在这个热门研究领域里,尽管有大量的公开数据,但大部分都是英文文本。英文单词中的各个字母都是连通的,而汉字的偏旁部首和笔画大都是不连通的,这就给汉字的分割和识别带来更大的技术难度。如何利用汉字的间架结构特点,研究汉字的分割方法以提升汉字的分割精度和汉字的识别率有着非常重要的意义。
发明内容
本发明的目的是提供一种基于谱聚类的自然场景汉字分割方法,解决了现有技术中难以将汉字准确分割的问题。
本发明所采用的技术方案是,一种基于谱聚类的自然场景汉字分割方法,具体按照以下步骤实施:
步骤1、在官方数据集ICDAR2017-RCTW-17、MSRA-TD500、ICDAR2017-MLT下载或拍摄一张包含汉字的彩色场景图像Img1,对Img1进行尺度变换,尺度因子为(sw,sh),其中
Figure BDA0002266250820000021
Figure BDA0002266250820000022
得到图像Img2,w'和h'分别为图像Img2的宽和高,w和h分别为图像Img1的宽和高;
步骤2、把图像Img2作为输入,送入文本检测网络模型Modele2e-mlt,得到检测的文本框集合B'={b'j|j=1,2,…N1},其中N1表示文本框总个数,对文本框集合B'中的各个文本框位置和大小根据尺度因子
Figure BDA0002266250820000023
进行尺度变换得到B={bj|j=1,2,…N1},bj表示Img1中检测到的第j个文本框,bj的四个顶点为
Figure BDA0002266250820000024
步骤3、把Img1作为输入,送入显著图提取算法Saliency-Processing(),计算得到显著图SImg,把SImg作为输入,调用开源的Opencv库函数mser.detectRegions(),计算得到MSER(Maximally Stable Extremal Regions)集合,即字符候选框集合C'={c'i|i=1,2,…N2},c'i表示第i个字符候选框,N2表示字符候选框总个数,
Figure BDA0002266250820000025
为字符候选框c'i的中心点坐标;
步骤4、利用bj和c'i在图像中的几何位置关系计算文本框bj中的字符候选框集合,记为
Figure BDA0002266250820000026
Figure BDA0002266250820000027
表示第j个文本框bj中第m个字符候选框;m∈[1,Nj],Nj表示文本框bj中包含的字符候选框总个数;
步骤5、设定文本框个数计数器j初始值为1,即j=1;
步骤6、用文本框bj中的字符框集构建图Gj,Gj=(Vj,Ej):其中节点集Vj为字符候选框集,即
Figure BDA0002266250820000031
边集Ej为由各个字符候选框间计算的关系特征值;
步骤7、对图Gj进行谱聚类分割前的初始化;
步骤8、定义谱聚类类别总个数计数器变量为K,K初始化为
Figure BDA00022662508200000318
步骤9、把图Gj=(Vj,Ej)作为输入,送入谱聚类分割算法Spectral_Clustering()进行K类分割,得到K类下聚类中心集合
Figure BDA0002266250820000032
和聚类结果集合
Figure BDA0002266250820000033
其中
Figure BDA0002266250820000034
表示第p类的类中心,
Figure BDA0002266250820000035
表示第p类的字符框集合;
Figure BDA0002266250820000036
Figure BDA0002266250820000037
表示第p类分割结果中的第q个字符框,Zp表示第p类分割结果中的字符框总个数。
步骤10、把
Figure BDA0002266250820000038
Figure BDA0002266250820000039
作为输入,送入聚类评价算法Clustering_Evaluation()计算得到K类聚类结果的聚类评价指标
Figure BDA00022662508200000310
步骤11、根据评价值对最优分类结果变量进行更新:如果
Figure BDA00022662508200000311
Figure BDA00022662508200000312
否则
Figure BDA00022662508200000313
保持不变;
步骤12、谱聚类类别个数计数器K加1,即K=K+1;如果
Figure BDA00022662508200000314
进入步骤9;否则输出最优的分割结果
Figure BDA00022662508200000315
和最优的聚类个数
Figure BDA00022662508200000316
进入步骤13;
步骤13、把分割结果
Figure BDA00022662508200000317
送入OCR进行识别;
步骤14、j=j+1;如果j≤N1,进入步骤6;否则结束分割与识别。
本发明的特点还在于,
步骤4中,具体按照以下步骤实施:
步骤4.1、把bj的四个顶点
Figure BDA0002266250820000041
作为输入,调用开源的Opencv库函数minAreaRect(),计算得到bj的最小外接矩形框rboxj
步骤4.2、在Img1中矩形框rboxj的左上顶点、右上顶点、右下顶点、左下顶点分别记为
Figure BDA0002266250820000042
rboxj和Img1行方向的夹角记为αj;αj对应的反方向弧度角记为θj,θj=αj×π/180×(-1),旋转矩阵记为T,
Figure BDA0002266250820000043
步骤4.3、判断c'i是否包含于bj,具体为:
步骤4.3.1、C'中各个c'i的中心点坐标记为
Figure BDA0002266250820000044
分别以
Figure BDA0002266250820000045
为原点,以
Figure BDA0002266250820000046
为x轴正方向,以
Figure BDA0002266250820000047
为y轴正方向建立4个平面直角坐标系,分别记为XOY0、XOY1、XOY2、XOY3
步骤4.3.2、分别计算
Figure BDA0002266250820000048
Figure BDA0002266250820000049
的水平和垂直偏移量,记为
Figure BDA00022662508200000410
Figure BDA00022662508200000411
其中
Figure BDA00022662508200000412
t∈{0,1,2,3};
步骤4.3.3、根据旋转矩阵T分别计算步骤4.3.2中各偏移量在各坐标系XOY0、XOY1、XOY2、XOY3中的坐标
Figure BDA00022662508200000413
Figure BDA0002266250820000051
Figure BDA0002266250820000052
定义
Figure BDA0002266250820000053
在4个象限出现的次数变量为Qqu[0],Qqu[1],Qqu[2],Qqu[3],坐标系变量为idx,即idx=0对应坐标系XOY0,idx=1对应坐标系XOY1,idx=2对应坐标系XOY2,idx=3对应坐标系XOY3,统计
Figure BDA0002266250820000054
在坐标系各象限中出现的个数:
Qqu[0]=Qqu[1]=Qqu[2]=Qqu[3]=0
Figure BDA0002266250820000055
根据Qqu[0],Qqu[1],Qqu[2],Qqu[3]取值判断c'i是否在bj中,若Qqu[0],Qqu[1],Qqu[2],Qqu[3]四个变量都不为0,则c'i包含于当前bj中;否则,c'i不包含于当前bj中;
据此,可得到文本框bj中所有字符候选框的集合
Figure BDA00022662508200000517
步骤6中,图Gj中边集Ej构造如下:
Figure BDA0002266250820000057
其中元素wg,h表示节点
Figure BDA0002266250820000058
Figure BDA0002266250820000059
间的关系特征值,
Figure BDA00022662508200000510
Figure BDA00022662508200000511
分别表示第j个文本框bj中的第g个字符候选框和第h个字符候选框,bj左上顶点记为
Figure BDA00022662508200000512
Figure BDA00022662508200000513
的中心点记为Pg
Figure BDA00022662508200000514
的中心点记为Ph
Figure BDA00022662508200000515
Figure BDA00022662508200000516
间的中点记为Pg,h
Figure BDA0002266250820000061
g,h∈[1,Nj],其中
Figure BDA0002266250820000062
表示
Figure BDA0002266250820000063
Figure BDA0002266250820000064
中心点Pg和Ph之间的欧式距离,即
Figure BDA0002266250820000065
Figure BDA0002266250820000066
表示Pg和Ph之间包含的其它节点个数,即为Vj中统计的除了
Figure BDA0002266250820000067
Figure BDA0002266250820000068
以外的和Pg,h的欧式距离小于rg,h的节点个数,
Figure BDA0002266250820000069
Figure BDA00022662508200000610
表示
Figure BDA00022662508200000611
Figure BDA00022662508200000612
距文本框bj左上顶点的距离绝对差,
Figure BDA00022662508200000613
计算所有g,h取值情况下
Figure BDA00022662508200000614
Figure BDA00022662508200000615
的标准差,分别记为σ1、σ2、σ3
步骤7中,具体如下:
步骤7.1、对文本框bj在文本框主方向上进行直方图投影,直方图的谷底个数记为Kj,对谱聚类的类别数值范围变量Lj进行初始化,
Figure BDA00022662508200000616
其中
Figure BDA00022662508200000617
α为Lj相对Kj的偏移量;
步骤7.2、谱聚类的最优聚类结果变量
Figure BDA00022662508200000618
初始化为NULL,NULL为空集;最优聚类个数变量
Figure BDA00022662508200000619
初始化为
Figure BDA00022662508200000620
最优聚类结果的评价指标变量
Figure BDA00022662508200000621
初始化为S_DMAX,变量S_DMAX=9999.99。
步骤9中,具体如下:
步骤9.1、对图Gj=(Vj,Ej)中的Ej对应的矩阵
Figure BDA00022662508200000622
进行规范化处理得到拉普拉斯矩阵L,
Figure BDA00022662508200000623
其中D为对角阵,
Figure BDA00022662508200000624
步骤9.2、对L进行特征值分解:L=QΣQ-1,其中Σ和Q分别对应特征值和特征向量;对Σ中特征值从大到小进行排序得到Σ';取Σ'中前K个特征值在Q中对应的特征向量组成K×Nj维的矩阵L';把矩阵L'作为输入,调用开源的Opencv库函数normalize()对L'进行归一化得到L”;
步骤9.3、把矩阵L”作为输入,调用开源的Opencv库函数kmeans()对L”进行K类分割,得到聚类中心集合
Figure BDA0002266250820000071
和聚类结果集合
Figure BDA0002266250820000072
其中
Figure BDA0002266250820000073
表示第p类的类中心,
Figure BDA0002266250820000074
表示第p类字符框集合;
Figure BDA0002266250820000075
Figure BDA0002266250820000076
表示第p类分割结果中的第q个字符框,Zp表示第p类分割结果中的字符框总个数;
步骤10中,具体评价按照以下步骤实施:
步骤10.1、输入聚类中心集合
Figure BDA0002266250820000077
和聚类结果集合
Figure BDA0002266250820000078
任意两类e,f的中心分别记为
Figure BDA0002266250820000079
Figure BDA00022662508200000710
Figure BDA00022662508200000711
Figure BDA00022662508200000712
的中点记为
Figure BDA00022662508200000713
e,f∈[1,K];
步骤10.2、计算任意第p类的类内方差
Figure BDA00022662508200000714
计算
Figure BDA00022662508200000715
中所有数据的方差
Figure BDA00022662508200000716
计算类内标准差
Figure BDA00022662508200000729
Figure BDA00022662508200000717
Figure BDA00022662508200000718
步骤10.3、以任意两类e,f的中点
Figure BDA00022662508200000719
为圆心以
Figure BDA00022662508200000720
为半径的圆记为
Figure BDA00022662508200000721
以任意第p类的中心
Figure BDA00022662508200000722
为圆心以
Figure BDA00022662508200000723
为半径的圆记
Figure BDA00022662508200000724
任意两类e,f之间存在的字符框个数记为
Figure BDA00022662508200000725
任意第p类中存在的字符框个数记为
Figure BDA00022662508200000726
Figure BDA00022662508200000727
为圆
Figure BDA00022662508200000728
中统计的属于第e、f两类中的字符框个数,
Figure BDA0002266250820000081
为圆
Figure BDA0002266250820000082
中统计的属于第p类中的字符框个数;
步骤10.4、计算归一化的类间密度均值,记为
Figure BDA0002266250820000083
Figure BDA0002266250820000084
其中max()为求最大值函数。
计算归一化的类内散度均值,记为
Figure BDA0002266250820000085
Figure BDA0002266250820000086
计算聚类评价值,记为
Figure BDA0002266250820000087
Figure BDA0002266250820000088
本发明的有益效果是:
本发明首先利用文字检测网络对自然场景图像中的文字区域进行检测得到各个不同位置的文本框,在场景图像的显著图上进行MSER(Maximally Stable ExtremalRegions,最大稳定极值区域)提取得到各个独立的字符框,按照在图像中的几何位置关系提取各文本框中包含的字符框;其次,在认为各字符相当于汉字的偏旁部首或笔画的前提下,用文本框中提取的字符框集建立无向图,图中的各节点为文本框中对应的字符框,图中的边为字符框间在图像中的绝对距离、相对距离和包含的其它字符个数三种度量特征的融合特征;最后利用谱聚类对各无向图进行最优分割,最优分割的目标函数为类间密度和类内散度之和达到最小。本发明不仅利用了汉字的间架结构特点,在谱聚类字符分割上也利用了目标评价函数的最小化以实现最优分割。本发明能够对自然场景中任意方向上的汉字进行准确分割,进而提高自然场景中汉字的识别率。本发明不仅适用于任意场景中的汉字分割,也适合于场景中英文的单字母分割。
附图说明
图1是本发明一种基于谱聚类的自然场景汉字分割方法流程图;
图2是本发明一种基于谱聚类的自然场景汉字分割方法中点在四个坐标系中的关系示意图;
图3是本发明一种基于谱聚类的自然场景汉字分割方法中谱聚类分割的流程图;
图4是本发明实施例中的一幅场景图像;
图5是本发明实施例中对图4检测的文本框和字符框结果图;
图6是本发明实施例中对图4的汉字分割结果图和识别的汉字结果;
图7是本发明实施例中的另一幅场景图像;
图8是是本发明实施例中对图7检测的文本框和字符框结果图;
图9是本发明实施例中的对图7的汉字分割结果图和识别的汉字结果。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明一种基于谱聚类的自然场景汉字分割方法,如图1所示,具体按照以下步骤实施:
步骤1、在官方数据集ICDAR2017-RCTW-17、MSRA-TD500、ICDAR2017-MLT下载或拍摄一张包含汉字的彩色场景图像Img1,对Img1进行尺度变换,尺度因子为(sw,sh),其中
Figure BDA0002266250820000101
Figure BDA0002266250820000102
得到图像Img2,w'和h'分别为图像Img2的宽和高,w和h分别为图像Img1的宽和高;在本实施方案中w=800,h=600,sw=1,sh=0.96,w′=w×sw=800,h′=h×sh=576;
步骤2、把图像Img2作为输入,送入文本检测网络模型Modele2e-mlt,得到检测的文本框集合B'={b'j|j=1,2,…N1},其中N1表示文本框总个数,模型Modele2e-mlt采用Michal
Figure BDA0002266250820000105
等人2018年在Asian Conference on Computer Vision(ACCV 2108)会议上提出的名为“E2E-MLT-an Unconstrained End-to-End Method for Multi-Language SceneText”一文中的文本检测网络模型;对文本框集合B'中的各个文本框位置和大小根据尺度因子
Figure BDA0002266250820000103
进行尺度变换得到B={bj|j=1,2,…N1},bj表示Img1中检测到的第j个文本框,bj的四个顶点为
Figure BDA0002266250820000104
步骤3、把Img1作为输入,送入显著图提取算法Saliency-Processing(),计算得到显著图SImg,其中显著图提取算法Saliency-Processing()采用FuH等人2013年在IEEETransactions on Image Processing期刊第22卷第10期上提出的名为“Cluster-BasedCo-Saliency Detection”一文中的显著图提取算法;把SImg作为输入,调用开源的Opencv库函数mser.detectRegions(),计算得到MSER(Maximally Stable Extremal Regions)集合,即字符候选框集合C'={c'i|i=1,2,…N2},c'i表示第i个字符候选框,N2表示字符候选框总个数,
Figure BDA0002266250820000111
为字符候选框c'i的中心点坐标;
步骤4、利用bj和c'i在图像中的几何位置关系计算文本框bj中的字符候选框集合,记为
Figure BDA0002266250820000112
Figure BDA0002266250820000113
表示第j个文本框bj中第m个字符候选框;m∈[1,Nj],Nj表示文本框bj中包含的字符候选框总个数;
具体按照以下步骤实施:
步骤4.1、把bj的四个顶点
Figure BDA0002266250820000114
作为输入,调用开源的Opencv库函数minAreaRect(),计算得到bj的最小外接矩形框rboxj
步骤4.2、在Img1中矩形框rboxj的左上顶点、右上顶点、右下顶点、左下顶点分别记为
Figure BDA0002266250820000115
rboxj和Img1行方向的夹角记为αj;αj对应的反方向弧度角记为θj,θj=αj×π/180×(-1),旋转矩阵记为T,
Figure BDA0002266250820000116
步骤4.3、判断c'i是否包含于bj,具体为:
步骤4.3.1、C'中各个c'i的中心点坐标记为
Figure BDA0002266250820000117
分别以
Figure BDA0002266250820000118
为原点,以
Figure BDA0002266250820000119
为x轴正方向,以
Figure BDA00022662508200001110
为y轴正方向建立4个平面直角坐标系,分别记为XOY0、XOY1、XOY2、XOY3,如图2所示;
步骤4.3.2、分别计算
Figure BDA00022662508200001111
Figure BDA00022662508200001112
的水平和垂直偏移量,记为
Figure BDA00022662508200001113
Figure BDA00022662508200001114
其中
Figure BDA00022662508200001115
t∈{0,1,2,3};
步骤4.3.3、根据旋转矩阵T分别计算步骤4.3.2中各偏移量在各坐标系XOY0、XOY1、XOY2、XOY3中的坐标,记为
Figure BDA0002266250820000121
Figure BDA0002266250820000122
Figure BDA0002266250820000123
定义
Figure BDA0002266250820000124
在4个象限出现的次数变量为Qqu[0],Qqu[1],Qqu[2],Qqu[3],坐标系变量为idx,即idx=0对应坐标系XOY0,idx=1对应坐标系XOY1,idx=2对应坐标系XOY2,idx=3对应坐标系XOY3,统计
Figure BDA0002266250820000125
在坐标系各象限中出现的个数:
Qqu[0]=Qqu[1]=Qqu[2]=Qqu[3]=0;
Figure BDA0002266250820000126
根据Qqu[0],Qqu[1],Qqu[2],Qqu[3]取值判断c'i是否在bj中,若Qqu[0],Qqu[1],Qqu[2],Qqu[3]四个变量都不为0,则c'i包含于当前bj中;否则,c'i不包含于当前bj中;
据此,可得到文本框bj中包含的字符候选框集合
Figure BDA0002266250820000129
步骤5、设定文本框个数计数器j初始值为1,即j=1;
步骤6、用文本框bj中的字符框集构建图Gj,Gj=(Vj,Ej):其中节点集Vj对应字符候选框集,即
Figure BDA0002266250820000128
边集Ej为由各个字符候选框间计算的关系特征值;
图Gj中边集Ej构造如下:
Figure BDA0002266250820000131
其中元素wg,h表示节点
Figure BDA0002266250820000132
Figure BDA0002266250820000133
间的关系特征值,
Figure BDA0002266250820000134
Figure BDA0002266250820000135
为第j个文本框bj中的第g个字符候选框和第h个字符候选框,bj左上顶点记为
Figure BDA0002266250820000136
Figure BDA0002266250820000137
的中心点记为Pg
Figure BDA0002266250820000138
的中心点记为Ph
Figure BDA0002266250820000139
Figure BDA00022662508200001310
的中点记为Pg,h
Figure BDA00022662508200001311
g,h∈[1,Nj],其中
Figure BDA00022662508200001312
表示
Figure BDA00022662508200001313
Figure BDA00022662508200001314
中心点Pg和Ph的欧式距离,即
Figure BDA00022662508200001315
Figure BDA00022662508200001316
表示Pg和Ph之间包含的其它节点个数,即为Vj中统计的除了
Figure BDA00022662508200001317
Figure BDA00022662508200001318
以外的和Pg,h的欧式距离小于rg,h的节点个数,
Figure BDA00022662508200001319
Figure BDA00022662508200001320
表示
Figure BDA00022662508200001321
Figure BDA00022662508200001322
距文本框bj左上顶点的距离绝对差,
Figure BDA00022662508200001323
计算所有g,h取值情况下
Figure BDA00022662508200001324
的标准差,分别记为σ1、σ2、σ3
步骤7、对图Gj进行谱聚类分割前的初始化;
步骤7.1、对文本框bj在文本框主方向上进行直方图投影,直方图的谷底个数记为Kj,对谱聚类的类别数值范围变量Lj进行初始化,
Figure BDA00022662508200001325
其中
Figure BDA00022662508200001326
α为Lj相对Kj的偏移量;在本实施方案中α=3;
步骤7.2、谱聚类的最优聚类结果变量
Figure BDA00022662508200001327
初始化为NULL,NULL为空集;最优聚类个数变量
Figure BDA00022662508200001328
初始化为
Figure BDA00022662508200001329
最优聚类结果的评价指标变量
Figure BDA00022662508200001330
初始化为S_DMAX,变量S_DMAX=9999.99;
步骤8、定义谱聚类类别总个数计数器变量为K,K初始化为
Figure BDA00022662508200001331
步骤9、把图Gj=(Vj,Ej)作为输入,送入谱聚类分割算法Spectral_Clustering()进行K类分割,得到K类下聚类中心集合
Figure BDA0002266250820000141
和聚类结果集合
Figure BDA0002266250820000142
分割算法如图3所示,具体执行如下:
步骤9.1、对图Gj=(Vj,Ej)中的Ej对应的矩阵
Figure BDA0002266250820000143
进行规范化处理得到拉普拉斯矩阵L,
Figure BDA0002266250820000144
其中D为对角阵,
Figure BDA0002266250820000145
步骤9.2、对L进行特征值分解:L=QΣQ-1,其中Σ和Q分别对应特征值和特征向量;对Σ中特征值从大到小进行排序得到Σ';取Σ'中前K个特征值在Q中对应的特征向量组成K×Nj维的矩阵L';把矩阵L'作为输入,调用开源的Opencv库函数normalize()对L'进行归一化得到L”;
步骤9.3、把矩阵L”作为输入,调用开源的Opencv库函数kmeans()对L”进行K类分割,得到聚类中心集合
Figure BDA0002266250820000146
和聚类结果集合
Figure BDA0002266250820000147
其中
Figure BDA0002266250820000148
表示第p类的类中心,
Figure BDA0002266250820000149
表示第p类的字符框集合;
Figure BDA00022662508200001410
Figure BDA00022662508200001411
表示第p类分割结果中的第q个字符框,Zp表示第p类分割结果中的字符框总个数;
步骤10、把
Figure BDA00022662508200001412
Figure BDA00022662508200001413
作为输入,送入聚类评价算法Clustering_Evaluation()计算得到K类聚类结果的聚类评价指标
Figure BDA00022662508200001414
步骤10,具体评价按照以下步骤实施:
步骤10.1、输入聚类中心集合
Figure BDA0002266250820000151
和聚类结果集合
Figure BDA0002266250820000152
任意两类e,f的中心分别记为
Figure BDA0002266250820000153
Figure BDA0002266250820000154
e,f∈[1,K],
Figure BDA0002266250820000155
Figure BDA0002266250820000156
的中点记为
Figure BDA0002266250820000157
步骤10.2、计算任意第p类的类内方差
Figure BDA0002266250820000158
计算
Figure BDA0002266250820000159
中所有数据的方差
Figure BDA00022662508200001510
计算类内标准差
Figure BDA00022662508200001530
Figure BDA00022662508200001511
Figure BDA00022662508200001512
步骤10.3、以任意两类e,f的中点
Figure BDA00022662508200001513
为圆心以
Figure BDA00022662508200001514
为半径的圆记为
Figure BDA00022662508200001515
以任意第p类的中心
Figure BDA00022662508200001516
为圆心以
Figure BDA00022662508200001517
为半径的圆记
Figure BDA00022662508200001518
任意两类e,f之间存在的字符框个数记为
Figure BDA00022662508200001519
任意任意第p类中存在的字符框个数记为
Figure BDA00022662508200001520
Figure BDA00022662508200001521
为圆
Figure BDA00022662508200001522
中统计的属于第e和第f两类中的字符框个数,
Figure BDA00022662508200001523
为圆
Figure BDA00022662508200001524
中统计的属于第p类中的字符框个数;
步骤10.4、计算归一化的类间密度均值,记为
Figure BDA00022662508200001525
Figure BDA00022662508200001526
其中max()为求最大值函数。
计算归一化的类内散度均值,记为
Figure BDA00022662508200001527
Figure BDA00022662508200001528
计算聚类评价值,记为
Figure BDA00022662508200001529
Figure BDA0002266250820000161
步骤11、根据评价值对最优分类结果变量进行更新:如果
Figure BDA0002266250820000162
Figure BDA0002266250820000163
否则
Figure BDA0002266250820000164
保持不变;
步骤12、谱聚类类别个数计数器K加1,即K=K+1;如果
Figure BDA0002266250820000165
进入步骤9;否则输出最优的分割结果
Figure BDA0002266250820000166
和最优的聚类个数
Figure BDA0002266250820000167
进入步骤13;
步骤13、把分割结果
Figure BDA0002266250820000168
送入OCR进行识别,其中OCR采用了Google公司开发的Tesseract-OCR下的OCR识别引擎;
步骤14、j=j+1;如果j≤N1,进入步骤6;否则结束分割与识别。
实施例
本发明从测试数据集中挑选出含有汉字的图片,采用本发明的方法进行文字分割和识别,图4表示一个包含汉字的场景图像,图5表示在图4中检测到的文本框和字符框结果图,虚线框是文本框,实线框是字符框,图6表示对图4采用本发明得到的汉字分割结果图和识别的汉字结果,灰色框是分割结果,白色框是识别结果;图7表示另一个包含汉字的场景图像,图8表示在图7中检测到的文本框和字符框结果图,虚线框是文本框,实线框是字符框,图9表示对图7采用本发明得到的汉字分割结果图和识别的汉字结果,灰色框是分割结果,白色框是识别结果。
通过字符识别率对本发明的汉字分割效果进行评价,评价结果如表1所示:
表1汉字识别率评价结果表
Figure BDA0002266250820000171
由表1可知,本发明在多个数据集上的汉字识别率结果都很高,本发明可以应用于不同场景、不同远近、不同方向、不同大小、不同颜色的汉字分割和识别。

Claims (6)

1.一种基于谱聚类的自然场景汉字分割方法,其特征在于,具体按照以下步骤实施:
步骤1、在官方数据集ICDAR2017-RCTW-17、MSRA-TD500、ICDAR2017-MLT下载或拍摄一张包含汉字的彩色场景图像Img1,对Img1进行尺度变换,尺度因子为(sw,sh),其中
Figure FDA0002266250810000011
Figure FDA0002266250810000012
得到图像Img2,w'和h'分别为图像Img2的宽和高,w和h分别为图像Img1的宽和高;
步骤2、把图像Img2作为输入,送入文本检测网络模型Modele2e-mlt,得到检测的文本框集合B'={b'j|j=1,2,…N1},其中N1表示文本框总个数,对文本框集合B'中的各个文本框位置和大小根据尺度因子
Figure FDA0002266250810000013
进行尺度变换得到B={bj|j=1,2,…N1},bj表示Img1中检测到的第j个文本框,bj的四个顶点为
Figure FDA0002266250810000014
步骤3、把Img1作为输入,送入显著图提取算法Saliency-Processing(),计算得到显著图SImg,把SImg作为输入,调用开源的Opencv库函数mser.detectRegions(),计算得到MSER集合,即字符候选框集合C'={c'i|i=1,2,…N2},c'i表示第i个字符候选框,N2表示字符候选框总个数,
Figure FDA0002266250810000015
为字符候选框c'i的中心点坐标;
步骤4、利用bj和c'i在图像中的几何位置关系计算文本框bj中的字符候选框集合,记为
Figure FDA0002266250810000016
Figure FDA0002266250810000017
表示第j个文本框bj中第m个字符候选框;m∈[1,Nj],Nj表示文本框bj中包含的字符候选框总个数;
步骤5、设定文本框个数计数器j初始值为1,即j=1;
步骤6、用文本框bj中的字符框集构建图Gj,Gj=(Vj,Ej):其中节点集Vj为字符候选框集,即
Figure FDA0002266250810000021
边集Ej为由各个字符候选框间计算的关系特征值;
步骤7、对图Gj进行谱聚类分割前的初始化;
步骤8、定义谱聚类类别总个数计数器变量为K,K初始化为
Figure FDA0002266250810000022
步骤9、把图Gj=(Vj,Ej)作为输入,送入谱聚类分割算法Spectral_Clustering()进行K类分割,得到K类下聚类中心集合
Figure FDA0002266250810000023
和聚类结果集合
Figure FDA0002266250810000024
其中
Figure FDA0002266250810000025
表示第p类的类中心点,
Figure FDA0002266250810000026
表示第p类的字符框集合;
Figure FDA0002266250810000027
Figure FDA0002266250810000028
表示第p类分割结果中的第q个字符框,Zp表示第p类分割结果中的字符框总个数;
步骤10、把
Figure FDA0002266250810000029
Figure FDA00022662508100000210
作为输入,送入聚类评价算法Clustering_Evaluation()计算得到K类聚类结果的聚类评价指标
Figure FDA00022662508100000211
步骤11、根据评价值对最优分类结果变量进行更新:如果
Figure FDA00022662508100000212
Figure FDA00022662508100000213
否则
Figure FDA00022662508100000214
保持不变;
步骤12、谱聚类类别个数计数器K加1,即K=K+1;如果
Figure FDA00022662508100000215
进入步骤9;否则输出最优的分割结果
Figure FDA00022662508100000216
和最优的聚类个数
Figure FDA00022662508100000217
进入步骤13;
步骤13、把分割结果
Figure FDA0002266250810000031
送入OCR进行识别;
步骤14、j=j+1;如果j≤N1,进入步骤6;否则结束分割与识别。
2.根据权利要求1所述的一种基于谱聚类的自然场景汉字分割方法,其特征在于,所述步骤4中,具体按照以下步骤实施:
步骤4.1、把bj的四个顶点
Figure FDA0002266250810000032
作为输入,调用开源的Opencv库函数minAreaRect(),计算得到bj的最小外接矩形框rboxj
步骤4.2、在Img1中矩形框rboxj的左上顶点、右上顶点、右下顶点、左下顶点分别记为
Figure FDA0002266250810000033
rboxj和Img1行方向的夹角记为αj;αj对应的反方向弧度角记为θj,θj=αj×π/180×(-1),旋转矩阵记为T,
Figure FDA0002266250810000034
步骤4.3、判断c'i是否包含于bj,具体为:
步骤4.3.1、C'中各个c'i的中心点坐标记为
Figure FDA0002266250810000035
分别以
Figure FDA0002266250810000036
为原点,以
Figure FDA0002266250810000037
为x轴正方向,以
Figure FDA0002266250810000038
为y轴正方向建立4个平面直角坐标系,分别记为XOY0、XOY1、XOY2、XOY3
步骤4.3.2、分别计算
Figure FDA0002266250810000039
Figure FDA00022662508100000310
的水平和垂直偏移量,记为
Figure FDA00022662508100000311
Figure FDA00022662508100000312
其中
Figure FDA00022662508100000313
t∈{0,1,2,3};
步骤4.3.3、根据旋转矩阵Ro分别计算步骤4.3.2中各偏移量在各坐标系XOY0、XOY1、XOY2、XOY3中的坐标
Figure FDA00022662508100000314
Figure FDA0002266250810000041
Figure FDA0002266250810000042
定义
Figure FDA0002266250810000043
在4个象限出现的次数变量为Qqu[0],Qqu[1],Qqu[2],Qqu[3],坐标系变量为idx,即idx=0对应坐标系XOY0,idx=1对应坐标系XOY1,idx=2对应坐标系XOY2,idx=3对应坐标系XOY3,统计
Figure FDA0002266250810000044
在坐标系各象限中出现的个数:
Figure FDA0002266250810000045
根据Qqu[0],Qqu[1],Qqu[2],Qqu[3]的取值判断c'i是否在bj中,若Qqu[0],Qqu[1],Qqu[2],Qqu[3]四个变量都不为0,则认为c'i包含于当前bj中;否则,认为c'i不包含于当前bj中;
据此,可得到文本框bj中所有字符候选框的集合
Figure FDA0002266250810000046
m∈[1,Nj]。
3.根据权利要求1所述的一种基于谱聚类的自然场景汉字分割方法,其特征在于,所述步骤6中,图Gj中边集Ej构造如下:
Figure FDA0002266250810000047
其中元素wg,h表示节点
Figure FDA0002266250810000048
Figure FDA0002266250810000049
间的关系特征值,
Figure FDA00022662508100000410
Figure FDA00022662508100000411
分别表示第j个文本框bj中的第g个字符候选框和第h个字符候选框,bj左上顶点记为
Figure FDA0002266250810000051
Figure FDA0002266250810000052
的中心点记为Pg
Figure FDA0002266250810000053
的中心点记为Ph
Figure FDA0002266250810000054
Figure FDA00022662508100000527
的中点记为Pg,h
Figure FDA0002266250810000055
g,h∈[1,Nj],其中
Figure FDA0002266250810000056
表示
Figure FDA0002266250810000057
Figure FDA0002266250810000058
中心点Pg和Ph之间的欧式距离,即
Figure FDA0002266250810000059
Figure FDA00022662508100000510
表示Pg和Ph之间包含的其它节点个数,即为Vj中统计的除了
Figure FDA00022662508100000511
Figure FDA00022662508100000512
以外的和Pg,h的欧式距离小于rg,h的节点个数,
Figure FDA00022662508100000513
Figure FDA00022662508100000514
表示
Figure FDA00022662508100000515
Figure FDA00022662508100000516
距文本框bj左上顶点的距离绝对差,
Figure FDA00022662508100000517
计算所有g,h取值情况下
Figure FDA00022662508100000518
的标准差,分别记为σ1、σ2、σ3
4.根据权利要求1所述的一种基于谱聚类的自然场景汉字分割方法,其特征在于,所述步骤7中,具体如下:
步骤7.1、对文本框bj在文本框主方向上进行直方图投影,直方图的谷底个数记为Kj,对谱聚类的类别数值范围变量Lj进行初始化,
Figure FDA00022662508100000519
其中
Figure FDA00022662508100000520
α为Lj相对Kj的偏移量;
步骤7.2、谱聚类的最优聚类结果变量
Figure FDA00022662508100000521
初始化为NULL,NULL为空集;最优聚类个数变量
Figure FDA00022662508100000522
初始化为
Figure FDA00022662508100000523
最优聚类结果的评价指标变量
Figure FDA00022662508100000524
初始化为S_DMAX,变量S_DMAX=9999.99。
5.根据权利要求1所述的一种基于谱聚类的自然场景汉字分割方法,其特征在于,所述步骤9中,具体如下:
步骤9.1、对图Gj=(Vj,Ej)中的Ej对应的矩阵
Figure FDA00022662508100000525
进行规范化处理得到拉普拉斯矩阵L,
Figure FDA00022662508100000526
其中D为对角阵,
Figure FDA0002266250810000061
步骤9.2、对L进行特征值分解:L=QΣQ-1,其中Σ和Q分别对应特征值和特征向量;对Σ中特征值从大到小进行排序得到Σ';取Σ'中前K个特征值在Q中对应的特征向量组成K×Nj维的矩阵L';把矩阵L'作为输入,调用开源的Opencv库函数normalize()对L'进行归一化得到L”;
步骤9.3、把矩阵L”作为输入,调用开源的Opencv库函数kmeans()对L”进行K类分割,得到聚类中心集合
Figure FDA0002266250810000062
和聚类结果集合
Figure FDA0002266250810000063
其中
Figure FDA0002266250810000064
表示第p类的类中心,
Figure FDA0002266250810000065
表示第p类字符框集合;
Figure FDA0002266250810000066
Figure FDA0002266250810000067
表示第p类分割结果中的第q个字符框,Zp表示第p类分割结果中的字符框总个数。
6.根据权利要求1所述的一种基于谱聚类的自然场景汉字分割方法,其特征在于,所述步骤10中,具体评价按照以下步骤实施:
步骤10.1、输入聚类中心集合
Figure FDA0002266250810000068
和聚类结果集合
Figure FDA0002266250810000069
任意两类e,f的中心分别记为
Figure FDA00022662508100000610
Figure FDA00022662508100000611
e,f∈[1,K],
Figure FDA00022662508100000612
Figure FDA00022662508100000613
的中点记为
Figure FDA00022662508100000614
步骤10.2、计算任意第p类的类内方差
Figure FDA00022662508100000615
计算
Figure FDA00022662508100000616
中所有数据的方差
Figure FDA00022662508100000617
计算类内标准差
Figure FDA00022662508100000618
Figure FDA00022662508100000619
1≤p≤K;
步骤10.3、以任意两类e,f的中点
Figure FDA0002266250810000071
为圆心以
Figure FDA0002266250810000072
为半径的圆记为
Figure FDA0002266250810000073
以任意第p类的中心
Figure FDA0002266250810000074
为圆心以
Figure FDA0002266250810000075
为半径的圆记
Figure FDA0002266250810000076
任意两类e,f之间存在的字符框个数记为
Figure FDA0002266250810000077
任意第p类中存在的字符框个数记为
Figure FDA0002266250810000078
Figure FDA0002266250810000079
为圆
Figure FDA00022662508100000710
中统计的属于第e和第f两类中的字符框个数,
Figure FDA00022662508100000711
为圆
Figure FDA00022662508100000712
中统计的属于第p类中的字符框个数;
步骤10.4、计算归一化的类间密度均值
Figure FDA00022662508100000713
Figure FDA00022662508100000714
计算归一化的类内散度均值
Figure FDA00022662508100000715
Figure FDA00022662508100000716
计算聚类评价变量
Figure FDA00022662508100000717
Figure FDA00022662508100000718
CN201911088817.8A 2019-11-08 2019-11-08 一种基于谱聚类的自然场景汉字分割方法 Active CN111062393B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088817.8A CN111062393B (zh) 2019-11-08 2019-11-08 一种基于谱聚类的自然场景汉字分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088817.8A CN111062393B (zh) 2019-11-08 2019-11-08 一种基于谱聚类的自然场景汉字分割方法

Publications (2)

Publication Number Publication Date
CN111062393A CN111062393A (zh) 2020-04-24
CN111062393B true CN111062393B (zh) 2021-12-17

Family

ID=70297902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088817.8A Active CN111062393B (zh) 2019-11-08 2019-11-08 一种基于谱聚类的自然场景汉字分割方法

Country Status (1)

Country Link
CN (1) CN111062393B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112200181B (zh) * 2020-08-19 2023-10-10 西安理工大学 一种基于粒子群优化算法的文字形状逼近方法
CN112183523A (zh) * 2020-12-02 2021-01-05 北京云测信息技术有限公司 一种文本检测方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750540A (zh) * 2012-06-12 2012-10-24 大连理工大学 基于形态滤波增强的最稳定极值区视频文本检测方法
US9430840B1 (en) * 2015-07-23 2016-08-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting an image based on motion vanishing points
CN107301414A (zh) * 2017-06-23 2017-10-27 厦门商集企业咨询有限责任公司 一种自然场景图像中的中文定位、分割和识别方法
CN109657611A (zh) * 2018-12-19 2019-04-19 河南科技大学 一种用于人脸识别的自适应图正则化非负矩阵分解方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102750540A (zh) * 2012-06-12 2012-10-24 大连理工大学 基于形态滤波增强的最稳定极值区视频文本检测方法
US9430840B1 (en) * 2015-07-23 2016-08-30 Mitsubishi Electric Research Laboratories, Inc. Method and system for segmenting an image based on motion vanishing points
CN107301414A (zh) * 2017-06-23 2017-10-27 厦门商集企业咨询有限责任公司 一种自然场景图像中的中文定位、分割和识别方法
CN109657611A (zh) * 2018-12-19 2019-04-19 河南科技大学 一种用于人脸识别的自适应图正则化非负矩阵分解方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
An efficient Video Dehazing Algorithm Based on Spectral Clustering;zhaofan et al.;《KSII TRANSACTIONS ON INTERNET AND INFORMATION SYSTEMS》;20180731;第12卷(第7期);全文 *
Textsnake:a flexcible representation for detecting text of arbitrary shapes;Long S et al.;《Proceedings of European Conference on Computer Vision》;20181231;全文 *

Also Published As

Publication number Publication date
CN111062393A (zh) 2020-04-24

Similar Documents

Publication Publication Date Title
Sun et al. Research on the hand gesture recognition based on deep learning
CN106682598B (zh) 一种基于级联回归的多姿态的人脸特征点检测方法
Yuan et al. Robust traffic sign recognition based on color global and local oriented edge magnitude patterns
US9824294B2 (en) Saliency information acquisition device and saliency information acquisition method
Payet et al. From contours to 3d object detection and pose estimation
WO2022121039A1 (zh) 银行卡倾斜矫正检测方法、装置、可读存储介质和终端
Yuan et al. Traffic sign detection via graph-based ranking and segmentation algorithms
CN108154157B (zh) 一种基于集成的快速谱聚类方法
Zhu et al. An optimization approach for localization refinement of candidate traffic signs
Cai et al. Traffic sign recognition algorithm based on shape signature and dual-tree complex wavelet transform
CN105046278B (zh) 基于Haar特征的Adaboost检测算法的优化方法
CN110991389A (zh) 判断目标行人在非重叠相机视角中出现的匹配方法
CN111062393B (zh) 一种基于谱聚类的自然场景汉字分割方法
CN112101208A (zh) 高龄老人特征串联融合手势识别方法及装置
CN108509925A (zh) 一种基于视觉词袋模型的行人重识别方法
Fang et al. Detecting Uyghur text in complex background images with convolutional neural network
Zhu et al. Single image pop-up from discriminatively learned parts
CN109325487B (zh) 一种基于目标检测的全种类车牌识别方法
CN104680189A (zh) 基于改进词袋模型的不良图像检测方法
Wang et al. Lip segmentation with the presence of beards
Liu et al. An effective graph-cut scene text localization with embedded text segmentation
CN112329798B (zh) 一种基于优化视觉词袋模型的图像场景分类方法
CN111881732B (zh) 一种基于svm的人脸质量评价方法
CN110968735B (zh) 一种基于球面相似度层次聚类的无监督行人重识别方法
Özgür et al. Lip segmentation using adaptive color space training

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20220804

Address after: Room 35187, building 3, No. 1800, Panyuan Road, Changxing Town, Chongming District, Shanghai 202150 (Shanghai Taihe Economic Development Zone)

Patentee after: Shanghai Oubei Industrial Co.,Ltd.

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Patentee before: XI'AN University OF TECHNOLOGY

Effective date of registration: 20220804

Address after: Room 1205-A132, No. 968, 128 Memorial Road, Baoshan District, Shanghai, 201900

Patentee after: SHANGHAI HUDUN INFORMATION TECHNOLOGY Co.,Ltd.

Address before: Room 35187, building 3, No. 1800, Panyuan Road, Changxing Town, Chongming District, Shanghai 202150 (Shanghai Taihe Economic Development Zone)

Patentee before: Shanghai Oubei Industrial Co.,Ltd.

TR01 Transfer of patent right