CN107273863A - 一种基于语义笔画池化的场景文字识别方法 - Google Patents
一种基于语义笔画池化的场景文字识别方法 Download PDFInfo
- Publication number
- CN107273863A CN107273863A CN201710475824.8A CN201710475824A CN107273863A CN 107273863 A CN107273863 A CN 107273863A CN 201710475824 A CN201710475824 A CN 201710475824A CN 107273863 A CN107273863 A CN 107273863A
- Authority
- CN
- China
- Prior art keywords
- stroke
- semantic
- scene
- image
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 33
- 238000012549 training Methods 0.000 claims abstract description 78
- 239000013598 vector Substances 0.000 claims abstract description 33
- 238000012360 testing method Methods 0.000 claims abstract description 8
- 239000000203 mixture Substances 0.000 claims description 10
- 238000011176 pooling Methods 0.000 claims description 9
- 230000004044 response Effects 0.000 claims description 9
- 238000013145 classification model Methods 0.000 claims description 6
- 238000001514 detection method Methods 0.000 claims description 6
- 238000007781 pre-processing Methods 0.000 claims description 6
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 claims description 3
- 238000005516 engineering process Methods 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012015 optical character recognition Methods 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005286 illumination Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000009394 selective breeding Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/224—Character recognition characterised by the type of writing of printed characters having additional code marks or containing code marks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
- G06V30/2268—Character recognition characterised by the type of writing of cursive writing using stroke segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/30—Writer recognition; Reading and verifying signatures
- G06V40/37—Writer recognition; Reading and verifying signatures based only on signature signals such as velocity or pressure, e.g. dynamic signature recognition
- G06V40/382—Preprocessing; Feature extraction
- G06V40/388—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/43—Editing text-bitmaps, e.g. alignment, spacing; Semantic analysis of bitmaps of text without OCR
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Probability & Statistics with Applications (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本发明实施例公开了一种基于语义笔画池化的场景文字识别方法,该方法包括以下步骤:输入场景文字图像进行预处理,得到训练场景文字图像;对训练场景文字图像进行关键点标记,得到判别性笔画;利用判别性笔画得到笔画检测器和语义因子;利用笔画检测器和语义因子得到对应图像的语义置信向量;基于语义置信向量训练得到场景文字识别分类模型;获取测试场景文字图像的语义置信向量,输入场景文字识别分类模型得到场景文字识别结果。本发明通过笔画检测器和语义因子进行语义置信向量表示,能够将最重要的特征信息和语义信息有效的结合在语义置信向量中,达到有效挖掘显著特征信息和笔画空间信息的目的,从而提高场景文字识别的正确率。
Description
技术领域
本发明属于模式识别技术领域,具体涉及一种基于语义笔画池化的场景文字识别方法。
背景技术
随着互联网的迅猛发展和装配摄像头的移动终端的广泛应用,图像和视频数量出现了快速的增长。这给人们的生活带来巨大便利的同时也带来了一个亟待解决的巨大的应用需求的问题:如何使计算机能够像人脑那样自动地理解这些图像和视频的高层语义信息,从而能够凭借自己强大的计算性能和存储能力帮助人类管理和使用这些海量的图像和视频。图像和视频一般是以像素点颜色值的方式存储,像素值无法直接承载高层语义信息。而图像和视频中的文字直接承载了高层语义信息,并且文字信息也更容易被计算机理解和掌握,所以正确的识别图像和视频中的文字是理解图像和视频内容至关重要的一步。
一个图像和视频中文字自动识别系统可以应用在许多领域,如图像和视频检索,智能交通,安防监控,实时翻译,人机交互等领域。在实际应用中,由于场景文字会受到不均匀的光照、失真、复杂的背景、噪声、模糊等外界因素的影响,场景文字识别仍是一个很有挑战性的研究方向。
近几十年场景文字识别被广泛研究,一些早期的方法利用光学字符识别技术进行场景文字识别。但是,光学字符识别技术存在很大的局限性,比如难以进行场景文字图像二值化操作。近年来,大量场景文字识别的方法被提出,并取得了较大的进步。其中,最有代表性的工作是基于目标识别的场景文字识别方法。基于目标识别的场景文字识别方法跳过了场景文字图像二值化过程并且把每个场景文字看作是一个特殊的目标,其在模式识别领域取得了一定的成功。如:Wang等人使用卷积神经网络进行场景文本识别,并在使用大量训练样本的前提下取得了较好的识别效果。Zhang等人使用最大化池将本地特征投影到全局决策。Shi等人使用多尺度笔画检测器来进行特征表示。虽然这些方法取得了一定的成效,但是还是存在一定的缺陷。平均池会使最终的特征向量缺乏判别性,因为最终的特征向量受经常(不经常)出现的特征影响大(小),而判别性与特征出现的频率没有直接的关系。最大化池会忽略其他比较重要的特征信息,而且如果最大响应值为噪声,则分类准确率将会大大下降。因此,为了解决这些问题,Murray等人提出generalized max pooling(GMP)来平衡经常出现的特征和不经常出现的特征对最终的特征向量的影响。Hoai等人提出regularized max pooling(RMP)来学习多个部件的判别性和可变性。Hu等人结合平均抽取和最大化抽取来进行特征表示。Wei等人提出region ranking SVM(RRSVM)来探索图像本地区域间的相关性。虽然以上方法取得了较大的成功,但是在池化过程中,他们没有完全的考虑笔画的结构信息,这会导致场景文字识别准确率下降。
发明内容
本发明的目的是要解决笔画结构信息对场景文字识别结果影响较大的技术问题,为此,本发明提供一种基于语义笔画池化的场景文字识别方法。
为了实现所述目的,本发明提出一种基于语义笔画池化的场景文字识别方法,所述方法包括以下步骤:
步骤S1,对输入场景文字图像进行预处理,得到训练场景文字图像;
步骤S2,对所述训练场景文字图像分别进行关键点标记,并基于关键点得到判别性笔画Strokeij,其中,Strokeij表示第i类训练场景文字图像中的第j个判别性笔画;
步骤S3,利用所有训练场景文字图像的判别性笔画,训练得到笔画检测器和相应的语义因子;
步骤S4,利用笔画检测器和语义因子,得到每幅训练场景文字图像对应的语义置信向量;
步骤S5,基于所述训练场景文字图像的语义置信向量,训练得到场景文字识别分类模型;
步骤S6,获取测试场景文字图像的笔画检测器和语义因子,进而得到所述测试场景文字图像的语义置信向量,将其输入至所述场景文字识别分类模型得到场景文字识别结果。
可选地,所述步骤S1中,对输入场景文字图像进行预处理包括以下步骤:
步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;
步骤S12,将所述灰度场景文字图像的大小归一化为H×W,并将归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。
可选地,所述步骤S2包括以下步骤:
步骤S21,获取每幅训练场景文字图像的类别标签,并对每幅训练场景文字图像进行关键点标记,其中,所述关键点覆盖每幅训练场景文字图像中文字的主要结构;
步骤S22,根据标记的关键点,对每类训练场景文字图像进行判别性笔画选取,并将判别性笔画记为Strokeij,其中,Strokeij表示第i类训练场景文字图像中的第j个判别性笔画。
可选地,每一类训练场景文字图像所标记的关键点数量相同。
可选地,所述步骤S3包括以下步骤:
步骤S31,利用判别性笔画Strokeij,训练得到笔画检测器Sij,其中,Sij表示第i类训练场景文字图像中的第j个笔画检测器;
步骤S32,利用判别性笔画Strokeij,学习得到语义因子γij,其中,γij表示第i类训练场景文字图像中的第j个语义因子。
可选地,所述步骤S31包括以下步骤:
步骤S311,在第i类训练场景文字图像中任意选取一幅图像,得到包含与Strokeij中相同关键点的最小矩形,并将这个最小矩形延拓为得到笔画检测器Sij的一个正样本,其中,和分别表示正样本的高度和宽度;
步骤S312,在其他类别的任意两幅训练场景文字图像中选取负样本,得到与所述正样本大小和位置相同的两个负样本;
步骤S313,按照所述步骤S311-S312获取预定比例的正样本和负样本,并将所有的正样本和负样本进行归一化处理;
步骤S314,将每个正样本和负样本表示成为一个HOG特征向量;
步骤S315,基于所述正负样本的HOG特征向量,训练得到第i类的第j个笔画检测器Sij,所有的笔画检测器组成笔画检测器集。
可选地,所述步骤S32包括以下步骤:
步骤S321,获取所述步骤S313中所有正样本的位置信息;
步骤S322,基于所有正样本的位置信息,利用混合高斯模型,得到判别性笔画Strokeij的语义因子γij,其中,γij表示第i类训练场景文字图像中的第j个语义因子。
可选地,所述步骤S4包括以下步骤:
步骤S41,获取包含所述步骤S313中所有正样本的最小矩形区域,并将其延拓为在每幅训练场景文字图像的相同位置界定高度为宽度为的矩形,得到判别性笔画Strokeij的响应区域R;
步骤S42,在判别性笔画Strokeij的响应区域内,密集抽取图像块a,其中,a∈{1,2,···,h},h为响应区域内抽取的图像块的总数;
步骤S43,将笔画检测器Sij应用于所有的图像块,得到检测得分Oij=(Oij1,Oij2,···,Oijh),其中,Oij是检测得分集,Oijh是第h个图像块的检测得分;
步骤S44,基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Strokeij,得到所有图像块的语义因子,进而得到语义因子集γij=(γij1,γij2,···,γijh),其中,γij是语义因子集,γijh是第h个图像块的语义因子;
步骤S45,基于得到的笔画检测器和语义因子,获取一幅训练场景文字图像的语义置信向量C。
可选地,所述步骤S44中,基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Strokeij,利用混合高斯模型得到所有图像块的语义因子。
可选地,语义置信向量C表示为:
C=(C11,C12,···,C1j,···,C21,C22,···,C2j,···,Cn1,Cn2,···,Cnj,···),
其中,Cij表示判别性笔画Strokeij的语义置信得分。
本发明的有益效果为:本发明通过笔画检测器和语义因子进行语义置信向量表示,能够将最重要的特征信息和语义信息有效的结合在语义置信向量中,达到有效挖掘显著特征信息和空间信息的目的,从而提高场景文字识别的正确率。
需要说明的是,本发明得到了国家自然科学基金项目No.61501327、No.61401309、No.61401310、天津市自然科学基金重点项目No.17JCZDJC30600、天津市应用基础与前沿技术研究计划青年基金项目No.15JCQNJC01700、天津师范大学博士基金项目No.5RL134、No.52XB1405的资助。
附图说明
图1是根据本发明一实施例提出的一种基于语义笔画池化的场景文字识别方法的流程图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
图1是根据本发明一实施例提出的一种基于语义笔画池化的场景文字识别方法的流程图,下面以图1为例来说明本发明的一些具体实现流程。本发明的方法是一种基于语义笔画池化的场景文字识别方法,其具体步骤包括:
步骤S1,对输入场景文字图像进行预处理,得到训练场景文字图像;
其中,所述对输入场景文字图像进行预处理包括以下步骤:
步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;
步骤S12,将所述灰度场景文字图像的大小归一化为H×W,并将归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。
在本发明一实施例中,所述灰度场景文字图像的大小归一化为64×32,其中,64和32分别表示灰度场景文字图像的高度和宽度。
步骤S2,对所述训练场景文字图像分别进行关键点标记,并基于关键点得到判别性笔画Strokeij,其中,Strokeij表示第i类训练场景文字图像中的第j个判别性笔画;
进一步地,所述步骤S2包括以下步骤:
步骤S21,获取每幅训练场景文字图像的类别标签,并对每幅训练场景文字图像进行关键点标记,其中,所述关键点要求能够覆盖每幅训练场景文字图像中文字的主要结构;
在本发明一实施例中,每一类训练场景文字图像所标记的关键点数量相同。
步骤S22,根据标记的关键点,对每类训练场景文字图像进行判别性笔画选取,并将判别性笔画记为Strokeij,其中,Strokeij表示第i类训练场景文字图像中的第j个判别性笔画。
其中,所述判别性笔画是一个至少包含两个关键点的矩形区域,在训练阶段,为人为选取获得。
在本发明一实施例中,每类训练场景文字图像中选取的判别性笔画数为6~18,比如15。
步骤S3,利用所有训练场景文字图像的判别性笔画,训练得到笔画检测器和相应的语义因子;
进一步地,所述步骤S3包括以下步骤:
步骤S31,利用判别性笔画Strokeij,训练得到笔画检测器Sij,其中,Sij表示第i类训练场景文字图像中的第j个笔画检测器;
进一步地,所述步骤S31包括以下步骤:
步骤S311,在第i类训练场景文字图像中任意选取一幅图像,得到包含与Strokeij中相同关键点的最小矩形,并将这个最小矩形延拓为得到笔画检测器Sij的一个正样本,其中,和分别表示正样本的高度和宽度;
步骤S312,在其他类别的任意两幅训练场景文字图像中选取负样本,得到与所述正样本大小和位置相同的两个负样本;
在本发明一实施例中,所述负样本是在其他类别的训练场景文字图像中随机选取得到的。
步骤S313,按照所述步骤S311-S312获取预定比例的正样本和负样本,并将所有的正样本和负样本进行归一化处理;
在本发明一实施例中,正样本与负样本的数量比值为:1:2。
在本发明一实施例中,将所述正样本和负样本归一化为16×16。
步骤S314,将每个正样本和负样本表示成为一个比如36维的HOG特征向量;
步骤S315,基于所述正负样本的HOG特征向量,比如利用线性支持向量机,训练得到第i类的第j个笔画检测器Sij,所有的笔画检测器组成笔画检测器集。
其中,所述笔画检测器集表示为:
S=(S11,S12,···,S1j,···,S21,S22,···,S2j,···,Sn1,Sn2,···,Snj,···),
其中,S表示所有笔画检测器的集合,n表示场景文字图像的类别总数,Snj表示第n类的第j个笔画检测器。
步骤S32,利用判别性笔画Strokeij,学习得到语义因子γij,其中,γij表示第i类训练场景文字图像中的第j个语义因子。
进一步地,所述步骤S32包括以下步骤:
步骤S321,获取所述步骤S313中所有正样本的位置信息;
步骤S322,基于所有正样本的位置信息,利用混合高斯模型,得到判别性笔画Strokeij的语义因子γij,其中,γij表示第i类训练场景文字图像中的第j个语义因子。
其中,所述混合高斯模型表示为:
其中,P(lij|Strokeij)表示判别性笔画Strokeij出现在位置lij的概率,K是混合高斯模型中高斯成分的数目,Bijk表示第k个高斯成分的权重,ηijk(lij,μijk,σijk)表示高斯概率密度函数,它定义为:
其中,d是位置lij的维度,μijk和σijk分别是第k个高斯成分的均值和协方差矩阵。
P(lij|Strokeij)反应了判别性笔画Strokeij和位置lij之间的空间关系,本实施例中,将其定义为语义因子γij,其中,位置指的是某一个对象所在区域左上角的位置。
上述语义因子γij利用混合高斯模型建立了判别性笔画Strokeij和位置lij之间的空间关系。在混合高斯模型中,高斯成分的数目K可以设置为3,位置lij的维度可以设置为2。
步骤S4,利用笔画检测器和语义因子,得到每幅训练场景文字图像对应的语义置信向量;
进一步地,所述步骤S4包括以下步骤:
步骤S41,获取包含所述步骤S313中所有正样本的最小矩形区域,并将其延拓为(延拓值可取为1.5),在每幅训练场景文字图像的相同位置界定高度为宽度为的矩形,得到判别性笔画Strokeij的响应区域R;
步骤S42,在判别性笔画Strokeij的响应区域内,密集抽取图像块a(a∈{1,2,···,h}),其中,h为响应区域内抽取的图像块的总数;
步骤S43,将笔画检测器Sij应用于所有的图像块,得到检测得分Oij=(Oij1,Oij2,···,Oijh),其中,Oij是检测得分集,Oijh是第h个图像块的检测得分;
步骤S44,基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Strokeij,得到所有图像块的语义因子,进而得到语义因子集γij=(γij1,γij2,···,γijh),其中,γij是语义因子集,γijh是第h个图像块的语义因子;
在本发明一实施例中,基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Strokeij,利用混合高斯模型得到所有图像块的语义因子。
步骤S45,基于得到的笔画检测器和语义因子,获取一幅训练场景文字图像的语义置信向量C:
C=(C11,C12,···,C1j,···,C21,C22,···,C2j,···,Cn1,Cn2,···,Cnj,···),
其中,Cij表示判别性笔画Strokeij的语义置信得分。
步骤S5,基于所述训练场景文字图像的语义置信向量,比如利用线性支持向量机进行训练,得到场景文字识别分类模型;
步骤S6,获取测试场景文字图像的笔画检测器和语义因子,进而得到所述测试场景文字图像的语义置信向量,将其输入至所述场景文字识别分类模型得到场景文字识别结果。
以网上公开的场景文字图像数据库作为测试对象,比如在ICDAR2003数据库上,当K=3,每类训练场景文字图像的判别性笔画数目为15时,场景文字识别的正确率为84.1%,由此可见本发明方法的有效性。
应当理解的是,本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (10)
1.一种基于语义笔画池化的场景文字识别方法,其特征在于,所述方法包括以下步骤:
步骤S1,对输入场景文字图像进行预处理,得到训练场景文字图像;
步骤S2,对所述训练场景文字图像分别进行关键点标记,并基于关键点得到判别性笔画Strokeij,其中,Strokeij表示第i类训练场景文字图像中的第j个判别性笔画;
步骤S3,利用所有训练场景文字图像的判别性笔画,训练得到笔画检测器和相应的语义因子;
步骤S4,利用笔画检测器和语义因子,得到每幅训练场景文字图像对应的语义置信向量;
步骤S5,基于所述训练场景文字图像的语义置信向量,训练得到场景文字识别分类模型;
步骤S6,获取测试场景文字图像的笔画检测器和语义因子,进而得到所述测试场景文字图像的语义置信向量,将其输入至所述场景文字识别分类模型得到场景文字识别结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤S1中,对输入场景文字图像进行预处理包括以下步骤:
步骤S11,将所述输入场景文字图像转换为灰度场景文字图像;
步骤S12,将所述灰度场景文字图像的大小归一化为H×W,并将归一化后的灰度场景文字图像作为所述训练场景文字图像,其中,H和W分别表示灰度场景文字图像的高度和宽度。
3.根据权利要求1所述的方法,其特征在于,所述步骤S2包括以下步骤:
步骤S21,获取每幅训练场景文字图像的类别标签,并对每幅训练场景文字图像进行关键点标记,其中,所述关键点覆盖每幅训练场景文字图像中文字的主要结构;
步骤S22,根据标记的关键点,对每类训练场景文字图像进行判别性笔画选取,并将判别性笔画记为Strokeij,其中,Strokeij表示第i类训练场景文字图像中的第j个判别性笔画。
4.根据权利要求3所述的方法,其特征在于,每一类训练场景文字图像所标记的关键点数量相同。
5.根据权利要求1所述的方法,其特征在于,所述步骤S3包括以下步骤:
步骤S31,利用判别性笔画Strokeij,训练得到笔画检测器Sij,其中,Sij表示第i类训练场景文字图像中的第j个笔画检测器;
步骤S32,利用判别性笔画Strokeij,学习得到语义因子γij,其中,γij表示第i类训练场景文字图像中的第j个语义因子。
6.根据权利要求5所述的方法,其特征在于,所述步骤S31包括以下步骤:
步骤S311,在第i类训练场景文字图像中任意选取一幅图像,得到包含与Strokeij中相同关键点的最小矩形,并将这个最小矩形延拓为得到笔画检测器Sij的一个正样本,其中,和分别表示正样本的高度和宽度;
步骤S312,在其他类别的任意两幅训练场景文字图像中选取负样本,得到与所述正样本大小和位置相同的两个负样本;
步骤S313,按照所述步骤S311-S312获取预定比例的正样本和负样本,并将所有的正样本和负样本进行归一化处理;
步骤S314,将每个正样本和负样本表示成为一个HOG特征向量;
步骤S315,基于所述正负样本的HOG特征向量,训练得到第i类的第j个笔画检测器Sij,所有的笔画检测器组成笔画检测器集。
7.根据权利要求6所述的方法,其特征在于,所述步骤S32包括以下步骤:
步骤S321,获取所述步骤S313中所有正样本的位置信息;
步骤S322,基于所有正样本的位置信息,利用混合高斯模型,得到判别性笔画Strokeij的语义因子γij,其中,γij表示第i类训练场景文字图像中的第j个语义因子。
8.根据权利要求6所述的方法,其特征在于,所述步骤S4包括以下步骤:
步骤S41,获取包含所述步骤S313中所有正样本的最小矩形区域,并将其延拓为在每幅训练场景文字图像的相同位置界定高度为宽度为的矩形,得到判别性笔画Strokeij的响应区域R;
步骤S42,在判别性笔画Strokeij的响应区域内,密集抽取图像块a,其中,a∈{1,2,…,h},h为响应区域内抽取的图像块的总数;
步骤S43,将笔画检测器Sij应用于所有的图像块,得到检测得分Oij=(Oij1,Oij2,…,Oijh),其中,Oij是检测得分集,Oijh是第h个图像块的检测得分;
步骤S44,基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Strokeij,得到所有图像块的语义因子,进而得到语义因子集γij=(γij1,γij2,…,γijh),其中,γij是语义因子集,γijh是第h个图像块的语义因子;
步骤S45,基于得到的笔画检测器和语义因子,获取一幅训练场景文字图像的语义置信向量C。
9.根据权利要求8所述的方法,其特征在于,所述步骤S44中,基于图像块的左上角坐标位置信息和图像块对应的判别性笔画Strokeij,利用混合高斯模型得到所有图像块的语义因子。
10.根据权利要求8所述的方法,其特征在于,语义置信向量C表示为:
C=(C11,C12,…,C1j,…,C21,C22,…,C2j,…,Cn1,Cn2,…,Cnj,…),
其中,Cij表示判别性笔画Strokeij的语义置信得分。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475824.8A CN107273863B (zh) | 2017-06-21 | 2017-06-21 | 一种基于语义笔画池化的场景文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710475824.8A CN107273863B (zh) | 2017-06-21 | 2017-06-21 | 一种基于语义笔画池化的场景文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107273863A true CN107273863A (zh) | 2017-10-20 |
CN107273863B CN107273863B (zh) | 2019-07-23 |
Family
ID=60069604
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710475824.8A Active CN107273863B (zh) | 2017-06-21 | 2017-06-21 | 一种基于语义笔画池化的场景文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107273863B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108230314A (zh) * | 2018-01-03 | 2018-06-29 | 天津师范大学 | 一种基于深度激活池化的图像质量评估方法 |
CN109615006A (zh) * | 2018-12-10 | 2019-04-12 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN112036290A (zh) * | 2020-08-27 | 2020-12-04 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716240A (zh) * | 2004-06-30 | 2006-01-04 | 高庆狮 | 提高文字、语音识别的准确率的方法和装置及自动翻译系统 |
CN102054178A (zh) * | 2011-01-20 | 2011-05-11 | 北京联合大学 | 一种基于局部语义概念的国画图像识别方法 |
CN102360435A (zh) * | 2011-10-26 | 2012-02-22 | 西安电子科技大学 | 基于隐含主题分析的不良图像检测方法 |
CN103971097A (zh) * | 2014-05-15 | 2014-08-06 | 武汉睿智视讯科技有限公司 | 一种基于多尺度笔画模型的车牌识别方法与系统 |
CN104573663A (zh) * | 2015-01-16 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于鉴别性笔画库的英文场景文字识别方法 |
CN104820843A (zh) * | 2015-05-29 | 2015-08-05 | 常熟苏大低碳应用技术研究院有限公司 | 一种基于优化高斯混合模型的图像语义标注的方法 |
CN105005772A (zh) * | 2015-07-20 | 2015-10-28 | 北京大学 | 一种视频场景检测方法 |
CN105825211A (zh) * | 2016-03-17 | 2016-08-03 | 世纪龙信息网络有限责任公司 | 名片识别方法、装置及系统 |
CN106469437A (zh) * | 2015-08-18 | 2017-03-01 | 联想(北京)有限公司 | 图像处理方法和图像处理装置 |
CN106650617A (zh) * | 2016-11-10 | 2017-05-10 | 江苏新通达电子科技股份有限公司 | 一种基于概率潜在语义分析的行人异常识别方法 |
-
2017
- 2017-06-21 CN CN201710475824.8A patent/CN107273863B/zh active Active
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1716240A (zh) * | 2004-06-30 | 2006-01-04 | 高庆狮 | 提高文字、语音识别的准确率的方法和装置及自动翻译系统 |
CN102054178A (zh) * | 2011-01-20 | 2011-05-11 | 北京联合大学 | 一种基于局部语义概念的国画图像识别方法 |
CN102360435A (zh) * | 2011-10-26 | 2012-02-22 | 西安电子科技大学 | 基于隐含主题分析的不良图像检测方法 |
CN103971097A (zh) * | 2014-05-15 | 2014-08-06 | 武汉睿智视讯科技有限公司 | 一种基于多尺度笔画模型的车牌识别方法与系统 |
CN104573663A (zh) * | 2015-01-16 | 2015-04-29 | 中国科学院自动化研究所 | 一种基于鉴别性笔画库的英文场景文字识别方法 |
CN104820843A (zh) * | 2015-05-29 | 2015-08-05 | 常熟苏大低碳应用技术研究院有限公司 | 一种基于优化高斯混合模型的图像语义标注的方法 |
CN105005772A (zh) * | 2015-07-20 | 2015-10-28 | 北京大学 | 一种视频场景检测方法 |
CN106469437A (zh) * | 2015-08-18 | 2017-03-01 | 联想(北京)有限公司 | 图像处理方法和图像处理装置 |
CN105825211A (zh) * | 2016-03-17 | 2016-08-03 | 世纪龙信息网络有限责任公司 | 名片识别方法、装置及系统 |
CN106650617A (zh) * | 2016-11-10 | 2017-05-10 | 江苏新通达电子科技股份有限公司 | 一种基于概率潜在语义分析的行人异常识别方法 |
Non-Patent Citations (2)
Title |
---|
CUN-ZHAO SHI 等: "Scene Text Recognition Using Structure-Guided Character Detection and Linguistic Knowledge", 《IEEE TRANSACTIONS ON CIRCUITS AND SYSTEMS FOR VIDEO TECHNOLOGY》 * |
陈利琴 等: "基于异构描述子的新型高斯混合模型图像自动标注方法", 《电子测量技术》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108230314A (zh) * | 2018-01-03 | 2018-06-29 | 天津师范大学 | 一种基于深度激活池化的图像质量评估方法 |
CN108230314B (zh) * | 2018-01-03 | 2022-01-28 | 天津师范大学 | 一种基于深度激活池化的图像质量评估方法 |
CN109615006A (zh) * | 2018-12-10 | 2019-04-12 | 北京市商汤科技开发有限公司 | 文字识别方法及装置、电子设备和存储介质 |
CN112036290A (zh) * | 2020-08-27 | 2020-12-04 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
CN112036290B (zh) * | 2020-08-27 | 2023-11-03 | 哈尔滨工业大学(深圳) | 一种基于类标编码表示的复杂场景文字识别方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN107273863B (zh) | 2019-07-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Li et al. | Toward end-to-end car license plate detection and recognition with deep neural networks | |
Chen et al. | Accurate and efficient traffic sign detection using discriminative adaboost and support vector regression | |
CN111783576B (zh) | 基于改进型YOLOv3网络和特征融合的行人重识别方法 | |
CN105023008B (zh) | 基于视觉显著性及多特征的行人再识别方法 | |
CN111709311B (zh) | 一种基于多尺度卷积特征融合的行人重识别方法 | |
CN108154102B (zh) | 一种道路交通标志识别方法 | |
CN105787466B (zh) | 一种车辆类型的精细识别方法及系统 | |
Molina-Moreno et al. | Efficient scale-adaptive license plate detection system | |
CN114359998B (zh) | 一种人脸口罩佩戴状态下的识别方法 | |
CN107273863B (zh) | 一种基于语义笔画池化的场景文字识别方法 | |
Shujuan et al. | Real-time vehicle detection using Haar-SURF mixed features and gentle AdaBoost classifier | |
CN108345866B (zh) | 一种基于深度特征学习的行人再识别方法 | |
CN107886066A (zh) | 一种基于改进hog‑sslbp的行人检测方法 | |
CN108875564A (zh) | 一种宠物面部识别方法 | |
CN110188750A (zh) | 一种基于深度学习的自然场景图片文字识别方法 | |
CN114170672A (zh) | 一种基于计算机视觉的课堂学生行为识别的方法 | |
CN108509861B (zh) | 一种基于样本学习和目标检测结合的目标跟踪方法和装置 | |
Tu et al. | Instance segmentation based on mask scoring R-CNN for group-housed pigs | |
CN117152625A (zh) | 一种基于CoordConv和YOLOv5的遥感小目标识别方法、系统、设备及介质 | |
Zhang et al. | Deep contextual stroke pooling for scene character recognition | |
Akanksha et al. | A Feature Extraction Approach for Multi-Object Detection Using HoG and LTP. | |
Geng et al. | DPSA: dense pixelwise spatial attention network for hatching egg fertility detection | |
Xu et al. | Car detection using deformable part models with composite features | |
CN104732209A (zh) | 一种室内场景的识别方法及装置 | |
CN113903004A (zh) | 基于中层卷积神经网络多维度特征的场景识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |