CN104573663B - 一种基于鉴别性笔画库的英文场景文字识别方法 - Google Patents
一种基于鉴别性笔画库的英文场景文字识别方法 Download PDFInfo
- Publication number
- CN104573663B CN104573663B CN201510023529.XA CN201510023529A CN104573663B CN 104573663 B CN104573663 B CN 104573663B CN 201510023529 A CN201510023529 A CN 201510023529A CN 104573663 B CN104573663 B CN 104573663B
- Authority
- CN
- China
- Prior art keywords
- stroke
- width
- detector
- word
- distinctive
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 23
- 238000012549 training Methods 0.000 claims abstract description 33
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 238000013461 design Methods 0.000 claims description 7
- 238000012360 testing method Methods 0.000 claims description 5
- 238000010606 normalization Methods 0.000 claims description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000003909 pattern recognition Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/22—Character recognition characterised by the type of writing
- G06V30/226—Character recognition characterised by the type of writing of cursive writing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本发明是一种基于鉴别性笔画库的英文场景文字识别方法,其包括步骤:1、基于关键点标注的笔画子检测器学习;2、笔画子检测器响应区域的界定;3、鉴别性笔画选取;4、特征提取和文字分类器的训练。本发明参考物体库的思路,通过标记的关键点来为笔画子检测器收集训练样本,并且为每一个文字笔画子检测器设定特定的响应区域,既可以减轻特征抽取的计算负担,又增强了文字分类器的鉴别能力。
Description
技术领域
本发明涉及模式识别与机器视觉领域中的场景文字识别领域,具体涉及一种基于鉴别性笔画库的英文场景文字识别方法。
背景技术
自然场景图像中所包含的文本信息,作为一种高层次的语义信息,对于场景图像中的理解是极其重要的,一个好的文本信息提取系统可以对诸如图像检索、智能交通、机器人视觉等应用领域产生巨大的推动作用。为了有效地提取场景中的文本信息,在场景文本区域得到定位后,就要进行场景文本识别。然而由于场景类别的多样性、背景的复杂性以及字体的不可预测性,场景文字识别是一项比较困难的工作。
近些年,场景文字识别领域正引起越来越多研究者的重视,现有的方法大概可以分为两类:基于光学字符识别的方法和基于目标识别的方法。基于光学字符识别的方法利用的是传统的光学字符识别技术,需要先对检测到的文本块进行二值化,再使用较成熟的OCR引擎进行识别;基于目标识别的方法则将每一类场景文字作为一类特殊的目标,跳过二值化环节,直接使用目标识别的方法进行识别,但是现有的方法基本是直接将目标识别的方法应用到场景文字识别中去,并没有充分考虑到场景文字识别的特性。
发明内容
为了进一步优化英文场景文字识别效果,本发明提出了一种基于鉴别性笔画库的英文场景文字识别方法,充分利用了文字特有的全局结构,节省了计算时间。
本发明所提出的一种基于鉴别性笔画库的英文场景文字识别方法,包括步骤:
步骤1,基于关键点标注的笔画子检测器学习:
首先为每一类英文场景文字设计关键点,并对所有的英文场景文字单字训练样本进行关键点标注,在每一类英文文字类别的训练图像中随机选取一幅图像,在该图像上基于特定笔画构建矩形框,每一个矩形框对应一个特定的笔画,记录这些笔画对应矩形框所包围关键点的集合,定位包围这些关键点的最小矩形,计算该最小矩形和笔画矩形框的长宽比;在确定候选笔画后,根据上述关键点集合和长宽比为每一个候选笔画抽取正样本和负样本,并训练线性支持向量机作为笔画检测器;
步骤2,笔画子检测器响应区域的界定:
根据正样本抽取的位置,为每一个笔画检测器定义一个响应区域,所述响应区域为包含正样本位置的最小矩形,计算正样本的平均长度和宽度作为笔画检测器滑动窗口大小;
步骤3,鉴别性笔画选取:
计算每一个笔画检测器在所属文字类别和其他文字类别的训练图像响应区域内的最大响应值,计算文字类别内平均最大响应值和其他文字类别平均最大响应值的差作为笔画的鉴别性参数,依据笔画的鉴别性参数进行大小排序,选取最大的前N个鉴别性参数对应的笔画作为鉴别性笔画;
步骤4,特征提取和文字分类器的训练:
在所有的英文场景单字训练样本和测试样本上,使用笔画检测器在对应响应区域里的最大响应值作为特征,在该特征的基础上训练和测试线性支持向量机单字分类器。
步骤1中,所述英文场景文字关键点的设计覆盖英文文字的主要结构,并归一化所有单字训练样本到相同的大小,宽度为64,高度为64。
步骤1中,所述的矩形框R对应候选笔画,其中,ci为英文文字类别标号,j为候选笔画标号;矩形框R包围的关键点集合为将包围关键点集合的最小矩形定义为r;矩形框R的左、右、上、下边界的坐标分别为Rl、Rr、Rt、Rb,r的左、右、上、下边界的坐标分别为rl、rr、rt、rb,r的长度和宽度分别为rwidth=rr-rl+1和rheight=rb-rt+1,则从r到R的左、右、上、下四个方向的延拓因子分别是:
Efleft=(rl-Rl+1)/rwidth
Efright=(Rr-rr+1)/rwidth
Eftop=(rt-Rt+1)/rheight
Efbottom=(Rb-rb+1)/rheight
步骤1中,所述正样本的抽取方法为:定位包围关键点集合的最小矩形r’,假设r’的左、右、上、下坐标分别为r′l,r′r,r′t,r′b,那么r’的长度和宽度分别为r′width=r′r-r′l+1和r′height=r′b-r′t+1,则对应笔画正样本的抽取左、右、上、下坐标应该确定为:
R′l=r′l+1-Efleft*r′width
R′r=r′r-1+Efright*r′width
R′t=r′t+1-Eftop*r′height
R′b=r′b-1+Efbottom*r′height;
每抽取一个正样本,都需要到其他不是ci的文字类别的一幅训练图像上抽取位置相同的图像块作为负样本。
步骤1中,在抽取正样本和负样本后,计算正样本的平均高度和宽度,将所有的正负样本归一化到平均高度和平均宽度,然后在归一化的正负样本上提取梯度直方图特征,训练线性支持向量机作为每一个笔画的检测器。
本发明提出的一种基于鉴别性笔画库的英文场景文字识别方法,参考物体库的思路,通过标注的关键点为笔画子检测器收集训练样本,并将笔画子检测器的局部最大响应值作为特征,充分利用了文字特有的全局结构,增强了文字分类器的鉴别能力,减轻特征抽取的计算负担,节省了计算时间。
附图说明
图1是本发明一种基于鉴别性笔画库的英文场景文本识别方法的流程图;
图2是本发明的基于关键点集合和延拓因子的笔画训练正样本收集示意图;
图3是本发明的响应区域的定义示意图;
图4是本发明基于鉴别性笔画库的特征抽取示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。
如图1所示,本实施例的一种基于鉴别性笔画库的英文场景文字识别方法具体包括以下步骤:
步骤1,基于关键点标注的笔画子检测器学习:
针对每一类英文场景文字类别ci(0-9,A-Z,a-z),都要进行关键点的设计,要求设计的关键点必须能够覆盖文字的主要结构,笔画丰富的局部尤其要求关键点的覆盖,对类别“4”和“B”设计的关键点如图1所示。在完成关键点的设计后,对所有文字类别的所有训练样本都要进行关键点的标注。
在候选笔画的选择阶段,我们从每一个类别ci中抽取一幅标注过关键点的单字训练图像,在该图像上选取大量尺寸不一的矩形框,每一个矩形框对应的即为一个候选笔画,ci对应英文文字类别标号,j对应候选笔画标号。
针对每一个候选笔画,将包围该笔画的矩形记为R,R包围的关键点集合记为,定位包围关键点集合的最小矩形记为r。假设R的左、右、上、下边界的坐标分别为Rl、Rr、Rt、Rb,r的左、右、上、下边界的坐标分别为rl、rr、rt、rb,r的长度和宽度分别为rwidth=rr-rl+1和rheight=rb-rt+1那么从r到R的左、右、上、下四个方向的延拓因子分别是:
Efleft=(rl-Rl+1)/rwidth
Efright=(Rr-rr+1)/rwidth
Eftop=(rt-Rt+1)/rheight
Efbottom=(Rb-rb+1)/rheight
针对每一个候选笔画,在类别Ci的训练样本上抽取对应的笔画块:首先需要定位包围该笔画子检测器对应关键点的最小矩形r’,假设r’的左右上下坐标分别为r′l,r′r,r′t,r′b那么长度和宽度分别为r′width=r′r-r′l+1,r′height=r′b-r′t+1。如图2所示,该笔画块的抽取左右上下坐标被确定为:
R′l=r′l+1-Efleft*r′width,R′r=r′r-1+Efright*r′width,
R′t=r′t+1-Eftop*r′height,R′b=r′b-1+Efbottom*r′height。
从ci单字训练图像上抽取的以上笔画块是正样本,每抽取一个正样本,都需要到其他不是ci的类别的一幅训练图像上抽取位置相同的笔画块作为负样本。
针对每一个候选笔画,在收集完上述正负样本之后,计算正样本的平均高度和宽度,将所有的正负样本归一化到平均高度和平均宽度,该平均高度和宽度即为检测器滑动窗的大小。在所有的正负样本提取梯度直方图特征,训练线性支持向量机作为笔画子检测器。
步骤2,定义每个笔画子检测器的响应区域:
在本步骤中,需要为每一个笔画的检测器限定一个局部响应区域,其响应区域的定义为能覆盖的正样本出现位置的最小矩形,如图3所示,假设类别“A”一共只有三个样本,某个笔画在三个样本上出现的位置如图中黄色矩形框所示,那么能改覆盖这三个黄色矩形框的最小红色虚线矩形框即为该笔画的响应区域。在下面的鉴别性笔画选取和特征提取环节中,笔画子检测器的滑动范围都被限定在这个局部区域里,这样做一方面可以节省计算时间,另外一方面还可以学习到文字所有特有的整体结构。
步骤3,选取鉴别性笔画:
计算每一个笔画检测器在类别ci的训练图像对应响应区域的最大响应值,取所有ci训练图像最大响应值的平均值记为,计算笔画检测器在其他不是ci的类别的训练图像对应响应区域的最大响应值,取所有非ci训练图像最大响应值的平均值记为,那么的鉴别性参数为
越大对应笔画的鉴别性越强,越小对应笔画的鉴别性越弱。在每一个类别ci中按照从大到小对笔画进行排序,选择前Nselected鉴别性笔画保留下来。
步骤4,特征提取和文字分类器的训练:
针对训练集中的所有场景单字图像,计算保留的鉴别性笔画子检测器在对应响应区域的最大响应值,将该最大响应值作为特征,如图4所示。将抽取的训练样本特征和类别标签送入多类别线性支持向量机进行训练,得到最终的文字分类器。
在测试阶段,给定一幅单字测试图像,仍然使用鉴别性笔画子检测器在对应响应区域的最大响应值作为特征,将响应值特征送入训练好的线性支持向量机,即可以得到类别标签。
本发明提出的一种基于鉴别性笔画库的英文场景文字识别方法,参考物体库的思路,通过标注的关键点为笔画子检测器收集训练样本,并将笔画子检测器的局部最大响应值作为特征,充分利用了文字特有的全局结构,增强了文字分类器的鉴别能力,减轻特征抽取的计算负担,节省了计算时间。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内。因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (3)
1.一种基于鉴别性笔画库的英文场景文字识别方法,其特征在于,包括步骤:
步骤1,基于关键点标注的笔画子检测器学习:
首先为每一类英文场景文字设计关键点,并对所有的英文场景文字单字训练样本进行关键点标注,在每一类英文文字类别的训练图像中随机选取一幅图像,在该图像上基于特定笔画构建矩形框,每一个矩形框对应一个特定的笔画,记录这些笔画对应矩形框所包围关键点的集合,定位包围这些关键点的最小矩形,计算该最小矩形和笔画矩形框的长宽比;在确定候选笔画后,根据上述关键点集合和长宽比为每一个候选笔画抽取正样本和负样本,并训练线性支持向量机作为笔画检测器;
步骤2,笔画子检测器响应区域的界定:
根据正样本抽取的位置,为每一个笔画检测器定义一个响应区域,所述响应区域为包含正样本位置的最小矩形,计算正样本的平均长度和宽度作为笔画检测器滑动窗口大小;
步骤3,鉴别性笔画选取:
计算每一个笔画检测器在所属文字类别和其他文字类别的训练图像响应区域内的最大响应值,计算文字类别内平均最大响应值和其他文字类别平均最大响应值的差作为笔画的鉴别性参数,依据笔画的鉴别性参数进行大小排序,选取最大的前N个鉴别性参数对应的笔画作为鉴别性笔画;
步骤4,特征提取和文字分类器的训练:
在所有的英文场景单字训练样本和测试样本上,使用笔画检测器在对应响应区域里的最大响应值作为特征,在该特征的基础上训练和测试线性支持向量机单字分类器;
其中,
步骤1中所述的矩形框R对应候选笔画ci为英文文字类别标号,j为候选笔画标号;矩形框R包围的关键点集合为将包围关键点集合的最小矩形定义为r;矩形框R的左、右、上、下边界的坐标分别为Rl、Rr、Rt、Rb,r的左、右、上、下边界的坐标分别为rl、rr、rt、rb,r的长度和宽度分别为rwidth=rr-rl+1和rheight=rb-rt+1,则从r到R的左、右、上、下四个方向的延拓因子分别是:
Efleft=(rl-Rl+1)/rwidth
Efright=(Rr-rr+1)/rwidth
Eftop=(rt-Rt+1)/rheight
Efbottom=(Rb-rb+1)/rheight;
步骤1中所述正样本的抽取方法为:定位包围关键点集合的最小矩形r’,假设r’的左、右、上、下坐标分别为r′l,r′r,r′t,r′b,那么r’的长度和宽度分别为r′width=r′r-r′l+1和r′height=r′b-r′t+1,则对应笔画正样本的抽取左、右、上、下坐标应该确定为:
R′l=rl′+1-Efleft*r′width
R′r=r′r-1+Efright*r′width
R′t=rt′+1-Eftop*r′height
R′b=r′b-1+Efbottom*r′height
每抽取一个正样本,都需要到其他不是ci的文字类别的一幅训练图像上抽取位置相同的图像块作为负样本。
2.根据权利要求1所述的方法,其特征在于,步骤1中,所述英文场景文字关键点的设计覆盖英文文字的主要结构,并归一化所有单字训练样本到相同的大小,宽度为64,高度为64。
3.根据权利要求2所述的方法,其特征在于,步骤1中,在抽取正样本和负样本后,计算正样本的平均高度和宽度,将所有的正负样本归一化到平均高度和平均宽度,然后在归一化的正负样本上提取梯度直方图特征,训练线性支持向量机作为每一个笔画的检测器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510023529.XA CN104573663B (zh) | 2015-01-16 | 2015-01-16 | 一种基于鉴别性笔画库的英文场景文字识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510023529.XA CN104573663B (zh) | 2015-01-16 | 2015-01-16 | 一种基于鉴别性笔画库的英文场景文字识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104573663A CN104573663A (zh) | 2015-04-29 |
CN104573663B true CN104573663B (zh) | 2017-12-05 |
Family
ID=53089685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510023529.XA Expired - Fee Related CN104573663B (zh) | 2015-01-16 | 2015-01-16 | 一种基于鉴别性笔画库的英文场景文字识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104573663B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106203539B (zh) * | 2015-05-04 | 2020-01-17 | 杭州海康威视数字技术股份有限公司 | 识别集装箱箱号的方法和装置 |
CN107273863B (zh) * | 2017-06-21 | 2019-07-23 | 天津师范大学 | 一种基于语义笔画池化的场景文字识别方法 |
CN109271985A (zh) * | 2018-09-07 | 2019-01-25 | 广东中粤电力科技有限公司 | 一种数字仪表读数图像识别方法及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0727754A2 (en) * | 1994-12-28 | 1996-08-21 | Nec Corporation | Handwritten character recognition apparatus with an improved feature of correction to stroke segmentation and method for correction to stroke segmentation for recognition of handwritten character |
CN101452531A (zh) * | 2008-12-01 | 2009-06-10 | 宁波新然电子信息科技发展有限公司 | 一种自由手写拉丁字母识别方法 |
CN103279753A (zh) * | 2013-06-09 | 2013-09-04 | 中国科学院自动化研究所 | 一种基于树结构指导的英文场景文本块识别方法 |
-
2015
- 2015-01-16 CN CN201510023529.XA patent/CN104573663B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP0727754A2 (en) * | 1994-12-28 | 1996-08-21 | Nec Corporation | Handwritten character recognition apparatus with an improved feature of correction to stroke segmentation and method for correction to stroke segmentation for recognition of handwritten character |
CN101452531A (zh) * | 2008-12-01 | 2009-06-10 | 宁波新然电子信息科技发展有限公司 | 一种自由手写拉丁字母识别方法 |
CN103279753A (zh) * | 2013-06-09 | 2013-09-04 | 中国科学院自动化研究所 | 一种基于树结构指导的英文场景文本块识别方法 |
Non-Patent Citations (2)
Title |
---|
Integrated Segmentation and Recognition of Mixed Chinese_English;Yong Xia 等;《Ninth International Conference on Document Analysis and Recognition,2007.ICDAR 2007》;20071105;1-5 * |
复杂背景下基于形态学的车牌识别系统;白洪亮 等;《公路交通科技》;20041031;第21卷(第10期);117-120 * |
Also Published As
Publication number | Publication date |
---|---|
CN104573663A (zh) | 2015-04-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Rong et al. | Recognizing text-based traffic guide panels with cascaded localization network | |
Yi et al. | Multi-scale cell instance segmentation with keypoint graph based bounding boxes | |
CN106156761A (zh) | 面向移动终端拍摄的图像表格检测与识别方法 | |
CN107134144A (zh) | 一种用于交通监控的车辆检测方法 | |
CN108805018A (zh) | 道路交通标志检测识别方法、电子设备、存储介质及系统 | |
CN108009518A (zh) | 一种基于快速二分卷积神经网络的层次化交通标识识别方法 | |
CN102254196B (zh) | 计算机鉴别手写汉字的方法 | |
CN106960181A (zh) | 一种基于rgbd数据的行人属性识别方法 | |
WO2023083280A1 (zh) | 一种场景文本识别方法和装置 | |
CN103455823B (zh) | 一种基于分类模糊及图像分割的英文字符识别方法 | |
Lehal | Ligature segmentation for Urdu OCR | |
CN104573663B (zh) | 一种基于鉴别性笔画库的英文场景文字识别方法 | |
CN107818321A (zh) | 一种用于车辆年检的水印日期识别方法 | |
KR20210105764A (ko) | 전자문서 내의 텍스트 추출 방법 및 관련 장치 | |
CN112241730A (zh) | 一种基于机器学习的表格提取方法和系统 | |
CN109685061A (zh) | 适用于结构化的数学公式的识别方法 | |
Nguyen | TableSegNet: a fully convolutional network for table detection and segmentation in document images | |
CN113673506A (zh) | 一种基于多尺度特征金字塔的场景文本检测方法及系统 | |
CN107679467A (zh) | 一种基于hsv和sdalf的行人重识别算法实现方法 | |
CN107292255A (zh) | 基于特征矩阵相似度分析的手写数字识别方法 | |
CN116758545A (zh) | 一种基于深度学习的纸质医药包装钢印字符识别方法 | |
Tran et al. | A novel approach for text detection in images using structural features | |
CN113989269B (zh) | 一种基于卷积神经网络多尺度特征融合的中医舌图像齿痕自动检测方法 | |
Zeni et al. | Weakly supervised character detection for license plate recognition | |
CN114662586A (zh) | 一种基于共注意的多模态融合机制检测虚假信息的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20190704 Address after: 100098 Beijing Haidian District Zhichun Road 56 West District 8 Floor Central 801-803 Patentee after: INFAN TECHNOLOGY (BEIJING) Co.,Ltd. Address before: 100080 No. 95 East Zhongguancun Road, Beijing, Haidian District Patentee before: Institute of Automation, Chinese Academy of Sciences |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20171205 Termination date: 20220116 |