CN102169542A - 文字识别中粘连字符的切分方法和装置 - Google Patents

文字识别中粘连字符的切分方法和装置 Download PDF

Info

Publication number
CN102169542A
CN102169542A CN2010101142266A CN201010114226A CN102169542A CN 102169542 A CN102169542 A CN 102169542A CN 2010101142266 A CN2010101142266 A CN 2010101142266A CN 201010114226 A CN201010114226 A CN 201010114226A CN 102169542 A CN102169542 A CN 102169542A
Authority
CN
China
Prior art keywords
connected domain
stroke
swimming
adhesion
distance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010101142266A
Other languages
English (en)
Other versions
CN102169542B (zh
Inventor
王琛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hanwang Technology Co Ltd
Original Assignee
Hanwang Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hanwang Technology Co Ltd filed Critical Hanwang Technology Co Ltd
Priority to CN2010101142266A priority Critical patent/CN102169542B/zh
Publication of CN102169542A publication Critical patent/CN102169542A/zh
Application granted granted Critical
Publication of CN102169542B publication Critical patent/CN102169542B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了文字识别中粘连字符的切分方法和装置,属于文字识别领域。方法包括:预处理后获得行图像的连通域、平均字宽和平均字高。进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域保存字块。根据预切分点对提取完毕的笔画进行合并,得到字块。保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列。根据参考信息对字块进行合并,输出识别结果。本发明依据预切分点对笔画进行合并得到字块,保证了更大范围的切分点被检测到;用轮廓信息预检测切分点的方式作为合并时的参数,避免了正确的切分点被合并而带来的合并错误。

Description

文字识别中粘连字符的切分方法和装置
技术领域
本发明属于文字识别领域,涉及一种字符切分的方法和装置,具体涉及一种文字识别中粘连字符的切分方法和装置。
背景技术
文字识别过程中,字符切分是很重要的一部分。文字识别,尤其是脱机手写文字识别一般采用过切分的方法,即首先检测多个可能的切分点,然后再通过几何、识别或语义等信息对切分点进行合并,搜索最优的切分路径。
检测切分点的方法有很多种,印刷体文字识别中的切分点检测比较简单,但在手写体的文字识别中,手写粘连的情况较为复杂,轮廓中虚假的波峰、波谷很多,而且真正的切分点上可能在上轮廓和下轮廓均有粘连,使得轮廓变化反而比较平缓,所以仅仅通过轮廓信息确定切分点并不可靠。
目前,脱机手写字符的切分点查找主要有如下两种方法,第一种是以连通域为基础,通过识别效果或者几何信息判断可能包含粘连字符的连通域,然后在可疑的连通域中使用轮廓等信息进行切分,这种方法的准确率依赖于识别效果和几何信息,对于手写字符识别来说并不可靠,而且根据轮廓信息进行切分也无法确定切分点。另一种方法以笔画切分为基础,对切分后的脱机手写字符中的笔画合并成笔画块,但合并时重叠的笔画有可能发生重叠,使两个连通域中的笔画由于位置重叠而被合并,造成合并不准确。
发明内容
本发明所要解决的技术问题是提供一种文字识别中粘连字符的切分方法和装置,本方法首先对图像进行连通域分析,对一些疑似粘连的连通域检测预切分点,然后采用查找黑游程的方式对疑似粘连的连通域进行笔画切分,最后依据预切分点等信息对笔画进行合并得到字块。本方法采用笔画切分的方法,保证了更大范围的切分点被检测到;使用轮廓信息预检测切分点的方式作为合并时的参数,避免了正确的切分点被合并而带来的合并错误。
本发明公开了一种文字识别中粘连字符的切分方法,包括以下步骤:
对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高。
进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块。
根据预切分点对提取完毕的笔画进行合并,得到字块。
保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列。
根据参考信息对字块进行合并,输出识别结果。
所述预处理包括对行图像进行去噪,获得行图像的连通域,分别对连通域的宽度直方图和高度直方图进行平滑,取峰值作为平均字宽和平均字高。
所述粘连的连通域为识别距离大于识别阈值或连通域的宽度大于平均字宽的1.5倍或连通域的宽度大于平均字高两倍的连通域。
所述对粘连的连通域进行切分点检测时,选取连通域的投影的波谷作为预切分点。
所述对粘连的连通域进行笔画提取时,在选定的连通域内逐行对黑游程进行扫描,取当前黑游程在下一行的对应位置处,且始终点位置各偏移一个像素的范围内的所有黑游程,选择这些黑游程中游程中心与笔画的预测中心最近的黑游程作为待选游程,如果待选黑游程的中心与预测中心点的距离误差小于阈值Thr,则将待选黑游程加入到的该笔画的游程列表中,否则当前笔画提取完毕,开始下一笔画的跟踪,直至该连通域内所有笔画提取完毕。
所述游程列表的属性中包括游程所在的行、游程的起始点和终止点。
所述笔画的预测中心根据当前笔画方向预测得出。
所述当前笔画方向根据笔画中的已有游程的中心拟合得出。
所述阈值Thr的值为Thr=0.5×a×tan(θ);其中,θ为笔画与竖直方向的夹角,a是笔画的竖直高度。
所述对提取完毕的笔画进行合并时,如果两个笔画的外接矩形框在水平方向上相互包含比例在既定阈值之上,且两笔画的中心在预切分点的同侧,则对两笔画以及笔画对应的游程列表进行合并,作为一个字块。
所述既定阈值为0.7。
所述参考信息为语义和识别信息。
本发明还公开了一种文字识别中粘连字符的切分装置,包括如下模块:
预处理模块:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高。
分析模块:进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块。
合并模块:根据预切分点对提取完毕的笔画进行合并,得到字块。
字块输出模块:保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列。
结果输出模块:根据参考信息对字块进行合并,输出识别结果。
从以上的步骤可以看出,本方法仅对疑似粘连连通域进行分析,与对整幅图像进行笔画提取等处理相比,极大的减少了运算时间和存储空间;本方法采用笔画切分时,对粘连的连通域进行切分点检测,选取连通域的投影的波谷作为预切分点,防止了由于位置重叠而带来的合并错误,使字符切分准确,取得了较好的效果。
附图说明
图1为本发明文字识别中粘连字符的切分方法的流程图;
图2为本发明文字识别中粘连字符的切分方法的实施例中输入的行图像;
图3为本发明文字识别中粘连字符的切分方法的实施例中进行预处理后得到的连通域块;
图4为本发明文字识别中粘连字符的切分方法的实施例中的连通域宽度直方图;
图5为本发明文字识别中粘连字符的切分方法的实施例中的连通域高度直方图;
图6为本发明文字识别中粘连字符的切分方法的实施例中连通域平滑后的宽度直方图;
图7为本发明的文字识别中粘连字符的切分方法的实施例中连通域平滑后的高度直方图;
图8为本发明文字识别中粘连字符的切分方法的实施例中输入的行图像,其中,框选的连通域为粘连的连通域;
图9为本发明文字识别中粘连字符的切分方法实施例中一粘连的连通域图像;
图10为本发明文字识别中粘连字符的切分方法实施例中一粘连的连通域轮廓图;
图11为本发明文字识别中粘连字符的切分方法实施例中粘连的连通域中两笔画与预切分点关系示意图;
图12为本发明文字识别中粘连字符的切分方法实施例中笔画游程列表示意图;
图13为本发明文字识别中粘连字符的切分方法的实施例中笔画提取示意图;
图14为本发明文字识别中粘连字符的切分方法实施例中粘连的连通域笔画提取结果;
图15为本发明文字识别中粘连字符的切分方法实施例中粘连的连通域中粘连部分示例;
图16为本发明文字识别中粘连字符的切分方法另一实施例中粘连的连通域中粘连部分示例;
图17为本发明文字识别中粘连字符的切分方法实施例中粘连的连通域中笔画合并后结果;
图18为本发明文字识别中粘连字符的切分方法实施例中输出的识别结果。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
一种文字识别中粘连字符的切分方法,如图1所示,分为以下步骤:
步骤1:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高。如图2所示,为输入的某行图像,如图3所示,为该图像进行预处理后得到的连通域块。
预处理包括对行图像进行去噪,获得行图像的连通域,分别对连通域的宽度直方图和高度直方图进行平滑,取峰值作为平均字宽和平均字高。
将图2中的图像去噪后,按照直线扫描标记算法求取连通域,对得到的连通域进行投影,得到宽度直方图。为了消除连通域中的奇异点对平均字宽所造成的影响,将宽度直方图进行平滑,取其中的宽度直方图中峰值作为平均字宽;同理可求平均字高。如图4、图5分别为输入行图像的连通域宽度直方图和高度直方图,图6和图7为平滑后的宽度直方图和高度直方图,分别其峰值作为平均字宽W和平均字高H。本实施例中,平均字宽W为45px,平均字高H为65px。
步骤2:进行连通域分析,标记粘连的连通域,对选定粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于不粘连的连通域直接保存字块。
进行连通域分析,标记粘连的连通域。对每个连通域进行识别,如果某个连通域识别效果较差(识别距离大于识别阈值),或者连通域的宽度较大(连通域的宽度大于平均字宽的1.5倍或者连通域的宽度大于平均字高的两倍),则标记该连通域为粘连的连通域。本实施例中,识别阈值根据识别核心来确定,如图8所示,得到11个粘连的连通域,用矩形框进行标记。如果某个连通域识别效果较好(识别距离不大于识别阈值),或者连通域的宽度较小(连通域的宽度不大于平均字宽的1.5倍或者连通域的宽度不大于平均字高的两倍),则该连通域为非粘连的连通域,转到步骤4直接保存字块。
切分点预检测时,使用轮廓、投影和宽高等信息对可疑连通域进行切分点检测。选取轮廓和投影的波谷作为切分点。图9为图8中的一个粘连的连通域图像,图10分别为该连通域的轮廓图,可以看出轮廓图的波谷点的水平方向坐标为38和66,表示这两个位置为字块间的粘连位置,该位置即被选中为预切分点。如图11中的P1位置所示,该位置为切分点预测的预测位置。在笔画合并前进行切分点预检测的好处是,一些切分点由于笔画的重叠,在笔画合并时容易被合并在一起,有了预检测的切分点,就可以防止重叠的笔画被误合并。
对粘连的连通域进行笔画提取,本实施例中,采用黑游程跟踪的方法对粘连的连通域进行笔画提取。每一个笔画由若干个连续的黑游程组成,且每一个笔画对应一个游程列表,游程列表中记录各游程所在的行,以及游程的起始点和终止点。如图12所示,该游程列表包括行号、起始点、终止点属性,记录了一个笔画内所有的黑游程信息。
本方法采用黑游程跟踪的方法对粘连的连通域进行笔画提取的过程如下:对粘连的连通域进行笔画提取时,在选定的连通域内逐行对黑游程进行扫描,取当前黑游程在下一行的对应位置处,且始终点位置各偏移一个像素的范围内的所有黑游程。本实施例中,在粘连的连通域内指定的当前黑游程,起始点为a,终止点为b,在当前黑游程的下一行的[a-1,b+1]范围内查找所有的水平黑游程。根据笔画中已有的游程的中心拟合出来当前笔画方向,得到笔画与竖直方向的夹角θ,然后得到笔画当前行的预测中心位置,选择这些黑游程游程中心与预测中心距离最近的某一黑游程作为待选游程,如果待选黑游程的中心与预测中心点的距离误差小于阈值Thr,则将待选黑游程加入到的笔画的游程列表中,否则当前笔画提取完毕,开始下一笔画的跟踪。
阈值Thr的选取与当前笔画的方向有关。本实施例中,采用如下公式计算Thr=0.5×a×tan(θ),其中a是笔画的竖直方向高度。如图13所示,为笔画提取后的结果。本方法仅对疑似粘连的连通域进行笔画提取,与对整幅图像提取笔画的方法相比,极大的降低了运算时间和存储空间。
本实施例中,图13为一个笔画的提取过程,其中n1行黑游程为的该笔画的第一条黑游程,当第n9行检索完毕时,当前的游程列表如图12所示,根据最小二乘法对n1到n9的游程列表各个游程中心点进行拟合得到笔画与竖直方向的夹角θ为29度,对应阈值为Thr为3,预测第n10行黑游程中心点的水平坐标为39,在第n10行检索到了两个黑游程,其中第二条黑游程的中心点水平坐标为38与预测中心点的距离较小,且距离L1等于1,比阈值Thr小,故将该黑游程加入到游程列表,然后进行下一行的黑游程搜索。当检测到第n25行时,当前游程列表各个游程的中心点拟合得到的笔画与竖直方向的夹角θ为44度,对应阈值Thr为12,预测第n25行黑游程中心点的水平坐标为50,但是检测得到第n25行黑游程中心点的水平坐标为33,与预测中心点的距离L2为18,大于阈值Thr,所以现在该笔画的提取结束,保存该笔画的黑游程列表,然后进行下一笔画的提取。
步骤3:根据预切分点对提取完毕的笔画进行合并,得到字块。对提取完毕的笔画进行合并时,如果两个笔画的外接矩形框在水平方向上相互包含比例在既定阈值之上,且两笔画的中心在预切分点的同侧,则对两笔画以及笔画对应的游程列表进行合并,作为一个字块。
本实施例中,如图14所示,设两个笔画的外接矩形框为R1、R2,当R1和R2在水平方向的投影上,R1包含R2或者R2包含R1,并且R1、R2的中心都在步骤2中预检测切分点的同侧,则对两个笔画进行合并。如果R1和R2在水平方向上,相互包含70%以上,并且R1,R2的中心都在步骤3中预检测切分点的同侧,则对两个笔画进行合并。
如图15所示,图中为“发”与“村”的粘连部分是“发”的一捺和“村”中木子旁的一撇,两笔画的水平方向的重叠部分宽度D12为18,两笔画的水平宽度分别为D1=24,D2=23,D12≤0.7×D1并且D12≤0.7×D2,所以这两笔画的外接矩形框在水平方向的投影上,相互包含70%以上,则应该进行合并。但是得到的两笔画的中心点的水平方向投影坐标分别是35和41,如图11中的P2,P3所示,在步骤3中预测到的水平坐标为38的切分点两侧,如图11中的P1所示,所以不对两个笔画进行合并,如果没有预测切分点的限制,将对两笔画进行合并,导致笔画合并不正确。
如图16所示,对于“村”字的右半部分一横一竖两个笔画来说,横笔画在水平方向上包括了竖笔画,即两个笔画的外接矩形框在水平方向上D2包含D1,比例在既定阈值0.7之上;两个笔画的中心都在预测切分点的右侧,则对两笔画以及笔画对应的游程列表进行合并,作为一个字块,并继续对图14中的其他笔画进行处理,从而得到该连通域的切分后的字块,如图17所示。
步骤4:保存字块,转到下一连通域进行连通域分析,直至所有连通域遍历完毕后输出字块序列;如图17为最后保存的字块。从图17中看到,“发”的一捺和“村”中木子旁的一撇作为两个不同的字块,避免了正确的切分点被合并而带来的合并错误,而“村”字的右半部分一横一竖两个笔画,由于切分点的预判定使两个粘连的笔画有效地进行了合并,进而准确地对字块进行了判定。
步骤5:根据语义和识别信息对字块进行合并,并调用识别引擎输出识别结果。识别结果为图18所示。
本发明还公开了一种文字识别中粘连字符的切分装置,包括如下模块:
预处理模块:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高;
分析模块:进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块;
合并模块:根据预切分点对提取完毕的笔画进行合并,得到字块;
字块输出模块:保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列;
结果输出模块:根据参考信息对字块进行合并,输出识别结果。

Claims (13)

1.一种文字识别中粘连字符的切分方法,其特征在于,包括如下步骤:
对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高;
进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块;
根据预切分点对提取完毕的笔画进行合并,得到字块;
保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列;
根据参考信息对字块进行合并,输出识别结果。
2.根据权利要求1所述的方法,其特征在于,所述预处理包括对行图像进行去噪,获得行图像的连通域,分别对连通域的宽度直方图和高度直方图进行平滑,取峰值作为平均字宽和平均字高。
3.根据权利要求1所述的方法,其特征在于,所述粘连的连通域为识别距离大于识别阈值或连通域的宽度大于平均字宽的1.5倍或连通域的宽度大于平均字高两倍的连通域。
4.根据权利要求3所述的方法,其特征在于,所述对粘连的连通域进行切分点检测时,选取连通域的投影的波谷作为预切分点。
5.根据权利要求3所述的方法,其特征在于,所述对粘连的连通域进行笔画提取时,在选定的连通域内逐行对黑游程进行扫描,取当前黑游程在下一行的对应位置处,且始终点位置各偏移一个像素的范围内的所有黑游程,选择这些黑游程中游程中心与笔画的预测中心最近的黑游程作为待选游程,如果待选黑游程的中心与预测中心点的距离误差小于阈值Thr,则将待选黑游程加入到的该笔画的游程列表中,否则当前笔画提取完毕,开始下一笔画的跟踪,直至该连通域内所有笔画提取完毕。
6.根据权利要求5所述的方法,其特征在于,所述游程列表的属性中包括游程所在的行、游程的起始点和终止点。
7.根据权利要求5所述的方法,其特征在于,所述笔画的预测中心根据当前笔画方向预测得出。
8.根据权利要求7所述的方法,其特征在于,所述当前笔画方向根据笔画中的已有游程的中心拟合得出。
9.根据权利要求5所述的方法,其特征在于,所述阈值Thr的值为Thr=0.5×a×tan(θ);其中,θ为笔画与竖直方向的夹角,a是笔画的竖直高度。
10.根据权利要求1所述的方法,其特征在于,所述对提取完毕的笔画进行合并时,如果两个笔画的外接矩形框在水平方向上相互包含比例在既定阈值之上,且两笔画的中心在预切分点的同侧,则对两笔画以及笔画对应的游程列表进行合并,作为一个字块。
11.根据权利要求10所述的方法,其特征在于,所述既定阈值为0.7。
12.根据权利要求1所述的方法,其特征在于,所述参考信息为语义和识别信息。
13.一种文字识别中粘连字符的切分装置,其特征在于,包括如下模块:
预处理模块:对输入的行图像进行预处理,获得行图像的连通域、平均字宽和平均字高;
分析模块:进行连通域分析,标记粘连的连通域,对选定的粘连的连通域进行笔画提取,并对粘连的连通域进行切分点检测,获得预切分点,对于非粘连的连通域直接保存字块;
合并模块:根据预切分点对提取完毕的笔画进行合并,得到字块;
字块输出模块:保存字块,转到下一连通域进行粘连的判断,直至所有连通域遍历完毕后输出字块序列;
结果输出模块:根据参考信息对字块进行合并,输出识别结果。
CN2010101142266A 2010-02-25 2010-02-25 文字识别中粘连字符的切分方法和装置 Expired - Fee Related CN102169542B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010101142266A CN102169542B (zh) 2010-02-25 2010-02-25 文字识别中粘连字符的切分方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010101142266A CN102169542B (zh) 2010-02-25 2010-02-25 文字识别中粘连字符的切分方法和装置

Publications (2)

Publication Number Publication Date
CN102169542A true CN102169542A (zh) 2011-08-31
CN102169542B CN102169542B (zh) 2012-11-28

Family

ID=44490700

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010101142266A Expired - Fee Related CN102169542B (zh) 2010-02-25 2010-02-25 文字识别中粘连字符的切分方法和装置

Country Status (1)

Country Link
CN (1) CN102169542B (zh)

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN103106406A (zh) * 2011-11-09 2013-05-15 佳能株式会社 用于切分具有不同字符宽度的文本行中的字符的方法和系统
CN103258196A (zh) * 2013-05-30 2013-08-21 电子科技大学 复杂环境中紧连字符串的字符分离方法
CN103310210A (zh) * 2012-03-13 2013-09-18 日立电脑机器株式会社 文字识别装置、识别字典生成装置以及归一化方法
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN106203539A (zh) * 2015-05-04 2016-12-07 杭州海康威视数字技术股份有限公司 识别集装箱箱号的方法和装置
CN106408021A (zh) * 2016-09-18 2017-02-15 南通大学 一种基于笔画粗细的手写体与印刷体的鉴别算法
CN106611175A (zh) * 2016-12-29 2017-05-03 成都数联铭品科技有限公司 用于图像文字识别的字符图片自动切分系统
CN106682667A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 非常见字体的图像文字ocr识别系统
CN106940799A (zh) * 2016-01-05 2017-07-11 腾讯科技(深圳)有限公司 文本图像处理方法和装置
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN107766854A (zh) * 2017-09-28 2018-03-06 电子科技大学 一种基于模板匹配实现快速页码识别的方法
CN108121988A (zh) * 2016-11-30 2018-06-05 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN108491845A (zh) * 2018-03-02 2018-09-04 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备
CN109389150A (zh) * 2018-08-28 2019-02-26 东软集团股份有限公司 图像一致性比对方法、装置、存储介质及电子设备
CN109871910A (zh) * 2019-03-12 2019-06-11 成都工业学院 一种手写字符识别方法及装置
CN110033004A (zh) * 2019-03-25 2019-07-19 广东奥普特科技股份有限公司 一种粘连字符的识别方法
CN110135426A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN111027557A (zh) * 2019-03-11 2020-04-17 广东小天才科技有限公司 一种基于题目图像的科目识别方法及电子设备
CN111079762A (zh) * 2019-11-26 2020-04-28 合肥联宝信息技术有限公司 一种粘连字符的切割方法及电子设备
CN111680692A (zh) * 2020-05-20 2020-09-18 南京理工大学 一种字符偏移检测方法及系统
CN112613512A (zh) * 2020-12-29 2021-04-06 西北民族大学 基于结构属性的乌金体藏文古籍字符切分方法及系统
CN115862045A (zh) * 2023-02-16 2023-03-28 中国人民解放军总医院第一医学中心 基于图文识别技术的病例自动识别方法、系统、设备及存储介质
CN117877037A (zh) * 2024-03-11 2024-04-12 杭州汇萃智能科技有限公司 一种ocr单字符定位识别方法、系统及计算机存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050226516A1 (en) * 2004-04-12 2005-10-13 Fuji Xerox Co., Ltd. Image dictionary creating apparatus and method
CN101064008A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种印刷体斜体字符的识别方法
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050226516A1 (en) * 2004-04-12 2005-10-13 Fuji Xerox Co., Ltd. Image dictionary creating apparatus and method
CN101064008A (zh) * 2006-04-29 2007-10-31 北大方正集团有限公司 一种印刷体斜体字符的识别方法
CN101251892A (zh) * 2008-03-07 2008-08-27 北大方正集团有限公司 一种字符切分方法和装置

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106406A (zh) * 2011-11-09 2013-05-15 佳能株式会社 用于切分具有不同字符宽度的文本行中的字符的方法和系统
CN103106406B (zh) * 2011-11-09 2016-10-05 佳能株式会社 用于切分具有不同字符宽度的文本行中的字符的方法和系统
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN103310210A (zh) * 2012-03-13 2013-09-18 日立电脑机器株式会社 文字识别装置、识别字典生成装置以及归一化方法
CN103310210B (zh) * 2012-03-13 2016-06-29 株式会社日立信息通信工程 文字识别装置、识别字典生成装置以及归一化方法
CN103258196A (zh) * 2013-05-30 2013-08-21 电子科技大学 复杂环境中紧连字符串的字符分离方法
CN104951741A (zh) * 2014-03-31 2015-09-30 阿里巴巴集团控股有限公司 一种文字识别方法及装置
CN106203539A (zh) * 2015-05-04 2016-12-07 杭州海康威视数字技术股份有限公司 识别集装箱箱号的方法和装置
CN106940799A (zh) * 2016-01-05 2017-07-11 腾讯科技(深圳)有限公司 文本图像处理方法和装置
CN106940799B (zh) * 2016-01-05 2020-07-24 腾讯科技(深圳)有限公司 文本图像处理方法和装置
US10572728B2 (en) 2016-01-05 2020-02-25 Tencent Technology (Shenzhen) Company Limited Text image processing method and apparatus
CN107305630A (zh) * 2016-04-25 2017-10-31 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN107305630B (zh) * 2016-04-25 2021-03-19 腾讯科技(深圳)有限公司 文本序列识别方法和装置
CN106408021A (zh) * 2016-09-18 2017-02-15 南通大学 一种基于笔画粗细的手写体与印刷体的鉴别算法
CN106408021B (zh) * 2016-09-18 2020-06-30 南通大学 一种基于笔画粗细的手写体与印刷体的鉴别方法
CN108121988B (zh) * 2016-11-30 2021-09-24 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN108121988A (zh) * 2016-11-30 2018-06-05 富士通株式会社 信息处理方法和装置以及信息检测方法和装置
CN106682667A (zh) * 2016-12-29 2017-05-17 成都数联铭品科技有限公司 非常见字体的图像文字ocr识别系统
CN106611175A (zh) * 2016-12-29 2017-05-03 成都数联铭品科技有限公司 用于图像文字识别的字符图片自动切分系统
CN107766854B (zh) * 2017-09-28 2021-07-06 电子科技大学 一种基于模板匹配实现快速页码识别的方法
CN107766854A (zh) * 2017-09-28 2018-03-06 电子科技大学 一种基于模板匹配实现快速页码识别的方法
CN108171237A (zh) * 2017-12-08 2018-06-15 众安信息技术服务有限公司 一种文本行图像单字切分方法和装置
CN110135425A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN110135426A (zh) * 2018-02-09 2019-08-16 北京世纪好未来教育科技有限公司 样本标注方法及计算机存储介质
CN108491845B (zh) * 2018-03-02 2022-05-31 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备
CN108491845A (zh) * 2018-03-02 2018-09-04 深圳怡化电脑股份有限公司 字符分割位置的确定、字符分割方法、装置及设备
CN109389150A (zh) * 2018-08-28 2019-02-26 东软集团股份有限公司 图像一致性比对方法、装置、存储介质及电子设备
CN111027557B (zh) * 2019-03-11 2024-03-19 广东小天才科技有限公司 一种基于题目图像的科目识别方法及电子设备
CN111027557A (zh) * 2019-03-11 2020-04-17 广东小天才科技有限公司 一种基于题目图像的科目识别方法及电子设备
CN109871910A (zh) * 2019-03-12 2019-06-11 成都工业学院 一种手写字符识别方法及装置
CN110033004A (zh) * 2019-03-25 2019-07-19 广东奥普特科技股份有限公司 一种粘连字符的识别方法
CN111079762B (zh) * 2019-11-26 2022-02-08 合肥联宝信息技术有限公司 一种粘连字符的切割方法及电子设备
CN111079762A (zh) * 2019-11-26 2020-04-28 合肥联宝信息技术有限公司 一种粘连字符的切割方法及电子设备
CN111680692A (zh) * 2020-05-20 2020-09-18 南京理工大学 一种字符偏移检测方法及系统
CN111680692B (zh) * 2020-05-20 2022-09-13 南京理工大学 一种字符偏移检测方法及系统
CN112613512A (zh) * 2020-12-29 2021-04-06 西北民族大学 基于结构属性的乌金体藏文古籍字符切分方法及系统
CN115862045A (zh) * 2023-02-16 2023-03-28 中国人民解放军总医院第一医学中心 基于图文识别技术的病例自动识别方法、系统、设备及存储介质
CN115862045B (zh) * 2023-02-16 2023-05-26 中国人民解放军总医院第一医学中心 基于图文识别技术的病例自动识别方法、系统、设备及存储介质
CN117877037A (zh) * 2024-03-11 2024-04-12 杭州汇萃智能科技有限公司 一种ocr单字符定位识别方法、系统及计算机存储介质
CN117877037B (zh) * 2024-03-11 2024-07-05 杭州汇萃智能科技有限公司 一种ocr单字符定位识别方法、系统及计算机存储介质

Also Published As

Publication number Publication date
CN102169542B (zh) 2012-11-28

Similar Documents

Publication Publication Date Title
CN102169542B (zh) 文字识别中粘连字符的切分方法和装置
CN110309383B (zh) 基于改进的dbscan算法的船舶轨迹聚类分析方法
JP5837205B2 (ja) 画像領域を使用するテキスト検出
CN103258201B (zh) 一种融合全局和局部信息的表格线提取方法
CN109325401A (zh) 基于边缘定位对题目区域进行标注、识别的方法及系统
Kennard et al. Separating lines of text in free-form handwritten historical documents
CN102446274B (zh) 带有下划线的文本图像预处理方法和装置
CN101408937B (zh) 一种字符行定位的方法及装置
CN104298982A (zh) 一种文字识别方法及装置
CN109726717A (zh) 一种车辆综合信息检测系统
CN102693334B (zh) 基于cad电子图纸的动态构件识别方法
CN102073870A (zh) 一种触摸屏汉字笔迹识别方法
CN101102419A (zh) 一种定位视频字幕区域的方法
CN104182728A (zh) 一种基于模式识别的车标自动定位与识别方法
CN115495055B (zh) 基于界面区域识别技术的rpa元素匹配方法及系统
CN105868724A (zh) 一种基于连通域的二维条码识别方法及系统
CN104036514A (zh) 一种基于直方图峰值搜索的圆检测方法
Ma et al. A method of multiple lane detection based on constraints of lane information
CN115082942A (zh) 一种基于YOLO v5的文档图像流程图识别方法、设备及介质
EP3522073A1 (en) Method and apparatus for detecting road surface marking
CN101604380B (zh) 人头识别直径搜索法
CN104504385B (zh) 手写粘连数字串的识别方法
CN114937269B (zh) 一种基于英文和汉字联合的船舶号牌识别方法及系统
Rohini et al. Segmentation of touching, overlapping, skewed and short handwritten text lines
CN115063817A (zh) 一种基于形态学检测的表格识别方法、系统以及储存介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20121128