CN115171124B - 用于手写汉字识别的文本分割方法 - Google Patents

用于手写汉字识别的文本分割方法 Download PDF

Info

Publication number
CN115171124B
CN115171124B CN202211086742.1A CN202211086742A CN115171124B CN 115171124 B CN115171124 B CN 115171124B CN 202211086742 A CN202211086742 A CN 202211086742A CN 115171124 B CN115171124 B CN 115171124B
Authority
CN
China
Prior art keywords
character
blocks
word
dividing
character blocks
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211086742.1A
Other languages
English (en)
Other versions
CN115171124A (zh
Inventor
余俊红
何芸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Juxin Zhonghui Digital Technology Co ltd
Original Assignee
Jiangsu Juxin Zhonghui Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Juxin Zhonghui Digital Technology Co ltd filed Critical Jiangsu Juxin Zhonghui Digital Technology Co ltd
Priority to CN202211086742.1A priority Critical patent/CN115171124B/zh
Publication of CN115171124A publication Critical patent/CN115171124A/zh
Application granted granted Critical
Publication of CN115171124B publication Critical patent/CN115171124B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18076Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)

Abstract

本发明涉及数据识别处理技术领域,具体涉及一种用于手写汉字识别的文本分割方法,该方法采集手写汉字的文本图像,将文本图像分行;对于每行的字符,利用垂直投影法进行划分,得到多个字符块,将去除了标点字符的剩余字符块分为偏旁字符块、主体字符块和粘连字符块;根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,进而获取相邻两个字符块为同一字符块的第一成字概率、第二成字概率和第三成字概率;并得到最终成字概率,根据最终成字概率将字符块依次合并,得到分割结果图像。本发明能够提高单字分割的准确性,进一步提高手写汉字识别的准确率。

Description

用于手写汉字识别的文本分割方法
技术领域
本发明涉及数据识别处理技术领域,具体涉及一种用于手写汉字识别的文本分割方法。
背景技术
汉字是人们用来交流的工具,纸质媒介是记录汉字的传统媒介,然而随着信息时代的来临,人们逐渐转而更为采用先进的计算机、网络、通讯等信息处理技术存放与处理汉字。在经过大量的研究之后人们发现对手写体文本的识别中由于分割不当引起的识别错误比由于字形不规范和分类器性能不佳而引起的错误还要多。也就是说只有当每一个单独的汉字都能从文本图像中准确的分割出来才有可能进行正确的字符识别。
由于个人的书写习惯,汉字书写随意往往会造成字体扭曲变形、字号大小不一致、连笔和乱笔等现象,并且每一行汉字并不能做到严格水平布置,从而产生倾斜和扭曲,甚至出现相邻行的粘连现象,这些都是不可避免的。目前,对于汉字切分的方法主要有基于汉字结构的切分方法、基于识别的切分方法、基于词的整体切分方法以及基于统计的切分方法等。这些方法容易将相离或不粘连的汉字部件切分开,然而对于字符间发生严重粘连或交叠的情况,这些方法由于找不到准确的切分位置,容易造成粘连字符的错误合并。
发明内容
为了解决上述技术问题,本发明提供一种用于手写汉字识别的文本分割方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种用于手写汉字识别的文本分割方法,该方法包括以下步骤:
采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以所述外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将所述外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;
对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据所述宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;
根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;
以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
优选的,所述二值图像的获取方法为:
将所述文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到所述二值图像。
优选的,所述外接矩形的获取方法为:
对所述二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的所述外接矩形。
优选的,所述根据每个子矩形中每一行的像素值将对应的子矩形分行,包括:
对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对所述直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;
对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
优选的,所述根据字符连通域与水平直线之间的位置关系进行分行,包括:
对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;
对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
优选的,所述根据粘连字符块的粘连特征将粘连字符块分割,包括:
获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
优选的,所述第一成字概率的获取方法为:
计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以所述宽度之和与平均宽度的比值作为所述第一成字概率;
当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为所述第一成字概率。
优选的,所述第二成字概率的获取方法为:
计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于所述平均字间距时,所述第二成字概率为零;当相邻两个字符块之间的字间距小于所述平均字间距时,计算字间距和平均字间距的比值,以1减去所述比值的结果作为所述第二成字概率。
优选的,所述第三成字概率的获取方法为:
获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以所述纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为所述第三成字概率。
本发明实施例至少具有如下有益效果:
通过对文字区域分为多个子矩形进行分块分行,能够根据每部分汉字的内容各自分行,提高了汉字分行的准确度;然后将每个子矩形中的粘连字符块分割,再通过字符块的宽度、字间距和投影范围多方面计算相邻两个字符块为同一字符块的可能性,基于这种可能性对分割开的汉字进行合并,避免出现将偏旁部首分割出来的情况,能够将手写汉字准确分割为单字,单独成字效果较好,同时单字分割的准确性提高,进一步地提高了手写汉字识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种用于手写汉字识别的文本分割方法的步骤流程图;
图2为本发明一个实施例提供的文本图像的二值图像;
图3为图2文字分行之后的信息提取图像;
图4为本发明一个实施例提供的粘连字符块示例图;
图5为本发明一个实施例提供的纵向重叠的字符块示例图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于手写汉字识别的文本分割方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于手写汉字识别的文本分割方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于手写汉字识别的文本分割方法的步骤流程图,该方法包括以下步骤:
步骤S001,采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行。
具体的步骤包括:
1、采集手写汉字的文本图像,并转化为二值图像。
获取相机采集到的手写汉字文本图像,将文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到二值图像。
由于文本背景自带的细小污染和拍摄设备性能引起的干扰以及书写者书写习惯产生的墨点、断点及笔划粗细不均等,会使采集图像产生一些噪声。因此需要对采集的文本图像做灰度化处理,使用均值滤波对灰度图像做平滑处理,去除孤立的噪声点、填充目标区域中孤立的白点、减少字符边缘线上的毛刺和缺口。
然后统计平滑图像的灰度直方图,利用大津算法在灰度直方图上求取最佳分割阈值T,进而对图像进行二值化处理,令白色表示背景,黑色表示手写汉字信息。当像素点的灰度值小于T时,令其为0,当像素点的灰度值不小于T时,令其为1,获得二值化后的文本图像,即为二值图像。
需要说明的是,在本发明实施例中第一预设值为0,第二预设值为1,得到的二值图像为只存在像素值为1和0的图像,得到的二值图像如图2所示。
2、获取二值图像中字体区域的外接矩形。
对二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的外接矩形。
3、根据每个子矩形中每一行的像素值将对应的子矩形分行。
由于书写者本身的书写习惯造成每个人在没有约束的情况下,很难做到把每一行文字都写得平直,这个时候如果行与行之间的距离又比较近就可能发生字符行的重叠现象。基于汉字书写方式可知,若字符行本身包含的字符较少则不易发生重叠,只有当每行的字符较多时,行与行之间才容易发生重叠。但行与行之间始终会保留有一定的间隙,因此首先将字体区域分行。
对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
其中未标记的字符的分行过程为:
对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
根据字体区域的外接矩形建立平面坐标系,使该矩形处于第一象限,矩形左下角为原点,矩形长宽为
Figure 409435DEST_PATH_IMAGE001
。使用直线
Figure 779106DEST_PATH_IMAGE002
,其中
Figure 496526DEST_PATH_IMAGE003
,x为横轴坐标,将矩形纵向划分为等间距的5等份。由此使每个长距离行变成多个短距离行,减小行与行之间发生重叠的概率。其中a的取值可根据文本中每行的字符数量自行设置。
取划分的第一个子矩形为例,从上到下统计每行中像素点为0的数量,获得一个直方图,其横轴长度为N,步长为单个像素点,纵轴为对应行的0值数量,然后对该直方图进行波动曲线拟合,取该曲线上波峰点的横坐标,获得横坐标集合
Figure 219631DEST_PATH_IMAGE004
,其中n为该子矩形内字符行的数量。
在平面坐标系上做直线
Figure 486534DEST_PATH_IMAGE005
,获得n条过第一个子矩形的直线,标记各直线上通过的字符连通域,这些标记连通域根据所处的不同直线进行分行,令直线
Figure 512258DEST_PATH_IMAGE006
上方的未标记字符连通域属于第一行字符,令直线
Figure 231822DEST_PATH_IMAGE007
下方的未标记字符连通域属于第n行字符。
已知一个汉字的书写,其笔画应向同一区域收敛,因此对两相邻直线之间的未标记字符连通域,令其与距离最近的标记字符连通域合并。而对于同时通过两相邻直线的连通域表示上下两行手写汉字粘连,对该连通域两直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据其所属的直线进行分行,若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为0的数量,取最小数量的行为分割线进行划分,若被分成多个连通域部分,则令该部分中通过直线的连通域与距离最近的通过直线的连通域合并。至此将第一个子矩形中的字符分行完成。
同样的方法对每个子矩形分行,对图2分行之后得到的每行的内容如图3所示。
步骤S002,对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块。
汉字的特点是笔划多,结构复杂,一个汉字通常包含多个部件,且有的部件本身也构成一个汉字。因此根据各连通域的外接矩形大小将汉字字符分为三类,一为汉字较小的偏旁部首,二为汉字的主体、三为较大的粘连汉字。进而对粘连汉字进行分割,对偏旁部首进行合并,获取单独成字效果较好的手写汉字分割结果图像。
具体的步骤包括:
首先使用垂直投影法将各行字符进行划分,其横坐标为每字符行的长度,纵坐标为对应纵向上0值像素点数量,依次统计横坐标对应的纵坐标值,以非0纵坐标值相邻的0值纵坐标对应的横坐标的垂线为分割线进行划分,取各划分区域内连通域的行和列的起始和终止位置为边界线,获得各矩形字符块,统计各矩形字符块的高度集合,计算高度均值为
Figure 368405DEST_PATH_IMAGE008
,判断当矩形字符块的高度小于等于
Figure 224234DEST_PATH_IMAGE009
时,该矩形字符块为标点符号,对其进行去除。
然后统计剩余矩形字符块的宽度集合,计算宽度均值为
Figure 545494DEST_PATH_IMAGE010
,令其为标准字符的宽度。设定当矩形字符块的宽度小于
Figure 503086DEST_PATH_IMAGE011
时,判断此类字符块为偏旁部首字符块,当矩形字符块的宽度大于等于
Figure 692628DEST_PATH_IMAGE011
且小于等于
Figure 153696DEST_PATH_IMAGE012
时,判断此类字符块为主体字符块,当矩形字符块的宽度大于
Figure 36070DEST_PATH_IMAGE012
时,判断此类字符块为粘连字符块。
步骤S003,根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率。
具体的步骤包括:
1、根据粘连字符块的粘连特征将粘连字符块分割。
如图4和图5所示,垂直投影法分割的粘连字符块可分为两类,一类为字符块内连通域相连,令一类为字符块内连通域不相连,但纵向上重叠。
获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
取一粘连字符块为例,对其垂直投影直方图进行波动曲线拟合,从左至右依次统计两波峰之间的波谷点的横坐标,获得集合
Figure 215379DEST_PATH_IMAGE013
,其中m为波谷数量。再以集合
Figure 83978DEST_PATH_IMAGE014
中的数据依次在该粘连字符块的长度边上做垂线,然后依次分析垂线上的字符连通域,若其上通过有两个及以上的连通域,说明字符处于纵向重叠状态,则计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域和完全位于垂线左侧的连通域划分为单个字符块,若垂线上只通过一个连通域,说明存在一个字符有较长水平笔划或者斜笔划与另一字符连接,则取垂线对应的垂直投影直方图上左右两侧
Figure 914399DEST_PATH_IMAGE015
范围内横坐标对于的纵坐标值,取最小纵坐标值对于的横坐标值为分割线,令分割线左侧区域为单个字符块。同理从左至右依次根据垂线将粘连字符块分割完成。
至此字符块只有汉字的偏旁部首字符块和主体字符块。
2、根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率。
计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以宽度之和与平均宽度的比值作为第一成字概率;当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为第一成字概率。
对手写汉字文本逐行从左至右进行成字概率计算,以第一行为例,从左至右统计各字符块的宽度,获得集合
Figure 187249DEST_PATH_IMAGE016
,其中k为该行分割的字符块数量。
取第一个字符块的宽度
Figure 103121DEST_PATH_IMAGE017
和第二个字符块的宽度
Figure 385198DEST_PATH_IMAGE018
,若
Figure 70126DEST_PATH_IMAGE019
,则将第一个字符块和第二个字符块合并,令其表示第二块字符,再与第三个字符块进行成字分析。若
Figure 45035DEST_PATH_IMAGE020
,则判断第一个字符块单独成字,再继续分析第二块与第三块字符。
Figure 347007DEST_PATH_IMAGE021
,则需要计算两字符块的成字概率,其根据汉字整体的宽度特征和横向、纵向上的部件分布特征计算。首先根据字符宽度,计算两字符基于字宽的第一成字概率
Figure 682043DEST_PATH_IMAGE022
为:
Figure 237789DEST_PATH_IMAGE023
3、根据字间距获取对应两个字符块为同一字符块的第二成字概率。
计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于平均字间距时,第二成字概率为零;当相邻两个字符块之间的字间距小于平均字间距时,计算字间距和平均字间距的比值,以1减去比值的结果作为第二成字概率。
从左至右统计相邻两字符块之间的距离,获得集合
Figure 632867DEST_PATH_IMAGE024
,取集合均值为
Figure 8485DEST_PATH_IMAGE025
表示此行的平均字间距。
根据书写规则,一个字的其书写笔画靠的较近,非一个字的笔画离的相对较远,根据这一原则,将各个连通域进行归附判定。因此基于字间距的第二成字概率
Figure 756998DEST_PATH_IMAGE026
为:
Figure 682097DEST_PATH_IMAGE027
其中,
Figure 998809DEST_PATH_IMAGE025
为平均字间距,
Figure 376570DEST_PATH_IMAGE028
为第一个字符块和第二个字符块的间距,两字符越接近,成字概率越大,越有可能为同一个字符。
4、根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率。
获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为第三成字概率。
根据汉字的书写方式可知,一个汉字的左右偏旁部首在纵向上应重叠,而不同汉字在纵向上由于个人的书写习惯可能造成偏差,令第一个字符块和第二个字符块处于第一象限,建立平面坐标系,统计第一个字符块在坐标系上的纵向投影区间
Figure 538561DEST_PATH_IMAGE029
和第二个字符块在坐标系上的纵向投影区间
Figure 927954DEST_PATH_IMAGE030
。令区间范围大的为
Figure 664835DEST_PATH_IMAGE031
、区间范围小的为
Figure 280624DEST_PATH_IMAGE032
,若区间
Figure 761153DEST_PATH_IMAGE032
完全处于区间
Figure 270631DEST_PATH_IMAGE031
内,则说明两字符在纵向上重叠,其基于字符纵向投影的成字概率
Figure 397987DEST_PATH_IMAGE033
为1。
若区间
Figure 750340DEST_PATH_IMAGE032
存在不处于区间
Figure 519713DEST_PATH_IMAGE031
的部分,则说明两字符在纵向上存在偏差。计算区间
Figure 8332DEST_PATH_IMAGE031
的范围大小为
Figure 572168DEST_PATH_IMAGE034
和区间
Figure 287184DEST_PATH_IMAGE032
不处于区间
Figure 843936DEST_PATH_IMAGE031
的部分大小为
Figure 937794DEST_PATH_IMAGE035
,其基于字符纵向投影区间的第三成字概率
Figure 187378DEST_PATH_IMAGE033
为:
Figure 999476DEST_PATH_IMAGE036
其中
Figure 500865DEST_PATH_IMAGE035
表示两字符的纵向偏差量,
Figure 229655DEST_PATH_IMAGE034
表示相邻两个字符块中纵向投影区间范围最大值。
相邻两个字符块的纵向偏差量越小,说明两字符在纵向上的位置越重叠,越有可能为同一个字。
步骤S004,以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
具体的步骤包括:
1、以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率。
相邻两个字符块为同一字符块的最终成字概率P为:
Figure 135295DEST_PATH_IMAGE037
2、获取分割结果图像。
对于每一行字符块,按照从左到右的顺序进行字符合并,即当第一块字符与第二块字符之间的最终成字概率
Figure 683956DEST_PATH_IMAGE038
时,第一块字符与第二块字符为同一个字符,将两个字符块合并,按照顺序继续分析第三和第四块字符;否则第一块字符单独成字,进而分析第二和第三块字符。依次进行合并分析,将第一行字符分割完成。
同理对手写汉字文本进行逐行分割,至此实现了文本的汉字字符分割,然后对分割的不同大小的字符块做几何变换,使之成为同一大小尺寸,获得单独成字效果较好的手写汉字分割结果图像。
综上所述,本发明实施例采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。本发明实施例能够将手写汉字准确分割为单字,单独成字效果较好,同时单字分割的准确性提高,进一步地提高了手写汉字识别的准确率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。

Claims (9)

1.用于手写汉字识别的文本分割方法,其特征在于,该方法包括以下步骤:
采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以所述外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将所述外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;
对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据所述宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;
根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;
以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
2.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述二值图像的获取方法为:
将所述文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到所述二值图像。
3.根据权利要求2所述的用于手写汉字识别的文本分割方法,其特征在于,所述外接矩形的获取方法为:
对所述二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的所述外接矩形。
4.根据权利要求2所述的用于手写汉字识别的文本分割方法,其特征在于,所述根据每个子矩形中每一行的像素值将对应的子矩形分行,包括:
对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对所述直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;
对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
5.根据权利要求4所述的用于手写汉字识别的文本分割方法,其特征在于,所述根据字符连通域与水平直线之间的位置关系进行分行,包括:
对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;
对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
6.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述根据粘连字符块的粘连特征将粘连字符块分割,包括:
获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
7.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述第一成字概率的获取方法为:
计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以所述宽度之和与平均宽度的比值作为所述第一成字概率;
当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为所述第一成字概率。
8.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述第二成字概率的获取方法为:
计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于所述平均字间距时,所述第二成字概率为零;当相邻两个字符块之间的字间距小于所述平均字间距时,计算字间距和平均字间距的比值,以1减去所述比值的结果作为所述第二成字概率。
9.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述第三成字概率的获取方法为:
获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以所述纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为所述第三成字概率。
CN202211086742.1A 2022-09-07 2022-09-07 用于手写汉字识别的文本分割方法 Active CN115171124B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211086742.1A CN115171124B (zh) 2022-09-07 2022-09-07 用于手写汉字识别的文本分割方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211086742.1A CN115171124B (zh) 2022-09-07 2022-09-07 用于手写汉字识别的文本分割方法

Publications (2)

Publication Number Publication Date
CN115171124A CN115171124A (zh) 2022-10-11
CN115171124B true CN115171124B (zh) 2022-11-11

Family

ID=83480375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211086742.1A Active CN115171124B (zh) 2022-09-07 2022-09-07 用于手写汉字识别的文本分割方法

Country Status (1)

Country Link
CN (1) CN115171124B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115410209B (zh) * 2022-10-31 2023-01-31 山东济矿鲁能煤电股份有限公司阳城煤矿 一种基于图像处理的煤矿工单识别方法
CN115393861B (zh) * 2022-10-31 2023-01-31 蓝舰信息科技南京有限公司 一种手写体文本精准分割方法
CN115953785B (zh) * 2023-03-15 2023-05-16 山东薪火书业有限公司 基于教辅图书内容增强的数字化编辑系统
CN116994261B (zh) * 2023-09-27 2023-12-15 山东金榜苑文化传媒有限责任公司 一种大数据精准教学智能题卡图像智能识别系统
CN117612172B (zh) * 2024-01-24 2024-03-19 成都医星科技有限公司 脱敏位置定位及脱敏方法、装置、电子设备与存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN108984512A (zh) * 2017-06-05 2018-12-11 中移信息技术有限公司 一种文本的分词方法及装置
CN110516674A (zh) * 2019-09-04 2019-11-29 中国地质调查局西安地质调查中心 一种文本图像的手写汉字分割方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102496013A (zh) * 2011-11-11 2012-06-13 苏州大学 用于脱机手写汉字识别的汉字字符切分方法
CN108984512A (zh) * 2017-06-05 2018-12-11 中移信息技术有限公司 一种文本的分词方法及装置
CN110516674A (zh) * 2019-09-04 2019-11-29 中国地质调查局西安地质调查中心 一种文本图像的手写汉字分割方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中文手写体文本分割算法的研究;曲宇涛;《中国优秀硕士学位论文全文数据库》;20100101;全文 *

Also Published As

Publication number Publication date
CN115171124A (zh) 2022-10-11

Similar Documents

Publication Publication Date Title
CN115171124B (zh) 用于手写汉字识别的文本分割方法
US6075892A (en) Methods for determining font attributes of characters
CN108171104B (zh) 一种文字检测方法及装置
Lee et al. Binary segmentation algorithm for English cursive handwriting recognition
CN113158808B (zh) 中文古籍字符识别、组段与版面重建方法、介质和设备
JP2933801B2 (ja) 文字の切り出し方法及びその装置
CN115082934B (zh) 一种金融票据中手写汉字分割识别方法
CN108830278B (zh) 一种字符串图像识别方法
US11823474B2 (en) Handwritten text recognition method, apparatus and system, handwritten text search method and system, and computer-readable storage medium
CN111507356A (zh) 一种金融票据小写金额手写字符的分割方法
CN116824608A (zh) 基于目标检测技术的答题卡版面分析方法
CN107798355B (zh) 一种基于文档图像版式自动分析与判断的方法
Li An effective approach to offline arabic handwriting recognition
CN110516674B (zh) 一种文本图像的手写汉字分割方法及系统
CN113139535A (zh) 一种ocr文档识别方法
Rehman et al. Simple and effective techniques for core-region detection and slant correction in offline script recognition
CN111914847B (zh) 一种基于模板匹配的ocr识别方法及其系统
CN110298350B (zh) 一种高效的印刷体维吾尔文单词分割算法
CN108764155B (zh) 一种手写维吾尔文单词切分识别方法
CN113421256A (zh) 一种点阵文本行字符投影分割方法及装置
CN112016564A (zh) 一种金融票据小写金额处最优二值化阈值的计算方法
JPH04352295A (ja) 文字列方向判別装置
CN103955685A (zh) 边缘跟踪数字识别方法
CN117132998B (zh) 书法作品单个字体识别方法及其识别系统
JP3344062B2 (ja) カタカナ手書き文字切り出し回路

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant