CN115171124B - 用于手写汉字识别的文本分割方法 - Google Patents
用于手写汉字识别的文本分割方法 Download PDFInfo
- Publication number
- CN115171124B CN115171124B CN202211086742.1A CN202211086742A CN115171124B CN 115171124 B CN115171124 B CN 115171124B CN 202211086742 A CN202211086742 A CN 202211086742A CN 115171124 B CN115171124 B CN 115171124B
- Authority
- CN
- China
- Prior art keywords
- character
- blocks
- word
- dividing
- character blocks
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
- G06V30/18076—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by analysing connectivity, e.g. edge linking, connected component analysis or slices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明涉及数据识别处理技术领域,具体涉及一种用于手写汉字识别的文本分割方法,该方法采集手写汉字的文本图像,将文本图像分行;对于每行的字符,利用垂直投影法进行划分,得到多个字符块,将去除了标点字符的剩余字符块分为偏旁字符块、主体字符块和粘连字符块;根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,进而获取相邻两个字符块为同一字符块的第一成字概率、第二成字概率和第三成字概率;并得到最终成字概率,根据最终成字概率将字符块依次合并,得到分割结果图像。本发明能够提高单字分割的准确性,进一步提高手写汉字识别的准确率。
Description
技术领域
本发明涉及数据识别处理技术领域,具体涉及一种用于手写汉字识别的文本分割方法。
背景技术
汉字是人们用来交流的工具,纸质媒介是记录汉字的传统媒介,然而随着信息时代的来临,人们逐渐转而更为采用先进的计算机、网络、通讯等信息处理技术存放与处理汉字。在经过大量的研究之后人们发现对手写体文本的识别中由于分割不当引起的识别错误比由于字形不规范和分类器性能不佳而引起的错误还要多。也就是说只有当每一个单独的汉字都能从文本图像中准确的分割出来才有可能进行正确的字符识别。
由于个人的书写习惯,汉字书写随意往往会造成字体扭曲变形、字号大小不一致、连笔和乱笔等现象,并且每一行汉字并不能做到严格水平布置,从而产生倾斜和扭曲,甚至出现相邻行的粘连现象,这些都是不可避免的。目前,对于汉字切分的方法主要有基于汉字结构的切分方法、基于识别的切分方法、基于词的整体切分方法以及基于统计的切分方法等。这些方法容易将相离或不粘连的汉字部件切分开,然而对于字符间发生严重粘连或交叠的情况,这些方法由于找不到准确的切分位置,容易造成粘连字符的错误合并。
发明内容
为了解决上述技术问题,本发明提供一种用于手写汉字识别的文本分割方法,所采用的技术方案具体如下:
本发明一个实施例提供了一种用于手写汉字识别的文本分割方法,该方法包括以下步骤:
采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以所述外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将所述外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;
对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据所述宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;
根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;
以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
优选的,所述二值图像的获取方法为:
将所述文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到所述二值图像。
优选的,所述外接矩形的获取方法为:
对所述二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的所述外接矩形。
优选的,所述根据每个子矩形中每一行的像素值将对应的子矩形分行,包括:
对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对所述直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;
对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
优选的,所述根据字符连通域与水平直线之间的位置关系进行分行,包括:
对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;
对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
优选的,所述根据粘连字符块的粘连特征将粘连字符块分割,包括:
获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
优选的,所述第一成字概率的获取方法为:
计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以所述宽度之和与平均宽度的比值作为所述第一成字概率;
当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为所述第一成字概率。
优选的,所述第二成字概率的获取方法为:
计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于所述平均字间距时,所述第二成字概率为零;当相邻两个字符块之间的字间距小于所述平均字间距时,计算字间距和平均字间距的比值,以1减去所述比值的结果作为所述第二成字概率。
优选的,所述第三成字概率的获取方法为:
获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以所述纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为所述第三成字概率。
本发明实施例至少具有如下有益效果:
通过对文字区域分为多个子矩形进行分块分行,能够根据每部分汉字的内容各自分行,提高了汉字分行的准确度;然后将每个子矩形中的粘连字符块分割,再通过字符块的宽度、字间距和投影范围多方面计算相邻两个字符块为同一字符块的可能性,基于这种可能性对分割开的汉字进行合并,避免出现将偏旁部首分割出来的情况,能够将手写汉字准确分割为单字,单独成字效果较好,同时单字分割的准确性提高,进一步地提高了手写汉字识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1为本发明一个实施例提供的一种用于手写汉字识别的文本分割方法的步骤流程图;
图2为本发明一个实施例提供的文本图像的二值图像;
图3为图2文字分行之后的信息提取图像;
图4为本发明一个实施例提供的粘连字符块示例图;
图5为本发明一个实施例提供的纵向重叠的字符块示例图。
具体实施方式
为了更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的一种用于手写汉字识别的文本分割方法,其具体实施方式、结构、特征及其功效,详细说明如下。在下述说明中,不同的“一个实施例”或“另一个实施例”指的不一定是同一实施例。此外,一或多个实施例中的特定特征、结构或特点可由任何合适形式组合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。
下面结合附图具体的说明本发明所提供的一种用于手写汉字识别的文本分割方法的具体方案。
请参阅图1,其示出了本发明一个实施例提供的一种用于手写汉字识别的文本分割方法的步骤流程图,该方法包括以下步骤:
步骤S001,采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行。
具体的步骤包括:
1、采集手写汉字的文本图像,并转化为二值图像。
获取相机采集到的手写汉字文本图像,将文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到二值图像。
由于文本背景自带的细小污染和拍摄设备性能引起的干扰以及书写者书写习惯产生的墨点、断点及笔划粗细不均等,会使采集图像产生一些噪声。因此需要对采集的文本图像做灰度化处理,使用均值滤波对灰度图像做平滑处理,去除孤立的噪声点、填充目标区域中孤立的白点、减少字符边缘线上的毛刺和缺口。
然后统计平滑图像的灰度直方图,利用大津算法在灰度直方图上求取最佳分割阈值T,进而对图像进行二值化处理,令白色表示背景,黑色表示手写汉字信息。当像素点的灰度值小于T时,令其为0,当像素点的灰度值不小于T时,令其为1,获得二值化后的文本图像,即为二值图像。
需要说明的是,在本发明实施例中第一预设值为0,第二预设值为1,得到的二值图像为只存在像素值为1和0的图像,得到的二值图像如图2所示。
2、获取二值图像中字体区域的外接矩形。
对二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的外接矩形。
3、根据每个子矩形中每一行的像素值将对应的子矩形分行。
由于书写者本身的书写习惯造成每个人在没有约束的情况下,很难做到把每一行文字都写得平直,这个时候如果行与行之间的距离又比较近就可能发生字符行的重叠现象。基于汉字书写方式可知,若字符行本身包含的字符较少则不易发生重叠,只有当每行的字符较多时,行与行之间才容易发生重叠。但行与行之间始终会保留有一定的间隙,因此首先将字体区域分行。
对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
其中未标记的字符的分行过程为:
对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
根据字体区域的外接矩形建立平面坐标系,使该矩形处于第一象限,矩形左下角为原点,矩形长宽为。使用直线,其中,x为横轴坐标,将矩形纵向划分为等间距的5等份。由此使每个长距离行变成多个短距离行,减小行与行之间发生重叠的概率。其中a的取值可根据文本中每行的字符数量自行设置。
取划分的第一个子矩形为例,从上到下统计每行中像素点为0的数量,获得一个直方图,其横轴长度为N,步长为单个像素点,纵轴为对应行的0值数量,然后对该直方图进行波动曲线拟合,取该曲线上波峰点的横坐标,获得横坐标集合,其中n为该子矩形内字符行的数量。
在平面坐标系上做直线,获得n条过第一个子矩形的直线,标记各直线上通过的字符连通域,这些标记连通域根据所处的不同直线进行分行,令直线上方的未标记字符连通域属于第一行字符,令直线下方的未标记字符连通域属于第n行字符。
已知一个汉字的书写,其笔画应向同一区域收敛,因此对两相邻直线之间的未标记字符连通域,令其与距离最近的标记字符连通域合并。而对于同时通过两相邻直线的连通域表示上下两行手写汉字粘连,对该连通域两直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据其所属的直线进行分行,若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为0的数量,取最小数量的行为分割线进行划分,若被分成多个连通域部分,则令该部分中通过直线的连通域与距离最近的通过直线的连通域合并。至此将第一个子矩形中的字符分行完成。
同样的方法对每个子矩形分行,对图2分行之后得到的每行的内容如图3所示。
步骤S002,对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块。
汉字的特点是笔划多,结构复杂,一个汉字通常包含多个部件,且有的部件本身也构成一个汉字。因此根据各连通域的外接矩形大小将汉字字符分为三类,一为汉字较小的偏旁部首,二为汉字的主体、三为较大的粘连汉字。进而对粘连汉字进行分割,对偏旁部首进行合并,获取单独成字效果较好的手写汉字分割结果图像。
具体的步骤包括:
首先使用垂直投影法将各行字符进行划分,其横坐标为每字符行的长度,纵坐标为对应纵向上0值像素点数量,依次统计横坐标对应的纵坐标值,以非0纵坐标值相邻的0值纵坐标对应的横坐标的垂线为分割线进行划分,取各划分区域内连通域的行和列的起始和终止位置为边界线,获得各矩形字符块,统计各矩形字符块的高度集合,计算高度均值为,判断当矩形字符块的高度小于等于时,该矩形字符块为标点符号,对其进行去除。
然后统计剩余矩形字符块的宽度集合,计算宽度均值为,令其为标准字符的宽度。设定当矩形字符块的宽度小于时,判断此类字符块为偏旁部首字符块,当矩形字符块的宽度大于等于且小于等于时,判断此类字符块为主体字符块,当矩形字符块的宽度大于时,判断此类字符块为粘连字符块。
步骤S003,根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率。
具体的步骤包括:
1、根据粘连字符块的粘连特征将粘连字符块分割。
如图4和图5所示,垂直投影法分割的粘连字符块可分为两类,一类为字符块内连通域相连,令一类为字符块内连通域不相连,但纵向上重叠。
获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
取一粘连字符块为例,对其垂直投影直方图进行波动曲线拟合,从左至右依次统计两波峰之间的波谷点的横坐标,获得集合,其中m为波谷数量。再以集合中的数据依次在该粘连字符块的长度边上做垂线,然后依次分析垂线上的字符连通域,若其上通过有两个及以上的连通域,说明字符处于纵向重叠状态,则计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域和完全位于垂线左侧的连通域划分为单个字符块,若垂线上只通过一个连通域,说明存在一个字符有较长水平笔划或者斜笔划与另一字符连接,则取垂线对应的垂直投影直方图上左右两侧范围内横坐标对于的纵坐标值,取最小纵坐标值对于的横坐标值为分割线,令分割线左侧区域为单个字符块。同理从左至右依次根据垂线将粘连字符块分割完成。
至此字符块只有汉字的偏旁部首字符块和主体字符块。
2、根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率。
计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以宽度之和与平均宽度的比值作为第一成字概率;当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为第一成字概率。
3、根据字间距获取对应两个字符块为同一字符块的第二成字概率。
计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于平均字间距时,第二成字概率为零;当相邻两个字符块之间的字间距小于平均字间距时,计算字间距和平均字间距的比值,以1减去比值的结果作为第二成字概率。
4、根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率。
获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为第三成字概率。
根据汉字的书写方式可知,一个汉字的左右偏旁部首在纵向上应重叠,而不同汉字在纵向上由于个人的书写习惯可能造成偏差,令第一个字符块和第二个字符块处于第一象限,建立平面坐标系,统计第一个字符块在坐标系上的纵向投影区间和第二个字符块在坐标系上的纵向投影区间。令区间范围大的为、区间范围小的为,若区间完全处于区间内,则说明两字符在纵向上重叠,其基于字符纵向投影的成字概率为1。
相邻两个字符块的纵向偏差量越小,说明两字符在纵向上的位置越重叠,越有可能为同一个字。
步骤S004,以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
具体的步骤包括:
1、以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率。
相邻两个字符块为同一字符块的最终成字概率P为:
2、获取分割结果图像。
对于每一行字符块,按照从左到右的顺序进行字符合并,即当第一块字符与第二块字符之间的最终成字概率时,第一块字符与第二块字符为同一个字符,将两个字符块合并,按照顺序继续分析第三和第四块字符;否则第一块字符单独成字,进而分析第二和第三块字符。依次进行合并分析,将第一行字符分割完成。
同理对手写汉字文本进行逐行分割,至此实现了文本的汉字字符分割,然后对分割的不同大小的字符块做几何变换,使之成为同一大小尺寸,获得单独成字效果较好的手写汉字分割结果图像。
综上所述,本发明实施例采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。本发明实施例能够将手写汉字准确分割为单字,单独成字效果较好,同时单字分割的准确性提高,进一步地提高了手写汉字识别的准确率。
需要说明的是:上述本发明实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的范围,均应包含在本申请的保护范围之内。
Claims (9)
1.用于手写汉字识别的文本分割方法,其特征在于,该方法包括以下步骤:
采集手写汉字的文本图像,并转化为二值图像,获取二值图像中字体区域的外接矩形,以所述外接矩形的左下角作为坐标原点构建坐标系,通过切割横坐标将所述外接矩形均分为多个子矩形,根据每个子矩形中每一行的像素值将对应的子矩形分行;
对于每行的字符,利用垂直投影法进行划分,得到多个字符块,基于字符块的高度去除标点字符,统计剩余字符块的宽度,根据所述宽度将剩余字符块分为偏旁字符块、主体字符块和粘连字符块;
根据粘连字符块的粘连特征将粘连字符块分割,顺序统计每行的每个字符块的宽度以及相邻两个字符块之间的字间距,根据相邻两个字符块的宽度获取对应两个字符块为同一字符块的第一成字概率,根据字间距获取对应两个字符块为同一字符块的第二成字概率,根据相邻两个字符块的纵向投影范围获取对应两个字符块为同一字符块的第三成字概率;
以第一成字概率、第二成字概率和第三成字概率的平均值作为最终成字概率,对于每一行字符块,按照从左到右的顺序根据最终成字概率将字符块依次合并,得到分割结果图像。
2.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述二值图像的获取方法为:
将所述文本图像进行灰度化得到灰度图像,通过均值滤波对灰度图像去噪,利用大津算法获取去噪后的灰度图像的最佳阈值,将灰度值小于最佳阈值的像素点赋值为第一预设值,灰度值不小于最佳阈值的像素点赋值为第二预设值,得到所述二值图像。
3.根据权利要求2所述的用于手写汉字识别的文本分割方法,其特征在于,所述外接矩形的获取方法为:
对所述二值图像进行逐行和逐列遍历,选取第一个和最后一个含有第一预设值的像素点的行作为矩形的宽,选取第一个和最后一个含有第一预设值的像素点的列作为矩形的高,组成字体区域的所述外接矩形。
4.根据权利要求2所述的用于手写汉字识别的文本分割方法,其特征在于,所述根据每个子矩形中每一行的像素值将对应的子矩形分行,包括:
对于每个子矩形,从上到下统计每行像素点中像素值为第一预设值的数量,并构建直方图,对所述直方图进行波动曲线拟合,统计拟合的曲线中每个波峰点的横坐标,以每个横坐标作为高度在子矩形上作水平直线,将每条水平直线通过的字符连通域标记,将标记的连通域根据所处的不同直线进行分行;
对于未标记的字符连通域,根据字符连通域与水平直线之间的位置关系进行分行。
5.根据权利要求4所述的用于手写汉字识别的文本分割方法,其特征在于,所述根据字符连通域与水平直线之间的位置关系进行分行,包括:
对于两条相邻水平直线之间的未标记的字符连通域,令其与距离最近的标记的字符连通域合并;
对于同时通过两条相邻水平直线的未标记的字符连通域,对两条相邻水平直线之间的部分进行形态学腐蚀操作,若被分为两个连通域,则根据每个连通域所属的直线进行分行;若仍为一个整体连通域,则对此部分连通域进行逐行统计像素点为第一预设值的数量,取最小数量的行作为分割线进行划分;若被分成多个部分连通域,令每个通过水平直线的部分连通域与距离最近的通过水平直线的字符连通域合并。
6.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述根据粘连字符块的粘连特征将粘连字符块分割,包括:
获取每个粘连字符块的垂直投影直方图,对垂直投影直方图进行波动曲线拟合,从左至右依次统计波谷点的横坐标,按照横坐标的顺序依次在该粘连字符块的长度边上做垂线,若垂线上通过有两个及以上的连通域,计算过垂线连通域的中心点,取中心点位于垂线左侧的连通域作为单个字符块;若垂线上只通过一个连通域,在垂线对应的垂直投影直方图上左右两侧范围内,选取最小纵坐标值对应的横坐标值为分割线,令分割线左侧区域为单个字符块。
7.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述第一成字概率的获取方法为:
计算每行中所有字符块的平均宽度,当相邻两个字符块的宽度之和小于等于平均宽度时,以所述宽度之和与平均宽度的比值作为所述第一成字概率;
当相邻两个字符块的宽度之和大于平均宽度时,以平均宽度的预设倍数减去两个字符块的宽度之和的结果作为分子,以平均宽度作为分母,得到的比值即为所述第一成字概率。
8.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述第二成字概率的获取方法为:
计算每行中所有字间距的平均值作为平均字间距,当相邻两个字符块之间的字间距大于等于所述平均字间距时,所述第二成字概率为零;当相邻两个字符块之间的字间距小于所述平均字间距时,计算字间距和平均字间距的比值,以1减去所述比值的结果作为所述第二成字概率。
9.根据权利要求1所述的用于手写汉字识别的文本分割方法,其特征在于,所述第三成字概率的获取方法为:
获取每个字符块的纵向投影区间范围,以相邻两个字符块的纵向投影区间范围的偏差作为纵向偏差量,以所述纵向偏差量和相邻两个字符块中纵向投影区间范围最大值的比值作为所述第三成字概率。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086742.1A CN115171124B (zh) | 2022-09-07 | 2022-09-07 | 用于手写汉字识别的文本分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211086742.1A CN115171124B (zh) | 2022-09-07 | 2022-09-07 | 用于手写汉字识别的文本分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115171124A CN115171124A (zh) | 2022-10-11 |
CN115171124B true CN115171124B (zh) | 2022-11-11 |
Family
ID=83480375
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211086742.1A Active CN115171124B (zh) | 2022-09-07 | 2022-09-07 | 用于手写汉字识别的文本分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115171124B (zh) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410209B (zh) * | 2022-10-31 | 2023-01-31 | 山东济矿鲁能煤电股份有限公司阳城煤矿 | 一种基于图像处理的煤矿工单识别方法 |
CN115393861B (zh) * | 2022-10-31 | 2023-01-31 | 蓝舰信息科技南京有限公司 | 一种手写体文本精准分割方法 |
CN115953785B (zh) * | 2023-03-15 | 2023-05-16 | 山东薪火书业有限公司 | 基于教辅图书内容增强的数字化编辑系统 |
CN116994261B (zh) * | 2023-09-27 | 2023-12-15 | 山东金榜苑文化传媒有限责任公司 | 一种大数据精准教学智能题卡图像智能识别系统 |
CN117612172B (zh) * | 2024-01-24 | 2024-03-19 | 成都医星科技有限公司 | 脱敏位置定位及脱敏方法、装置、电子设备与存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496013A (zh) * | 2011-11-11 | 2012-06-13 | 苏州大学 | 用于脱机手写汉字识别的汉字字符切分方法 |
CN108984512A (zh) * | 2017-06-05 | 2018-12-11 | 中移信息技术有限公司 | 一种文本的分词方法及装置 |
CN110516674A (zh) * | 2019-09-04 | 2019-11-29 | 中国地质调查局西安地质调查中心 | 一种文本图像的手写汉字分割方法及系统 |
-
2022
- 2022-09-07 CN CN202211086742.1A patent/CN115171124B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102496013A (zh) * | 2011-11-11 | 2012-06-13 | 苏州大学 | 用于脱机手写汉字识别的汉字字符切分方法 |
CN108984512A (zh) * | 2017-06-05 | 2018-12-11 | 中移信息技术有限公司 | 一种文本的分词方法及装置 |
CN110516674A (zh) * | 2019-09-04 | 2019-11-29 | 中国地质调查局西安地质调查中心 | 一种文本图像的手写汉字分割方法及系统 |
Non-Patent Citations (1)
Title |
---|
中文手写体文本分割算法的研究;曲宇涛;《中国优秀硕士学位论文全文数据库》;20100101;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN115171124A (zh) | 2022-10-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN115171124B (zh) | 用于手写汉字识别的文本分割方法 | |
US6075892A (en) | Methods for determining font attributes of characters | |
CN108171104B (zh) | 一种文字检测方法及装置 | |
Lee et al. | Binary segmentation algorithm for English cursive handwriting recognition | |
CN113158808B (zh) | 中文古籍字符识别、组段与版面重建方法、介质和设备 | |
JP2933801B2 (ja) | 文字の切り出し方法及びその装置 | |
Kumar et al. | Segmentation of isolated and touching characters in offline handwritten Gurmukhi script recognition | |
CN115082934B (zh) | 一种金融票据中手写汉字分割识别方法 | |
CN108830278B (zh) | 一种字符串图像识别方法 | |
US11823474B2 (en) | Handwritten text recognition method, apparatus and system, handwritten text search method and system, and computer-readable storage medium | |
CN111507356A (zh) | 一种金融票据小写金额手写字符的分割方法 | |
CN110516674B (zh) | 一种文本图像的手写汉字分割方法及系统 | |
CN113139535A (zh) | 一种ocr文档识别方法 | |
Li | An effective approach to offline arabic handwriting recognition | |
Rehman et al. | Simple and effective techniques for core-region detection and slant correction in offline script recognition | |
CN116824608A (zh) | 基于目标检测技术的答题卡版面分析方法 | |
CN111914847B (zh) | 一种基于模板匹配的ocr识别方法及其系统 | |
CN110298350B (zh) | 一种高效的印刷体维吾尔文单词分割算法 | |
CN108764155B (zh) | 一种手写维吾尔文单词切分识别方法 | |
CN113421256A (zh) | 一种点阵文本行字符投影分割方法及装置 | |
CN112016564A (zh) | 一种金融票据小写金额处最优二值化阈值的计算方法 | |
JPH04352295A (ja) | 文字列方向判別装置 | |
CN103955685A (zh) | 边缘跟踪数字识别方法 | |
CN117132998B (zh) | 书法作品单个字体识别方法及其识别系统 | |
JP3344062B2 (ja) | カタカナ手書き文字切り出し回路 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |