CN103186787A - 基于点云模型的低质汉字初始骨架提取算法 - Google Patents
基于点云模型的低质汉字初始骨架提取算法 Download PDFInfo
- Publication number
- CN103186787A CN103186787A CN 201110458349 CN201110458349A CN103186787A CN 103186787 A CN103186787 A CN 103186787A CN 201110458349 CN201110458349 CN 201110458349 CN 201110458349 A CN201110458349 A CN 201110458349A CN 103186787 A CN103186787 A CN 103186787A
- Authority
- CN
- China
- Prior art keywords
- chinese character
- low
- line segment
- point
- quality chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明公开了一种基于点云模型的低质汉字初始骨架提取算法,即基于点云模型的增量广义均值聚类算法,涉及到一种计算机图像处理技术。该算法综合特征分析、聚类理论,对低质汉字进行初始骨架提取:首先用带长度约束的第一主成份线段作为迭代的初始值;然后逐步增加关建点以形成新的Voronoi区域,其中关键点按目标函数最大下降的准则选择;接着寻找Voronoi区域的第一主成份线段;最后调整原有Voronoi区域;通过不断的迭代,最终得到低质汉字的初始骨架。本发明提出的算法即使在严重降质情况下也能够获得满足原始汉字拓扑结构的初始骨架,提高了低质汉字中提取初始骨架的准确性,可以运用在中文信息处理、机器翻译、人工智能等技术领域。
Description
技术领域
本发明涉及计算机图像处理技术,尤其是涉及一种针对低质汉字的骨架提取方法。
背景技术
由于低质汉字受到多种降质因素的影响,其骨架提取较理想汉字难。低质汉字骨架提取的难点之一是现有的骨架提取方法大都针对的是理想汉字,涉及低质汉字问题比较少;难点之二是基于常规的骨架提取方法例如对称轴变化法、数学形态学方法、小波模极大值方法等对低质图像进行骨架提取效果欠佳,难以避免的出现个别笔画的骨架缺失和不符合人类视觉等情况。
现有的骨架提取的方法很多,大多数方法都是假定轮廓是可以确定的且轮廓中的点是连接的。例如:基于对称轴分析的骨架提取方法、细化方法和形状分解方法。对称轴分析方法主要是通过寻找目标形状轮廓的对称轴来获得骨架。骨架被看作是中轴变换(medial axis)得到的对称中心点构成的集合。属于这类方法的骨架提取算法有对称轴变换算法、基于小波极大模的骨架提取算法和基于小波极小模的骨架提取算法等。这类方法的缺点是:在离散域里通过对称轴分析来寻找骨架是件很困难的事,而且中轴变化提取的骨架一般都是断裂的,算法的性能依赖于轮廓提取的结果。Tang Y Y对该方法做了改进,提出利用小波极大模提取汉字骨架。该方法首先利用小波极大模探测字符的边缘点,然后根据梯度方向和事先设定的固定长度找到对称点对,对称点对的中心点就是所求的骨架点。这种方法利用一种简单的方式寻找汉字笔画的对称中心,计算复杂度低。但是,由于在交叉区域不存在上述的对称点对,所以这种方法提取的骨架在交叉区域依然是断裂的(见图1(2))。对于低质汉字特别是间断和稀疏化较严重的情况下,小波极大模方法基本上不能提出完整的骨架。有学者对小波极大模方法进行了改进,该方法首先对小波极大模方法得到的骨架点进行了平滑操作从而得到初始骨架,然后采用插值补偿技术连接奇异区域(笔画的交叉点和联结点处属于奇异区域)。算法实验结果见图1(3),红色线条为该方法提取的骨架。虽然该算法在符合人类视觉方面表现比较出色,能够较好的保持目标的原始形状,但是该方法对交叉区域骨架的提取还是不令人满意(见图1(3)“大”字笔画交叉区域)。
Blum指出对称轴的提取可以利用点的生长获得,这种提取对称轴的方法叫做细化(thinning)算法。细化算法的基本思想是利用分层双向或单向迭代的方法更改目标形状边缘点成背景点,直到目标变成由一些单像素宽弧线和曲线所构成的集合。这些单像素的曲线和弧线很好地保持了目标形状的相连性(也叫拓扑性质),是一种原始目标的很好的替代物。这类方法有早期的草火法和基于数学形态学的骨架提取算法。细化方法的缺点是:对于规则汉字的骨架提取不可避免的会出现许多笔画断裂和笔画末端的分叉,而且对间断和稀疏严重的汉字很难提取出完整的骨架(见图2)。数学形态学方法是细化方法的一种,图2 (1)和(3)分别表示圆幼和黑体的原始汉字“岢”(此汉字为理想汉字),(2)和(4)分别为其采用基于数学形态学方法提取骨架的实验结果。由图2(2)和(4)可知,对于规则汉字而言,此方法最大问题是会出现许多笔画末端的树枝状分叉,视吻合度较差。
二十世纪八十年代末,形状分解方法被一些科学家用来抑制人造小分支的产生。形状分解算法的基本思路是将一个目标分解成一些简单的部分,然后分别对这些简单的部分进行骨架提取,从而得到整个目标的骨架。J. J. Zou等人利用约束Delaunay三角形(constrained Delaunay triangulation,CDT)对形状特征进行分解。这些方法由于采用了比较契合数据特点的三角剖分,即使在复杂交叉区域也能够获得比较好的骨架提取效果。但是由于该方法涉及到形状的三角剖分和规则性分析以及区域融合等算法,计算复杂度很高,且这些方法只适用于理想汉字,对低质汉字问题处理效果并不理想。
总之,迄今为止,低质汉字骨架提取依然是一个挑战性的问题,大部分现有的骨架提取算法并不能提取出符合人类视觉的低质汉字骨架。
发明内容
1. 发明目的
本发明的目的是建立一个适用于低质汉字骨架提取的新模型和提出一种低质汉字初始骨架提取算法,从而解决低质汉字骨架提取这一模式识别和数字图像处理中的难点和热点问题。
2. 技术解决方案
本发明综合特征分析、聚类理论,提出了一种新的基于点云模型的低质汉字初始骨架提取算法,这种算法即使在严重降质的情况下,依然能够获得较好的初始骨架提取结果。本发明首先建立了低质汉字的点云模型,在点云模型基础上进行初始骨架提取。
具体处理技术方案如下:
首先,本发明将低质汉字看成是由像素点云构成的,并且从像素点云数据中进行骨架提取,这种提取汉字骨架的模型被称为点云模型。基于点云模型,低质汉字可以看作是二维平面点阵图像,表示为:
(5)
上式中,是低质汉字骨架提取所寻找的最优解。
在低质汉字点云模型中,如果能够用恰当的标签标记点云,并将低质汉字划分为不同的Voronoi区域,那么由于每个区域的第一主成份线都是这区域点云的对称线性归纳,这样所有区域的第一主成份线段就是上式的最优解。此时,如果能够用恰当的标签标记点云,那么由于每类的第一主成份线都是这类点云的对称线性归纳,这样所有类别的第一主成份线段就组成了低质汉字的初始骨架。
在均值聚类中,的取值不恰当会直接影响到骨架提取结果的好坏,并且不同的汉字有不同的值。因此,我们需要找到一种方法来决定的取值。本文基于软K主曲线的增量搜索算法提出了一种寻找的方法,该方法的基本思想是逐步增加主成份线段的数量直到满足结束条件为止。增量广义均值聚类指广义均值聚类用增量搜索的方法决定的取值。
增量广义均值聚类提取低质汉字初始骨架算法的基本思路是:首先,用带长度约束的第一主成份线段作为迭代的初始值;然后,逐步增加新的关键点以形成新的Voronoi区域;接着,判断新Voronoi区域内数据点的个数是否大于给定阀值,求出新Voronoi区域的第一主成份线段,重新计算原有Voronoi区域的第一主成份线段;最后,调整原有Voronoi区域。通过不断的迭代,最终得到低质汉字的初始骨架。本算法分作四步:初始化步、添加新区域步、添加新线段步和调整步。步骤详述如下,图3中给出了提取初始骨架的流程图。
1)初始化步骤:读入数据点集,将看作一个Voronoi区域,标准化变换后计算出第一主成份线段。记初始线段为,对应的Voronoi区域为,作为线段数目迭代的初值,表示Voronoi区域内数据点数目的阀值为3。
2)添加新区域步骤:首先选择新的关键点,关键点满足公式(7),然后根据(8)公式确定新的Voronoi区域。关键点满足公式如下:
(8)
3)添加新线段步骤:判断新Voronoi区域内的数据点的个数是否大于给定阀值,若不是,则程序结束;否则,按照步骤(1)求取新Voronoi区域中的第一主成份线段,并重新计算原有Voronoi区域的第一主成份线段,。
3. 技术效果
本发明算法获得的初始骨架具有这些特点:它与原始汉字拓扑结构相一致,独立于汉字原始形状的位置、尺寸、质量和解析度,在噪声和允许的扭曲下该骨架是稳定的。在严重的汉字降质情况下也能得到高鲁棒性的骨架提取结果。本发明算法在中文信息处理、办公室自动化、机器翻译、人工智能等高技术领域都有着重要的实用价值和理论意义。
附图说明
图1是基于小波极大模方法骨架提取实验结果。
图2是基于数学形态学方法提取汉字骨架实验结果。
图3是初始骨架提取流程图。
图4是行书“红”字的原始图像。
图5是加入椒盐噪声后的图像,绿色线段为第一条第一主成份线段,红色圈为中心点。
图6是加入椒盐噪声后的图像与其初始骨架的叠加图,绿色线段集合构成初始骨架。
图7是初始骨架图,绿色线段集合为初始骨架。
具体实施方式
图4是一幅行书“红”字的原始图像。图5是待处理的带背景噪声的低质汉字图像。
本专利方法在一台配置为2.0GHz CPU和1G byte内存的PC上,采用Matlab语言编程实现,计算时间为0.67秒。
Claims (3)
(1) 初始化:读入低质汉字的数据点集,将看作一个Voronoi区域,标准化变换后计算出第一主成份线段;记初始线段为,对应的Voronoi区域为,作为线段数目迭代的初值,表示Voronoi区域内数据点数目的阀值为3;
(2) 添加新区域:首先选择新的关键点,关键点满足公式(2),然后根据(3)公式确定新的Voronoi区域:
(3) 添加新线段:判断新Voronoi区域内的数据点的个数是否大于给定阀值,若不是,则程序结束;否则,按照步骤(1)求取新Voronoi区域中的第一主成份线段,并重新计算原有Voronoi区域的第一主成份线段,;
上式中表示点到第一主成份线段的距离,等式右边表示点到所有Voronoi区域里第一主成份线段距离的最小值;调整所有Voronoi区域,依次比较与每一个区域是否相同,如果不同则重新计算不同区域的第一主成份线段,完毕后更新,继续第(2)步;如果相同,则结束调整步骤,继续第(2)步;
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110458349 CN103186787A (zh) | 2011-12-31 | 2011-12-31 | 基于点云模型的低质汉字初始骨架提取算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201110458349 CN103186787A (zh) | 2011-12-31 | 2011-12-31 | 基于点云模型的低质汉字初始骨架提取算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103186787A true CN103186787A (zh) | 2013-07-03 |
Family
ID=48677947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201110458349 Pending CN103186787A (zh) | 2011-12-31 | 2011-12-31 | 基于点云模型的低质汉字初始骨架提取算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103186787A (zh) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761744A (zh) * | 2014-02-21 | 2014-04-30 | 哈尔滨工业大学 | 通用型二维点云分组方法 |
CN104156730A (zh) * | 2014-07-25 | 2014-11-19 | 山东大学 | 一种基于骨架的抗噪声汉字特征提取方法 |
CN104408455A (zh) * | 2014-11-27 | 2015-03-11 | 上海理工大学 | 粘连字符分割方法 |
CN104992176A (zh) * | 2015-07-24 | 2015-10-21 | 北京航空航天大学 | 一种面向碑文的汉字提取方法 |
CN105005995A (zh) * | 2015-07-29 | 2015-10-28 | 武汉大学 | 一种计算三维点云模型骨骼的方法 |
CN106780458A (zh) * | 2016-12-09 | 2017-05-31 | 重庆邮电大学 | 一种点云骨架提取方法及装置 |
CN108629238A (zh) * | 2017-03-21 | 2018-10-09 | 高德软件有限公司 | 一种识别汉字标记的方法和装置 |
CN108665514A (zh) * | 2017-03-29 | 2018-10-16 | 北大方正集团有限公司 | 字形剖分方法及字形剖分装置 |
CN116543310A (zh) * | 2023-06-30 | 2023-08-04 | 眉山环天智慧科技有限公司 | 一种基于Voronoi图和核密度的道路线提取方法 |
-
2011
- 2011-12-31 CN CN 201110458349 patent/CN103186787A/zh active Pending
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103761744A (zh) * | 2014-02-21 | 2014-04-30 | 哈尔滨工业大学 | 通用型二维点云分组方法 |
CN103761744B (zh) * | 2014-02-21 | 2016-06-15 | 哈尔滨工业大学 | 通用型二维点云分组方法 |
CN104156730A (zh) * | 2014-07-25 | 2014-11-19 | 山东大学 | 一种基于骨架的抗噪声汉字特征提取方法 |
CN104156730B (zh) * | 2014-07-25 | 2017-12-01 | 山东大学 | 一种基于骨架的抗噪声汉字特征提取方法 |
CN104408455B (zh) * | 2014-11-27 | 2017-09-12 | 上海理工大学 | 粘连字符分割方法 |
CN104408455A (zh) * | 2014-11-27 | 2015-03-11 | 上海理工大学 | 粘连字符分割方法 |
CN104992176A (zh) * | 2015-07-24 | 2015-10-21 | 北京航空航天大学 | 一种面向碑文的汉字提取方法 |
CN104992176B (zh) * | 2015-07-24 | 2018-04-06 | 北京航空航天大学 | 一种面向碑文的汉字提取方法 |
CN105005995A (zh) * | 2015-07-29 | 2015-10-28 | 武汉大学 | 一种计算三维点云模型骨骼的方法 |
CN105005995B (zh) * | 2015-07-29 | 2017-07-25 | 武汉大学 | 一种计算三维点云模型骨骼的方法 |
CN106780458A (zh) * | 2016-12-09 | 2017-05-31 | 重庆邮电大学 | 一种点云骨架提取方法及装置 |
CN106780458B (zh) * | 2016-12-09 | 2020-04-28 | 重庆邮电大学 | 一种点云骨架提取方法及装置 |
CN108629238A (zh) * | 2017-03-21 | 2018-10-09 | 高德软件有限公司 | 一种识别汉字标记的方法和装置 |
CN108629238B (zh) * | 2017-03-21 | 2020-07-10 | 阿里巴巴(中国)有限公司 | 一种识别汉字标记的方法和装置 |
CN108665514A (zh) * | 2017-03-29 | 2018-10-16 | 北大方正集团有限公司 | 字形剖分方法及字形剖分装置 |
CN108665514B (zh) * | 2017-03-29 | 2021-02-09 | 北大方正集团有限公司 | 字形剖分方法及字形剖分装置 |
CN116543310A (zh) * | 2023-06-30 | 2023-08-04 | 眉山环天智慧科技有限公司 | 一种基于Voronoi图和核密度的道路线提取方法 |
CN116543310B (zh) * | 2023-06-30 | 2023-10-31 | 眉山环天智慧科技有限公司 | 一种基于Voronoi图和核密度的道路线提取方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103186787A (zh) | 基于点云模型的低质汉字初始骨架提取算法 | |
CN105844635B (zh) | 一种基于结构字典的稀疏表示深度图像重建方法 | |
CN106022228B (zh) | 一种基于网格纵横局部二值模式的三维人脸识别方法 | |
CN109903319B (zh) | 一种基于多分辨率的快速迭代最近点配准算法 | |
CN106709948A (zh) | 一种基于超像素分割的快速双目立体匹配方法 | |
CN103559736B (zh) | 表演者的无标记点三维实时捕捉系统 | |
CN108537865A (zh) | 一种基于视觉三维重建的古建筑模型生成方法和装置 | |
CN110910492B (zh) | 非刚性三维模型之间点点匹配的方法 | |
CN102411779A (zh) | 基于图像的物体模型匹配姿态测量方法 | |
CN101986295B (zh) | 基于流形稀疏编码的图像聚类的方法 | |
CN105354555B (zh) | 一种基于概率图模型的三维人脸识别方法 | |
CN108961330A (zh) | 基于图像的猪体长测算方法及系统 | |
CN104298990A (zh) | 一种基于骨架图的快速图形匹配与识别的方法 | |
CN106844524A (zh) | 一种基于深度学习和Radon变换的医学图像检索方法 | |
CN103700089A (zh) | 一种三维医学图像多尺度异构特征的提取与分类方法 | |
CN107885787A (zh) | 基于谱嵌入的多视角特征融合的图像检索方法 | |
CN104899607A (zh) | 一种传统云纹图案的自动分类方法 | |
CN107146251A (zh) | 一种三维人脸模型的对称性分析方法 | |
Gao et al. | Classification of 3D terracotta warrior fragments based on deep learning and template guidance | |
CN111858997B (zh) | 一种基于跨领域匹配的服装样板生成方法 | |
CN102034115A (zh) | 基于马尔可夫随机场模型与非局部先验的图像配准方法 | |
CN110967020B (zh) | 一种面向港口自动驾驶的同时制图与定位方法 | |
CN102289661A (zh) | 一种基于谱匹配的三维网格模型的匹配方法 | |
CN110223331B (zh) | 一种大脑mr医学图像配准方法 | |
CN105654029A (zh) | 可提高识别精度及效率的三维点云耳廓识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C05 | Deemed withdrawal (patent law before 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20130703 |