CN104951788B - 一种书法作品中单字笔画的提取方法 - Google Patents
一种书法作品中单字笔画的提取方法 Download PDFInfo
- Publication number
- CN104951788B CN104951788B CN201510398109.XA CN201510398109A CN104951788B CN 104951788 B CN104951788 B CN 104951788B CN 201510398109 A CN201510398109 A CN 201510398109A CN 104951788 B CN104951788 B CN 104951788B
- Authority
- CN
- China
- Prior art keywords
- stroke
- skeleton
- point
- strokes
- points
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000000605 extraction Methods 0.000 claims abstract description 29
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 230000009193 crawling Effects 0.000 claims description 31
- 241000270295 Serpentes Species 0.000 claims description 18
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 5
- 230000002093 peripheral effect Effects 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 3
- 238000004088 simulation Methods 0.000 abstract description 3
- 238000013456 study Methods 0.000 abstract description 2
- 241000270322 Lepidosauria Species 0.000 abstract 1
- 238000010586 diagram Methods 0.000 description 13
- 230000008569 process Effects 0.000 description 7
- 239000000284 extract Substances 0.000 description 4
- 238000001514 detection method Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000004075 alteration Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
- G06V10/422—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation for representing the structure of the pattern or shape of an object therefor
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种书法作品中单字笔画的提取方法,通过采用骨架爬虫单元获取书法作品中单字的骨架笔画,计算书法作品中原单字的各笔画的笔画宽度、获取骨架笔画轮廓的最小包围区,分析不同类型骨架交叉点与笔画轮廓最小包围区的关系、定位共享区及确定共享区的类型,根据共享区的类型及骨架笔画轮廓的最小包围区,完成笔画的提取。本发明能够为基于笔画的书法字识别、书法风格比较、书法作品真伪鉴别奠定基础。采用本发明提供的算法,能够完整提取书法作品中的单字笔画,为基于笔画的书法字分类、识别、重构、动画仿真等相关研究及应用提供笔画提取方法。
Description
技术领域
本发明涉及一种文字图像处理方法,具体涉及一种书法作品中单字笔画的提取方法。
背景技术
笔画是组成和表征文字的基本元素,是文字分类、识别和检索的基础。汉文由笔画和部首构成,从上及下、从左到右书写,以二维的方式排列。文字的分类和识别一般是以笔画元素为基础。书法是一种手写体,西方书法用扁平笔书写,中国的书法通常用毛笔写,都仍在教学实用中。汉字书法最大的特点在于:书法的笔画不像打印体那样:横平竖直,且每个笔画或字母都是有固定模板的。汉字的毛笔书法,不仅每个笔画粗细不同,而且即使同一个笔画的粗细也是不同的;除了笔画变形之外,笔画之间还会有打印体所没有的粘连。这些变化给笔画提取带来困难,然而正是这些笔画上的信息变化,承载着书法最重要的独特信息,是分类的依据,是书法笔画成为书写过程重现、书法风格识别的基础。
书法笔画是实现书体风格的建模、风格的表达与分类、书法风格的发现、书法书写过程的重现、书法作品创作、书法临摹过程交互式动画、以及书法作品真伪检测的基础。上述几项书法研究都是基于书法笔画。对于打印体汉字而言,汉字的笔画组成都是标准的、一致的。书法,尤其是历史书法字,其笔画变化复杂多变,针对历史书法字笔画的获取和表达存在较多的空白。本发明基于汉字书写规律,提出用笔画爬虫方法探测和提取基本的骨架笔画,再结合轮廓信息,提取有笔画宽度的书法笔画。
发明内容
本发明的目的在于提供一种书法作品中单字笔画的提取方法,通过采用骨架爬虫单元获取书法作品中单字的骨架笔画,计算书法作品中原单字的各笔画的笔画宽度、获取骨架笔画轮廓的最小包围区,分析不同类型骨架交叉点与笔画轮廓最小包围区的关系、定位共享区及确定共享区的类型,根据共享区的类型及骨架笔画轮廓的最小包围区,完成笔画的提取。本发明能够为基于笔画的书法字识别、书法风格比较、书法作品真伪鉴别奠定基础。
为了达到上述目的,本发明通过以下技术方案实现:
一种书法作品中单字笔画的提取方法,该提取方法包含:
S1,采用骨架爬虫单元获取书法作品中单字的骨架笔画;
S2,计算书法作品中原单字的各笔画的笔画宽度,获取所述步骤S1中骨架笔画轮廓的最小包围区;
S3,分析不同类型骨架交叉点与笔画轮廓最小包围区的关系,定位共享区及确定共享区的类型;
S4,根据所述共享区的类型及骨架笔画轮廓的最小包围区,完成笔画的提取。
优选地,所述步骤S1包含:
S1.1,对书法作品图像进行处理,对书法作品中单字进行骨架提取、轮廓提取;
S1.2,扫描单字骨架的所有骨架像素点,计算每个骨架像素点周边八个邻域内其他骨架像素点的个数N进行分类;当N=1时,该骨架像素点为端点;当N>2时,该骨架像素点为交叉点;当N=2时,该骨架像素点为普通点;计算端点集合为se、交叉点集合为sf;
S1.3,在端点集合se中任选一个端点处作为骨架爬虫的起始点,控制骨架爬虫单元沿该端点开始的骨架点爬行,记录爬行过的所有骨架像素点;
S1.4当骨架爬虫单元爬行至交叉点时,暂停该骨架爬虫单元,进行路径选择的计算:根据该交叉点相邻周边邻域内骨架像素点的个数N,控制N个试探爬虫单元以该交叉点为起点,相交的对应N个骨架像素点爬行,直至遇到如下情况之一时,试探爬虫单元停止爬行:
a.试探爬虫单元遇到骨架端点;b.试探爬虫单元的爬行距离达到阈值th;
当所有试探爬虫单元终止爬行后,计算它们的爬行路径,选择与原暂停骨架爬虫单元爬行方向最接近的路径;若该路径与原骨架爬虫单元路径的夹角大于90°,则终止原暂停骨架爬虫单元;否则重新启动暂停的骨架爬虫单元,使其沿试探爬虫单元得到的最接近的方向继续爬行,并记录爬行过的所有骨架像素点;
S1.5,对于端点集合se中其他端点重复所述步骤S1.3直至所述骨架爬虫单元爬行过所有端点集合se中端点,完成由端点起止的骨架笔画提取后,执行步骤S1.6;
S1.6,获取所有未被所述骨架爬虫单元爬行过的剩余骨架像素点,当获取的像素点个数大于3时,重新执行所述步骤S1.2,重新计算端点,形成集合sr;
重复执行所述步骤S1.3-S1.5,直至所获取的剩余骨架像素点个数小于等于3个时,跳转至步骤S1.7;
S1.7,扫描所有提取得到的笔画,计算所有笔画的平均长度μl及笔画长度标准差σl;并剔除任何笔画中笔画长度小于长度阈值μl-3σl的毛刺笔画;
S1.8,扫描所有提取得到的笔画,将满足合并条件的笔画进行合并。
优选地,所述步骤S1中还包含:
当单字骨架中出现环形笔画时,即所有未被所述骨架爬行虫单元爬行过的骨架像素点均为普通点时,控制该骨架爬行虫单元随机取一点作为端点,执行所述步骤S1.4;
优选地,所述步骤S1.7包含:
提取第i笔的笔画segi={Bi,Ei,Snakei},其中Bi,Ei分别为该笔画的起始点和终止点,Snakei={c1,c2,...,cn}为所述骨架爬虫单元爬过的该骨架笔画中的其他骨架点转换的代码序列,当满足如下条件时:
segi={|Snakei|<μl-3σl,Bi∈se|Ei∈se};
其中,|Snakei|为笔画链码长度;
第i笔的笔画为毛刺笔画,将该第i笔的笔画剔除。
优选地,所述步骤S1.8包含:
当第i笔的笔画的走势与第j笔的笔画的走势相同,并且第i笔的笔画的终止点与第j笔的笔画的起始点之间的距离小于阈值,即满足如下条件时:
其中,γ·th为阈值,Type(snake)是笔画的类型判定式,Bi为第i笔的笔画的起始点,Ej为第j笔的笔画的终止点;
若snakei={c1c2…cj…},则:
其中,
则将第i笔的笔画与第j笔的笔画合并;
当第i笔的笔画的走势与第j笔笔画的走势相反,且两端点间距离小于阈值,即满足:
则将第i笔的笔画与第j笔的笔画合并。
优选地,所述步骤S2包含:
S2.1,根据所述步骤S1对单字进行的轮廓提取,计算骨架笔画中每一个骨架像素点的笔画宽度dm,从而统计该笔画的平均宽度μ及其标准差σ;
S2.2,根据每条笔画的平均宽度μ及其标准差σ,根据下式计算第i笔的笔画轮廓最小包围区SSi:
其中,为第i笔的笔画中第m个骨架像素点,P第i笔笔画中任一为轮廓点;
优选地,所述步骤S2.1包含:
S2.1.1,以第i笔笔画的第m个骨架像素点为圆心,做等角度β的M条直线,获得M条直线中与轮廓线之间的交点计算处的笔画宽度其中k=1,2,3,...,M;β·M=180°;为M条直线中第k条直线与单字轮廓线相交的第1个点;为M条直线中第k条直线与单字轮廓线相交的第2个点;
S2.1.2,以该单字为单位,获得该单字全部骨架像素点处的笔画宽度,得到集合sd={d1,d2,...,dNum},其中Num为该书法字骨架像素点数目,计算该集合的均值μ与标准差σ。
优选地,所述步骤S3包含:
S3.1,对该单字的交叉点集合sf使用基于密度的聚类算法进行聚类形成交叉点类集合sfc,并使用交叉点类集合sfc聚类中心表征共享区;
S3.2,对所述步骤S3.1中获得的交叉点类集合sf进行修正,使用交叉点类集合sf聚类中心计算相交笔画;
S3.4,根据相交笔画,确定交叉区域的类型。
优选地,所述步骤S4包含:
S4.1,根据步骤S3获取的共享区类型,确定共享区的划分方式;
S4.2,提取共享区域的最小包围域
S4.3,在最小包围域中计算共享区处笔画轮廓连接点,依照共享区划分方式,补全笔画轮廓线,完成笔画提取。
优选地,所述步骤S4.3包含:
S4.3.1,对于“十”型共享区域,确定轮廓连接点;令共享区内相交笔画为segi、segj,segi与共享区最小包围域两交点构造这两点所决定的直线:
f(p)=Ax+By+C
其中x、y为p点的坐标值,A、B、C为常量。将求得的角点,代入以上方程中;
当角点满足:
时,上述两个角点位于骨架的同一侧,等待连接成封闭轮廓线;
以角点为中心点构造连接点集合将各自多个邻域内的两个邻居点加入集合中,得到:
其中 为的邻居点,为的邻居点。在中选择一个点p1,在中选择一个点p2,令其连线与骨架笔画走向保持最一致,即满足:
连接p1、p2,完成补全轮廓线,最终完成笔画提取;对于笔画segj笔画提取方式与笔画segi步骤相同,结束。
本发明与现有技术相比具有以下优点:
本发明公开的一种书法作品中单字笔画的提取方法,是基于汉字书写规律,采用骨架爬虫单元探测和提取基本的骨架笔画,再结合轮廓信息,提取带有笔画宽度的书法笔画。采用本发明提供的算法,能够完整提取书法作品中的单字,为基于笔画的书法字分类、识别、重构、动画仿真等相关研究及应用提供了可靠的笔画提取方法。
附图说明
图1为本发明一种书法作品中单字笔画的提取方法的整体流程示意图。
图2a为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之一。
图2b为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之二。
图2c为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之三。
图2d为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之四。
图3a为本发明一种书法作品中单字笔画的提取方法的第一轮提取方法具体实施后所提取得的骨架示意图。
图3b为本发明一种书法作品中单字笔画的提取方法的第二轮提取方法的具体实施所提取得的骨架示意图。
图3c为本发明一种书法作品中单字笔画的提取方法的第三轮提取方法的具体实施所提取得的骨架示意图。
图4-1为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之五。
图4-2为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之六。
图5为本发明一种书法作品中单字笔画的提取方法的单个骨架点宽度计算方法示意图。
图6为本发明一种书法作品中单字笔画的提取方法的“十”型和“T”型共享区检测示意图。
图7为本发明一种书法作品中单字笔画的提取方法的最小包围盒内的轮廓曲线示意图。
图8为本发明一种书法作品中单字笔画的提取方法的具体实施例示意图之六。
具体实施方式
以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
如图1所示,一种书法作品中单字笔画的提取方法,该提取方法包含:
S1,采用骨架爬虫单元获取书法作品中单字的骨架笔画。该步骤S1包含:
S1.1,如图2a所示,对扫描得到书法作品图像进行处理,对书法作品中单字进行骨架提取、轮廓提取。
本发明中,步骤S1.1包含:
对书法作品图像进行去噪、去背景色处理,提取书法作品中单字的二值化图像。
对上述单字的二值化图像进行二值化处理,对单字进行骨架提取、轮廓提取。
S1.2,扫描单字骨架的所有骨架像素点,根据每个骨架像素点相邻周边领域内其他骨架像素点的个数N,对该骨架点进行分类:当N=1时,该骨架像素点为端点;当N>2时,该骨架像素点为交叉点;当N=2时,该骨架像素点为普通点;计算端点集合为se、交叉点集合为sf。如图2b所示,端点集se用○标记,交叉点集合sf用×标记。
S1.3,如图2c所示,在端点集合se中一个端点处,控制骨架爬虫单元沿该端点处的骨架爬行,记录爬行过的所有骨架像素点。
S1.4当骨架爬虫单元爬行至交叉点时,暂停爬行,先进行路径选择的计算:根据该交叉点相邻周边邻域内骨架像素点的个数N,控制N个试探爬虫单元,以该交叉点为起始点,沿着代表N条路径的N个邻居骨架像素点爬行,直到遇见以下两种情况之一时终止爬行:(1)爬虫遇到端点;(2)爬行距离达到阈值th;当所有试探爬虫终止爬行后,计算它们的爬行路径,选择与原暂停爬虫爬行方向最接近的路径;若该路径与原爬虫路径的夹角大于90°,则终止原暂停爬虫;否则重新启动暂停的爬虫,使其沿试探爬虫得到的最接近的方向继续爬行,并记录爬行过的所有骨架像素点。
提取由端点处起笔的骨架笔画,其原理图如图2c所示:
(1)选择端点集合se中的一个点A,骨架爬虫单元从该点沿骨架方向开始爬行。
(2)骨架爬虫单元经过O1时,检测O1为交叉点,暂停骨架爬虫单元的爬行,释放2个试探爬虫单元分别沿与该交叉点相交的2个骨架像素点爬行,直至试探爬虫单元爬行距离达到阈值th:
其中,
th=max{width,height}·α
th为试探爬虫爬行的最远距离,与该字图像的高度和宽度成比例,比例因子为α,其取值范围为[0.1,0.13]。
(3)若在试探爬虫单元爬行过程中遇到交叉点时,如图2d所示,暂停试探爬虫单元的爬行,依照步骤(2)中骨架爬虫单元的操作过程,进行操作。
(4)重复步骤(3)直至处于爬行过程中的试探爬虫单元停止爬行。
(5)记录爬行过程中的所遇到的交叉点,若交叉点之间的距离小于阈值th,则将其聚为一类,插值得到聚类中心O。如图2d所示,O是交叉点O1和O2的聚类中心,位于O1O2的中点;三只试探爬虫停止爬行后,获得OB、OC及OD三条试探路径。
(6)检测每天返回的试探路径,假设W为爬行终点,则被选中的路径要满足如下两个条件:
其中W,B,C∈St,St为骨架爬虫单元爬行终止点的集合。根据上述计算原理,试探爬虫所获OB、OC及OD三条路径中,选择OC。
S1.5,对于端点集合se中其他端点重复步骤S1.3直至骨架爬虫单元爬行过所有端点集合se中端点,完成由端点起止的骨架笔画提取,如图3a所示,为该子执行完成步骤S1.5后的结果。
S1.6,获取所有未被骨架爬虫单元爬行过的骨架像素点,当所获取的像素点个数大于3个时,执行步骤S1.2,重新计算端点,形成集合重复依次执行S1.3、S1.4、S1.5,所获取的骨架笔画如图3b所示;继续执行S1.6,所获取的骨架笔画如图3c所示。
本发明中,具体方法如下:
(1)剔除骨架中由端点起笔的笔画骨架点,保留骨架爬虫单元未爬过的骨架点及其与之相邻接的交叉点;
(2)若第i次执行步骤S1.2所得到交叉点集为端点集为则第i+1次所计算得到的交叉点集合新的端点集合为:
其中,N8(p)是当前剩下的p点8邻域点(被爬过的骨架点已剔除)的个数;与N8(p)对应,N4(p)是p点4邻域的像素点个数;
(3)根据新生成的端点,按照步骤S1.4进行笔画提取。
S1.7,扫描所有提取得到的笔画,计算所有笔画的平均长度μl及笔画长度标准差σl;并剔除任何笔画中笔画长度小于长度阈值μl-3σl的毛刺笔画。该步骤S1.7包含:
提取第i笔的笔画segi={Bi,Ei,Snakei},其中Bi,Ei分别为该笔画的起始点和终止点,Snakei={c1,c2,...,cn}为骨架爬虫单元爬过的该骨架笔画中的其他骨架点转换的码序列,当满足如下条件时:
segi={|Snakei|<μl-3σl,Bi∈se|Ei∈se};
其中,|Snakei|为笔画链码长度;
第i笔的笔画为毛刺笔画,将该第i笔的笔画剔除。
S1.8,扫描所有提取得到的笔画,将满足合并条件的笔画进行合并。该步骤S1.8包含:
当第i笔的笔画的走势与第j笔的笔画的走势相同,并且第i笔的笔画的终止点与第j笔的笔画的起始点之间的距离小于阈值,即满足如下条件时:
其中,γ·th为阈值,本实施例中,的取值范围为[0.3,0.34]。Type(snake)是笔画的类型判定式,Bi为第i笔的笔画的起始点,Ej为第j笔的笔画的终止点;
若snakei={c1c2…cj…},则:
其中,
则将第i笔的笔画与第j笔的笔画合并;
当第i笔的笔画的走势与第j笔笔画的走势相反,且两端点间距离小于阈值,即满足:
其中,Ei为第i笔的笔画端点。
则将第i笔的笔画与第j笔的笔画合并。
该步骤S1中还包含:
当单字骨架中出现没有端点、没有交叉点的环形笔画时,按上述方案执行,环形骨架笔画会被剩下,爬虫执行完毕后的所得的骨架笔画中会缺失环形笔,如图4-1所示;此时,剩余骨架笔画的个数会大于3个控制骨架爬行虫单元随机取剩余部分骨架中的一点作为端点,执行步骤S1.4,所得结果如图4-2所示。
S2,计算书法作品中原单字的各笔画的笔画宽度,获取步骤S1中骨架笔画轮廓的最小包围区。该步骤S2包含:
S2.1,根据步骤S1对单字进行的轮廓提取,计算每条笔画中每一个骨架像素点处的笔画宽度dm,从而计算该笔画的平均宽度μ及其标准差σ。该步骤S2.1包含:
具体操作原理如图5所示:
S2.1.1,以第i笔笔画的第m个骨架像素点为圆心,做等角度β的M条直线,获得M条直线中与轮廓线之间的交点计算处的笔画宽度其中k=1,2,3,...,M;β·M=180°;为M条直线中第k条直线与单字轮廓线相交的第1个点;为M条直线中第k条直线与单字轮廓线相交的第2个点;
S2.1.2,以该单字为单位,获得该单字全部骨架像素点处的笔画宽度,得到集合sd={d1,d2,...,dNum},其中Num为该书法字骨架像素点数目,计算该集合的均值μ与标准差σ。
S2.2,根据每条笔画的平均宽度及其标准差,根据下式计算第i笔的笔画轮廓最小包围区SSi:
其中,为第i笔的笔画中第m个骨架像素点,P为第i笔笔画中任一轮廓点。
S3,分析不同类型骨架交叉点与笔画轮廓最小包围区的关系,定位共享区及确定共享区的类型。该步骤S3包含:
S3.1,对该单字的交叉点集合sf使用基于密度的聚类算法进行聚类形成交叉点类集合sfc,并使用交叉点类集合sfc聚类中心表征共享区。该步骤S3.1包含:
S3.1.1,对于任一交叉点pi∈sf,统计半径为ε=1的邻域内的交叉点个数ni,如满足ni≥MinPts(MinPts=2),则pi为一个核心点,记作作为第一个元素加入集合Ck中,并将ni个的ε=1邻域内的交叉点加入Ck中。
S3.1.2,统计与更新后Ck集合中任一元素的距离在ε=1半径内的其他交叉点,加入Ck集合;重复该迭代过程,直至Ck集合不再更新;该集合就是以为核心交叉点的第k类的聚类;重复操作,直至sf中所有的交叉点均被包含到某一类别中。
S3.2,对步骤S3.1中获得的交叉点类集合sf进行修正,使用交叉点类集合sf聚类中心计算相交笔画。该步骤S3.2包含:
采用质心公式计算交叉点类集合sfc的聚类中心构建聚类中心聚类矩阵Dm×m:
其中,dij为各聚类中心之间的欧基米德距离:
遍历Dm×m,合并聚类中心距离过小的类别Ci、Cj,即满足条件:
0<dij≤μ+3σ
令segi是当前正在处理的第i个骨架笔画,当segi的最小包围区中有聚类中心落入时,遍历所有其它笔画的最小包围SS。若SSj中有一元素点pk∈Cm,则segj与笔画segi相交。
S3.4,根据相交笔画,确定交叉区域的类型。
定义书法字基本笔画为横、竖、撇、捺,对应的编码为0,2,1,3,其反向趋势归为同一类,即0和4,1和4,2和6,3和7是同一类型,计算相交笔画segj、segi的笔画类型:
S4,根据共享区的类型及骨架笔画轮廓的最小包围区,完成笔画的提取。该步骤S4包含:
S4.1,根据步骤S3获取的共享区类型,确定共享区的划分方式。
本发明中,依据所求得的相交笔画位置关系,确定共享区类型:segi和segj,相应的交叉点集合Ck,如果Bi∈Ck||Ei∈Ck或者Bj∈Ck||Ej∈Ck,则Ck所对应的共享区为“T”型,否则为“十”字型,如图6所示。
S4.2,提取共享区域的最小包围域
(1)计算共享区最小包围域其中为共享区所对应的交叉点类的聚类中心;
(2)在共享区最小包围域释放爬虫,令其沿邻居方向爬行至另一端点,爬取得到曲线其结果示意如图7;
(3)计算每条曲线中的角点,角点满足:
S4.3,在最小包围域中计算共享区处笔画轮廓连接点,依照共享区划分方式,补全笔画轮廓线,完成笔画提取。该步骤S4.3包含:
S4.3.1,对于“十”型共享区域,确定轮廓连接点;令共享区内相交笔画为segi、segj,segi与共享区最小包围域两交点构造这两点所决定的直线:
f(p)=Ax+By+C
其中x、y为p点的坐标值,A、B、C为常量。将求得的角点,代入以上方程中;
当角点满足:
时,上述两个角点位于骨架的同一侧,等待连接成封闭轮廓线;
以角点为中心点构造连接点集合将各自多个邻域内的两个邻居点加入集合中,得到:
其中 为的邻居点,为的邻居点。在中选择一个点p1,在中选择一个点p2,令其连线与骨架笔画走向保持最一致,即满足:
连接p1、p2,完成补全轮廓线,最终完成笔画提取;对于笔画segj笔画提取方式与笔画segi步骤相同,结束。
本发明中,对于“T”型共享区,相应的共享区最小包围域内有3条曲线,每条曲线上有1个角点,共3个角点,其中有2点位于骨架同一侧。参照“十”型计算方式,可确定连接点,完成轮廓笔画的提取,提取结果如图8所示。
本发明与现有技术相比具有以下优点:
本发明公开的一种书法作品中单字笔画的提取方法,是基于汉字书写规律,采用骨架爬虫单元探测和提取基本的骨架笔画,再结合轮廓信息,提取带有笔画宽度的书法笔画。采用本发明提供的算法,能够完整提取篆书、隶书、楷书、行书书法作品中的单字笔画,为基于笔画的书法字分类、识别、重构、动画仿真等相关研究及应用提供了可靠的笔画提取方法。
尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的保护范围应由所附的权利要求来限定。
Claims (10)
1.一种书法作品中单字笔画的提取方法,其特征在于,该提取方法包含:
S1,采用骨架爬虫单元获取书法作品中单字的骨架笔画;其中,单个骨架笔画是所述骨架爬虫单元从开始爬行到终止爬行所遍历的有序的骨架像素点集合;
S2,计算书法作品中原单字的各笔画的笔画宽度,获取所述步骤S1中骨架笔画轮廓的最小包围区;
S3,分析不同类型骨架交叉点与笔画轮廓最小包围区的关系,定位共享区及确定共享区的类型;
S4,根据所述共享区的类型及骨架笔画轮廓的最小包围区,完成笔画的提取。
2.如权利要求1所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S1包含:
S1.1,对书法作品图像进行处理,对书法作品中单字进行骨架提取、轮廓提取;
S1.2,扫描单字骨架的所有骨架像素点,计算每个骨架像素点8邻域内骨架像素点的个数N进行分类:当N=1时,该骨架像素点为端点;当N>2时,该骨架像素点为交叉点;当N=2时,该骨架像素点为普通点;计算端点集合为se、交叉点集合为sf;
S1.3,在端点集合se中任选一个端点作为骨架爬虫的起始点,骨架爬虫单元沿该端点开始的普通骨架点爬行,记录爬行过的所有骨架像素点;
S1.4当骨架爬虫单元爬行至交叉点时,暂停爬行,进行路径选择的计算:根据该交叉点相邻周边邻域内骨架像素点的个数N,控制N个试探爬虫单元以该交叉点为起始点,相交的对应N个骨架像素点爬行,直至遇见如下情况之一时,试探爬虫单元停止爬行:
a.试探爬虫单元遇到骨架端点;b.试探爬虫单元的爬行距离达到阈值th;当所有试探爬虫终止爬行后,计算它们的爬行路径,选择与原暂停爬虫爬行方向最接近的路径;若该路径与原爬虫路径的夹角大于90°,则终止原暂停爬虫;否则重新启动暂停的爬虫,使其沿试探爬虫得到的最接近的方向继续爬行,并记录爬行过的所有骨架像素点;
S1.5,对于端点集合se中其他端点重复所述步骤S1.3,直至所述骨架爬虫单元爬行过所有端点集合se中端点,完成由端点起止的骨架笔画提取后,执行步骤S1.6;
S1.6,获取所有未被所述骨架爬虫单元爬行过的剩余骨架点,当获取的像素点个数大于3时,重新执行所述步骤S1.2,重新计算端点,形成集合sr;重复执行所述步骤S1.3-S1.5,直至所获取的剩余骨架像素点个数小于等于3个时转至步骤S1.7;
S1.7,扫描所有提取得到的笔画,计算所有笔画的平均长度μl及笔画长度标准差σl;并剔除任何笔画中笔画长度小于长度阈值μl-3σl的毛刺笔画;
S1.8,扫描所有提取得到的笔画,将满足合并条件的笔画进行合并。
3.如权利要求2所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S1中还包含:
当单字骨架中出现环形笔画时,即所有未被所述骨架爬行虫单元爬行过的骨架像素点均为普通点时,控制该骨架爬行单元随机选取一点作为端点,执行所述步骤S1.4。
4.如权利要求2所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S1.7包含:
提取第i笔的笔画segi={Bi,Ei,Snakei},其中Bi,Ei分别为该笔画的起始点和终止点,Snakei={c1,c2,…,cn}为所述骨架爬虫单元爬过的该骨架笔画中的其他骨架点转换的代码序列,当满足如下条件时:
segi={|Snakei|<μl-3σl,Bi∈se|Ei∈se};
其中,|Snakei|为笔画链码长度;
第i笔的笔画为毛刺笔画,将该第i笔的笔画剔除。
5.如权利要求2所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S1.8包含:
当第i笔的笔画的走势与第j笔的笔画的走势相同,并且第i笔的笔画的终止点与第j笔的笔画的起始点之间的距离小于阈值,即满足如下条件时:
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mrow>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>snake</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>snake</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
</mrow>
</mrow>
</mtd>
</mtr>
<mtr>
<mtd>
<mrow>
<mo>|</mo>
<msub>
<mi>B</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>E</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<mo><</mo>
<mi>&gamma;</mi>
<mo>&CenterDot;</mo>
<mi>t</mi>
<mi>h</mi>
</mrow>
</mtd>
</mtr>
</mtable>
</mfenced>
其中,γ·th为阈值,Type(snake)是笔画的类型判定式,Bi为第i笔的笔画的起始点,Ej为第j笔的笔画的终止点;
若snakei={c1c2…cj…},则:
<mrow>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mi>e</mi>
<mrow>
<mo>(</mo>
<msub>
<mi>snake</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
</mrow>
<mo>=</mo>
<mi>arg</mi>
<munder>
<mrow>
<mi>m</mi>
<mi>a</mi>
<mi>x</mi>
</mrow>
<mi>n</mi>
</munder>
<mi>c</mi>
<mi>o</mi>
<mi>u</mi>
<mi>n</mi>
<mi>t</mi>
<mo>&lsqb;</mo>
<mi>n</mi>
<mo>&rsqb;</mo>
</mrow>
其中,
则将第i笔的笔画与第j笔的笔画合并;
当第i笔的笔画的走势与第j笔笔画的走势相反,且两端点间距离小于阈值,即满足:
<mfenced open = "{" close = "">
<mtable>
<mtr>
<mtd>
<mo>|</mo>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mi>e</mi>
<mo>(</mo>
<mi>s</mi>
<mi>n</mi>
<mi>a</mi>
<mi>k</mi>
<msub>
<mi>e</mi>
<mi>i</mi>
</msub>
<mo>)</mo>
<mo>-</mo>
<mi>T</mi>
<mi>y</mi>
<mi>p</mi>
<mi>e</mi>
<mo>(</mo>
<mi>s</mi>
<mi>n</mi>
<mi>a</mi>
<mi>k</mi>
<msub>
<mi>e</mi>
<mi>j</mi>
</msub>
<mo>)</mo>
<mo>|</mo>
<mo>=</mo>
<mn>4</mn>
</mtd>
</mtr>
<mtr>
<mtd>
<mo>|</mo>
<msub>
<mi>E</mi>
<mi>i</mi>
</msub>
<mo>-</mo>
<msub>
<mi>E</mi>
<mi>j</mi>
</msub>
<mo>|</mo>
<mo><</mo>
<mi>&gamma;</mi>
<mo>&CenterDot;</mo>
<mi>t</mi>
<mi>h</mi>
</mtd>
</mtr>
</mtable>
</mfenced>
则将第i笔的笔画与第j笔的笔画合并。
6.如权利要求1所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S2包含:
S2.1,根据所述步骤S1对单字进行的轮廓提取,计算骨架笔画中每一个骨架像素点的笔画宽度dm,从而统计该笔画的平均宽度μ及其标准差σ;
S2.2,根据每条笔画的平均宽度μ及其标准差σ,根据下式计算第i笔的笔画轮廓最小包围区SSi:
<mrow>
<msub>
<mi>SS</mi>
<mi>i</mi>
</msub>
<mo>=</mo>
<mo>{</mo>
<mi>p</mi>
<mo>|</mo>
<mrow>
<mo>|</mo>
<mrow>
<mi>p</mi>
<mo>-</mo>
<msubsup>
<mi>p</mi>
<mi>m</mi>
<mrow>
<msub>
<mi>seg</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
</mrow>
<mo>|</mo>
</mrow>
<mo>=</mo>
<mi>&mu;</mi>
<mo>+</mo>
<mn>3</mn>
<mi>&sigma;</mi>
<mo>}</mo>
<mo>;</mo>
</mrow>
其中,为第i笔笔画中第m个骨架像素点,p为第i笔笔画中任一为轮廓点。
7.如权利要求6所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S2.1包含:
S2.1.1,以第i笔笔画的第m个骨架像素点为圆心,做等角度β的M条直线,获得M条直线中与轮廓线之间的交点计算处的笔画宽度其中k=1,2,3,...,M;β·M=180°;为M条直线中第k条直线与单字轮廓线相交的第1个点;为M条直线中第k条直线与单字轮廓线相交的第2个点;
S2.1.2,以该单字为单位,获得该单字全部骨架像素点处的笔画宽度,得到集合sd={d1,d2,…,dNum},其中Num为该书法字骨架像素点数目,计算该集合的均值μ与标准差σ。
8.如权利要求1所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S3包含:
S3.1,对该单字的交叉点集合sf使用基于密度的聚类算法进行聚类形成交叉点类集合并使用交叉点类集合聚类中心表征共享区;
S3.2,对所述步骤S3.1中获得的交叉点类集合sf进行修正,使用交叉点类集合sf聚类中心计算相交笔画;
S3.4,根据相交笔画,确定交叉区域的类型。
9.如权利要求1所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S4包含:
S4.1,根据步骤S3获取的共享区类型,确定共享区的划分方式;
S4.2,提取共享区域的最小包围域
S4.3,在最小包围域中计算共享区处笔画轮廓连接点,依照共享区划分方式,补全笔画轮廓线,完成笔画提取。
10.如权利要求1所述的书法作品中单字笔画的提取方法,其特征在于,所述步骤S4.3包含:
S4.3.1,对于“十”型共享区域,确定轮廓连接点;令共享区内相交笔画为segi、segj,segi与共享区最小包围域两交点构造这两点所决定的直线:
f(p)=Ax+By+C
其中x、y为p点的坐标值,A、B、C为常量;将求得的角点,代入以上方程中;
当角点满足:
<mrow>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>p</mi>
<mrow>
<msub>
<mi>Curve</mi>
<mi>i</mi>
</msub>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>&times;</mo>
<mi>f</mi>
<mrow>
<mo>(</mo>
<msup>
<mi>p</mi>
<mrow>
<msub>
<mi>Curve</mi>
<mi>j</mi>
</msub>
</mrow>
</msup>
<mo>)</mo>
</mrow>
<mo>></mo>
<mn>0</mn>
<mo>,</mo>
<mrow>
<mo>(</mo>
<mi>i</mi>
<mo>&NotEqual;</mo>
<mi>j</mi>
<mo>)</mo>
</mrow>
</mrow>
时,上述两个角点位于骨架的同一侧,等待连接成封闭轮廓线;
以角点为中心点构造连接点集合将各自多个邻域内的两个邻居点加入集合中,得到:
<mrow>
<msup>
<mi>S</mi>
<mrow>
<msub>
<mi>cur</mi>
<mi>i</mi>
</msub>
</mrow>
</msup>
<mo>=</mo>
<mo>{</mo>
<msubsup>
<mi>p</mi>
<mn>0</mn>
<mrow>
<msub>
<mi>cur</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>p</mi>
<mn>1</mn>
<mrow>
<msub>
<mi>cur</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>p</mi>
<mn>2</mn>
<mrow>
<msub>
<mi>cur</mi>
<mi>i</mi>
</msub>
</mrow>
</msubsup>
<mo>}</mo>
</mrow>
<mrow>
<msup>
<mi>S</mi>
<mrow>
<msub>
<mi>cur</mi>
<mi>j</mi>
</msub>
</mrow>
</msup>
<mo>=</mo>
<mo>{</mo>
<msubsup>
<mi>p</mi>
<mn>0</mn>
<mrow>
<msub>
<mi>cur</mi>
<mi>j</mi>
</msub>
</mrow>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>p</mi>
<mn>1</mn>
<mrow>
<msub>
<mi>cur</mi>
<mi>j</mi>
</msub>
</mrow>
</msubsup>
<mo>,</mo>
<msubsup>
<mi>p</mi>
<mn>2</mn>
<mrow>
<msub>
<mi>cur</mi>
<mi>j</mi>
</msub>
</mrow>
</msubsup>
<mo>}</mo>
</mrow>
其中 为的邻居点,为的邻居点;在中选择一个点p1,在中选择一个点p2,令其连线与骨架笔画走向保持最一致,即满足:
连接p1、p2,完成补全轮廓线,最终完成笔画提取;对于笔画segj笔画提取方式与笔画segi步骤相同,结束。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510398109.XA CN104951788B (zh) | 2015-07-08 | 2015-07-08 | 一种书法作品中单字笔画的提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510398109.XA CN104951788B (zh) | 2015-07-08 | 2015-07-08 | 一种书法作品中单字笔画的提取方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104951788A CN104951788A (zh) | 2015-09-30 |
CN104951788B true CN104951788B (zh) | 2018-01-02 |
Family
ID=54166429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510398109.XA Expired - Fee Related CN104951788B (zh) | 2015-07-08 | 2015-07-08 | 一种书法作品中单字笔画的提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104951788B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107563449B (zh) * | 2017-09-12 | 2020-04-03 | 西北工业大学 | 基于区域公共边界的在线多笔画轴测草图聚类方法 |
CN108305284B (zh) * | 2018-02-28 | 2020-09-29 | 北京奇艺世纪科技有限公司 | 一种文字笔画宽度的确定方法及装置 |
CN109409211B (zh) * | 2018-09-11 | 2020-09-18 | 北京语言大学 | 汉字骨架笔段的处理方法、处理装置及存储介质 |
CN110659644B (zh) * | 2019-06-26 | 2022-07-01 | 西安理工大学 | 书法单字的笔画自动提取方法 |
CN112598768B (zh) * | 2021-03-04 | 2021-05-25 | 中国科学院自动化研究所 | 常用字体汉字笔画拆解方法、系统、装置 |
CN112990183B (zh) * | 2021-05-19 | 2021-08-10 | 中国科学院自动化研究所 | 离线手写汉字同名笔画提取方法、系统、装置 |
WO2024000375A1 (zh) * | 2022-06-30 | 2024-01-04 | 宁德时代新能源科技股份有限公司 | 图像处理的方法及其装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130089687A (ko) * | 2011-12-29 | 2013-08-13 | 김인술 | 전자 문자학습구 |
CN103927537A (zh) * | 2014-05-08 | 2014-07-16 | 电子科技大学 | 一种自适应的汉字笔画交叉区域提取算法 |
CN103942552A (zh) * | 2014-02-11 | 2014-07-23 | 北京大学 | 一种基于骨架指导的文字图像矢量化方法及系统 |
-
2015
- 2015-07-08 CN CN201510398109.XA patent/CN104951788B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20130089687A (ko) * | 2011-12-29 | 2013-08-13 | 김인술 | 전자 문자학습구 |
CN103942552A (zh) * | 2014-02-11 | 2014-07-23 | 北京大学 | 一种基于骨架指导的文字图像矢量化方法及系统 |
CN103927537A (zh) * | 2014-05-08 | 2014-07-16 | 电子科技大学 | 一种自适应的汉字笔画交叉区域提取算法 |
Non-Patent Citations (1)
Title |
---|
基于轮廓的汉字笔画分离算法;程立 等;《计算机科学》;20130731;第40卷(第7期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104951788A (zh) | 2015-09-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104951788B (zh) | 一种书法作品中单字笔画的提取方法 | |
Lian et al. | EasyFont: a style learning-based system to easily build your large-scale handwriting fonts | |
Harouni et al. | Online Persian/Arabic script classification without contextual information | |
CN107610200B (zh) | 一种基于特征模板的字库快速生成方法 | |
DE112016004535T5 (de) | Universelles Übereinstimmungsnetz | |
CN110838105B (zh) | 一种业务流程模型图像识别与再构方法 | |
CN104299009B (zh) | 基于多特征融合的车牌字符识别方法 | |
WO2016066042A1 (zh) | 商品图片的分割方法及其装置 | |
CN114529925B (zh) | 一种全线表表格结构识别方法 | |
CN107292936B (zh) | 一种汉字字体矢量化方法 | |
Lake | Towards more human-like concept learning in machines: Compositionality, causality, and learning-to-learn | |
JP7396568B2 (ja) | 帳票レイアウト解析装置、その解析プログラムおよびその解析方法 | |
CN107944451B (zh) | 一种藏文古籍文档的行切分方法及系统 | |
Fink et al. | Baseline detection in historical documents using convolutional u-nets | |
Seidl et al. | Automated classification of petroglyphs | |
Garg et al. | An algorithm for text line segmentation in handwritten skewed and overlapped Devanagari script | |
CN116612478A (zh) | 一种脱机手写汉字的评分方法、装置及存储介质 | |
CN110232337B (zh) | 基于全卷积神经网络的中文字符图像笔划提取方法、系统 | |
Zand et al. | Recognition-based segmentation in Persian character recognition | |
Liu et al. | Dunhuang murals contour generation network based on convolution and self-attention fusion | |
CN103927533B (zh) | 一种针对早期专利文档扫描件中图文信息的智能处理方法 | |
CN108921006A (zh) | 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法 | |
DE69425009T2 (de) | Zeichenerkennung | |
CN104063705B (zh) | 一种笔迹特征提取的方法和装置 | |
CN105844299A (zh) | 一种基于词袋模型的图像分类方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20180102 Termination date: 20200708 |