CN102842046B

CN102842046B - 一种基于全局特征提取和训练的书法风格识别方法

Info

Publication number: CN102842046B
Application number: CN201210280106.2A
Authority: CN
Inventors: 张怡; 刘彦镔; 张加万; 李罡
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2012-08-07
Filing date: 2012-08-07
Publication date: 2015-09-23
Anticipated expiration: 2032-08-07
Also published as: CN102842046A

Abstract

本发明属于书法字体分析领域，涉及基于全局特征提取和训练的书法风格识别的方法，包括以下步骤：训练图像的获取和预处理，获取输入图像、去除噪声并将其变为待处理的二值图像；特征提取，对于每种风格字体提取出三类整体特征用于训练，即位置特征、区域比例特征、投影特征；使用特征向量训练SVM生成书法风格分类器用于书法风格识别。本发明具有方法简单、识别率高的特点，通过提取出汉字的全局特征并且输入到SVM进行训练，得到书法风格分类器，用于书法风格的识别。

Description

一种基于全局特征提取和训练的书法风格识别方法

技术领域

本发明属于书法字体分析技术领域，特别涉及到使用全局特征进行书法风格识别的方法。

背景技术

随着计算机数字图像处理技术的发展，数字处理技术已经代替了人工的方法用于书法字体的识别、创造和分析过程中。其中书法风格识别是书法分析的一个重要领域。现有的方法主要是使用基于笔画的方法进行书法分析和识别，主要的问题有以下几点：(1)笔画的建模和提取是个比较困难的工作，而且很容易造成笔画的失真现象；(2)基于笔画的方法会增加方法本身的复杂性，并且影响到系统整体的性能。因此我们提出了基于全局特征提取和统计训练的方法来处理具体的书法风格识别的问题。

发明内容

本发明针对传统的基于笔画特征的方法处理复杂、建模困难的问题，提出一种书法风格识别方法。本发明采取全局特征的提取，不仅降低了方法的复杂性，同时具有很高的识别率。本发明的技术方案如下：

一种基于全局特征提取和训练的书法风格识别方法，包括下列步骤：

第一步，获取对应不同单类风格的汉字的源数据图像，通过二值化的预处理方法得到输入的源数据图像的二值图像。

第二步，对于源数据图像的二值图像进行全局特征提取，得到位置特征、区域比例特征和投影特征三类特征，方法如下：

（1）找到二值图像中的文字部分的上下左右四个边缘位置，将由上下左右四个边缘位置组成的网格称为边缘格，提取出边缘格的长宽比和重心，并计算重心离几何中心的距离，得到位置特征向量；

（2）将边缘格由长宽边的中点划分为面积相等的左上、右上、左下、右下四个区域，提取不同区域含有的像素数目的比值和汉字像素占据边缘格的比例作为区域比例特征；

（3）将汉字像素在行方向或列方向进行投影，统计每行或每列的像素数目，提取出行和列的平均投影值、中间投影值和投影中心作为投影特征；

第三步，利用对不同单类风格的汉字的源数据图像提取的全局特征，训练SVM书法风格分类器；

第四步，对于待识别风格类型的汉字的源数据图像，通过二值化方法及高斯噪声去除的预处理方法得到输入的待识别风格类型的汉字的源数据图像的二值图像。

第五步，按照第二步给出的方法提取待识别风格类型的汉字的源数据图像的二值图像的全局特征；

第六步，利用训练好的分类器进行汉字风格识别。

作为优选实施方式，按照下面的方法提取出行和列的平均投影值、中间投影值和投影中心作为投影特征：

对于行方向，定义所有行的投影像素数目和除以行数为行平均投影阈值，所有行的投影像素数目的最大值和最小值取平均得到行中间投影阈值，则行方向的平均投影值就是行投影像素数目超过行平均投影阈值的行数，行方向的中间投影值就是行投影像素数目超过中间投影阈值的行数；将各行的投影像素数目进行递增排序，取出排序后位于中间的行的投影像素数目值，为行方向的投影中心；

对于列方向，定义所有列的投影像素数目和除以列数为列平均投影阈值，所有列的投影像素数目的最大值和最小值取平均得到列中间投影阈值，则列方向的平均投影值就是列投影像素数目超过列平均投影阈值的列数，列方向的中间投影值就是列投影像素数目超过中间投影阈值的列数；将各列的投影像素数目进列递增排序，取出排序后位于中间的列的投影像素数目值，为列方向的投影中心。

本发明的有益效果如下：

本发明解决的是书法风格识别的问题，整个系统的效用和性能主要受提取的字体特征、字体的规范化程度的影响。我们进行了基本实验和扩展实验来分别研究这两个因素的影响。在实验中，我们采用下面两个指标来衡量不同的因素对于识别结果的影响：

查全率：系统正确筛选出的某种风格字体的数量占测试集中该类字体实际的数量的比例；

查准率：系统正确筛选出的某种风格字体的数量占系统筛选出的该类字体的总数量的比例。

在基本实验中，我们选用方正字库的正规字体，并且将字体的全局特征分为位置特征、区域比例特征和投影特征。对于同种字体的某项特征进行实验的过程中，我们发现不同的汉字存在相似性和一致性的趋势和规律；而对于不同字体的同种特征，则存在明显的差异性。因此，我们将这三类全局特征放入SVM进行训练，使用正规字体测试集进行测试。实验结果表明，对于两类分类无论查准率和查全率都已经超过了90%，对于多类分类，两个指标也都超过了84%。这也说明了我们的系统有非常好的准确率和性能。

扩展实验中，我们使用正规字体作为训练集，使用网上下载的不同书法家的字体作为测试集。由于网上字体很多都是影印的，存在噪声和不规范的现象，这也考验我们系统的鲁棒性。而实验结果表明，我们的系统对于大部分存在噪声的不规范字体也有着60%以上的查准率和查全率，说明我们的方法有一定的抗噪声干扰能力和鲁棒性。

综上所述，本发明兼具了很高的识别准确性和良好的抗噪健壮性。

附图说明

图1：本发明的简化流程图。

图2：本发明的整体流程图。

图3：边缘格长度和宽度的比值。

图4：Dist_g的分布规律图。

图5：汉字上下以及左右区域比例特征图，其中，上图为上下区域比例特征图，下图为左右区域比例特征图。

图6：行和列不同投影阈值的投影特征图，其中，上图为行投影特征图，下图为列投影特征图。

图7：行和列投影中心比较图。

图8：四类字体边缘格的长宽比的比较图。

具体实施方式

本发明的系统的整体流程如图1和图2所示。我们将书法图像作为输入，经过预处理后得到二值化的书法图像。接下来通过特征提取得到位置特征、区域比例特征和投影特征三类特征。得到三类特征数据分为两部分，一部分用于作为训练集来训练SVM书法识别器，另一部分作为测试集来测试我们系统的性能。最后，我们将测试集输入到书法风格识别器来测试系统的性能。本发明的最佳实施方案如下：

1.汉字图像的获取和预处理

在我们的实验中，基本实验采用的是方正字库的字体，扩展实验测试集使用的是网上下载的相应风格的字体。

汉字输入图像是灰度和彩色的汉字图像，而我们的系统处理的是二值汉字图像，所以需要进行二值化处理。处理的具体方法是按照下面的表达式：

b (x, y) = \{\begin{matrix} 1, & g (x, y) . I > 0.2 * 255 \\ 0, & g (x, y) . I \leq 0.2 * 255 \end{matrix}

其中g(x,y)是输入的彩色或者灰度图像，I是图像的亮度值（HSI颜色模型中的I），即RGB三个分量的平均值，b(x,y)是处理之后的二值图像。我们在实验中取阈值0.2进行二值化。

对于从网上下载的非正规字符集的汉字图像，会受到噪声影响，我们使用高斯滤波方法进行去噪处理，得到较清晰的图像后再进行二值化。

2.汉字整体特征提取

在我们的实验中，我们从字库中随机选择40个同种风格的汉字作为样本，提取出汉字的边缘格作为汉字的限定格。边缘格是由汉字上下左右四个边缘位置组成的网格。在实验中，边缘格在长宽边的中点处被划分为面积相等的左上、右上、左下、右下四个区域。有三类全局特征被提取出来作为书法汉字的特征向量用于识别过程中，它们分别是位置特征、区域比例特征和投影特征。其中，位置特征重点是强调汉字的整体的平衡性，区域比例特征侧重于汉字的像素分布和不同子块之间的关系，投影特征的重点是汉字笔画在行和列方向的分布和平衡性。

（1）位置特征

汉字在书写时候，不管汉字的笔画简单还是复杂，汉字都需要处在适当的位置并且具有合适的大小。

首先我们提取的是网格相关的特征。我们首先找到汉字在上、下、左、右四个方向的边缘处的第一个像素的位置，这四个像素位置构成了一个方格将汉字围在里面，我们称其为边缘格。我们将边缘格的长度L和宽度W的比值作为提取的特征。图3表明，边缘格的长度和宽度比值处于一个适当的范围内。由于汉字位置和平衡性的需要，边缘格总是会处在合适的位置并且具有适当的大小。

接下来我们提取的是重心相关的特征。重心提取的数学公式如下：

g_{x} = \frac{Σ_{x = 1}^{L} Σ_{y = 1}^{W} b (x, y) * x}{Σ_{x = 1}^{L} Σ_{y = 1}^{W} b (x, y)}, g_{y} = \frac{Σ_{y = 1}^{L} Σ_{x = 1}^{W} b (x, y) * y}{Σ_{x = 1}^{L} Σ_{y = 1}^{W} b (x, y)}

g = \sqrt{{g_{x}}^{2} + {g_{y}}^{2}}, {Dist}_{g} = g - \frac{1}{2} \sqrt{L^{2} + W^{2}}

其中，g_x和g_y分别是x和y方向的重心坐标，L和W分别是我们的图像的长度和宽度。g是重心离原点的距离，Dist_g是重心离几何中心的距离。实验结果图4表明，Dist_g总是围绕零上下波动。

综上，我们提取出边缘格长度和宽度的比值，g_x，g_y，Dist_g共4维位置特征向量。

（2）区域比例特征

实验中我们采用的是二值图像，黑色像素是汉字，白色像素是背景。将边缘格分为面积相等的四个区域：左上、右上、左下、右下，在每个区域内统计黑色像素的个数，区域比例就是某两个区域（或组合区域）内像素数目的比值。

为了便于区分和考虑特征的相似性和一致性，我们将上下方向和左右方向分为两组进行实验。第一组上下方向，我们提取出上下像素数目比值、左上左下像素数目比值、右上右下像素数目比值作为区域比例特征。第二组左右方向，我们提取出左右像素数目比值、左上右上像素数目比值、左下右下像素数目比值作为区域比例特征。实验结果图5表明，对于同种字体，第一组和第二组内的三个比例各自具有一致的变化趋势。

综上，我们提取出上下和左右比例特征各三个，汉字像素占在边缘格中的比值共7维特征向量作为区域比例特征。

（3）投影特征

我们将汉字像素在行方向（列方向）进行投影，统计每行（每列）的像素数目。我们提取出三组特征值：平均投影值，中间投影值，投影中心。

对于行（列），我们定义了两个阈值：平均投影阈值，中间投影阈值。平均投影阈值就是所有行（列）的投影像素数目和除以行（列）数，中间投影阈值就是所有投影行（列）的投影像素数目的最大最小值取平均得到的。平均投影值就是行（列）投影数目超过平均投影阈值的行（列）数，中间投影值就是行（列）数目超过中间投影阈值的行（列）数。

为了提取出投影中心，我们将行（列）投影数目进行递增排序。取出排序后中间的行（列）投影像素数目值，就是我们要提取的投影中心。

实验结果图6和图7显示，对于同种字体，不同汉字的投影特征的变化具有一致性趋势。

综上，我们提取出行和列的平均投影值、中间投影值、投影中心共6维特征向量作为投影特征。

3.不同风格字体的特征提取与比较

基于汉字全局特征提取中的结果，我们可以看出同种风格汉字的特征具有一致性和相似性的规律，这也是我们可以使用全局特征进行书法风格识别的基础和依据。

我们在字体识别的实验中使用了四种字体：楷书、隶书、草书、篆书。对于每一种字体，我们采用步骤2中提出的方法进行全局特征的提取，得到每类字体的17维特征向量。对于三类特征中的每一项特征，我们都对不同字体进行了比较。尽管某一特征在同种字体上具有一致性的趋势和相似性的规律，但是不同字体之间的差异性还是很明显的。例如通过图8可以看出，不同风格字体的边缘格长宽比具有一定的差异性。不同字体之间对于同一特征的差异性正是我们得以区分不同风格字体的重要理论依据。

综上，我们的全局特征提取方法兼顾了同种字体内部的相似性以及不同种字体间的差异性，更加证实了了我们提出的方法的科学性。

4.使用特征向量训练SVM书法分类器

通过步骤3的操作，得到每类字体各自的三类共17维特征向量。使用提取出的特征向量，我们训练SVM分类器，对字体进行识别。首先针对四类字体的每两类训练一个两类SVM，接着为四类字体训练一个四类分类的SVM。

5.选取测试集进行测试实验

在基本的测试实验中，我们使用方正北魏楷书简体（楷书）、方正古隶简体（隶书）、方正黄草简体（草书）、方正小篆体（篆书）四种字体进行实验。对于每类字体我们随机挑选200个汉字，并在其中随机选取100个作为训练集，其它100个作为测试集。为了排除汉字的不同带来的对实验结果的干扰，我们在不同字体对应的序号位置处选用同一个汉字，例如所有字体的第一个汉字都是“阿”。

在基本实验的基础上，我们进行了扩展实验来探究我们系统的鲁棒性。扩展实验的训练集与基本实验相同，都是方正字体，而测试集采用的是网上下载的对应字体的字体材料。

对于分类效果的评价，我们使用的是查准率和查全率两个参数。查准率是指系统正确筛选出的某种风格字体的数量占系统筛选出的该类字体的总数量的比例。查全率是指系统正确筛选出的某种风格字体的数量占测试集中该类字体实际的数量的比例。查准率侧重于系统识别的准确性，查全率侧重于系统识别的全面性。

基本实验的实验结果见下面的表格Table1-Table2。

通过实验结果我们可以看出，在基本实验中我们的方法取得了很好的查准率和查全率。对于具体的实验结果，分类的查准率和查全率都达到了90%以上，多类分类的查准率和查全率也都达到了84%以上，且大部分超过了90%。

因此，可以得出结论我们的系统对于书法风格的识别具有很好的识别性能。

表1两类分类器识别率

表2多类分类器识别率

	楷书	隶书	草书	篆书
					查准率	0.9300	0.9400	0.9438	0.8919
查全率	0.93	0.94	0.84	0.99

扩展实验的实验结果见下面的表3—表4。

表3扩展实验两类分类器的识别率

表4扩展实验多类分类器识别率

	楷书	隶书	草书	篆书
					查准率	0.6154	0.7739	0.5736	0.7778
查全率	0.2400	0.8900	0.7400	0.9100

通过扩展实验的结果我们可以看出，尽管网上下载的字体具有不规则性，而且噪声偏多，但是我们的系统还是具有一定程度的识别率。在两类分类中，几乎所有的两类分类查准率和查全率都在70%以上。对于多类分类除了楷书的查全率偏低之外，其他的查准率和查全率也都在可接受的范围内。分析两类分类，可以发现楷书查全率过低是由于楷书和草书的两类分类准确率较低造成的。由于网上字体的来源和系统字库不同，无法保证训练字体和测试字体足够的相似性，个别的识别率较差也是在理论允许范围之内的。但是从整体上来说，我们的系统的扩展性还是得到了实验结果的支持。

因此，对于不规则的和略带噪声的字体，我们的系统也有一定程度识别率，说明了我们的系统具有一定的鲁棒性和健壮性。

Claims

1.一种基于全局特征提取和训练的书法风格识别方法，包括下列步骤：

第一步，获取对应不同单类风格的汉字的源数据图像，通过二值化的预处理方法得到输入的源数据图像的二值图像；

(1)找到二值图像中的文字部分的上下左右四个边缘位置，将由上下左右四个边缘位置组成的网格称为边缘格，提取出边缘格的长宽比和重心，并计算重心离几何中心的距离，得到位置特征向量；

(2)将边缘格由长宽边的中点划分为面积相等的左上、右上、左下、右下四个区域，提取不同区域含有的像素数目与整个边缘格内的像素数目的比值和汉字像素占据边缘格的比例作为区域比例特征；

(3)将汉字像素在行方向或列方向进行投影，统计每行或每列的像素数目，提取出行和列的平均投影值、中间投影值和投影中心作为投影特征；

第四步，对于待识别风格类型的汉字的源数据图像，通过二值化方法及高斯噪声去除的预处理方法得到输入的待识别风格类型的汉字的源数据图像的二值图像；

第六步，利用训练好的分类器进行汉字风格识别；

其中，按照下面的方法提取出行和列的平均投影值、中间投影值和投影中心作为投影特征：

对于行方向，定义所有行的投影像素数目之和除以行数为行平均投影阈值，所有行的投影像素数目的最大值和最小值取平均得到行中间投影阈值，则行方向的平均投影值就是行投影像素数目超过行平均投影阈值的行数，行方向的中间投影值就是行投影像素数目超过中间投影阈值的行数；将各行的投影像素数目进行递增排序，取出排序后位于中间的行的投影像素数目值，为行方向的投影中心；

对于列方向，定义所有列的投影像素数目之和除以列数为列平均投影阈值，所有列的投影像素数目的最大值和最小值取平均得到列中间投影阈值，则列方向的平均投影值就是列投影像素数目超过列平均投影阈值的列数，列方向的中间投影值就是列投影像素数目超过中间投影阈值的列数；将各列的投影像素数目进列递增排序，取出排序后位于中间的列的投影像素数目值，为列方向的投影中心。