CN103093240A

CN103093240A - 书法字识别方法

Info

Publication number: CN103093240A
Application number: CN2013100205100A
Authority: CN
Inventors: 庄越挺; 吴江琴; 林媛; 高鹏程; 夏洋
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2013-01-18
Filing date: 2013-01-18
Publication date: 2013-05-08

Abstract

本发明公开了一种书法字识别的方法。搜集单个书法字图像，人工标注单个书法字图像对应的汉字语义，对单个书法字图像进行二值化、去噪和归一化处理后提取单个书法字图像中书法字的特征信息，存入特征数据库，特征信息包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、投影值、轮廓点，之后对待识别的单个书法字图像也进行处理，提取待识别书法字的特征信息，初步筛选后，再进行形状匹配比较，筛选出特征数据库里与待识别书法字形状相似的书法字，最后进行权重计算、合并汉字语义相同书法字图像，给出识别结果。本发明计算量小，能够在较短时间内给准确的识别结果；对用户所提供的待识别书法字图像没有具体要求。

Description

书法字识别方法

技术领域

本发明涉及计算机数字图像分析，尤其涉及一种书法字的识别方法。

背景技术

中国书法是一门古老的汉字的书写艺术，从甲骨文、石鼓文、金文(钟鼎文)演变而为大篆、小篆、隶书，至定型于东汉、魏、晋的草书、楷书、行书等，书法一直散发着艺术的魅力。以汉字为依托，是中国书法区别于其他种类书法的主要标志。然而，由于长期的历史变革，又许多汉字的古今字形发生了非常大的改变，有些古代字体，如小篆等，普通用户大多无法辨认。为了解决这一问题，就需要有一种书法字识别的方法，能快速把书法作品转换成为文本格式。

目前，对于书法字的识别技术研究甚少，多采用基于形状内容的图像匹配技术，书法字在本质上是手写体汉字，因此手写体识别是与书法字识别相关的研究，与书法字识别比较接近的是脱机手写体识别。脱机手写体汉字识别又可分为有限字符集的识别和无约束的手写体汉字识别两类。有限字符集上的手写体识别多是采用模式识别或者分类的方法，用于信封识别(Proceedings of the Fifth International Conference on Document Analysis and Recognition(ICDAR1999)，1999：737-740)、车票识别(光电子技术，2003，23(4)：268270)和银行票据识别(计算机工程与应用，2003，39(30)：219222.)等。无约束的手写体识别多采用模式识别的方法将字符与数据库中的模板进行匹配，找出最接近的模板，该模板代表的汉字即为识别结果。

发明内容

本发明的目的是为了克服上述现有方法对于用毛笔书写的书法字识别效果差，提供一种书法字识别方法。

一种书法字识别方法，包括以下步骤：

1)搜集互联网上的单个书法字图像，或者从整个书法作品图像里对书法字做最小包围盒切分得到单个书法字图像，得到单个书法字图像集合，然后标注单个书法字图像对应的汉字语义，存入特征数据库；

2)对单个书法字图像进行二值化、去噪、归一化处理，二值化时，先将单个书法字图像转为灰度图像后使用自适应迭代法，通过将新阈值置为旧阈值以上及以下两区平均值的中点不断迭代求取最佳阈值，二值化后的单个书法字图像为白底黑字的二值化颜色矩阵，微小区域的噪声使用数学形态学的方法去除，微小区域的斑点和划痕使用开运算去除，字体中的小孔洞使用闭运算填充，所述的归一化采用基于笔画穿越数均衡的非线性归一化方法，单个书法字图像归一化的目标大小是45×45像素点阵；

3)将步骤2)处理后的单个书法字图像对应的书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点存入步骤1)的特征数据库，得到书法字识别特征数据库；

4)将待识别书法字图像按照步骤2)进行二值化、去噪、归一化处理，然后提取包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点的特征；

5)利用待识别书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值这三个特征比较书法字识别特征数据库里的数据，对书法字识别特征数据库里的单个书法字图像进行初步筛选，得到候选书法字图像；

6)对候选书法字图像再利用书法字识别特征数据库里的书法字轮廓点的特征信息进一步进行相似度计算，按相似度大小排列给出候选书法字图像；

7)对步骤6)中按相似度大小排列给出的候选书法字图像进行权重计算，合并汉字语义相同的候选书法字图像，最后识别输出。

所述的步骤2)中：单个书法字图像转为灰度图像时，假设某个像素点p颜色的RGB值为(p.red,p.green,p.blue)，那么灰度值的计算公式为：

p.grey=0.11×p.red+0.59×p.green+0.30×p.blue；

去噪时噪声块的最大尺寸被定义为3×3像素点，微小区域的噪声使用数学形态学的方法去除，其中的斑点和划痕使用开运算去除，字体中的小孔洞使用闭运算填充；归一化时，令f(x,y)为归一化之前M₀×N₀的单个书法字图像点阵，其中参数皆为自然数，M₀表示单个书法字图像的像素宽度，N₀表示单个书法字图像的像素长度，x=1，2，…M₀，y=1，2，…N₀，g(m,n)为归一化之后M₁×N₁的单个书法字图像点阵，m=1,2,…M₁，n=1,2,…N₁，令d(x,y)为单个书法字点阵图像f(x,y)在点(x,y)的笔划密度函数，定义为：

令H(x)，V(y)分别为密度函数在水平和垂直方向上的密度投影，则有：

H (x) = Σ_{x = 1}^{M_{0}} d (x, y),

V (y) = Σ_{y = 1}^{N_{0}} d (x, y)

归一化算子写作：

m = Σ_{i = 1}^{m} H (i) \times \frac{M_{1}}{Σ_{i = 1}^{M_{0}} H (i)}

n = Σ_{j = 1}^{n} H (j) \times \frac{N_{1}}{Σ_{j = 1}^{N_{0}} H (j)}

；归一化后所有单个书法字图像为45×45像素点阵。

所述的步骤3)得到的书法字识别特征数据库包括：单个书法字图像对应的汉字语义；记录书法字最左最上、最右最下、最上最左和最下最右四个边界点坐标依次为left_top、right_down、top_left和down_right；书法字的笔画穿越数指扫描线在扫描书法字时候穿透的笔画个数，用一组垂直扫描线从左到右扫描二值化后的书法字图像，每当扫描线上像素点颜色由白变黑，即在对应的二值矩阵中，扫描线方向上的值由0变1，扫描值就加1，当扫描线穿过的第一个像素点为黑色时，扫描值也加1，扫描值是垂直笔画穿越数，所有垂直扫描线上笔画穿越数的平均值是垂直方向平均笔画穿越数，同样计算出水平方向平均笔画穿越数；书法字的投影值就像太阳照在物体上一样，从书法字的投影值大致判断出物体的大小，用x+y两个方向的投影值，x方向45个点，y方向45个点，两个串接在一起表示投影值；对书法字轮廓进行提取，书法字的一个轮廓点有x，y两个坐标值，用于匹配形状。

所述的步骤5)包括：对待识别书法字与数据库中的每个候选书法字的四个边界点位置逐个比较，分别计算待识别书法字四个边界点与数据库中的每个候选书法字四个边界点相差的距离dist_left、dist_right、dist_top、dist_down，计算如下：

\{\begin{matrix} dist_left = | left_{top}_{0} - left_{top}_{1} | \\ dist_right = | right_{down}_{0} - right_{down}_{1} | \\ dist_top = | top_{left}_{0} - top_{left}_{1} | \\ dist_down = | down_r {ight}_{0} - down_{right}_{1} |; \end{matrix}

设定一个阈值λ₁=10，当上式中的四个距离里有两个或更多距离超过λ₁时，那么候选书法字与待识别书法字的差异非常大，删去该候选书法字；将待识别书法字的平均笔画穿越数与特征数据库里的候选书法字的平均笔画穿越数进行比较，计算相差距离，设定一个阈值λ₂=2，超出阈值λ₂的候选书法字直接删去；将待识别书法字的投影值与特征数据库里的候选书法字的投影值进行比较，计算相差距离，设定一个阈值λ₃=8，超出阈值λ₃的候选书法字直接删去。

所述的步骤6)包括：对单个书法字图像中书法字轮廓上的任意点p_i构造以p_i为中心的极坐标系，坐标系将整个空间从方向上平均划分出8个方向，在弦上按近似log₂r的宽度把半径划为4份，这样，整个空间就被划分为32个区域，即32个bin，计算落入每个区域的像素点个数w_i(k)，其中k=1，2，…，32，形成一个32维的向量；整个书法字与一个n行32列的矩阵相对应，如下所示：

对于待识别书法字图像中书法字的每一个点m_i，在候选书法字中寻找对应点n_j，计算C_ijC_ij定义如下：

c_{ij} = c (m_{i}, n_{j}) = \frac{1}{2} Σ_{k = 1}^{a 2} \frac{{[a_{ik} - b_{jk}]}^{2}}{a_{ik + bjk}}

待识别书法字图像中书法字和候选书法字图像中书法字中的点p_i最近似对应点的近似匹配值PMC_L按以下公式计算：

PMC_i＝min{C(p_i，q_j)：1＝0,1,2…m}

两个书法字形状匹配值TMC大小是他们的所有轮廓点的近似匹配值的总和，定义如下：

TMC = Σ_{i = 1}^{N} ({PMC}_{i} + a | | p_{i} - corres (p_{i}) {| |}^{2})

其中，||p_i-corres(p_i)||为点p_i与点corres(p_i)之间的欧式距离，α为惩罚因子，两点离得距离越远，惩罚值就越大，用以上方法进行相似度计算后，按相似度大小排列给出接近待识别书法字形状的特征数据库里的候选书法字图像；

所述的步骤7)包括：当上述步骤6)所得到的形状相似候选书法字图像中存在汉字语义相同的候选书法字图像时，为了统计得到识别结果，对每个候选书法字图像根据其排序和相似度赋予权重，记输入的候选书法字图像中书法字为I₀，二值化的书法字为C₀，进行相似度计算得到的前N个结果为I₁,I₂,...,I_N，其二值化的书法字为C₁,C₂，…，C_N，则每个结果的权重δ_i(i=1,2，…，N)定义如下：

δ_{i} = \frac{μ}{i^{2}} + Similarity (C_{i}, C_{0})

其中μ是一个经验参数，设为μ＝0.1，表示计算结果中的序号在权重中所占的重要程度；假设相似度计算结果中前N个书法字共包含M个不同的标注A₁,A₂,…,A_M(M≤N)，I_i1,I_i2,…,

是被标注为A_i的q个书法字，那么待识别书法字图像中书法字I₀识别结果为A_i 的概率是

{prob}_{i} = \frac{Σ_{k = 1}^{q_{i}} δ_{ik}}{Σ_{j = 1}^{M} Σ_{k = 1}^{q_{j}} δ_{jk}};

把M个候选识别结果根据上面公式计算出的概率进行排序，最后按概率从大到小的顺序将识别的结果返回。

本发明与现有技术相比具有的有益效果：

1．该方法计算量小，能够在较短时间内给出较准确的识别结果；

2．该方法对用户所提供的待识别书法字图像没有具体要求，后台会对用户所提供的图像进行进一步处理。

附图说明

图1是书法字识别方法框架图；

图2是“王”字的垂直笔画穿越数示意图；

图3是书法字极坐标系示意图；

图4是书法识别的结果实例。

具体实施方式

一种书法字识别方法，图1为书法字识别系统框架图，包括以下步骤：

p.grey=0.11×p.red+0.59×p.green+0.30×p.blue；

转为灰度图像后采用的自适应迭代法算法如下：

迭代算法中：oldthreshold表示旧阈值，sumup表示大于旧阈值的像素点的灰度值之和，sumdown表示小于旧阈值的像素点的灰度值之和，nup表示大于旧阈值的像素点的个数，ndown表示小于就阈值的像素点的个数，pixel.color表示像素点的灰度值；去噪时噪声块的最大尺寸被定义为3×3像素点，微小区域的噪声使用数学形态学的方法去除，其中的斑点和划痕使用开运算去除，字体中的小孔洞使用闭运算填充；归一化时，令f(x,y)为归一化之前M₀×N₀的单个书法字图像点阵，其中参数皆为自然数，M₀表示单个书法字图像的像素宽度，N₀表示单个书法字图像的像素长度，x=1，2，…M₀，y=1，2，…N₀，g(m,n)为归一化之后M₁×N₁的单个书法字图像点阵，m=1,2,…M₁，n=1,2,…N₁，令d(x,y)为单个书法字点阵图像f(x,y)在点(x,y)的笔划密度函数，定义为：

H (x) = Σ_{x = 1}^{M_{0}} d (x, y),

V (y) = Σ_{y = 1}^{N_{0}} d (x, y)

归一化算子写作：

m = Σ_{i = 1}^{m} H (i) \times \frac{M_{1}}{Σ_{i = 1}^{M_{0}} H (i)}

n = Σ_{j = 1}^{n} H (j) \times \frac{N_{1}}{Σ_{j = 1}^{N_{0}} H (j)}

；归一化后所有单个书法字图像为45×45像素点阵。

所述的步骤3)得到的书法字识别特征数据库包括：单个书法字图像对应的汉字语义；记录书法字最左最上、最右最下、最上最左和最下最右四个边界点坐标依次为left_top、right_down、top_left和down_right；书法字的笔画穿越数指扫描线在扫描书法字时候穿透的笔画个数，用一组垂直扫描线从左到右扫描二值化后的书法字图像，每当扫描线上像素点颜色由白变黑，即在对应的二值矩阵中，扫描线方向上的值由0变1，扫描值就加1，当扫描线穿过的第一个像素点为黑色时，扫描值也加1，扫描值是垂直笔画穿越数，所有垂直扫描线上笔画穿越数的平均值是垂直方向平均笔画穿越数，同样计算出水平方向平均笔画穿越数，图2是“王”字的垂直笔画穿越数示意图；书法字的投影值就像太阳照在物体上一样，从书法字的投影值大致判断出物体的大小，用x+y两个方向的投影值，x方向45个点，y方向45个点，两个串接在一起表示投影值；对书法字轮廓进行提取，书法字的一个轮廓点有x，y两个坐标值，用于匹配形状。

\{\begin{matrix} dist_left = | left_{top}_{0} - left_{top}_{1} | \\ dist_right = | right_{down}_{0} - right_{down}_{1} | \\ dist_top = | top_{left}_{0} - top_{left}_{1} | \\ dist_down = | down_r {ight}_{0} - down_{right}_{1} |; \end{matrix}

所述的步骤6)包括：对单个书法字图像中书法字轮廓上的任意点p_i，构造以p_i为中心的极坐标系，坐标系将整个空间从方向上平均划分出8个方向，在弦上按近似log₂r的宽度把半径划为4份，这样，整个空间就被划分为32个区域，即32个bin，计算落入每个区域的像素点个数w_i(k)，其中k=1，2，…，32，形成一个32维的向量，图3是书法字极坐标系示意图；整个书法字与一个n行32列的矩阵相对应，如下所示：

对于待识别书法字图像中书法字的每一个点m_i，在候选书法字中寻找对应点n_j，计算C_ij，C_ij定义如下：

c_{ij} = c (m_{i}, n_{j}) = \frac{1}{2} Σ_{k = 1}^{a 2} \frac{{[a_{ik} - b_{jk}]}^{2}}{a_{ik + b_{jk}}}

PMC_i＝min{C(p_i，q_i)：1＝0,1,2…m}

TMC = Σ_{i = 1}^{N} ({PMC}_{i} + a | | p_{i} - corres (p_{i}) {| |}^{2})

所述的步骤7)包括：当上述步骤6)所得到的形状相似候选书法字图像中存在汉字语义相同的候选书法字图像时，为了统计得到识别结果，对每个候选书法字图像根据其排序和相似度赋予权重，记输入的候选书法字图像中书法字为I₀，二值化的书法字为C₀，进行相似度计算得到的前N个结果为I₁,I₂,...,I_N，其二值化的书法字为C₁,C₂，…，C_N，则每个结果的权重δ_i(i＝1,2，…,N)定义如下：

δ_{i} = \frac{μ}{i^{2}} + Similarity (C_{i}, C_{0})

是被标注为A_i的q个书法字，那么待识别书法字图像中书法字I₀识别结果为A_i的概率是

{prob}_{i} = \frac{Σ_{k = 1}^{q_{i}} δ_{ik}}{Σ_{j = 1}^{M} Σ_{k = 1}^{q_{j}} δ_{jk}};

实施例

如附图4所示，给出了两个书法字识别的结果实例。下面结合本发明的方法详细说明该实例实施的具体步骤，如下：

(1)搜集互联网上的单个书法字图像，或者从整个书法作品图像里对书法字做最小包围盒切分得到单个书法字图像，得到单个书法字图像集合，然后标注单个书法字图像对应的汉字语义，存入特征数据库；

(2)对单个书法字图像进行二值化、去噪、归一化处理；

(3)构建建立特征数据库，用于识别时的初步筛选以及相似度计算，特征数据库包括步骤(1)中的汉字语义、书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点；

(4)将待识别法字图像按照步骤2)进行二值化、去噪、归一化处理，然后提取其特征，所提取的特征包括书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点；

(5)利用待识别书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值这三个特征比较特征数据库里的数据，对书法字进行初步筛选；

(6)对候选书法字图像再利用书法字识别特征数据库里的书法字轮廓点的特征信息进一步进行相似度计算，按相似度大小排列给出候选书法字图像

(7)对步骤6)中按相似度大小给出的候选书法字图像进行权重计算，合并汉字语义相同的书法字，最后识别输出。

本实例的运行结果在附图4中显示，两个待识别书法字图像中的书法字都是单字黄底的书法字，将其二值化、去噪和归一化处理后提取其特征，与特征数据库里的书法字进行比较筛选，最后识别输出。

Claims

1. 一种书法字识别方法，其特征在于，包括以下步骤：

1）搜集互联网上的单个书法字图像，或者从整个书法作品图像里对书法字做最小包围盒切分得到单个书法字图像，得到单个书法字图像集合，然后标注单个书法字图像对应的汉字语义，存入特征数据库；

2）对单个书法字图像进行二值化、去噪、归一化处理，二值化时，先将单个书法字图像转为灰度图像后使用自适应迭代法，通过将新阈值置为旧阈值以上及以下两区平均值的中点不断迭代求取最佳阈值，二值化后的单个书法字图像为白底黑字的二值化颜色矩阵，微小区域的噪声使用数学形态学的方法去除，微小区域的斑点和划痕使用开运算去除，字体中的小孔洞使用闭运算填充，所述的归一化采用基于笔画穿越数均衡的非线性归一化方法，单个书法字图像归一化的目标大小是45×45像素点阵；

3）将步骤2）处理后的单个书法字图像对应的书法字四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点存入步骤1）的特征数据库，得到书法字识别特征数据库；

4）将待识别书法字图像按照步骤2）进行二值化、去噪、归一化处理，然后提取包括单个书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值、书法字轮廓点的特征；

5）利用待识别书法字图像中书法字的四个边界点位置、书法字水平和垂直方向平均笔画穿越数、书法字的投影值这三个特征比较书法字识别特征数据库里的数据，对书法字识别特征数据库里的单个书法字图像进行初步筛选，得到候选书法字图像；

6）对候选书法字图像再利用书法字识别特征数据库里的书法字轮廓点的特征信息进一步进行相似度计算，按相似度大小排列给出候选书法字图像；

7）对步骤6）中按相似度大小排列给出的候选书法字图像进行权重计算，合并汉字语义相同的候选书法字图像，最后识别输出。

2.根据权利要求1所述的一种书法字识别方法，其特征在于，所述的步骤2）中：单个书法字图像转为灰度图像时，假设某个像素点p颜色的RGB值为(p.red,p.green,p.blue)，那么灰度值的计算公式为：

p.grey=0.11×p.red+0.59×p.green+0.3×p.blue；

去噪时噪声块的最大尺寸被定义为3×3像素点，微小区域的噪声使用数学形态学的方法去除，其中的斑点和划痕使用开运算去除，字体中的小孔洞使用闭运算填充；归一化时，令f(x,y) 为归一化之前M₀×N₀的单个书法字图像点阵，其中参数皆为自然数，M₀表示单个书法字图像的像素宽度，N₀表示单个书法字图像的像素长度，x=1,2,…M₀，y=1,2,…N₀，g(m,n)为归一化之后M₁×N₁的单个书法字图像点阵，m=1,2,…M₁, n=1,2,…N₁，令d(x,y)为单个书法字点阵图像f(x,y)在点(x,y)的笔划密度函数，定义为：

，

归一化算子写作：

；归一化后所有单个书法字图像为45×45像素点阵。

3.根据权利要求1所述的一种书法字识别方法，其特征在于，所述的步骤3）得到的书法字识别特征数据库包括：单个书法字图像对应的汉字语义；记录书法字最左最上、最右最下、最上最左和最下最右四个边界点坐标依次为left_top、right_down、top_left和down_right；书法字的笔画穿越数指扫描线在扫描书法字时候穿透的笔画个数，用一组垂直扫描线从左到右扫描二值化后的书法字图像，每当扫描线上像素点颜色由白变黑，即在对应的二值矩阵中，扫描线方向上的值由0变1，扫描值就加1，当扫描线穿过的第一个像素点为黑色时，扫描值也加1，扫描值是垂直笔画穿越数，所有垂直扫描线上笔画穿越数的平均值是垂直方向平均笔画穿越数，同样计算出水平方向平均笔画穿越数；书法字的投影值就像太阳照在物体上一样，从书法字的投影值大致判断出物体的大小，用x+y两个方向的投影值，x方向45个点，y方向45个点，两个串接在一起表示投影值；对书法字轮廓进行提取，书法字的一个轮廓点有x,y两个坐标值，用于匹配形状。

4.根据权利要求1所述的一种书法字识别方法，其特征在于，所述的步骤5）包括：对待识别书法字与数据库中的每个候选书法字的四个边界点位置逐个比较，分别计算待识别书法字四个边界点与数据库中的每个候选书法字四个边界点相差的距离dist_left、dist_right、dist_top、dist_down，计算如下：

；

5.根据权利要求1所述的一种书法字识别方法，其特征在于，所述的步骤6）包括：对单个书法字图像中书法字轮廓上的任意点p_i,构造以p_i为中心的极坐标系，坐标系将整个空间从方向上平均划分出8个方向，在弦上按近似log₂r的宽度把半径划为4份，这样，整个空间就被划分为32个区域，即32个bin，计算落入每个区域的像素点个数w_i(k)，其中k=1,2，…,32，形成一个32维的向量；整个书法字与一个n行32列的矩阵相对应,如下所示：

待识别书法字图像中书法字和候选书法字图像中书法字中的点p_i最近似对应点的近似匹配值PMC_i按以下公式计算：

PMC_i=min{C(p_i,q_j):j=0,1,2…m}

其中，||p_i-corres(p_i)||为点p_i与点corres(p_i)之间的欧式距离，α为惩罚因子，两点离得距离越远，惩罚值就越大，用以上方法进行相似度计算后，按相似度大小排列给出接近待识别书法字形状的特征数据库里的候选书法字图像。

6.根据权利要求1所述的一种书法字识别方法，其特征在于，所述的步骤7）包括：当上述步骤6）所得到的形状相似候选书法字图像中存在汉字语义相同的候选书法字图像时，为了统计得到识别结果，对每个候选书法字图像根据其排序和相似度赋予权重，记输入的候选书法字图像中书法字为I₀，二值化的书法字为C₀，进行相似度计算得到的前N个结果为I₁,I₂,…,I_N，其二值化的书法字为C₁,C₂,…,C_N，则每个结果的权重δ_i(i=1,2,…,N)定义如下：

其中μ是一个经验参数，设为μ=0.1，表示计算结果中的序号在权重中所占的重要程度；假设相似度计算结果中前N个书法字共包含M个不同的标注A₁,A₂,…,A_M(M≤N)，

；