CN108154167A

CN108154167A - 一种汉字字形相似度计算方法

Info

Publication number: CN108154167A
Application number: CN201711257233.XA
Authority: CN
Inventors: 龙华; 祁俊辉; 杜庆治; 邵玉斌
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-06-12
Anticipated expiration: 2037-12-04
Also published as: CN108154167B

Abstract

本发明涉及一种汉字字形相似度计算方法，信息处理技术领域。本发明通过中文点阵字库和汉字五笔书写顺序规则，建立汉字特征数据库和汉字笔画数据库，对任意两个汉字查找其汉字特征向量和汉字笔画编码字符串，之后通过余弦定理计算出基于汉字特征的字形相似度，通过Jaro‑Winkler Distance算法计算出基于汉字笔画的字形相似度，两个相似度分别从不同方面反映了汉字的相似程度，最后再将所计算的两个相似度进行融合，得到最终相似度。本发明与现有技术相比，主要解决了现有技术准确性欠佳、灵活性差等现象，致力于增加目前依靠计算机进行汉字字形相似度计算的准确性。

Description

一种汉字字形相似度计算方法

技术领域

本发明涉及一种汉字字形相似度计算方法，信息处理技术领域。

背景技术

在汉语里面，许多汉字由于形体相似容易混淆，正确区分出这些易混淆的形近字对汉语教学、汉文编辑、排版、汉文机器识别、汉语广播等业务具有重要意义。

目前，对汉字字形相似度的计算方法主要分为两类：一类是获取汉字的基础信息，如字形结构、笔画数、笔画顺序等，将这些数据按照一定的编码规则生成数学表达式，再利用特定算法通过对数学表达式的处理进而获得汉字的字形相似度；另一类是采用图像处理技术提取汉字特征，对比差异化特征。但是这两类方法都有各自的缺陷，若使用第一类方法，需设定一些系数来平衡最终的输出结果；若使用第二类方法，对于一些复合字的相似度计算结果较差。

发明内容

本发明要解决的技术问题是针对现有技术的局限和不足，提供一种汉字字形相似度计算方法，以解决上述问题。

本发明的技术方案是：一种汉字字形相似度计算方法，通过中文点阵字库和汉字五笔书写顺序规则，建立汉字特征数据库和汉字笔画数据库，对任意两个汉字查找其汉字特征向量和汉字笔画编码字符串，之后通过余弦定理计算出基于汉字特征的字形相似度，通过 Jaro-Winkler Distance算法计算出基于汉字笔画的字形相似度，最后再通过相似度融合算法，得出最终相似度。

具体包括以下步骤：

Step0.1：提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库，将点阵按照从上至下，从左至右的规则划分为40个2×3像素的小矩阵，记2×3像素小矩阵中汉字所占像素数为p_i,i∈[0,40]，观察所有p_i,i∈[0,40]并生成该汉字所对应的汉字特征向量 {p₁,p₂,…,p₄₀}，且将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征数据库。

Step0.2：提取汉字笔画并建立汉字笔画数据库。按照汉字五笔书写顺序规则，将横、竖、撇、捺、折编码为数字的1、2、3、4、5，生成该汉字所对应的汉字笔画编码字符串str，且将所有汉字及生成的汉字笔画编码字符串存入数据库，组建汉字笔画数据库。

Step1：记X、Y为两个将要计算字形相似度的汉字，从汉字特征数据库中分别获取这两个汉字所对应的汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}，从汉字笔画数据库中分别获取这两个汉字所对应的汉字笔画编码字符串str_x和str_y。

Step2：将汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}作为输入，由余弦定理计算公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim₁(X,Y)。

Step3：将汉字笔画编码字符串str_x和str_y作为输入，由Jaro-Winkler Distance算法求得汉字X、Y之间基于汉字笔画的字形相似度Sim₂(X,Y)。

Step3.2：根据公式(2)计算匹配窗口值MW。

Step3.3：由检测矩阵及匹配窗口值MW，根据相关规则，计算匹配字符数m 和匹配字符换位数n，并根据公式(3)计算汉字笔画编码字符串str_x和str_y之间的JaroDistance。

Step3.4：获取汉字笔画编码字符串str_x和str_y的最长公共子串str_xy，并得到其长度len_xy，根据公式(4)进一步计算汉字笔画编码字符串str_x和str_y之间的Jaro-WinklerDistance，该值即为汉字X、Y之间基于汉字笔画的字形相似度Sim₂(X,Y)。

其中，b_t为是否需要进一步计算的阈值，p为缩放因子。

Step4：设Step2、Step3步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由相似度Sim₁(X,Y)及权值α、相似度Sim₂(X,Y)及权值β，由相似度融合算法，即公式(5)计算出汉字X、Y之间的最终字形相似度Sim(X,Y)。

Sim(X,Y)＝Sim₁(X,Y)·α+Sim₂(X,Y)·β (5)

进一步地，所述步骤Step0.1中，2×3像素小矩阵中汉字所占像素数p_i,i∈[0,40]应满足公式(6)的要求。

0≤p_i≤6,i∈[0,40] (6)

进一步地，所述步骤Step3.1中汉字笔画编码字符串str_x、str_y的长度len_x、len_y，和所述步骤Step3.4中最长公共子串str_xy的长度len_xy，应满足公式(7)的要求。

len_x,len_y,len_xy∈N⁺ (7)

进一步地，所述步骤Step3.3中匹配字符数m的计算，若汉字笔画编码字符串str_x和str_y中相同字符相差距离小于匹配窗口值MW，则视为该字符匹配。但应注意，在匹配过程中，需排除被匹配过的字符，若找到匹配字符，则需跳出此次匹配，进行下一字符的匹配。而对于匹配字符换位数n的计算，则需看汉字笔画编码字符串str_x和str_y中对于匹配字符集的顺序是否一致，若不一致，则换位数目的一半即为匹配字符换位数n。另外，匹配字符数m和匹配字符换位数n理应满足公式(8)的要求。

进一步地，步骤Step3.4中所述进一步计算阈值b_t，通常取值为0.7，可根据实际检测结果作小幅度调整，主要是为了提高检测准确性；所述缩放因子p，通常取值为0.1，可根据实际检测结果做小幅度调整，主要是为了避免最终计算结果大于1的情况发生，但本方法新增编码字符串str_x和str_y中最长距离的倒数改进此处的计算公式所以缩放因子p的取值对最终计算结果影响并不大。

进一步地，所述步骤Step2中得到的基于汉字特征的字形相似度Sim₁(X,Y)、所述步骤 Step3中得到的基于汉字笔画的字形相似度Sim₂(X,Y)、所述步骤Step4中得到的最终字形相似度Sim(X,Y)，应满足公式(9)的要求，即字形相似度Sim₁(X,Y)、Sim₂(X,Y)、Sim(X,Y) 以一个[0,1]之间的数值反映两个汉字之间的相似程度，且数值越大表示相似程度越高。

0≤Sim₁(X,Y),Sim₂(X,Y),Sim(X,Y)≤1 (9)

本发明的有益效果是：本发明与现有技术相比，主要解决了现有技术准确性欠佳、灵活性差等现象，致力于增加目前依靠计算机进行汉字字形相似度计算的准确性。

附图说明

图1是本发明总流程示意图；

图2是本发明建立数据库流程示意图；

图3是本发明15×16像素中文点阵示意图；

图4是本发明实施例2中汉字所对应的中文点阵图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

实施例1：如图1所示，一种汉字字形相似度计算方法，该方法具体包括以下步骤：

Step3.2：根据公式(2)计算匹配窗口值MW。

其中，b_t为是否需要进一步计算的阈值，p为缩放因子。

Sim(X,Y)＝Sim₁(X,Y)·α+Sim₂(X,Y)·β (5)

进一步地，所述步骤Step1中，15×16像素中文点阵如图3所示，以虚线组成的小方格作为像素点，共计240个像素点；以实线组成2×3像素的小矩阵，共计40个2×3像素的小矩阵。

0≤p_i≤6,i∈[0,40] (6)

len_x,len_y,len_xy∈N⁺ (7)

0≤Sim₁(X,Y),Sim₂(X,Y),Sim(X,Y)≤1 (9)

实施例2：Step1：记X、Y为两个将要计算字形相似度的汉字，从汉字特征数据库中分别获取这两个汉字所对应的汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}，从汉字笔画数据库中分别获取这两个汉字所对应的汉字笔画编码字符串str_x和str_y；具体的：

记汉字X为“籍”，汉字Y为“藉”，在15×16像素中文点阵中这两个汉字如图4所示，从中提取出这两个汉字所对应的汉字特征向量，即：

X:{2,3,2,4,3,2,2,2,1,1,2,4,1,4,3,2,4,0,2,2,3,4,3,3,3,1,3,2,3,3,2,3,3,3,3,0,2,2,3,3}

Y:{0,2,0,2,0,3,4,3,4,3,2,4,1,4,3,2,4,0,2,2,3,4,3,3,3,1,3,2,3,3,2,3,3,3,3,0,2,2,3,3}

另外，这两个汉字所对应的汉字笔画编码字符串str_x、str_y分别为“31431411123412212511”、“12211123412212511”。

具体的：

Step3.1：获取汉字笔画编码字符串str_x和str_y的长度len_x和len_y，并生成检测矩阵具体的：

Step3.2：根据公式(2)计算匹配窗口值MW。

具体的：

Dis_j＝0.7886

其中，b_t为是否需要进一步计算的阈值，p为缩放因子；具体的：

取b_t＝0.7，p＝0.1，则最长公共子串len_xy为“11123412212511”，其长度len_xy＝14。

Sim₂(X,Y)＝Dis_jw＝0.9366

Sim(X,Y)＝Sim₁(X,Y)·α+Sim₂(X,Y)·β (5)

具体的：

取权值α＝0.5，β＝0.5，经融合后最终相似度为：

Sim(X,Y)＝Sim₁(X,Y)·α+Sim₂(X,Y)·β

＝0.9284×0.5+0.9366×0.5

＝0.9325

由以上结果可以表明，汉字“籍”和“藉”的最终计算所得字形相似度为0.9325，相对于单独使用点阵特征得到的相似度(0.9284)，既不显得粗糙，又较为合理。

若取汉字“未”和“末”，则最终计算所得字形相似度为0.9938，相对于单独使用笔画顺序编码得到的相似度(1)，既不显得不那么浮夸，又较符合基于人体视觉判定的效果。

另外，关于相似度Sim₁(X,Y)、Sim₂(X,Y)对应权值的取值α、β，应以实际情况进行多次检测、适当调整后合理取值。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种汉字字形相似度计算方法，其特征在于，具体包括以下步骤：

Step0.1：提取汉字特征并建立汉字特征数据库，根据15×16像素中文点阵字库，将点阵按照从上至下，从左至右的规则划分为40个2×3像素的小矩阵，记2×3像素小矩阵中汉字所占像素数为p_i,i∈[0,40]，观察所有p_i,i∈[0,40]并生成该汉字所对应的汉字特征向量{p₁,p₂,…,p₄₀}，且将所有汉字及生成的汉字特征向量存入数据库，组建汉字特征数据库；

Step0.2：提取汉字笔画并建立汉字笔画数据库，按照汉字五笔书写顺序规则，将横、竖、撇、捺、折编码为数字的1、2、3、4、5，生成该汉字所对应的汉字笔画编码字符串str，且将所有汉字及生成的汉字笔画编码字符串存入数据库，组建汉字笔画数据库；

Step1：记X、Y为两个将要计算字形相似度的汉字，从汉字特征数据库中分别获取这两个汉字所对应的汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}，从汉字笔画数据库中分别获取这两个汉字所对应的汉字笔画编码字符串str_x和str_y；

Step2：将汉字特征向量X:{x₁,x₂,…,x₄₀}和Y:{y₁,y₂,…,y₄₀}作为输入，由余弦定理计算公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim₁(X,Y)；

Step3：将汉字笔画编码字符串str_x和str_y作为输入，由Jaro-Winkler Distance算法求得汉字X、Y之间基于汉字笔画的字形相似度Sim₂(X,Y)；

Step3.1：获取汉字笔画编码字符串str_x和str_y的长度len_x和len_y，并生成检测矩阵

Step3.2：根据公式(2)计算匹配窗口值MW；

Step3.3：由检测矩阵及匹配窗口值MW，根据相关规则，计算匹配字符数m和匹配字符换位数n，并根据公式(3)计算汉字笔画编码字符串str_x和str_y之间的JaroDistance；

Step3.4：获取汉字笔画编码字符串str_x和str_y的最长公共子串str_xy，并得到其长度len_xy，根据公式(4)进一步计算汉字笔画编码字符串str_x和str_y之间的Jaro-WinklerDistance，该值即为汉字X、Y之间基于汉字笔画的字形相似度Sim₂(X,Y)；

其中，b_t为是否需要进一步计算的阈值，p为缩放因子；

Step4：设Step2、Step3步骤所计算出的相似度对应权值分别为α、β，权值α、β满足α+β＝1的要求，由相似度Sim₁(X,Y)及权值α、相似度Sim₂(X,Y)及权值β，由相似度融合算法，即公式(5)计算出汉字X、Y之间的最终字形相似度Sim(X,Y)；

Sim(X,Y)＝Sim₁(X,Y)·α+Sim₂(X,Y)·β (5)。

2.根据权利要求1所述的汉字字形相似度计算方法，其特征在于：所述步骤Step0.1中，2×3像素小矩阵中汉字所占像素数p_i,i∈[0,40]应满足0≤p_i≤6,i∈[0,40]的要求。

3.根据权利要求1所述的汉字字形相似度计算方法，其特征在于：所述步骤Step3.1中汉字笔画编码字符串str_x、str_y的长度len_x、len_y，和所述步骤Step3.4中最长公共子串str_xy的长度len_xy，应满足len_x,len_y,len_xy∈N⁺的要求。

4.根据权利要求1所述的汉字字形相似度计算方法，其特征在于：所述步骤Step3.3中匹配字符数m的计算，若汉字笔画编码字符串str_x和str_y中相同字符相差距离小于匹配窗口值MW，则视为该字符匹配；在匹配过程中，需排除被匹配过的字符，若找到匹配字符，则需跳出此次匹配，进行下一字符的匹配，而对于匹配字符换位数n的计算，则需看汉字笔画编码字符串str_x和str_y中对于匹配字符集的顺序是否一致，若不一致，则换位数目的一半即为匹配字符换位数n，匹配字符数m和匹配字符换位数n理应满足公式(8)的要求；

5.根据权利要求1所述的汉字字形相似度计算方法，其特征在于：述步骤Step2中得到的基于汉字特征的字形相似度Sim₁(X,Y)、所述步骤Step3中得到的基于汉字笔画的字形相似度Sim₂(X,Y)、所述步骤Step4中得到的最终字形相似度Sim(X,Y)，应满足0≤Sim₁(X,Y),Sim₂(X,Y),Sim(X,Y)≤1的要求，即字形相似度Sim₁(X,Y)、Sim₂(X,Y)、Sim(X,Y)以一个[0,1]之间的数值反映两个汉字之间的相似程度，且数值越大表示相似程度越高。