CN109272025A

CN109272025A - 一种相似常用汉字查找方法

Info

Publication number: CN109272025A
Application number: CN201810994284.9A
Authority: CN
Inventors: 邵玉斌; 皮乾东; 龙华; 杜庆治
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2018-08-29
Filing date: 2018-08-29
Publication date: 2019-01-25
Anticipated expiration: 2038-08-29
Also published as: CN109272025B

Abstract

本发明涉及一种相似常用汉字查找方法，属于自然语言处理技术领域。本发明先将常用3500个汉字进行点阵化处理形成n×n的0、1阵列，其中1的排列会显示出一个字，并统计出显示各个字点阵中1的个数c。然后输入需要查找近似字的字，并将这个字进行点阵化处理为n×n的0、1阵列。之后统计出这个字中1的个数x，在3500个常用字中找到与这个字1的个数相比不多于count个的，并使用改进的KNN算法计算，找出最相近的m个字。本发明利用机器学习的KNN算法，并对此进行了改进，解决了运行时间长以及查找不准确等问题，增加了查找相似汉字的可靠性等。

Description

一种相似常用汉字查找方法

技术领域

本发明涉及一种相似常用汉字查找方法，属于自然语言处理技术领域。

背景技术

在这个快速发展的信息化社会中，人们对于电子产品的热爱和使用，已经是的很多人忘记汉字怎么写，也存再经常把汉字写错的情况。而形近字的查询也可以用到一些基础的教学中，现在也很少有人能够快速找到一些常用的形近字了。此外字形识别服务于生活的方方面面，如从图像中获取汉字信息，纸质文本转录等，并且这项技术在生活中已经得到了广泛的应用。汉字的字形识别对于如今的技术而言已经不存在问题，对印刷体来说识别精度更高。将汉字进行点阵化是字形识别的第一步。在汉字的点阵字库中，每个字节的每个位都代表一个汉字的一个点，每个汉字都是由一个矩形的点阵组成，0代表没有，1代表有点，将0和1分别用不同颜色画出，就形成了一个汉字，譬如“千”字如图2所示。将汉字进行数字化的处理，也更加适合计算机的快速处理，以服务我们的生活。

KNN算法是机器学习中非常基础，也是使用比较多的一种算法，虽然使用的范围比较广阔，但是完全照搬到汉字形近字的查找上还是比较困难的，其中的计算量非常大的。将汉字数字化，根据1的个数对汉字进行初步的过滤，可以加快KNN算法的计算速度，以更好地服务生活。

发明内容

本发明要解决的技术问题是提供一种相似常用汉字查找方法，用于解决当前近常用汉子查找速度慢，性能差的问题，并进一步完善了机器学习中KNN算法在自然语言处理处理中的应用，降低了运算时间，并提高了运算精度等现象。

本发明的技术方案是：一种相似常用汉字查找方法，首先将汉字进行精度更高的点阵化，进而根据点阵效果的计算要求，程序运行时间等转为1×n²维度的数据进行计算。在使用机器学习的KNN算法计算之前，需要通过对点阵中1的个数与已经处理好的常用汉字作比较，以过滤掉笔画差距比较大的汉字，这样可以优化算法的计算时间。最终在利用空间多维向量的距离公式进行计算，排序，找出最相似的几个汉字。

具体步骤为：

Step1、将常用汉字点阵化为n×n的0、1阵列，并统计出这些点阵中1的个数为c₁c₂…c₃₅₀₀；

Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵；

Step3、统计出已经点阵化的汉字中1的个数x；

Step4、在常用的汉字中查找出1的个数满足：|x-c|≤count的汉字，再使用KNN算法计算出最相近的m个汉字。

所述步骤Step1、Step2和Step3中，所述的由0，1表示的n×n点阵中，有汉字笔画的位置为1，反之为0。

所述步骤Step4中，需要找出近似自的汉字再点阵中1的个数为x，使用|x-c|≤count方式过滤掉1的个数差距较大的汉字，也就是实际汉字笔画差距较大的汉字，得到过滤后的汉字数目为N；由于n×n维数据不便于大量处理，这里将其降维到1×n²：

再使用空间矩阵距离计算公式：

其中，设空间一点坐标a的坐标为：(x₁,x₂,…,x_n2))，一点b的坐标为：(y₁,y₂,…,y_n2)，然后根据计算后的N个数据进行排序，取其中前m个值对应的汉字。

本发明的有益效果是：本发明利用机器学习的KNN算法，并对此进行了改进，解决了运行时间长以及查找不准确等问题，增加了查找相似汉字的可靠性。

附图说明

图1是本发明步骤流程图；

图2是本发明实施例1中“千”字点阵化图；

图3是本发明步骤Step4流程图。

具体实施方式

下面结合附图和具体实施方式，对本发明作进一步说明。

一种相似常用汉字查找方法，首先将汉字进行精度更高的点阵化，进而根据点阵效果的计算要求，程序运行时间等转为1×n²维度的数据进行计算。在使用机器学习的KNN算法计算之前，需要通过对点阵中1的个数与已经处理好的常用汉字作比较，以过滤掉笔画差距比较大的汉字，这样可以优化算法的计算时间。最终在利用空间多维向量的距离公式进行计算，排序，找出最相似的几个汉字。

具体步骤为：

Step3、统计出已经点阵化的汉字中1的个数x；

再使用空间矩阵距离计算公式：

其中，设空间一点坐标a的坐标为：一点b的坐标为：然后根据计算后的N个数据进行排序，取其中前m个值对应的汉字。

如图1所示，这里取n＝48，count＝50，m＝4；

Step1、将常用汉字点阵化为48×48的0、1阵列，并统计出这些点阵中1的个数为c₁c₂…c₃₅₀₀；本发明中基于48×48的点阵中汉字对应的1的个数，一些主要汉字如下表：

汉字	1的数量	汉字	1的数量	汉字	1的数量
						一	68	乙	179	二	107
十	147	丁	146	厂	109
						七	166	卜	121	人	143
…	…	…	…	…	…
						郭	389	锈	390	锋	378
…	…	…	…	…	…
						镶	478	瓤	506	矗	554

如图2所示，是“千”字的48×48的点阵图，根据图中统计出的1的个数为：183。

Step2、这里我们以汉字“千”为例，将其点阵化的结果如图2。

Step3、根据“千”字的点阵图，可以统计出其中1的个数为183。

Step4、根据筛选条件|x-n|≤50，初步筛选出的字有：

'乙'，'十'，'丁'，'七'，'人'，'九'，'几'，'儿'，'了'，'力'，'乃'，'刀'，'又'，'三'，'于'，'干'，'亏'，'士'，'工'，'土'，'才'，'寸'，'下'，'大'，'丈'，'与'，'万'，'上'，'小'，'口'，'巾'，'山'，'千'，'川'，'个'，'勺'，'久'，'凡'，'夕'，'么'，'亡'，'门'，'义'，'之'，'尸'，'弓'，'己'，'已'，'子'，'卫'，'女'，'飞'，'习'，'叉'，'乡'，'丰'，'王'，'夫'，'天'，'元'，'云'，'厅'，'不'，'太'，'犬'，'比'，'止'，'少'，'日'，'中'，'午'，'牛'，'手'，'气'，'长'，'仁'，'什'，'片'，'仆'，'斤'，'爪'，'介'，'父'，'从'，'今'，'分'，'乏'，'公'，'欠'，'匀'，'文'，'六'，'方'，'火'，'斗'，'订'，'计'，'户'，'认'，'心'，'尺'，'办'，'以'，'予'，'示'，'平'，'灭'，'卡'，'占'，'叶'，'叮'，'只'，'叫'，'仪'，'斥'，'乎'，'令'，'外'，'冬'，'主'，'立'，'兰'，'汁'，'汇'，'头'，'宁'，'穴'，'讨'，'礼'，'灰'，'尘'，'尖'，'吓'，'竹'，'乒'，'乓'，'行'，'众'，'产'，'汗'，'江'，'兴'，'尽'，'严'，'沙'，'匕'，'刁'，'歹'，'夭'，'仑'，'卢'，'叭'，'乍'，'了'，这154个字。

然后将这些字都进行1×2304维度处理，其中“千”的向量为：

[000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000……000000000000000000000000100000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000]，这里元素数有2304个。

相应的也要对筛选出的汉字做进行1×2304维度处理。其结果也如“千”字类似，现在需要对此开始计算，对计算的结果d₁,d₂...d₁₅₄有：

d₁＝17.32050808

d₂＝8.60232527

d₃＝14.73091986

d₄＝16.70329309

…

d₁₅₃＝17.0

d₁₅₄＝14.69693846

并对d₁,d₂...d₁₅₄排序，取出距离最小的距离四个d，输出其对应的汉字。结果为：千、十、干、于。

以上结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.一种相似常用汉字查找方法，其特征在于：

Step3、统计出已经点阵化的汉字中1的个数x；

2.根据权利要求1所述的相似常用汉字查找方法，其特征在于：所述步骤Step1、Step2和Step3中，所述的由0，1表示的n×n点阵中，有汉字笔画的位置为1，反之为0。

3.根据权利要求1所述的相似常用汉字查找方法，其特征在于：所述步骤Step4中，需要找出近似自的汉字再点阵中1的个数为x，使用|x-c|≤count方式过滤掉1的个数差距较大的汉字，也就是实际汉字笔画差距较大的汉字，得到过滤后的汉字数目为N；将n×n维数据降维到1×n²维度：

再使用空间矩阵距离计算公式：