CN109272025A - 一种相似常用汉字查找方法 - Google Patents

一种相似常用汉字查找方法 Download PDF

Info

Publication number
CN109272025A
CN109272025A CN201810994284.9A CN201810994284A CN109272025A CN 109272025 A CN109272025 A CN 109272025A CN 201810994284 A CN201810994284 A CN 201810994284A CN 109272025 A CN109272025 A CN 109272025A
Authority
CN
China
Prior art keywords
chinese
chinese character
word
character
similar
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810994284.9A
Other languages
English (en)
Other versions
CN109272025B (zh
Inventor
邵玉斌
皮乾东
龙华
杜庆治
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201810994284.9A priority Critical patent/CN109272025B/zh
Publication of CN109272025A publication Critical patent/CN109272025A/zh
Application granted granted Critical
Publication of CN109272025B publication Critical patent/CN109272025B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明涉及一种相似常用汉字查找方法,属于自然语言处理技术领域。本发明先将常用3500个汉字进行点阵化处理形成n×n的0、1阵列,其中1的排列会显示出一个字,并统计出显示各个字点阵中1的个数c。然后输入需要查找近似字的字,并将这个字进行点阵化处理为n×n的0、1阵列。之后统计出这个字中1的个数x,在3500个常用字中找到与这个字1的个数相比不多于count个的,并使用改进的KNN算法计算,找出最相近的m个字。本发明利用机器学习的KNN算法,并对此进行了改进,解决了运行时间长以及查找不准确等问题,增加了查找相似汉字的可靠性等。

Description

一种相似常用汉字查找方法
技术领域
本发明涉及一种相似常用汉字查找方法,属于自然语言处理技术领域。
背景技术
在这个快速发展的信息化社会中,人们对于电子产品的热爱和使用,已经是的很多人忘记汉字怎么写,也存再经常把汉字写错的情况。而形近字的查询也可以用到一些基础的教学中,现在也很少有人能够快速找到一些常用的形近字了。此外字形识别服务于生活的方方面面,如从图像中获取汉字信息,纸质文本转录等,并且这项技术在生活中已经得到了广泛的应用。汉字的字形识别对于如今的技术而言已经不存在问题,对印刷体来说识别精度更高。将汉字进行点阵化是字形识别的第一步。在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩形的点阵组成,0代表没有,1代表有点,将0和1分别用不同颜色画出,就形成了一个汉字,譬如“千”字如图2所示。将汉字进行数字化的处理,也更加适合计算机的快速处理,以服务我们的生活。
KNN算法是机器学习中非常基础,也是使用比较多的一种算法,虽然使用的范围比较广阔,但是完全照搬到汉字形近字的查找上还是比较困难的,其中的计算量非常大的。将汉字数字化,根据1的个数对汉字进行初步的过滤,可以加快KNN算法的计算速度,以更好地服务生活。
发明内容
本发明要解决的技术问题是提供一种相似常用汉字查找方法,用于解决当前近常用汉子查找速度慢,性能差的问题,并进一步完善了机器学习中KNN算法在自然语言处理处理中的应用,降低了运算时间,并提高了运算精度等现象。
本发明的技术方案是:一种相似常用汉字查找方法,首先将汉字进行精度更高的点阵化,进而根据点阵效果的计算要求,程序运行时间等转为1×n2维度的数据进行计算。在使用机器学习的KNN算法计算之前,需要通过对点阵中1的个数与已经处理好的常用汉字作比较,以过滤掉笔画差距比较大的汉字,这样可以优化算法的计算时间。最终在利用空间多维向量的距离公式进行计算,排序,找出最相似的几个汉字。
具体步骤为:
Step1、将常用汉字点阵化为n×n的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500
Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵;
Step3、统计出已经点阵化的汉字中1的个数x;
Step4、在常用的汉字中查找出1的个数满足:|x-c|≤count的汉字,再使用KNN算法计算出最相近的m个汉字。
所述步骤Step1、Step2和Step3中,所述的由0,1表示的n×n点阵中,有汉字笔画的位置为1,反之为0。
所述步骤Step4中,需要找出近似自的汉字再点阵中1的个数为x,使用|x-c|≤count方式过滤掉1的个数差距较大的汉字,也就是实际汉字笔画差距较大的汉字,得到过滤后的汉字数目为N;由于n×n维数据不便于大量处理,这里将其降维到1×n2
再使用空间矩阵距离计算公式:
其中,设空间一点坐标a的坐标为:(x1,x2,…,xn2)),一点b的坐标为:(y1,y2,…,yn2),然后根据计算后的N个数据进行排序,取其中前m个值对应的汉字。
本发明的有益效果是:本发明利用机器学习的KNN算法,并对此进行了改进,解决了运行时间长以及查找不准确等问题,增加了查找相似汉字的可靠性。
附图说明
图1是本发明步骤流程图;
图2是本发明实施例1中“千”字点阵化图;
图3是本发明步骤Step4流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种相似常用汉字查找方法,首先将汉字进行精度更高的点阵化,进而根据点阵效果的计算要求,程序运行时间等转为1×n2维度的数据进行计算。在使用机器学习的KNN算法计算之前,需要通过对点阵中1的个数与已经处理好的常用汉字作比较,以过滤掉笔画差距比较大的汉字,这样可以优化算法的计算时间。最终在利用空间多维向量的距离公式进行计算,排序,找出最相似的几个汉字。
具体步骤为:
Step1、将常用汉字点阵化为n×n的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500
Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵;
Step3、统计出已经点阵化的汉字中1的个数x;
Step4、在常用的汉字中查找出1的个数满足:|x-c|≤count的汉字,再使用KNN算法计算出最相近的m个汉字。
所述步骤Step1、Step2和Step3中,所述的由0,1表示的n×n点阵中,有汉字笔画的位置为1,反之为0。
所述步骤Step4中,需要找出近似自的汉字再点阵中1的个数为x,使用|x-c|≤count方式过滤掉1的个数差距较大的汉字,也就是实际汉字笔画差距较大的汉字,得到过滤后的汉字数目为N;由于n×n维数据不便于大量处理,这里将其降维到1×n2
再使用空间矩阵距离计算公式:
其中,设空间一点坐标a的坐标为:一点b的坐标为:然后根据计算后的N个数据进行排序,取其中前m个值对应的汉字。
如图1所示,这里取n=48,count=50,m=4;
Step1、将常用汉字点阵化为48×48的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500;本发明中基于48×48的点阵中汉字对应的1的个数,一些主要汉字如下表:
汉字 1的数量 汉字 1的数量 汉字 1的数量
68 179 107
147 146 109
166 121 143
389 390 378
478 506 554
如图2所示,是“千”字的48×48的点阵图,根据图中统计出的1的个数为:183。
Step2、这里我们以汉字“千”为例,将其点阵化的结果如图2。
Step3、根据“千”字的点阵图,可以统计出其中1的个数为183。
Step4、根据筛选条件|x-n|≤50,初步筛选出的字有:
'乙','十','丁','七','人','九','几','儿','了','力','乃','刀','又','三','于','干','亏','士','工','土','才','寸','下','大','丈','与','万','上','小','口','巾','山','千','川','个','勺','久','凡','夕','么','亡','门','义','之','尸','弓','己','已','子','卫','女','飞','习','叉','乡','丰','王','夫','天','元','云','厅','不','太','犬','比','止','少','日','中','午','牛','手','气','长','仁','什','片','仆','斤','爪','介','父','从','今','分','乏','公','欠','匀','文','六','方','火','斗','订','计','户','认','心','尺','办','以','予','示','平','灭','卡','占','叶','叮','只','叫','仪','斥','乎','令','外','冬','主','立','兰','汁','汇','头','宁','穴','讨','礼','灰','尘','尖','吓','竹','乒','乓','行','众','产','汗','江','兴','尽','严','沙','匕','刁','歹','夭','仑','卢','叭','乍','了',这154个字。
然后将这些字都进行1×2304维度处理,其中“千”的向量为:
[000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000……000000000000000000000000100000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000],这里元素数有2304个。
相应的也要对筛选出的汉字做进行1×2304维度处理。其结果也如“千”字类似,现在需要对此开始计算,对计算的结果d1,d2...d154有:
d1=17.32050808
d2=8.60232527
d3=14.73091986
d4=16.70329309
d153=17.0
d154=14.69693846
并对d1,d2...d154排序,取出距离最小的距离四个d,输出其对应的汉字。结果为:千、十、干、于。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims (3)

1.一种相似常用汉字查找方法,其特征在于:
Step1、将常用汉字点阵化为n×n的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500
Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵;
Step3、统计出已经点阵化的汉字中1的个数x;
Step4、在常用的汉字中查找出1的个数满足:|x-c|≤count的汉字,再使用KNN算法计算出最相近的m个汉字。
2.根据权利要求1所述的相似常用汉字查找方法,其特征在于:所述步骤Step1、Step2和Step3中,所述的由0,1表示的n×n点阵中,有汉字笔画的位置为1,反之为0。
3.根据权利要求1所述的相似常用汉字查找方法,其特征在于:所述步骤Step4中,需要找出近似自的汉字再点阵中1的个数为x,使用|x-c|≤count方式过滤掉1的个数差距较大的汉字,也就是实际汉字笔画差距较大的汉字,得到过滤后的汉字数目为N;将n×n维数据降维到1×n2维度:
再使用空间矩阵距离计算公式:
其中,设空间一点坐标a的坐标为:一点b的坐标为:然后根据计算后的N个数据进行排序,取其中前m个值对应的汉字。
CN201810994284.9A 2018-08-29 2018-08-29 一种相似常用汉字查找方法 Active CN109272025B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810994284.9A CN109272025B (zh) 2018-08-29 2018-08-29 一种相似常用汉字查找方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810994284.9A CN109272025B (zh) 2018-08-29 2018-08-29 一种相似常用汉字查找方法

Publications (2)

Publication Number Publication Date
CN109272025A true CN109272025A (zh) 2019-01-25
CN109272025B CN109272025B (zh) 2021-07-16

Family

ID=65154705

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810994284.9A Active CN109272025B (zh) 2018-08-29 2018-08-29 一种相似常用汉字查找方法

Country Status (1)

Country Link
CN (1) CN109272025B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031188A1 (en) * 2003-08-10 2005-02-10 Luu Victor Van Systems and methods for characterizing a sample
CN1920821A (zh) * 2006-09-14 2007-02-28 浙江大学 基于数据网格的书法字查询方法
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法
CN106170002A (zh) * 2016-09-08 2016-11-30 中国科学院信息工程研究所 一种中文仿冒域名检测方法及系统
CN106844481A (zh) * 2016-12-23 2017-06-13 北京信息科技大学 字体相似度及字体替换方法
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050031188A1 (en) * 2003-08-10 2005-02-10 Luu Victor Van Systems and methods for characterizing a sample
CN1920821A (zh) * 2006-09-14 2007-02-28 浙江大学 基于数据网格的书法字查询方法
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法
CN106170002A (zh) * 2016-09-08 2016-11-30 中国科学院信息工程研究所 一种中文仿冒域名检测方法及系统
CN106844481A (zh) * 2016-12-23 2017-06-13 北京信息科技大学 字体相似度及字体替换方法
US10037458B1 (en) * 2017-05-02 2018-07-31 King Fahd University Of Petroleum And Minerals Automated sign language recognition

Also Published As

Publication number Publication date
CN109272025B (zh) 2021-07-16

Similar Documents

Publication Publication Date Title
Hermans et al. In defense of the triplet loss for person re-identification
CN105373529B (zh) 一种基于隐马尔科夫模型的智能分词方法
Roman-Rangel et al. Analyzing ancient maya glyph collections with contextual shape descriptors
CN106599240A (zh) 一种多源数据处理方法及系统
CN105740236B (zh) 结合写作特征和序列特征的中文情感新词识别方法和系统
CN106570456A (zh) 基于全卷积递归网络的手写汉字文本识别方法
CN109902144B (zh) 一种基于改进wmd算法的实体对齐方法
CN106845358B (zh) 一种手写体字符图像特征识别的方法及系统
CN109960763A (zh) 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法
GB2248328A (en) Conversion of phonetic Chinese to character Chinese
CN108108482B (zh) 一种文景转换中实现场景真实性增强的方法
CN109857912A (zh) 一种字形识别方法、电子设备及存储介质
CN109871454A (zh) 一种鲁棒离散监督跨媒体哈希检索方法
CN109325513A (zh) 一种基于海量单类单幅图像的图像分类网络训练方法
CN112633012A (zh) 一种基于实体类型匹配的未登录词替换方法
CN106611016B (zh) 一种基于可分解词包模型的图像检索方法
CN103761503A (zh) 用于相关反馈图像检索的自适应训练样本选取方法
CN105938402A (zh) 一种声形码汉字输入法及键盘
CN105701173B (zh) 一种基于外观设计专利的多模态图像检索方法
CN110597876A (zh) 一种基于离线学习历史查询预测未来查询的近似查询方法
CN109272025A (zh) 一种相似常用汉字查找方法
CN102778951A (zh) 使用虚拟按键的输入设备及输入方法
CN104778202B (zh) 基于关键词的事件演化过程的分析方法及系统
CN108846386A (zh) 一种手绘图案智能识别和纠正方法
CN109670171A (zh) 一种基于词对非对称共现的词向量表示学习方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant