CN109272025A - 一种相似常用汉字查找方法 - Google Patents
一种相似常用汉字查找方法 Download PDFInfo
- Publication number
- CN109272025A CN109272025A CN201810994284.9A CN201810994284A CN109272025A CN 109272025 A CN109272025 A CN 109272025A CN 201810994284 A CN201810994284 A CN 201810994284A CN 109272025 A CN109272025 A CN 109272025A
- Authority
- CN
- China
- Prior art keywords
- chinese
- chinese character
- word
- character
- similar
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 13
- 239000011159 matrix material Substances 0.000 claims description 30
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000010801 machine learning Methods 0.000 abstract description 6
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 230000000694 effects Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 235000017166 Bambusa arundinacea Nutrition 0.000 description 1
- 235000017491 Bambusa tulda Nutrition 0.000 description 1
- 241001330002 Bambuseae Species 0.000 description 1
- 235000015334 Phyllostachys viridis Nutrition 0.000 description 1
- 239000011425 bamboo Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 239000003086 colorant Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 235000011389 fruit/vegetable juice Nutrition 0.000 description 1
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 1
- 239000002689 soil Substances 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24147—Distances to closest patterns, e.g. nearest neighbour classification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种相似常用汉字查找方法,属于自然语言处理技术领域。本发明先将常用3500个汉字进行点阵化处理形成n×n的0、1阵列,其中1的排列会显示出一个字,并统计出显示各个字点阵中1的个数c。然后输入需要查找近似字的字,并将这个字进行点阵化处理为n×n的0、1阵列。之后统计出这个字中1的个数x,在3500个常用字中找到与这个字1的个数相比不多于count个的,并使用改进的KNN算法计算,找出最相近的m个字。本发明利用机器学习的KNN算法,并对此进行了改进,解决了运行时间长以及查找不准确等问题,增加了查找相似汉字的可靠性等。
Description
技术领域
本发明涉及一种相似常用汉字查找方法,属于自然语言处理技术领域。
背景技术
在这个快速发展的信息化社会中,人们对于电子产品的热爱和使用,已经是的很多人忘记汉字怎么写,也存再经常把汉字写错的情况。而形近字的查询也可以用到一些基础的教学中,现在也很少有人能够快速找到一些常用的形近字了。此外字形识别服务于生活的方方面面,如从图像中获取汉字信息,纸质文本转录等,并且这项技术在生活中已经得到了广泛的应用。汉字的字形识别对于如今的技术而言已经不存在问题,对印刷体来说识别精度更高。将汉字进行点阵化是字形识别的第一步。在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩形的点阵组成,0代表没有,1代表有点,将0和1分别用不同颜色画出,就形成了一个汉字,譬如“千”字如图2所示。将汉字进行数字化的处理,也更加适合计算机的快速处理,以服务我们的生活。
KNN算法是机器学习中非常基础,也是使用比较多的一种算法,虽然使用的范围比较广阔,但是完全照搬到汉字形近字的查找上还是比较困难的,其中的计算量非常大的。将汉字数字化,根据1的个数对汉字进行初步的过滤,可以加快KNN算法的计算速度,以更好地服务生活。
发明内容
本发明要解决的技术问题是提供一种相似常用汉字查找方法,用于解决当前近常用汉子查找速度慢,性能差的问题,并进一步完善了机器学习中KNN算法在自然语言处理处理中的应用,降低了运算时间,并提高了运算精度等现象。
本发明的技术方案是:一种相似常用汉字查找方法,首先将汉字进行精度更高的点阵化,进而根据点阵效果的计算要求,程序运行时间等转为1×n2维度的数据进行计算。在使用机器学习的KNN算法计算之前,需要通过对点阵中1的个数与已经处理好的常用汉字作比较,以过滤掉笔画差距比较大的汉字,这样可以优化算法的计算时间。最终在利用空间多维向量的距离公式进行计算,排序,找出最相似的几个汉字。
具体步骤为:
Step1、将常用汉字点阵化为n×n的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500;
Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵;
Step3、统计出已经点阵化的汉字中1的个数x;
Step4、在常用的汉字中查找出1的个数满足:|x-c|≤count的汉字,再使用KNN算法计算出最相近的m个汉字。
所述步骤Step1、Step2和Step3中,所述的由0,1表示的n×n点阵中,有汉字笔画的位置为1,反之为0。
所述步骤Step4中,需要找出近似自的汉字再点阵中1的个数为x,使用|x-c|≤count方式过滤掉1的个数差距较大的汉字,也就是实际汉字笔画差距较大的汉字,得到过滤后的汉字数目为N;由于n×n维数据不便于大量处理,这里将其降维到1×n2:
再使用空间矩阵距离计算公式:
其中,设空间一点坐标a的坐标为:(x1,x2,…,xn2)),一点b的坐标为:(y1,y2,…,yn2),然后根据计算后的N个数据进行排序,取其中前m个值对应的汉字。
本发明的有益效果是:本发明利用机器学习的KNN算法,并对此进行了改进,解决了运行时间长以及查找不准确等问题,增加了查找相似汉字的可靠性。
附图说明
图1是本发明步骤流程图;
图2是本发明实施例1中“千”字点阵化图;
图3是本发明步骤Step4流程图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
一种相似常用汉字查找方法,首先将汉字进行精度更高的点阵化,进而根据点阵效果的计算要求,程序运行时间等转为1×n2维度的数据进行计算。在使用机器学习的KNN算法计算之前,需要通过对点阵中1的个数与已经处理好的常用汉字作比较,以过滤掉笔画差距比较大的汉字,这样可以优化算法的计算时间。最终在利用空间多维向量的距离公式进行计算,排序,找出最相似的几个汉字。
具体步骤为:
Step1、将常用汉字点阵化为n×n的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500;
Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵;
Step3、统计出已经点阵化的汉字中1的个数x;
Step4、在常用的汉字中查找出1的个数满足:|x-c|≤count的汉字,再使用KNN算法计算出最相近的m个汉字。
所述步骤Step1、Step2和Step3中,所述的由0,1表示的n×n点阵中,有汉字笔画的位置为1,反之为0。
所述步骤Step4中,需要找出近似自的汉字再点阵中1的个数为x,使用|x-c|≤count方式过滤掉1的个数差距较大的汉字,也就是实际汉字笔画差距较大的汉字,得到过滤后的汉字数目为N;由于n×n维数据不便于大量处理,这里将其降维到1×n2:
再使用空间矩阵距离计算公式:
其中,设空间一点坐标a的坐标为:一点b的坐标为:然后根据计算后的N个数据进行排序,取其中前m个值对应的汉字。
如图1所示,这里取n=48,count=50,m=4;
Step1、将常用汉字点阵化为48×48的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500;本发明中基于48×48的点阵中汉字对应的1的个数,一些主要汉字如下表:
汉字 | 1的数量 | 汉字 | 1的数量 | 汉字 | 1的数量 |
一 | 68 | 乙 | 179 | 二 | 107 |
十 | 147 | 丁 | 146 | 厂 | 109 |
七 | 166 | 卜 | 121 | 人 | 143 |
… | … | … | … | … | … |
郭 | 389 | 锈 | 390 | 锋 | 378 |
… | … | … | … | … | … |
镶 | 478 | 瓤 | 506 | 矗 | 554 |
如图2所示,是“千”字的48×48的点阵图,根据图中统计出的1的个数为:183。
Step2、这里我们以汉字“千”为例,将其点阵化的结果如图2。
Step3、根据“千”字的点阵图,可以统计出其中1的个数为183。
Step4、根据筛选条件|x-n|≤50,初步筛选出的字有:
'乙','十','丁','七','人','九','几','儿','了','力','乃','刀','又','三','于','干','亏','士','工','土','才','寸','下','大','丈','与','万','上','小','口','巾','山','千','川','个','勺','久','凡','夕','么','亡','门','义','之','尸','弓','己','已','子','卫','女','飞','习','叉','乡','丰','王','夫','天','元','云','厅','不','太','犬','比','止','少','日','中','午','牛','手','气','长','仁','什','片','仆','斤','爪','介','父','从','今','分','乏','公','欠','匀','文','六','方','火','斗','订','计','户','认','心','尺','办','以','予','示','平','灭','卡','占','叶','叮','只','叫','仪','斥','乎','令','外','冬','主','立','兰','汁','汇','头','宁','穴','讨','礼','灰','尘','尖','吓','竹','乒','乓','行','众','产','汗','江','兴','尽','严','沙','匕','刁','歹','夭','仑','卢','叭','乍','了',这154个字。
然后将这些字都进行1×2304维度处理,其中“千”的向量为:
[000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000……000000000000000000000000100000000000000000000000000000000000000000000000100000000000000000000000000000000000000000000000000000000000000000000000],这里元素数有2304个。
相应的也要对筛选出的汉字做进行1×2304维度处理。其结果也如“千”字类似,现在需要对此开始计算,对计算的结果d1,d2...d154有:
d1=17.32050808
d2=8.60232527
d3=14.73091986
d4=16.70329309
…
d153=17.0
d154=14.69693846
并对d1,d2...d154排序,取出距离最小的距离四个d,输出其对应的汉字。结果为:千、十、干、于。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。
Claims (3)
1.一种相似常用汉字查找方法,其特征在于:
Step1、将常用汉字点阵化为n×n的0、1阵列,并统计出这些点阵中1的个数为c1c2…c3500;
Step2、将输入需要找出相似字的汉字进行点阵化为n×n的0、1矩阵;
Step3、统计出已经点阵化的汉字中1的个数x;
Step4、在常用的汉字中查找出1的个数满足:|x-c|≤count的汉字,再使用KNN算法计算出最相近的m个汉字。
2.根据权利要求1所述的相似常用汉字查找方法,其特征在于:所述步骤Step1、Step2和Step3中,所述的由0,1表示的n×n点阵中,有汉字笔画的位置为1,反之为0。
3.根据权利要求1所述的相似常用汉字查找方法,其特征在于:所述步骤Step4中,需要找出近似自的汉字再点阵中1的个数为x,使用|x-c|≤count方式过滤掉1的个数差距较大的汉字,也就是实际汉字笔画差距较大的汉字,得到过滤后的汉字数目为N;将n×n维数据降维到1×n2维度:
再使用空间矩阵距离计算公式:
其中,设空间一点坐标a的坐标为:一点b的坐标为:然后根据计算后的N个数据进行排序,取其中前m个值对应的汉字。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994284.9A CN109272025B (zh) | 2018-08-29 | 2018-08-29 | 一种相似常用汉字查找方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810994284.9A CN109272025B (zh) | 2018-08-29 | 2018-08-29 | 一种相似常用汉字查找方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109272025A true CN109272025A (zh) | 2019-01-25 |
CN109272025B CN109272025B (zh) | 2021-07-16 |
Family
ID=65154705
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810994284.9A Active CN109272025B (zh) | 2018-08-29 | 2018-08-29 | 一种相似常用汉字查找方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109272025B (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050031188A1 (en) * | 2003-08-10 | 2005-02-10 | Luu Victor Van | Systems and methods for characterizing a sample |
CN1920821A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 基于数据网格的书法字查询方法 |
CN103093240A (zh) * | 2013-01-18 | 2013-05-08 | 浙江大学 | 书法字识别方法 |
CN106170002A (zh) * | 2016-09-08 | 2016-11-30 | 中国科学院信息工程研究所 | 一种中文仿冒域名检测方法及系统 |
CN106844481A (zh) * | 2016-12-23 | 2017-06-13 | 北京信息科技大学 | 字体相似度及字体替换方法 |
US10037458B1 (en) * | 2017-05-02 | 2018-07-31 | King Fahd University Of Petroleum And Minerals | Automated sign language recognition |
-
2018
- 2018-08-29 CN CN201810994284.9A patent/CN109272025B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20050031188A1 (en) * | 2003-08-10 | 2005-02-10 | Luu Victor Van | Systems and methods for characterizing a sample |
CN1920821A (zh) * | 2006-09-14 | 2007-02-28 | 浙江大学 | 基于数据网格的书法字查询方法 |
CN103093240A (zh) * | 2013-01-18 | 2013-05-08 | 浙江大学 | 书法字识别方法 |
CN106170002A (zh) * | 2016-09-08 | 2016-11-30 | 中国科学院信息工程研究所 | 一种中文仿冒域名检测方法及系统 |
CN106844481A (zh) * | 2016-12-23 | 2017-06-13 | 北京信息科技大学 | 字体相似度及字体替换方法 |
US10037458B1 (en) * | 2017-05-02 | 2018-07-31 | King Fahd University Of Petroleum And Minerals | Automated sign language recognition |
Also Published As
Publication number | Publication date |
---|---|
CN109272025B (zh) | 2021-07-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Hermans et al. | In defense of the triplet loss for person re-identification | |
CN105373529B (zh) | 一种基于隐马尔科夫模型的智能分词方法 | |
Roman-Rangel et al. | Analyzing ancient maya glyph collections with contextual shape descriptors | |
CN106599240A (zh) | 一种多源数据处理方法及系统 | |
CN105740236B (zh) | 结合写作特征和序列特征的中文情感新词识别方法和系统 | |
CN106570456A (zh) | 基于全卷积递归网络的手写汉字文本识别方法 | |
CN109902144B (zh) | 一种基于改进wmd算法的实体对齐方法 | |
CN106845358B (zh) | 一种手写体字符图像特征识别的方法及系统 | |
CN109960763A (zh) | 一种基于用户细粒度摄影偏好的摄影社区个性化好友推荐方法 | |
GB2248328A (en) | Conversion of phonetic Chinese to character Chinese | |
CN108108482B (zh) | 一种文景转换中实现场景真实性增强的方法 | |
CN109857912A (zh) | 一种字形识别方法、电子设备及存储介质 | |
CN109871454A (zh) | 一种鲁棒离散监督跨媒体哈希检索方法 | |
CN109325513A (zh) | 一种基于海量单类单幅图像的图像分类网络训练方法 | |
CN112633012A (zh) | 一种基于实体类型匹配的未登录词替换方法 | |
CN106611016B (zh) | 一种基于可分解词包模型的图像检索方法 | |
CN103761503A (zh) | 用于相关反馈图像检索的自适应训练样本选取方法 | |
CN105938402A (zh) | 一种声形码汉字输入法及键盘 | |
CN105701173B (zh) | 一种基于外观设计专利的多模态图像检索方法 | |
CN110597876A (zh) | 一种基于离线学习历史查询预测未来查询的近似查询方法 | |
CN109272025A (zh) | 一种相似常用汉字查找方法 | |
CN102778951A (zh) | 使用虚拟按键的输入设备及输入方法 | |
CN104778202B (zh) | 基于关键词的事件演化过程的分析方法及系统 | |
CN108846386A (zh) | 一种手绘图案智能识别和纠正方法 | |
CN109670171A (zh) | 一种基于词对非对称共现的词向量表示学习方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |