CN108154167A - 一种汉字字形相似度计算方法 - Google Patents
一种汉字字形相似度计算方法 Download PDFInfo
- Publication number
- CN108154167A CN108154167A CN201711257233.XA CN201711257233A CN108154167A CN 108154167 A CN108154167 A CN 108154167A CN 201711257233 A CN201711257233 A CN 201711257233A CN 108154167 A CN108154167 A CN 108154167A
- Authority
- CN
- China
- Prior art keywords
- chinese
- character
- stroke
- str
- sim
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 239000011159 matrix material Substances 0.000 claims abstract description 21
- 230000017105 transposition Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 9
- 238000000605 extraction Methods 0.000 claims description 6
- 238000005192 partition Methods 0.000 claims description 3
- 238000002156 mixing Methods 0.000 claims description 2
- 238000004364 calculation method Methods 0.000 abstract description 12
- 230000010365 information processing Effects 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 3
- 238000000205 computational method Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Controls And Circuits For Display Device (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明涉及一种汉字字形相似度计算方法,信息处理技术领域。本发明通过中文点阵字库和汉字五笔书写顺序规则,建立汉字特征数据库和汉字笔画数据库,对任意两个汉字查找其汉字特征向量和汉字笔画编码字符串,之后通过余弦定理计算出基于汉字特征的字形相似度,通过Jaro‑Winkler Distance算法计算出基于汉字笔画的字形相似度,两个相似度分别从不同方面反映了汉字的相似程度,最后再将所计算的两个相似度进行融合,得到最终相似度。本发明与现有技术相比,主要解决了现有技术准确性欠佳、灵活性差等现象,致力于增加目前依靠计算机进行汉字字形相似度计算的准确性。
Description
技术领域
本发明涉及一种汉字字形相似度计算方法,信息处理技术领域。
背景技术
在汉语里面,许多汉字由于形体相似容易混淆,正确区分出这些易混淆的形近字对汉语 教学、汉文编辑、排版、汉文机器识别、汉语广播等业务具有重要意义。
目前,对汉字字形相似度的计算方法主要分为两类:一类是获取汉字的基础信息,如字 形结构、笔画数、笔画顺序等,将这些数据按照一定的编码规则生成数学表达式,再利用特 定算法通过对数学表达式的处理进而获得汉字的字形相似度;另一类是采用图像处理技术提 取汉字特征,对比差异化特征。但是这两类方法都有各自的缺陷,若使用第一类方法,需设 定一些系数来平衡最终的输出结果;若使用第二类方法,对于一些复合字的相似度计算结果 较差。
发明内容
本发明要解决的技术问题是针对现有技术的局限和不足,提供一种汉字字形相似度计算 方法,以解决上述问题。
本发明的技术方案是:一种汉字字形相似度计算方法,通过中文点阵字库和汉字五笔书 写顺序规则,建立汉字特征数据库和汉字笔画数据库,对任意两个汉字查找其汉字特征向量 和汉字笔画编码字符串,之后通过余弦定理计算出基于汉字特征的字形相似度,通过 Jaro-Winkler Distance算法计算出基于汉字笔画的字形相似度,最后再通过相似度融合算法, 得出最终相似度。
具体包括以下步骤:
Step0.1:提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库,将点阵 按照从上至下,从左至右的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所 占像素数为pi,i∈[0,40],观察所有pi,i∈[0,40]并生成该汉字所对应的汉字特征向量 {p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库。
Step0.2:提取汉字笔画并建立汉字笔画数据库。按照汉字五笔书写顺序规则,将横、竖、 撇、捺、折编码为数字的1、2、3、4、5,生成该汉字所对应的汉字笔画编码字符串str,且 将所有汉字及生成的汉字笔画编码字符串存入数据库,组建汉字笔画数据库。
Step1:记X、Y为两个将要计算字形相似度的汉字,从汉字特征数据库中分别获取这两 个汉字所对应的汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40},从汉字笔画数据库中分 别获取这两个汉字所对应的汉字笔画编码字符串strx和stry。
Step2:将汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40}作为输入,由余弦定理计算 公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim1(X,Y)。
Step3:将汉字笔画编码字符串strx和stry作为输入,由Jaro-Winkler Distance算法求得汉 字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y)。
Step3.2:根据公式(2)计算匹配窗口值MW。
Step3.3:由检测矩阵及匹配窗口值MW,根据相关规则,计算匹配字符数m 和匹配字符换位数n,并根据公式(3)计算汉字笔画编码字符串strx和stry之间的JaroDistance。
Step3.4:获取汉字笔画编码字符串strx和stry的最长公共子串strxy,并得到其长度lenxy, 根据公式(4)进一步计算汉字笔画编码字符串strx和stry之间的Jaro-WinklerDistance,该值 即为汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y)。
其中,bt为是否需要进一步计算的阈值,p为缩放因子。
Step4:设Step2、Step3步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1(X,Y)及权值α、相似度Sim2(X,Y)及权值β,由相似度融 合算法,即公式(5)计算出汉字X、Y之间的最终字形相似度Sim(X,Y)。
Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β (5)
进一步地,所述步骤Step0.1中,2×3像素小矩阵中汉字所占像素数pi,i∈[0,40]应满足 公式(6)的要求。
0≤pi≤6,i∈[0,40] (6)
进一步地,所述步骤Step3.1中汉字笔画编码字符串strx、stry的长度lenx、leny,和所述 步骤Step3.4中最长公共子串strxy的长度lenxy,应满足公式(7)的要求。
lenx,leny,lenxy∈N+ (7)
进一步地,所述步骤Step3.3中匹配字符数m的计算,若汉字笔画编码字符串strx和stry中 相同字符相差距离小于匹配窗口值MW,则视为该字符匹配。但应注意,在匹配过程中,需 排除被匹配过的字符,若找到匹配字符,则需跳出此次匹配,进行下一字符的匹配。而对于 匹配字符换位数n的计算,则需看汉字笔画编码字符串strx和stry中对于匹配字符集的顺序是 否一致,若不一致,则换位数目的一半即为匹配字符换位数n。另外,匹配字符数m和匹配 字符换位数n理应满足公式(8)的要求。
进一步地,步骤Step3.4中所述进一步计算阈值bt,通常取值为0.7,可根据实际检测结 果作小幅度调整,主要是为了提高检测准确性;所述缩放因子p,通常取值为0.1,可根据实 际检测结果做小幅度调整,主要是为了避免最终计算结果大于1的情况发生,但本方法新增 编码字符串strx和stry中最长距离的倒数改进此处的计算公式所以缩放因子p的取值对最终计算结果影响并不大。
进一步地,所述步骤Step2中得到的基于汉字特征的字形相似度Sim1(X,Y)、所述步骤 Step3中得到的基于汉字笔画的字形相似度Sim2(X,Y)、所述步骤Step4中得到的最终字形相 似度Sim(X,Y),应满足公式(9)的要求,即字形相似度Sim1(X,Y)、Sim2(X,Y)、Sim(X,Y) 以一个[0,1]之间的数值反映两个汉字之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Y),Sim2(X,Y),Sim(X,Y)≤1 (9)
本发明的有益效果是:本发明与现有技术相比,主要解决了现有技术准确性欠佳、灵活 性差等现象,致力于增加目前依靠计算机进行汉字字形相似度计算的准确性。
附图说明
图1是本发明总流程示意图;
图2是本发明建立数据库流程示意图;
图3是本发明15×16像素中文点阵示意图;
图4是本发明实施例2中汉字所对应的中文点阵图。
具体实施方式
下面结合附图和具体实施方式,对本发明作进一步说明。
实施例1:如图1所示,一种汉字字形相似度计算方法,该方法具体包括以下步骤:
Step0.1:提取汉字特征并建立汉字特征数据库。根据15×16像素中文点阵字库,将点阵 按照从上至下,从左至右的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所 占像素数为pi,i∈[0,40],观察所有pi,i∈[0,40]并生成该汉字所对应的汉字特征向量 {p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库。
Step0.2:提取汉字笔画并建立汉字笔画数据库。按照汉字五笔书写顺序规则,将横、竖、 撇、捺、折编码为数字的1、2、3、4、5,生成该汉字所对应的汉字笔画编码字符串str,且 将所有汉字及生成的汉字笔画编码字符串存入数据库,组建汉字笔画数据库。
Step1:记X、Y为两个将要计算字形相似度的汉字,从汉字特征数据库中分别获取这两 个汉字所对应的汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40},从汉字笔画数据库中分 别获取这两个汉字所对应的汉字笔画编码字符串strx和stry。
Step2:将汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40}作为输入,由余弦定理计算 公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim1(X,Y)。
Step3:将汉字笔画编码字符串strx和stry作为输入,由Jaro-Winkler Distance算法求得汉 字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y)。
Step3.2:根据公式(2)计算匹配窗口值MW。
Step3.3:由检测矩阵及匹配窗口值MW,根据相关规则,计算匹配字符数m 和匹配字符换位数n,并根据公式(3)计算汉字笔画编码字符串strx和stry之间的JaroDistance。
Step3.4:获取汉字笔画编码字符串strx和stry的最长公共子串strxy,并得到其长度lenxy, 根据公式(4)进一步计算汉字笔画编码字符串strx和stry之间的Jaro-WinklerDistance,该值 即为汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y)。
其中,bt为是否需要进一步计算的阈值,p为缩放因子。
Step4:设Step2、Step3步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1(X,Y)及权值α、相似度Sim2(X,Y)及权值β,由相似度融 合算法,即公式(5)计算出汉字X、Y之间的最终字形相似度Sim(X,Y)。
Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β (5)
进一步地,所述步骤Step1中,15×16像素中文点阵如图3所示,以虚线组成的小方格作 为像素点,共计240个像素点;以实线组成2×3像素的小矩阵,共计40个2×3像素的小矩阵。
进一步地,所述步骤Step0.1中,2×3像素小矩阵中汉字所占像素数pi,i∈[0,40]应满足 公式(6)的要求。
0≤pi≤6,i∈[0,40] (6)
进一步地,所述步骤Step3.1中汉字笔画编码字符串strx、stry的长度lenx、leny,和所述 步骤Step3.4中最长公共子串strxy的长度lenxy,应满足公式(7)的要求。
lenx,leny,lenxy∈N+ (7)
进一步地,所述步骤Step3.3中匹配字符数m的计算,若汉字笔画编码字符串strx和stry中 相同字符相差距离小于匹配窗口值MW,则视为该字符匹配。但应注意,在匹配过程中,需 排除被匹配过的字符,若找到匹配字符,则需跳出此次匹配,进行下一字符的匹配。而对于 匹配字符换位数n的计算,则需看汉字笔画编码字符串strx和stry中对于匹配字符集的顺序是 否一致,若不一致,则换位数目的一半即为匹配字符换位数n。另外,匹配字符数m和匹配 字符换位数n理应满足公式(8)的要求。
进一步地,步骤Step3.4中所述进一步计算阈值bt,通常取值为0.7,可根据实际检测结 果作小幅度调整,主要是为了提高检测准确性;所述缩放因子p,通常取值为0.1,可根据实 际检测结果做小幅度调整,主要是为了避免最终计算结果大于1的情况发生,但本方法新增 编码字符串strx和stry中最长距离的倒数改进此处的计算公式所以缩放因子p的取值对最终计算结果影响并不大。
进一步地,所述步骤Step2中得到的基于汉字特征的字形相似度Sim1(X,Y)、所述步骤 Step3中得到的基于汉字笔画的字形相似度Sim2(X,Y)、所述步骤Step4中得到的最终字形相 似度Sim(X,Y),应满足公式(9)的要求,即字形相似度Sim1(X,Y)、Sim2(X,Y)、Sim(X,Y) 以一个[0,1]之间的数值反映两个汉字之间的相似程度,且数值越大表示相似程度越高。
0≤Sim1(X,Y),Sim2(X,Y),Sim(X,Y)≤1 (9)
实施例2:Step1:记X、Y为两个将要计算字形相似度的汉字,从汉字特征数据库中分 别获取这两个汉字所对应的汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40},从汉字笔画 数据库中分别获取这两个汉字所对应的汉字笔画编码字符串strx和stry;具体的:
记汉字X为“籍”,汉字Y为“藉”,在15×16像素中文点阵中这两个汉字如图4所示,从中提取出这两个汉字所对应的汉字特征向量,即:
X:{2,3,2,4,3,2,2,2,1,1,2,4,1,4,3,2,4,0,2,2,3,4,3,3,3,1,3,2,3,3,2,3,3,3,3,0,2,2,3,3}
Y:{0,2,0,2,0,3,4,3,4,3,2,4,1,4,3,2,4,0,2,2,3,4,3,3,3,1,3,2,3,3,2,3,3,3,3,0,2,2,3,3}
另外,这两个汉字所对应的汉字笔画编码字符串strx、stry分别为“31431411123412212511”、“12211123412212511”。
Step2:将汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40}作为输入,由余弦定理计算 公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim1(X,Y)。
具体的:
Step3:将汉字笔画编码字符串strx和stry作为输入,由Jaro-Winkler Distance算法求得汉 字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y)。
Step3.1:获取汉字笔画编码字符串strx和stry的长度lenx和leny,并生成检测矩阵 具体的:
Step3.2:根据公式(2)计算匹配窗口值MW。
具体的:
Step3.3:由检测矩阵及匹配窗口值MW,根据相关规则,计算匹配字符数m 和匹配字符换位数n,并根据公式(3)计算汉字笔画编码字符串strx和stry之间的JaroDistance。
具体的:
Disj=0.7886
Step3.4:获取汉字笔画编码字符串strx和stry的最长公共子串strxy,并得到其长度lenxy, 根据公式(4)进一步计算汉字笔画编码字符串strx和stry之间的Jaro-WinklerDistance,该值 即为汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y)。
其中,bt为是否需要进一步计算的阈值,p为缩放因子;具体的:
取bt=0.7,p=0.1,则最长公共子串lenxy为“11123412212511”,其长度lenxy=14。
Sim2(X,Y)=Disjw=0.9366
Step4:设Step2、Step3步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1(X,Y)及权值α、相似度Sim2(X,Y)及权值β,由相似度融 合算法,即公式(5)计算出汉字X、Y之间的最终字形相似度Sim(X,Y)。
Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β (5)
具体的:
取权值α=0.5,β=0.5,经融合后最终相似度为:
Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β
=0.9284×0.5+0.9366×0.5
=0.9325
由以上结果可以表明,汉字“籍”和“藉”的最终计算所得字形相似度为0.9325,相对 于单独使用点阵特征得到的相似度(0.9284),既不显得粗糙,又较为合理。
若取汉字“未”和“末”,则最终计算所得字形相似度为0.9938,相对于单独使用笔画顺 序编码得到的相似度(1),既不显得不那么浮夸,又较符合基于人体视觉判定的效果。
另外,关于相似度Sim1(X,Y)、Sim2(X,Y)对应权值的取值α、β,应以实际情况进行多次检测、适当调整后合理取值。
以上结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方 式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出 各种变化。
Claims (5)
1.一种汉字字形相似度计算方法,其特征在于,具体包括以下步骤:
Step0.1:提取汉字特征并建立汉字特征数据库,根据15×16像素中文点阵字库,将点阵按照从上至下,从左至右的规则划分为40个2×3像素的小矩阵,记2×3像素小矩阵中汉字所占像素数为pi,i∈[0,40],观察所有pi,i∈[0,40]并生成该汉字所对应的汉字特征向量{p1,p2,…,p40},且将所有汉字及生成的汉字特征向量存入数据库,组建汉字特征数据库;
Step0.2:提取汉字笔画并建立汉字笔画数据库,按照汉字五笔书写顺序规则,将横、竖、撇、捺、折编码为数字的1、2、3、4、5,生成该汉字所对应的汉字笔画编码字符串str,且将所有汉字及生成的汉字笔画编码字符串存入数据库,组建汉字笔画数据库;
Step1:记X、Y为两个将要计算字形相似度的汉字,从汉字特征数据库中分别获取这两个汉字所对应的汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40},从汉字笔画数据库中分别获取这两个汉字所对应的汉字笔画编码字符串strx和stry;
Step2:将汉字特征向量X:{x1,x2,…,x40}和Y:{y1,y2,…,y40}作为输入,由余弦定理计算公式(1)求得汉字X、Y之间基于汉字特征的字形相似度Sim1(X,Y);
Step3:将汉字笔画编码字符串strx和stry作为输入,由Jaro-Winkler Distance算法求得汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y);
Step3.1:获取汉字笔画编码字符串strx和stry的长度lenx和leny,并生成检测矩阵
Step3.2:根据公式(2)计算匹配窗口值MW;
Step3.3:由检测矩阵及匹配窗口值MW,根据相关规则,计算匹配字符数m和匹配字符换位数n,并根据公式(3)计算汉字笔画编码字符串strx和stry之间的JaroDistance;
Step3.4:获取汉字笔画编码字符串strx和stry的最长公共子串strxy,并得到其长度lenxy,根据公式(4)进一步计算汉字笔画编码字符串strx和stry之间的Jaro-WinklerDistance,该值即为汉字X、Y之间基于汉字笔画的字形相似度Sim2(X,Y);
其中,bt为是否需要进一步计算的阈值,p为缩放因子;
Step4:设Step2、Step3步骤所计算出的相似度对应权值分别为α、β,权值α、β满足α+β=1的要求,由相似度Sim1(X,Y)及权值α、相似度Sim2(X,Y)及权值β,由相似度融合算法,即公式(5)计算出汉字X、Y之间的最终字形相似度Sim(X,Y);
Sim(X,Y)=Sim1(X,Y)·α+Sim2(X,Y)·β (5)。
2.根据权利要求1所述的汉字字形相似度计算方法,其特征在于:所述步骤Step0.1中,2×3像素小矩阵中汉字所占像素数pi,i∈[0,40]应满足0≤pi≤6,i∈[0,40]的要求。
3.根据权利要求1所述的汉字字形相似度计算方法,其特征在于:所述步骤Step3.1中汉字笔画编码字符串strx、stry的长度lenx、leny,和所述步骤Step3.4中最长公共子串strxy的长度lenxy,应满足lenx,leny,lenxy∈N+的要求。
4.根据权利要求1所述的汉字字形相似度计算方法,其特征在于:所述步骤Step3.3中匹配字符数m的计算,若汉字笔画编码字符串strx和stry中相同字符相差距离小于匹配窗口值MW,则视为该字符匹配;在匹配过程中,需排除被匹配过的字符,若找到匹配字符,则需跳出此次匹配,进行下一字符的匹配,而对于匹配字符换位数n的计算,则需看汉字笔画编码字符串strx和stry中对于匹配字符集的顺序是否一致,若不一致,则换位数目的一半即为匹配字符换位数n,匹配字符数m和匹配字符换位数n理应满足公式(8)的要求;
5.根据权利要求1所述的汉字字形相似度计算方法,其特征在于:述步骤Step2中得到的基于汉字特征的字形相似度Sim1(X,Y)、所述步骤Step3中得到的基于汉字笔画的字形相似度Sim2(X,Y)、所述步骤Step4中得到的最终字形相似度Sim(X,Y),应满足0≤Sim1(X,Y),Sim2(X,Y),Sim(X,Y)≤1的要求,即字形相似度Sim1(X,Y)、Sim2(X,Y)、Sim(X,Y)以一个[0,1]之间的数值反映两个汉字之间的相似程度,且数值越大表示相似程度越高。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711257233.XA CN108154167B (zh) | 2017-12-04 | 2017-12-04 | 一种汉字字形相似度计算方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711257233.XA CN108154167B (zh) | 2017-12-04 | 2017-12-04 | 一种汉字字形相似度计算方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108154167A true CN108154167A (zh) | 2018-06-12 |
CN108154167B CN108154167B (zh) | 2021-08-20 |
Family
ID=62466549
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711257233.XA Active CN108154167B (zh) | 2017-12-04 | 2017-12-04 | 一种汉字字形相似度计算方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108154167B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190615A (zh) * | 2018-07-26 | 2019-01-11 | 徐庆 | 形近字识别判定方法、装置、计算机设备和存储介质 |
CN109255040A (zh) * | 2018-07-27 | 2019-01-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109271610A (zh) * | 2018-07-27 | 2019-01-25 | 昆明理工大学 | 一种汉字的向量表达方法 |
CN109299726A (zh) * | 2018-08-01 | 2019-02-01 | 昆明理工大学 | 一种基于特征向量和笔顺编码的汉字字形相似算法 |
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
CN110097002A (zh) * | 2019-04-30 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 形近字确定方法、装置、计算机设备和存储介质 |
CN110147549A (zh) * | 2019-04-19 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 用于执行文本纠错的方法和系统 |
CN111126160A (zh) * | 2019-11-28 | 2020-05-08 | 天津瑟威兰斯科技有限公司 | 基于五笔输入法构建的智能汉字结构评价方法及系统 |
CN111695333A (zh) * | 2020-06-24 | 2020-09-22 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN113627176A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用主元分析计算汉语词向量的方法 |
CN113626554A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
US11422542B2 (en) | 2018-09-13 | 2022-08-23 | Siemens Aktiengesellschaft | Workpiece surface quality issues detection |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5345541A (en) * | 1991-12-20 | 1994-09-06 | Apple Computer, Inc. | Method and apparatus for approximating a value between two endpoint values in a three-dimensional image rendering device |
CN106375288A (zh) * | 2016-08-29 | 2017-02-01 | 中国科学院信息工程研究所 | 一种中文域名相似度计算方法及仿冒域名检测方法 |
CN106503706A (zh) * | 2016-09-23 | 2017-03-15 | 北京大学 | 汉字字形切割结果正确性的判别方法 |
CN106815197A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 文本相似度的确定方法和装置 |
CN107273355A (zh) * | 2017-06-12 | 2017-10-20 | 大连理工大学 | 一种基于字词联合训练的中文词向量生成方法 |
CN107273926A (zh) * | 2017-06-12 | 2017-10-20 | 大连海事大学 | 一种基于余弦相似度加权的线性判别分析降维方法 |
-
2017
- 2017-12-04 CN CN201711257233.XA patent/CN108154167B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5345541A (en) * | 1991-12-20 | 1994-09-06 | Apple Computer, Inc. | Method and apparatus for approximating a value between two endpoint values in a three-dimensional image rendering device |
CN106815197A (zh) * | 2015-11-27 | 2017-06-09 | 北京国双科技有限公司 | 文本相似度的确定方法和装置 |
CN106375288A (zh) * | 2016-08-29 | 2017-02-01 | 中国科学院信息工程研究所 | 一种中文域名相似度计算方法及仿冒域名检测方法 |
CN106503706A (zh) * | 2016-09-23 | 2017-03-15 | 北京大学 | 汉字字形切割结果正确性的判别方法 |
CN107273355A (zh) * | 2017-06-12 | 2017-10-20 | 大连理工大学 | 一种基于字词联合训练的中文词向量生成方法 |
CN107273926A (zh) * | 2017-06-12 | 2017-10-20 | 大连海事大学 | 一种基于余弦相似度加权的线性判别分析降维方法 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109190615A (zh) * | 2018-07-26 | 2019-01-11 | 徐庆 | 形近字识别判定方法、装置、计算机设备和存储介质 |
CN109190615B (zh) * | 2018-07-26 | 2021-12-03 | 徐庆 | 形近字识别判定方法、装置、计算机设备和存储介质 |
CN109255040B (zh) * | 2018-07-27 | 2021-10-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109255040A (zh) * | 2018-07-27 | 2019-01-22 | 昆明理工大学 | 一种基于矩阵运算的相似汉字提取方法 |
CN109271610A (zh) * | 2018-07-27 | 2019-01-25 | 昆明理工大学 | 一种汉字的向量表达方法 |
CN109299726A (zh) * | 2018-08-01 | 2019-02-01 | 昆明理工大学 | 一种基于特征向量和笔顺编码的汉字字形相似算法 |
CN109344834A (zh) * | 2018-09-06 | 2019-02-15 | 昆明理工大学 | 一种基于图像处理的残缺汉字识别方法 |
US11422542B2 (en) | 2018-09-13 | 2022-08-23 | Siemens Aktiengesellschaft | Workpiece surface quality issues detection |
CN110147549A (zh) * | 2019-04-19 | 2019-08-20 | 阿里巴巴集团控股有限公司 | 用于执行文本纠错的方法和系统 |
CN110097002A (zh) * | 2019-04-30 | 2019-08-06 | 北京达佳互联信息技术有限公司 | 形近字确定方法、装置、计算机设备和存储介质 |
CN110097002B (zh) * | 2019-04-30 | 2020-12-11 | 北京达佳互联信息技术有限公司 | 形近字确定方法、装置、计算机设备和存储介质 |
CN111126160A (zh) * | 2019-11-28 | 2020-05-08 | 天津瑟威兰斯科技有限公司 | 基于五笔输入法构建的智能汉字结构评价方法及系统 |
CN111126160B (zh) * | 2019-11-28 | 2023-04-07 | 天津瑟威兰斯科技有限公司 | 基于五笔输入法构建的智能汉字结构评价方法及系统 |
CN111695333A (zh) * | 2020-06-24 | 2020-09-22 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN111695333B (zh) * | 2020-06-24 | 2022-09-13 | 华侨大学 | 一种商标字形相似度检测方法、装置及设备 |
CN112507866A (zh) * | 2020-12-03 | 2021-03-16 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN112507866B (zh) * | 2020-12-03 | 2021-07-13 | 润联软件系统(深圳)有限公司 | 一种汉字字向量生成方法、装置、计算机设备及存储介质 |
CN113627176A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种利用主元分析计算汉语词向量的方法 |
CN113626554A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
CN113626554B (zh) * | 2021-08-17 | 2023-08-25 | 北京计算机技术及应用研究所 | 一种计算汉语文档哈希值的方法 |
CN113627176B (zh) * | 2021-08-17 | 2024-04-19 | 北京计算机技术及应用研究所 | 一种利用主元分析计算汉语词向量的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN108154167B (zh) | 2021-08-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108154167A (zh) | 一种汉字字形相似度计算方法 | |
Ingle et al. | A scalable handwritten text recognition system | |
Jiang et al. | Scfont: Structure-guided chinese font generation via deep stacked networks | |
Wick et al. | Fully convolutional neural networks for page segmentation of historical document images | |
CN110796031B (zh) | 基于人工智能的表格识别方法、装置及电子设备 | |
US20190180154A1 (en) | Text recognition using artificial intelligence | |
CN110114776B (zh) | 使用全卷积神经网络的字符识别的系统和方法 | |
CN111160343A (zh) | 一种基于Self-Attention的离线数学公式符号识别方法 | |
Jiang et al. | A deep evaluator for image retargeting quality by geometrical and contextual interaction | |
JPH08305803A (ja) | 文字テンプレートセット学習マシン動作方法 | |
CN111563563B (zh) | 一种手写体识别的联合数据的增强方法 | |
CN111488732B (zh) | 一种变形关键词检测方法、系统及相关设备 | |
RU2765884C2 (ru) | Идентификация блоков связанных слов в документах сложной структуры | |
Huang et al. | Agtgan: Unpaired image translation for photographic ancient character generation | |
CN110348025A (zh) | 一种基于字形的翻译方法、装置、存储介质及电子设备 | |
Reddy et al. | Face recognition based on cross diagonal complete motif matrix | |
CN109299726A (zh) | 一种基于特征向量和笔顺编码的汉字字形相似算法 | |
Sanjrani et al. | Handwritten optical character recognition system for Sindhi numerals | |
Liu et al. | FontTransformer: Few-shot high-resolution Chinese glyph image synthesis via stacked transformers | |
Yang et al. | Scene sketch semantic segmentation with hierarchical Transformer | |
CN113408418A (zh) | 一种书法字体与文字内容同步识别方法及系统 | |
Kaddoura | A Primer on Generative Adversarial Networks | |
Li et al. | Efficient image analysis with triple attention vision transformer | |
WO2023284670A1 (zh) | 图形码提取模型构建方法、识别方法、装置、设备和介质 | |
Jiang et al. | Robust 3d face alignment with efficient fully convolutional neural networks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |