CN106598920A - 一种笔画编码结合汉字点阵的形近字分类方法 - Google Patents

一种笔画编码结合汉字点阵的形近字分类方法 Download PDF

Info

Publication number
CN106598920A
CN106598920A CN201611065190.0A CN201611065190A CN106598920A CN 106598920 A CN106598920 A CN 106598920A CN 201611065190 A CN201611065190 A CN 201611065190A CN 106598920 A CN106598920 A CN 106598920A
Authority
CN
China
Prior art keywords
chinese character
stroke
chinese
character
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201611065190.0A
Other languages
English (en)
Other versions
CN106598920B (zh
Inventor
邵玉斌
王逍翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kunming University of Science and Technology
Original Assignee
Kunming University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kunming University of Science and Technology filed Critical Kunming University of Science and Technology
Priority to CN201611065190.0A priority Critical patent/CN106598920B/zh
Publication of CN106598920A publication Critical patent/CN106598920A/zh
Application granted granted Critical
Publication of CN106598920B publication Critical patent/CN106598920B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供了一种笔画编码结合汉字点阵的形近字分类方法,通过对汉字对应的笔画编码进行统计,以笔画结构出现频率将汉字进行分类生成数据表,每种笔画成分对应包含此成分的汉字集合;然后对集合进行筛选,滤除笔画成分较短和较长的集合,将后者添加到形近字数据库中;对过滤后的汉字集合采用汉字点阵比较的方法进行进一步处理,通过比较同一汉字集合内的汉字的点阵,将相似率较低的汉字滤除,将处理后的汉字集合添加到形近字数据库中;通过以上步骤,就得到了包含大部分汉字的形近字数据库,查询一个汉字的形近字只需要查询其所在的表就可得到它的形近字。本发明提高了形近字分类效率,节约了分类所消耗的时间,获得了较为准确的形近字数据。

Description

一种笔画编码结合汉字点阵的形近字分类方法
技术领域
本发明属于语言处理领域,特别涉及一种汉字形近字分类方法。
背景技术
汉字由简单的几种笔画组成,但由于它们在二维空间排列组合,便形成了种类繁多、结构复杂的汉字。构成汉字字形的各种特定的点和线,也是汉字的最小结构单位。根据楷书书写要求,从落笔到抬笔即为一笔,又叫一画,合称笔画,笔画的具体形状叫笔形。由此产生的各种字根形成了众多形态结构相似的汉字,被称为形近字。
形近字的识别涉及字形识别。字形识别服务于生活的方方面面,如手写输入,从图像中获取汉字信息,纸质文本转录等,并且这项技术在生活中已经得到了广泛的应用。汉字的字形识别对于如今的技术而言已经不存在问题,对印刷体来说识别精度更高。获取汉字点阵是字形识别的第一步。在汉字的点阵字库中,每个字节的每个位都代表一个汉字的一个点,每个汉字都是由一个矩形的点阵组成,0代表没有,1代表有点,将0和1分别用不同颜色画出,就形成了一个汉字,譬如“我”字如图2所示。通过点阵的比较就可以发现字形结构之间的相关性。
笔顺编码是为了记录汉字笔画的书写顺序而设定的具体的笔画的编号。其中,1代表横,2代表竖,3代表撇,4代表捺,5代表折,另外,提为横,点为捺,竖勾为竖,横折为折,竖提为竖,这样所有字就可用1、2、3、4、5这5个符号表示,如图2所示,“李”字的笔画编码是横、竖、撇、捺、折、竖、横,转换成编号是:1234521。笔顺编码包含了汉字的笔画顺序和结构信息,对汉字结构的对比识别有一定作用,但由于编码并未精确表示汉字的基础部件,所以编码所包含的汉字信息并不完整。
识别形近字的意义在于,不仅可以帮助使用字形编码输入方式时,如五笔、郑码、手写等输入法,帮助用户提供易错参考,校验文本正确性,还可以应用于儿童识字教学作为参考实例,同时,对系统性的研究汉字结构特点有一定帮助。目前,形近字的识别多为人工收集方式,工作量大,费时费力。
发明内容
为了解决上述问题,本发明提供了一种用于汉字形近字分类的方法,该方法实现了机器对形近字自动的分类,为人节约了大量时间和精力。
本发明解决其技术问题采用的技术方案是:提供一种用于汉字形近字分类的语言处理方式,包括如下步骤:
步骤一、统计笔画编码表中所有笔画结构出现的频度,将出现次数低于10次的笔画结构滤除并排序,将包含相应笔画结构的汉字组成一个集合对应于此笔画结构,由此得到若干个汉字集合;
步骤二、对步骤一得到的汉字集合进行筛选,滤除编码长度小于4的笔画结构对应的汉字集合,将剩余的汉字集合添加到形近字数据库中,每个集合生成一张形近字表;
步骤三、对步骤二得到的汉字集合中的汉字进行点阵比较并计算平均相似度,把平均相似度较低的汉字滤除,得到处理后的汉字集合,将其以步骤二中相同的方法保存到形近字数据库中。
优选的,所述步骤三种汉字点阵比较采用对位比较的方法,计算得到两个汉字的相似度,将点阵表示为由0,1表示的16×16矩阵,有汉字笔画的位置为1,反之为0,相似度计算公式如下:
其中,i,j为一个汉字集合中两个汉字的标号,Xij表示两个汉字的相似度,m代表矩阵的行,n代表矩阵的列,Wimn代表汉字i的m行n列的值,Wjmn代表汉字j的m行n列的值。
优选的,所述步骤三中汉字集合中每个汉字的平均相似度计算如下:
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的笔画编码长度,Ln代表字n的笔画编码长度,Xin代表两个字的相似度,N代表集合中除去字n的字的总数。
本发明的有益效果在于:先对汉字通过分析其笔画编码的特征进行较粗略的形近字分类,节约了要对所有字进行分类所需大量的时间精力,效率大大提高;但由于笔画编码和笔画之间并不是一一对应,这样的分类还需要进一步优化,汉字点阵的比较的作用就在于此,它的使用可以滤除分类中不正确的成分,提高了结果的精确度;两种方法的结合,实现了由多到少,由粗到精的处理的过程,既保证了方法的效率,又达到所需的正确率。
附图说明
图1是本发明的流程图;
图2是笔画编码实例图;
图3是包含相同笔画成分但字形不相似汉字实例图;
图4是相似汉字点阵对比图。
具体实施方式
下面结合附图和具体实施例对本发明的技术方案做具体阐述。
如图1所示,本发明提供了一种用于形近字分类的语言处理方法分为以下三个步骤:
一、从网上下载UNICODE汉字笔画编码表,是一个所有20902个汉字(U+4E00~U+9FA5)的笔画顺序表,部分如表1所示。
表1部分UNICODE汉字笔画编码表
……
汉字 序值 Unicode编码 笔顺
01499 6C42 1241344
01500 5FD1 1244544
01501 5B5B 1245521
01502 8ECA 1251112
01503 752B 1251124
01504 5323 1251125
01505 66F4 1251134
01506 4E9C 1251221
01507 675F 1251234
01508 543E 1251251
01509 53D3 1251254
01510 8C46 1251431
01511 6213 1251534
01512 8FCA 1252454
01513 4E24 1253434
……
其中1表示“横”;2表示“竖”;3表示“撇”;4表示“捺”;5表示“折”统计所有笔画结构出现的频度。笔画编码表汉字排列顺序由其笔画长度由短到长依次排列,每个汉字对应一个笔画编码,对其的分析过程为:由上到下依次分析每个字所包含的笔画成分,如果笔画成分之前未出现过,则将其保存为一类,其出现次数记为1,如果遇到出现过的笔画成分,则将其出现次数加一;将此表遍历后,就得到了所有笔画结构的出现次数,将出现次数低于10次的特例滤除并依次排序,就完成了笔画结构的统计。在两万个汉字中统计得到笔画和对应集合包含汉字数表,部分如下表2所示。然后,将以上步骤筛选得到的笔画结构即高频度笔画结构作为标志,如“511”(折横横)、“112”(横横竖)等,将包含相应笔画结构的汉字组成一个集合对应于此笔画结构,由此得到大量有交集的汉字集合,并保存到数据库中,生成待处理的数据表,部分如表2所示。
表2笔画成分及对应的汉字数量分类表
包含笔画成分 汉字数
1 20219
5 19309
2 19301
3 18297
4 17754
12 15343
25 13380
51 13364
11 13029
34 11191
251 10994
21 10065
13 9810
……
5411234 24
541254 24
541435 24
54444354 24
5444454 24
545231 24
5452312 24
……
二、对于已有的汉字集合表,显然笔画成分1、2、3、4、5出现会最多,它 们对应的表中汉字数也最多,但由于标志笔画成分太短,包含的形态信息有限,其集合中的汉字没有任何突出的共同特点,所以需要滤除较短笔画结构即编码长度小于4的笔画结构对应的汉字集合,其中也包含12(横竖)、25(竖折)等常见笔画成分,并结合其出现次数判断其是否具有特征,包含汉字数过多的笔画成分则不具有特征;但就较长笔画结构,编码长度大于9的笔画结构来说,如3412515415,包含此结构的字有翕、翖、噏、嶖等,它们已经具有较强的相似相似性,集合中也几乎不会含有不相似的成分,如表3所示,较长笔画结构对应的汉字数据表可直接复制添加到形近字数据库中,就可生成一张形近字表。形近字表添加完成后,为了后续处理需要将较长笔画结构对应的汉字集合也同样滤除。
表3形近字表
序号 汉字 Unicode编码 笔顺编码
09871 7FD5 341251541541
09872 7FD6 341251541541
14580 564F 251341251541541
14630 5D96 252341251541541
15207 6F5D 441341251541541
15347 5B06 531341251541541
16224 6B59 3412515415413534
16492 71BB 4334341251541541
18765 8E79 2512121341251541541
19361 95DF 25112511341251541541
三、通过以上步骤后,对于剩下汉字集合,可能会出现这样的情况,如图3所示,113533所代表的汉字集合中,会有“埸”、“啄”两个字,虽然都包含113533成分,但却不相似,这由于笔画编码的不精确引起的,笔画编码存在把横、横折钩、提表示为1的简化情况。所以需要把汉字集合中的汉字进行点阵比较,把那些特例,即平均相似度较低的汉字滤除,得到处理后的新的汉字表,将其以同步骤二中相同的方法保存到形近字数据库中,才能完成形近字的统计分类工作。
对于同一集合内的汉字的点阵比较,其基本方法是将两个汉字的点阵对位相乘,如果有重叠部分则结果为1,反之为0,重叠越多其相似度越高,譬如,如图4所示,说和悦字,共有38个点重合,而“说”字一共63个点,重合点占了60%。形态上相似的字会有更多的重叠,其相似度也相应的高于不相似的组合。本发明采用汉字的16*16点阵,将两个汉字的相似度具体定义如下:
其中,i,j为两个汉字的标号,Xij表示两个汉字的相似度,m代表矩阵的行,n代表矩阵的列,Wimn代表汉字i的m行n列的值,Wjmn代表汉字j的m行n列的值。
要在集合中滤除不具有集合内大多数汉字所具有特征的特例,就需要汉字在集合内平均相似度的计算,以此来滤除平均相似度低的汉字。因为笔画编码长度,即汉字总的笔画数的不同,汉字的结构就可能不同,如寸和付字,一个为独体结构,一个为左右结构,点阵的对比会出现误差,所以平均相似度的计算以加权方式进行,以减小这种情况的误差的影响,具体算法如下:
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的笔画编码长度,Ln代表字n的笔画编码长度,Xin代表两个字的相似度,N代表集合中除去字n的字的总数。笔画编码长度相差越大的汉字,计算此平均相似度中就会有更高的权值,以此减小误差。然后计算所有汉字集合中汉字的平均相似度的平均值,将低于平均水平一定百分比的汉字排除,根据实际需要可以设置70%、80%等不同的数值。
以1.泮(44143112)、2.胖(351143112)、3.拌(12143112)、4.绊(55143112)、5.班(1121431121)五个字为例子说明:
计算汉字两两的相似度,也就是代表两汉字点阵重叠的点数,计算得到以下相似度:
X12=24 X13=43 X14=14 X15=23
X23=25 X24=34 X25=23
X34=18 X35=14
X45=21
其中,X12显然等于X21,所以没有列出后者,然后再利用前述平均相似度计算每个字在当前表中的平均相似度,五个字的笔画编码长度分别为L1=8、L2=9、L3=8、L4=8、L5=10。
S1=24.18
同理,算出S2=23.62、S3=23.60、S4=19.75、S5=16.78,汉字集合中所有汉字平均相似度的平均值为21.586,80%*21.586=17.2688,5.班(1121431121)字低于这个值,所以滤除;至于从一组数据中筛选滤出低于平均水平的数据的方法有很多,在此不再赘述。
由于一个汉字包含不止一种特征信息,所以根据不同的特征信息可能同时包含在多个形近字表中,例如,“斩”字和“折”、“近”等字会归为一类,也会和“轨”、“转”等字分为一类。在查询形近字的时候就需要查出所有包含此字的形近字表,将多张表中的重复结果滤除再合并,就可得到某个字完整的形近字表。
通过以上实施方式,很好地实现了本发明的目的,本发明通过利用汉字笔顺编码所提供的特征信息对汉字形近字进行筛选,进一步通过汉字点阵比较提高了系统精度,很好的协调了效率和准确度,使人从繁重的手工统计中解放出来,使形近字的获取更加快捷方便。
尽管本发明的实施方案已公开如上,但其并不仅仅限于说明书和实施方案中所列运用,它完全可以被适用于各种适合本发明的领域,对于熟悉本领域的人员而言,可容易地实现另外的修改,因此在不背离权利要求及等同范围所限定的一般概念下,本发明并不限于特定的细节和这里示出与描述的图例。

Claims (3)

1.一种笔画编码结合汉字点阵的形近字分类方法,其特征在于,包括以下步骤:
步骤一、统计笔画编码表中所有笔画结构出现的频度,将出现次数低于10次的笔画结构滤除并排序,将包含相应笔画结构的汉字组成一个集合对应于此笔画结构,由此得到若干个汉字集合;
步骤二、对步骤一得到的汉字集合进行筛选,滤除编码长度小于4的笔画结构对应的汉字集合,将剩余的汉字集合添加到形近字数据库中,每个集合生成一张形近字表;
步骤三、对步骤二得到的汉字集合中的汉字进行点阵比较并计算平均相似度,求所有汉字的相似平均度的平均值,将低于平均值一定比例对应的汉字滤出,得到处理后的汉字集合,将其以步骤二中相同的方法保存到形近字数据库中。
2.根据权利要求1所述的笔画编码结合汉字点阵的形近字分类方法,其特征在于:所述步骤三种汉字点阵比较采用对位比较的方法,计算得到两个汉字的相似度,将点阵表示为由0,1表示的16×16矩阵,有汉字笔画的位置为1,反之为0,相似度计算公式如下:
X i j = Σ m = 0 16 Σ n = 0 16 W i m n W j m n ( W i m n , W j m n ∈ { 0 , 1 } )
其中,i,j为一个汉字集合中两个汉字的标号,Xij表示两个汉字的相似度,m代表矩阵的行,n代表矩阵的列,Wimn代表汉字i的m行n列的值,Wjmn代表汉字j的m行n列的值。
3.根据权利要求1或2所述的笔画编码结合汉字点阵的形近字分类方法,其特征在于:所述步骤三中汉字集合中每个汉字的平均相似度计算如下:
S n = Σ i = 1 N m i n ( L i , L n ) m a x ( L i , L n ) X i n N
其中,Sn代表字n的平均相似度,i代表字i,n代表字n,Li代表字i的笔画编码长度,Ln代表字n的笔画编码长度,Xin代表两个字的相似度,N代表集合中除去字n的字的总数。
CN201611065190.0A 2016-11-28 2016-11-28 一种笔画编码结合汉字点阵的形近字分类方法 Active CN106598920B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201611065190.0A CN106598920B (zh) 2016-11-28 2016-11-28 一种笔画编码结合汉字点阵的形近字分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201611065190.0A CN106598920B (zh) 2016-11-28 2016-11-28 一种笔画编码结合汉字点阵的形近字分类方法

Publications (2)

Publication Number Publication Date
CN106598920A true CN106598920A (zh) 2017-04-26
CN106598920B CN106598920B (zh) 2019-09-27

Family

ID=58595365

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201611065190.0A Active CN106598920B (zh) 2016-11-28 2016-11-28 一种笔画编码结合汉字点阵的形近字分类方法

Country Status (1)

Country Link
CN (1) CN106598920B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109285394A (zh) * 2018-12-04 2019-01-29 王洪涛 一种基于脑科学研究的汉字启蒙教育系统及方法
CN109344387A (zh) * 2018-08-01 2019-02-15 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109597971A (zh) * 2018-12-03 2019-04-09 上海理工大学 生成盲文字和盲文字库的方法及该盲文字库的使用方法
CN110097002A (zh) * 2019-04-30 2019-08-06 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN111222590A (zh) * 2019-12-31 2020-06-02 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111695333A (zh) * 2020-06-24 2020-09-22 华侨大学 一种商标字形相似度检测方法、装置及设备
CN112990176A (zh) * 2021-04-09 2021-06-18 北京有竹居网络技术有限公司 书写质量评价方法、装置和电子设备
CN113626554A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种计算汉语文档哈希值的方法
CN116597453A (zh) * 2023-05-16 2023-08-15 暗物智能科技(广州)有限公司 一种形近字单字识别方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144357A (zh) * 1996-05-07 1997-03-05 胡正云 汉字数码编排方法
CN1153943A (zh) * 1996-05-15 1997-07-09 田维和 九九分级制编码法(包括形序分级编码法与音序分级编码法)及10×10键盘创制方案
CN101984436A (zh) * 2010-11-19 2011-03-09 无敌科技(西安)有限公司 一种汉字形近字的查询装置及方法
CN102981767A (zh) * 2012-11-28 2013-03-20 中国地质大学(武汉) 一种单个汉字手写识别方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1144357A (zh) * 1996-05-07 1997-03-05 胡正云 汉字数码编排方法
CN1153943A (zh) * 1996-05-15 1997-07-09 田维和 九九分级制编码法(包括形序分级编码法与音序分级编码法)及10×10键盘创制方案
CN101984436A (zh) * 2010-11-19 2011-03-09 无敌科技(西安)有限公司 一种汉字形近字的查询装置及方法
CN102981767A (zh) * 2012-11-28 2013-03-20 中国地质大学(武汉) 一种单个汉字手写识别方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109344387B (zh) * 2018-08-01 2023-12-19 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109344387A (zh) * 2018-08-01 2019-02-15 北京奇艺世纪科技有限公司 形近字字典的生成方法、装置和形近字纠错方法、装置
CN109597971A (zh) * 2018-12-03 2019-04-09 上海理工大学 生成盲文字和盲文字库的方法及该盲文字库的使用方法
CN109597971B (zh) * 2018-12-03 2022-12-20 上海理工大学 生成盲文字和盲文字库的方法及该盲文字库的使用方法
CN109285394A (zh) * 2018-12-04 2019-01-29 王洪涛 一种基于脑科学研究的汉字启蒙教育系统及方法
CN110097002B (zh) * 2019-04-30 2020-12-11 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN110097002A (zh) * 2019-04-30 2019-08-06 北京达佳互联信息技术有限公司 形近字确定方法、装置、计算机设备和存储介质
CN111222590A (zh) * 2019-12-31 2020-06-02 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111222590B (zh) * 2019-12-31 2024-04-12 咪咕文化科技有限公司 形近字确定方法、电子设备和计算机可读存储介质
CN111695333A (zh) * 2020-06-24 2020-09-22 华侨大学 一种商标字形相似度检测方法、装置及设备
CN111695333B (zh) * 2020-06-24 2022-09-13 华侨大学 一种商标字形相似度检测方法、装置及设备
CN112990176A (zh) * 2021-04-09 2021-06-18 北京有竹居网络技术有限公司 书写质量评价方法、装置和电子设备
CN112990176B (zh) * 2021-04-09 2023-07-18 北京有竹居网络技术有限公司 书写质量评价方法、装置和电子设备
CN113626554A (zh) * 2021-08-17 2021-11-09 北京计算机技术及应用研究所 一种计算汉语文档哈希值的方法
CN113626554B (zh) * 2021-08-17 2023-08-25 北京计算机技术及应用研究所 一种计算汉语文档哈希值的方法
CN116597453A (zh) * 2023-05-16 2023-08-15 暗物智能科技(广州)有限公司 一种形近字单字识别方法

Also Published As

Publication number Publication date
CN106598920B (zh) 2019-09-27

Similar Documents

Publication Publication Date Title
CN106598920A (zh) 一种笔画编码结合汉字点阵的形近字分类方法
Gao et al. ICDAR 2019 competition on table detection and recognition (cTDaR)
CN107633250B (zh) 一种文字识别纠错方法、纠错系统及计算机装置
US8244046B2 (en) Character string updated degree evaluation program
CN106384094A (zh) 一种基于书写风格建模的中文字库自动生成方法
CN105139041A (zh) 基于图像的语种识别方法及装置
CN103186511A (zh) 汉字造字方法和设备、构造字体库的方法
CN104123550A (zh) 基于云计算的文本扫描识别方法
CN112784531B (zh) 一种基于深度学习和部件拼接的中文字形及字库生成方法
Boubaker et al. Online Arabic databases and applications
CN104182766A (zh) 基于模板匹配的手写汉字笔画位置关系正确性判断方法
CN105117741A (zh) 一种书法字风格的识别方法
CN105117740A (zh) 字体识别方法及装置
CN108734159A (zh) 一种图像中敏感信息的检测方法及系统
Khuong et al. Generating synthetic handwritten mathematical expressions from a LaTeX sequence or a MathML script
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
CN106650696A (zh) 一种基于奇异值分解的手写电气元件符号识别方法
CN102360436A (zh) 一种基于部件的联机手写藏文字符的识别方法
CN106503706B (zh) 汉字字形切割结果正确性的判别方法
CN103324942B (zh) 一种图像分类方法、装置及系统
Halder et al. Individuality of isolated Bangla characters
Ferri et al. Point selection: A new comparison scheme for size functions (with an application to monogram recognition)
Azmi et al. Digital paleography: Using the digital representation of Jawi manuscripts to support paleographic analysis
KR100572660B1 (ko) 프로그램 소스의 표절 탐색 방법 및 이를 이용한프로그래밍 과제의 채점 시스템
KR20230029206A (ko) 인공지능 문자인식을 위한 학습 데이터 구축 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant