CN111126160A - 基于五笔输入法构建的智能汉字结构评价方法及系统 - Google Patents

基于五笔输入法构建的智能汉字结构评价方法及系统 Download PDF

Info

Publication number
CN111126160A
CN111126160A CN201911190076.4A CN201911190076A CN111126160A CN 111126160 A CN111126160 A CN 111126160A CN 201911190076 A CN201911190076 A CN 201911190076A CN 111126160 A CN111126160 A CN 111126160A
Authority
CN
China
Prior art keywords
etymon
chinese character
extracting
standard printing
font
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911190076.4A
Other languages
English (en)
Other versions
CN111126160B (zh
Inventor
王光夫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tianjin Seweilansi Technology Co ltd
Original Assignee
Tianjin Seweilansi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tianjin Seweilansi Technology Co ltd filed Critical Tianjin Seweilansi Technology Co ltd
Priority to CN201911190076.4A priority Critical patent/CN111126160B/zh
Publication of CN111126160A publication Critical patent/CN111126160A/zh
Application granted granted Critical
Publication of CN111126160B publication Critical patent/CN111126160B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种基于五笔输入法构建的智能汉字结构评价方法及系统,包括如下步骤:提取标准打印字体;通过五笔字型获得标准打印字体的字根编码;通过mask‑rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域;提取标准打印字体各字根图像区域的特征信息;提取并识别手写汉字;通过五笔字型获得手写汉字的字根编码;通过mask‑rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域;提取手写汉字各字根图像区域的特征信息;根据特征信息对手写汉字结构进行评价,本发明采用五笔字型的字根表作为中间模块单元,将汉字结构有效的拆分,通过对特征信息分析对比,得到针对书写文字的客观评价结果。

Description

基于五笔输入法构建的智能汉字结构评价方法及系统
技术领域
本发明涉及智能化汉字书写评价技术领域,尤其涉及一种基于五笔输入法构建的智能汉字结构评价方法及系统。
背景技术
中国汉字的书写已成为一门艺术,文字的书写遵循一定规律的书写标准,其书写的美观和本身汉字的结构有直接关系。目前,大多以人为主观判断的方式对汉字书写质量进行评价,由于其依据主观判断进行评价,缺乏统一的标准,降低了文字评价的可靠度,无法公正、准确地评价手写汉字书写质量,因此,如何对汉字书写结构进行科学评价是目前汉字书写问题的一个痛点。综上所述,如何将这样复杂的变化通过一个通用的规则,将书写的汉字结构和例字进行有效的数字化评价,进而根据评价打分是本领域技术人员亟待解决的问题。
发明内容
本发明所要解决的技术问题是克服现有技术中存在的不足,提供一种基于五笔输入法构建的智能汉字结构评价方法及系统。
本发明是通过以下技术方案予以实现:
一种基于五笔输入法构建的智能汉字结构评价方法,其特征在于,包括如下步骤:a.提取标准打印字体;b.通过五笔字型对应编码获得所述标准打印字体对应的字根编码;c.载入所述字根编码,通过mask-rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域;d.提取标准打印字体各所述字根图像区域的特征信息;e.提取并识别手写汉字;f.通过五笔字型对应编码获得所述手写汉字对应的字根编码;g.载入所述字根编码,通过mask-rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域;h.提取手写汉字各所述字根图像区域的特征信息;i.根据所述特征信息对手写汉字结构进行评价。
根据上述技术方案,优选地,步骤a或步骤e包括:通过OCR识别获得标准打印字体的汉字。
根据上述技术方案,优选地,所述字根图像区域包括四个五笔编码区域。
根据上述技术方案,优选地,所述字根图像区域还包括一个剩余区域,重复步骤b~步骤c或步骤e~步骤g,将所述剩余区域进行二级分拆。
根据上述技术方案,优选地,步骤d或步骤h包括:提取各所述字根图像区域的重心、面积、各重心之间距离以及重心相对于原始书写框中心的角度和距离,获得特征向量。
本发明还公开了一种基于五笔输入法构建的智能汉字结构评价系统,其特征在于,包括:标准打印字体提取单元,用于提取标准打印字体,通过五笔字型对应编码获得标准打印字体对应的字根编码;标准打印字体分割单元,用于载入字根编码,通过mask-rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域,提取标准打印字体各字根图像区域的特征信息;手写汉字提取单元,用于提取并识别手写汉字,通过五笔字型对应编码获得手写汉字对应的字根编码;手写汉字分割单元,用于载入字根编码,通过mask-rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域,提取手写汉字各字根图像区域的特征信息;评价单元,用于根据特征信息对手写汉字结构进行评价。
根据上述技术方案,优选地,所述标准打印字体提取单元或手写汉字提取单元包括识别模块,所述识别模块用于通过OCR识别获得标准打印字体的汉字。
根据上述技术方案,优选地,所述标准打印字体分割单元或手写汉字分割单元包括分析模块,所述分析模块用于提取各字根图像区域的重心、面积、各重心之间距离以及重心相对于原始书写框中心的角度和距离,获得特征向量。
本发明的有益效果是:
本发明采用五笔字型的字根表作为中间模块单元,通过计算机对于不同字根的训练,完成在不同汉字上将汉字结构有效的拆分成对应的字根区域,通过对标准打印字体和手写汉字各字根区域的特征信息分析对比,得到针对书写文字的客观评价结果,解决了目前仅依据评价者主观判断的方式对汉字书写进行评价的问题,从而提高汉字评价的准确性和可靠度。
附图说明
图1是本发明的连接示意图。
具体实施方式
为了使本技术领域的技术人员更好地理解本发明的技术方案,下面结合附图和最佳实施例对本发明作进一步的详细说明。
如图所示,本发明包括如下步骤:a.提取标准打印字体;b.通过五笔字型对应编码获得所述标准打印字体对应的字根编码;c.载入所述字根编码,通过mask-rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域;d.提取标准打印字体各所述字根图像区域的特征信息;e.提取并识别手写汉字;f.通过五笔字型对应编码获得所述手写汉字对应的字根编码;g.载入所述字根编码,通过mask-rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域;h.提取手写汉字各所述字根图像区域的特征信息;i.根据所述特征信息对手写汉字结构进行评价。在实际应用过程中,本发明还可应用于对不同字体的提取字体特征,通过对字体切割出对应的字根图像区域,对各字根图像区域进行分析评价,对该字体的书写特征做规范,用于区分其他字体。本发明采用五笔字型的字根表作为中间模块单元,通过计算机对于不同字根的训练,完成在不同汉字上将汉字结构有效的拆分成对应的字根区域,通过对标准打印字体和手写汉字各字根区域的特征信息分析对比,得到针对书写文字的客观评价结果,解决了目前仅依据评价者主观判断的方式对汉字书写进行评价的问题,从而提高汉字评价的准确性和可靠度。
根据上述实施例,优选地,步骤a或步骤e包括:通过OCR识别获得标准打印字体的汉字。
根据上述实施例,优选地,所述字根图像区域包括四个五笔编码区域。例如,“副”字拆分成“一”图、”口”图、”田”图、”刂”图,即获得的字根编码为GKLJ,输入字根编码,通过预训练的字根检测模型将文字结构进行拆分。在实际应用过程中,若获得的各字根图像区域全部相同,则为独体字,此情况下可以对独体字整体进行判断后直接给出评价分数,而不需要进行对字根分割的步骤。
根据上述实施例,优选地,所述字根图像区域还包括一个剩余区域,重复步骤b~步骤c或步骤e~步骤g,将所述剩余区域进行二级分拆。针对于相对复杂的字体,会分割出剩余区域,当剩余区域不为空时,返回重复步骤b~步骤c或步骤e~步骤g,继续通过文字识别对剩余区域进行二级分拆。
根据上述实施例,优选地,步骤d或步骤h包括:提取各所述字根图像区域的重心、面积、各重心之间距离以及重心相对于原始书写框中心的角度和距离,获得特征向量。向量特征把提取的特征信息映射到一个统一的坐标系中,位置用x,y表示,斜率和方向用k=y/x表示,映射到统一坐标系中,用以确定各字根图像区域之间的位置关系,以及各特征信息对比分析,然后通过手写汉字向量特征和标准打印字体向量特征求距离(相似度),根据距离的远近(相似度)来归一化成评分标准。
本发明还公开了一种基于五笔输入法构建的智能汉字结构评价系统,其特征在于,包括:标准打印字体提取单元,用于提取标准打印字体,通过五笔字型对应编码获得标准打印字体对应的字根编码;标准打印字体分割单元,用于载入字根编码,通过mask-rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域,提取标准打印字体各字根图像区域的特征信息;手写汉字提取单元,用于提取并识别手写汉字,通过五笔字型对应编码获得手写汉字对应的字根编码;手写汉字分割单元,用于载入字根编码,通过mask-rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域,提取手写汉字各字根图像区域的特征信息;评价单元,用于根据特征信息对手写汉字结构进行评价。评价过程中设置各特征信息之间的权重关系,计算特征向量之间距离,并归一化,并根据预设的比例加权,再将加权后的值归一映射到0-100分内,得到针对书写文字的客观评价结果,整个过程减少人为的参与,形成一套切实可用的计算机对汉字结构书写规范的评价体系,提高书写质量评价的准确性。
根据上述实施例,优选地,所述标准打印字体提取单元或手写汉字提取单元包括识别模块,所述识别模块用于通过OCR识别获得标准打印字体的汉字。
根据上述实施例,优选地,所述标准打印字体分割单元或手写汉字分割单元包括分析模块,所述分析模块用于提取各字根图像区域的重心、面积、各重心之间距离以及重心相对于原始书写框中心的角度和距离,获得特征向量。
本发明采用五笔字型的字根表作为中间模块单元,通过计算机对于不同字根的训练,完成在不同汉字上将汉字结构有效的拆分成对应的字根区域,通过对标准打印字体和手写汉字各字根区域的特征信息分析对比,得到针对书写文字的客观评价结果,解决了目前仅依据评价者主观判断的方式对汉字书写进行评价的问题,从而提高汉字评价的准确性和可靠度。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (8)

1.一种基于五笔输入法构建的智能汉字结构评价方法,其特征在于,包括如下步骤:a.提取标准打印字体;b.通过五笔字型对应编码获得所述标准打印字体对应的字根编码;c.载入所述字根编码,通过mask-rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域;d.提取标准打印字体各所述字根图像区域的特征信息;e.提取并识别手写汉字;f.通过五笔字型对应编码获得所述手写汉字对应的字根编码;g.载入所述字根编码,通过mask-rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域;h.提取手写汉字各所述字根图像区域的特征信息;i.根据所述特征信息对手写汉字结构进行评价。
2.根据权利要求1所述一种基于五笔输入法构建的智能汉字结构评价方法,其特征在于,步骤a或步骤e包括:通过OCR识别获得标准打印字体的汉字。
3.根据权利要求2所述一种基于五笔输入法构建的智能汉字结构评价方法,其特征在于,所述字根图像区域包括四个五笔编码区域。
4.根据权利要求3所述一种基于五笔输入法构建的智能汉字结构评价方法,其特征在于,所述字根图像区域还包括一个剩余区域,重复步骤b~步骤c或步骤e~步骤g,将所述剩余区域进行二级分拆。
5.根据权利要求4所述一种基于五笔输入法构建的智能汉字结构评价方法,其特征在于,步骤d或步骤h包括:提取各所述字根图像区域的重心、面积、各重心之间距离以及重心相对于原始书写框中心的角度和距离,获得特征向量。
6.一种基于五笔输入法构建的智能汉字结构评价系统,其特征在于,包括:
标准打印字体提取单元,用于提取标准打印字体,通过五笔字型对应编码获得标准打印字体对应的字根编码;
标准打印字体分割单元,用于载入字根编码,通过mask-rcnn预训练的字根检测模型,将标准打印字体切割出对应的字根图像区域,提取标准打印字体各字根图像区域的特征信息;
手写汉字提取单元,用于提取并识别手写汉字,通过五笔字型对应编码获得手写汉字对应的字根编码;
手写汉字分割单元,用于载入字根编码,通过mask-rcnn预训练的字根检测模型,将手写汉字切割出对应的字根图像区域,提取手写汉字各字根图像区域的特征信息;
评价单元,用于根据特征信息对手写汉字结构进行评价。
7.根据权利要求6所述一种基于五笔输入法构建的智能汉字结构评价系统,其特征在于,所述标准打印字体提取单元或手写汉字提取单元包括识别模块,所述识别模块用于通过OCR识别获得标准打印字体的汉字。
8.根据权利要求7所述一种基于五笔输入法构建的智能汉字结构评价系统,其特征在于,所述标准打印字体分割单元或手写汉字分割单元包括分析模块,所述分析模块用于提取各字根图像区域的重心、面积、各重心之间距离以及重心相对于原始书写框中心的角度和距离,获得特征向量。
CN201911190076.4A 2019-11-28 2019-11-28 基于五笔输入法构建的智能汉字结构评价方法及系统 Active CN111126160B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911190076.4A CN111126160B (zh) 2019-11-28 2019-11-28 基于五笔输入法构建的智能汉字结构评价方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911190076.4A CN111126160B (zh) 2019-11-28 2019-11-28 基于五笔输入法构建的智能汉字结构评价方法及系统

Publications (2)

Publication Number Publication Date
CN111126160A true CN111126160A (zh) 2020-05-08
CN111126160B CN111126160B (zh) 2023-04-07

Family

ID=70496926

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911190076.4A Active CN111126160B (zh) 2019-11-28 2019-11-28 基于五笔输入法构建的智能汉字结构评价方法及系统

Country Status (1)

Country Link
CN (1) CN111126160B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508108A (zh) * 2020-12-10 2021-03-16 西北工业大学 一种基于字根的零样本汉字识别方法
CN114399772A (zh) * 2021-12-20 2022-04-26 北京百度网讯科技有限公司 样本生成、模型训练和轨迹识别方法、装置、设备和介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116335A (zh) * 1994-11-02 1996-02-07 北京振中电子集团 一种利用笔写屏技术的汉字输入系统
CN102982332A (zh) * 2012-09-29 2013-03-20 顾坚敏 基于云处理方式的零售终端货架影像智能分析系统
CN103473572A (zh) * 2013-09-17 2013-12-25 南京师范大学 一种手写汉字美观度的评价方法
CN104408471A (zh) * 2014-12-06 2015-03-11 中山市读书郎电子有限公司 一种汉字书写正确性的评测方法
CN104966096A (zh) * 2015-06-10 2015-10-07 南京师范大学 一种基于重要书写特征标注的手写汉字工整性评价方法
CN106096524A (zh) * 2016-06-01 2016-11-09 广东小天才科技有限公司 一种汉字美观度的获取方法及装置
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN109934160A (zh) * 2019-03-12 2019-06-25 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
CN109992176A (zh) * 2017-12-28 2019-07-09 北京搜狗科技发展有限公司 一种信息识别码的扫描方法和装置
CN110287483A (zh) * 2019-06-06 2019-09-27 广东技术师范大学 一种利用五笔字根深度学习的未登录词识别方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1116335A (zh) * 1994-11-02 1996-02-07 北京振中电子集团 一种利用笔写屏技术的汉字输入系统
CN102982332A (zh) * 2012-09-29 2013-03-20 顾坚敏 基于云处理方式的零售终端货架影像智能分析系统
CN103473572A (zh) * 2013-09-17 2013-12-25 南京师范大学 一种手写汉字美观度的评价方法
CN104408471A (zh) * 2014-12-06 2015-03-11 中山市读书郎电子有限公司 一种汉字书写正确性的评测方法
CN104966096A (zh) * 2015-06-10 2015-10-07 南京师范大学 一种基于重要书写特征标注的手写汉字工整性评价方法
CN106096524A (zh) * 2016-06-01 2016-11-09 广东小天才科技有限公司 一种汉字美观度的获取方法及装置
CN108154167A (zh) * 2017-12-04 2018-06-12 昆明理工大学 一种汉字字形相似度计算方法
CN109992176A (zh) * 2017-12-28 2019-07-09 北京搜狗科技发展有限公司 一种信息识别码的扫描方法和装置
CN109934160A (zh) * 2019-03-12 2019-06-25 天津瑟威兰斯科技有限公司 基于表格识别的表格文字信息提取的方法及系统
CN110287483A (zh) * 2019-06-06 2019-09-27 广东技术师范大学 一种利用五笔字根深度学习的未登录词识别方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
黄襄念,程萍,杨波,黄敏,龙辉敏: "自然手写汉字五笔码识别法" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112508108A (zh) * 2020-12-10 2021-03-16 西北工业大学 一种基于字根的零样本汉字识别方法
CN112508108B (zh) * 2020-12-10 2024-01-26 西北工业大学 一种基于字根的零样本汉字识别方法
CN114399772A (zh) * 2021-12-20 2022-04-26 北京百度网讯科技有限公司 样本生成、模型训练和轨迹识别方法、装置、设备和介质
CN114399772B (zh) * 2021-12-20 2024-02-27 北京百度网讯科技有限公司 样本生成、模型训练和轨迹识别方法、装置、设备和介质

Also Published As

Publication number Publication date
CN111126160B (zh) 2023-04-07

Similar Documents

Publication Publication Date Title
Pechwitz et al. Baseline estimation for Arabic handwritten words
CN106951832B (zh) 一种基于手写字符识别的验证方法及装置
CN110503054B (zh) 文本图像的处理方法及装置
CN106203539B (zh) 识别集装箱箱号的方法和装置
CN113128442A (zh) 基于卷积神经网络的汉字书法风格识别方法和评分方法
Thadchanamoorthy et al. Tamil handwritten city name database development and recognition for postal automation
Vijaya Kumar et al. Classification and recognition of handwritten digits by using mathematical morphology
CN112215236B (zh) 文本识别方法、装置、电子设备及存储介质
CN113657274B (zh) 表格生成方法、装置、电子设备及存储介质
CN111126160B (zh) 基于五笔输入法构建的智能汉字结构评价方法及系统
CN111401099A (zh) 文本识别方法、装置以及存储介质
CN115937873A (zh) 一种基于可辨识单字字符的在线笔迹验证系统及方法
Yang et al. Combination of manual and non-manual features for sign language recognition based on conditional random field and active appearance model
CN110414622B (zh) 基于半监督学习的分类器训练方法及装置
CN110222660B (zh) 一种基于动态与静态特征融合的签名鉴伪方法及系统
CN109508716B (zh) 一种图像文字的定位方法及装置
CN113610809A (zh) 骨折检测方法、装置、电子设备以及存储介质
Naz et al. Challenges in baseline detection of cursive script languages
CN115346225A (zh) 书写测评方法、装置及设备
KR20230036674A (ko) Hog, svm 영상처리기법을 이용한 필기체 문자 인식 방법
JPH11328315A (ja) 文字認識装置
CN110390268A (zh) 一种基于几何特性和方向特征的三维掌纹识别方法
AU2021101278A4 (en) System and Method for Automatic Language Detection for Handwritten Text
Noor isolated multifont Arabic character recognition using Fourier descriptors
Fadeel An efficient segmentation algorithm for Arabic handwritten characters recognition system

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant