CN113297892B - 针对形近汉字的图像优化识别系统 - Google Patents

针对形近汉字的图像优化识别系统 Download PDF

Info

Publication number
CN113297892B
CN113297892B CN202011358869.5A CN202011358869A CN113297892B CN 113297892 B CN113297892 B CN 113297892B CN 202011358869 A CN202011358869 A CN 202011358869A CN 113297892 B CN113297892 B CN 113297892B
Authority
CN
China
Prior art keywords
stroke
result
information
chinese
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011358869.5A
Other languages
English (en)
Other versions
CN113297892A (zh
Inventor
罗艺康
李国强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Jiaotong University
Original Assignee
Shanghai Jiaotong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Jiaotong University filed Critical Shanghai Jiaotong University
Priority to CN202011358869.5A priority Critical patent/CN113297892B/zh
Publication of CN113297892A publication Critical patent/CN113297892A/zh
Application granted granted Critical
Publication of CN113297892B publication Critical patent/CN113297892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/32Digital ink
    • G06V30/333Preprocessing; Feature extraction
    • G06V30/347Sampling; Contour coding; Stroke extraction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

一种针对形近汉字的图像优化识别系统,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据文字在图片上笔画的突变为特征信息,利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块,中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块基于预训练的中文BERT模型,对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果,本发明针对近形字的笔画而不是局部的形态特征进行改进,使得增加的特征数量减少,通过BERT基线模型联合学习,使得识别过程更加简洁高效的同时明显提高识别正确率。

Description

针对形近汉字的图像优化识别系统
技术领域
本发明涉及的是一种图像处理领域的技术,具体是一种针对形近汉字的图像优化识别系统。
背景技术
图像识别是目前应用最广泛的算法技术之一,其接受图片作为输入,以识别的字符作为输出。为了提高图像识别的性能,因此需要对于识别错的字符进行纠正,而错误的比例以近形字居多。
发明内容
本发明针对现有图像识别技术针对近型字的识别过程复杂且容易识别错误的缺陷,提出一种针对形近汉字的图像优化识别系统,针对近形字的笔画而不是局部的形态特征进行改进,使得增加的特征数量减少,通过BERT基线模型联合学习,使得识别过程更加简洁高效的同时明显提高识别正确率。
本发明是通过以下技术方案实现的:
本发明涉及一种针对形近汉字的图像优化识别系统,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据文字在图片上笔画的突变为特征信息,利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块,中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块基于预训练的中文BERT模型,对输入的笔画编号信息和文字信息分别进行针对语义问题的纠错和针对近形字问题的纠错并得到识别正确的结果。
所述的文字在图片上笔画的突变是指:因模型在识别图像文字当中需根据一定的文字特征来进行识别,因此不同字符的笔画突变则是一个重要的特征,例如字符“A”的顶上的尖锐,字符“B”右边的弧形。
所述的基于笔画的细粒度拆分处理是指:在文字信息中可以继续被拆解的粗粒度部分,例如偏旁部首,以及不能被继续拆解的细粒度部分,例如笔画。
技术效果
本发明整体解决了现有部分图像识别系统对于形近字识别不够准确的问题。与现有技术相比,本发明通过引入中文字符笔画的特征融入基线模型,从近形字和语义层面上进行纠正,其中笔画特征主要解决近形字的错误,BERT模型主要解决语义的错误,从而有效提升基线模型的纠错能力。
附图说明
图1为本发明系统示意图;
图2为实施例效果示意图。
具体实施方式
如图1所示,为本实施例涉及一种针对形近汉字的图像优化识别系统,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据中图像文字的颜色,笔画结构特征等信息,利用CTPN和CRNN模型进行图像文字的检测和识别并得到初步图像文字识别结果后输出至中文文本笔画拆分系统,中文文本笔画拆分模块根据上一步所识别的图像文字信息,进行待纠正文本的笔画拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块根据预训练的中文BERT模型,对待纠正文本的笔画信息进行语义层面和形近层面的处理并得到识别正确的结果。
所述的图像识别模块包括:图像检测单元和图像识别单元,其中:图像检测单元针对图片文字整体信息进行定位处理并得到图片中图像文字的具体位置结果后输出至图像识别单元,图像识别单元针对所定位好的图像文字信息进行识别处理并得到初步图像识别结果后输出至中文文本笔画拆分模块。
所述的中文文本笔画拆分模块包括:笔画拆分单元、笔画累计单元、向量映射单元,其中:笔画拆分单元针对初步识别文本信息进行深度优先搜索处理并得到所以包含的细粒度笔画结果,即笔画形成树中的叶子节点后输出至笔画累计单元,笔画累计单元针对笔画拆分单元信息进行对于统计到的叶子节点进行累加处理并得到每个字所包含的每种笔画数量结果后输出至向量映射单元,向量映射单元针对笔画累计单元统计的每种笔画的数量信息,根据预设好的每个笔画所对应的笔画编号进行处理并得到该字的笔画向量结果后输出至中文文本纠错单元。
所示的中文文本纠错模块包括:笔画嵌入单元、文本映射单元和Adam优化器单元,其中:笔画嵌入单元针对向量映射单元的笔画向量和笔画嵌入参数相乘得到笔画嵌入向量后输出至文本映射单元,文本映射单元在训练阶段,根据输入字的笔画嵌入向量、字嵌入向量、位置嵌入向量、分割嵌入向量信息进行错误文本纠错处理并得到基线模型预测结果后根据与正确结果的差距并得到量化差距的损失函数后输出至Adam优化器单元,文本映射单元在预测阶段针对输入字的笔画嵌入向量、字嵌入向量、位置嵌入向量、分割嵌入向量信息进行错误文本纠错处理并得到基线模型预测结果后得到最终识别结果,Adam优化器单元针对基线模型所识别的结果信息与正确的结果信息进行差距消除处理并得到所需更新参数的梯度的结果后输出至文本映射单元的各个参数中进行更新。
所述的笔画嵌入向量采用但不限于通过预训练的方式获得,优选根据具体的训练数据动态更新以较好的进行迁移。
所述的文本映射单元中设有BERT模型,该BERT模型包括编码层、自注意层、前向传播层和输出线性层。
本实施例中采用的BERT模型的base参数包括:Encoder层数12,隐层维度768,mutil-head12,前向传播维度3072。笔画种类457,其隐层维度设为768。
经过具体实际实验,在操作系统为ubuntu18.04,深度学习框架为pytorch1.0.0的具体环境设置下,以训练周期为10Epoch,学习率初始化为0.001,固定随机种子以及随机初始化笔画嵌入向量后,在sighan15中文文本纠错数据集下,基线模型与加入笔画嵌入向量后的基线模型性能如下表所示。
准确率 精准率 召回率 F1分数
BERT 63.82 79.01 37.64 50.99
笔画嵌入+BERT 64.45 80 38.55 52.02
与现有技术相比,本发明针对于特定的数据集,引入笔画特征的模型将对纠错结果在准确率,精准率,召回率,F1分数上均有明显的提升。
上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整,本发明的保护范围以权利要求书为准且不由上述具体实施所限,在其范围内的各个实现方案均受本发明之约束。

Claims (5)

1.一种针对形近汉字的图像优化识别系统,其特征在于,包括:图像识别模块、中文文本笔画拆分模块和中文文本纠错模块,其中:图像识别模块根据文字在图片上笔画的突变为特征信息,利用CTPN和CRNN模型进行图像文字的检测和识别得到图片中的文字信息并输出至中文文本笔画模块,中文文本笔画拆分模块根据文字信息进行基于笔画的细粒度拆分处理并得到笔画编号信息后输出至中文文本纠错模块,中文文本纠错模块基于预训练的中文BERT模型,对输入的笔画编号信息和文字信息进行语义以及近形字的处理并得到识别正确的结果;
所述的中文文本笔画拆分模块包括:笔画拆分单元、笔画累计单元、向量映射单元,其中:笔画拆分单元针对初步识别文本信息进行深度优先搜索处理并得到所以包含的细粒度笔画结果,即笔画形成树中的叶子节点后输出至笔画累计单元,笔画累计单元针对笔画拆分单元信息进行对于统计到的叶子节点进行累加处理并得到每个字所包含的每种笔画数量结果后输出至向量映射单元,向量映射单元针对笔画累计单元统计的每种笔画的数量信息,根据预设好的每个笔画所对应的笔画编号进行处理并得到该字的笔画向量结果后输出至中文文本纠错单元。
2.根据权利要求1所述的针对形近汉字的图像优化识别系统,其特征是,所述的图像识别模块包括:图像检测单元和图像识别单元,其中:图像检测单元针对图片文字整体信息进行定位处理并得到图片中图像文字的具体位置结果后输出至图像识别单元,图像识别单元针对所定位好的图像文字信息进行识别处理并得到初步图像识别结果后输出至中文文本笔画拆分模块。
3.根据权利要求1所述的针对形近汉字的图像优化识别系统,其特征是,所述的中文文本纠错模块包括:笔画嵌入单元、设有BERT模型的文本映射单元和Adam优化器单元,其中:笔画嵌入单元针对向量映射单元的笔画向量和笔画嵌入参数相乘得到笔画嵌入向量后输出至文本映射单元,文本映射单元在训练阶段,根据输入字的笔画嵌入向量、字嵌入向量、位置嵌入向量、分割嵌入向量信息进行错误文本纠错处理并得到基线模型预测结果后根据与正确结果的差距并得到量化差距的损失函数后输出至Adam优化器单元,文本映射单元在预测阶段针对输入字的笔画嵌入向量、字嵌入向量、位置嵌入向量、分割嵌入向量信息进行错误文本纠错处理并得到基线模型预测结果后得到最终识别结果,Adam优化器单元针对基线模型所识别的结果信息与正确的结果信息进行差距消除处理并得到所需更新参数的梯度的结果后输出至文本映射单元的各个参数中进行更新。
4.根据权利要求3所述的针对形近汉字的图像优化识别系统,其特征是,所述的笔画嵌入向量采用通过预训练的方式,根据具体的训练数据动态更新以较好的进行迁移。
5.根据权利要求1或3所述的针对形近汉字的图像优化识别系统,其特征是,所述的BERT模型包括编码层、自注意层、前向传播层和输出线性层。
CN202011358869.5A 2020-11-27 2020-11-27 针对形近汉字的图像优化识别系统 Active CN113297892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011358869.5A CN113297892B (zh) 2020-11-27 2020-11-27 针对形近汉字的图像优化识别系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011358869.5A CN113297892B (zh) 2020-11-27 2020-11-27 针对形近汉字的图像优化识别系统

Publications (2)

Publication Number Publication Date
CN113297892A CN113297892A (zh) 2021-08-24
CN113297892B true CN113297892B (zh) 2022-06-14

Family

ID=77318466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011358869.5A Active CN113297892B (zh) 2020-11-27 2020-11-27 针对形近汉字的图像优化识别系统

Country Status (1)

Country Link
CN (1) CN113297892B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1260526A (zh) * 1999-01-13 2000-07-19 国际商业机器公司 具有文字分割用户接口的手写信息处理系统
CN101833376A (zh) * 2009-03-05 2010-09-15 王道平 基于汉字拆分的智能语句级汉字输入系统
CN110490157A (zh) * 2019-08-23 2019-11-22 安徽淘云科技有限公司 文字评估方法、文字学习方法、装置、设备及存储介质
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN111985319A (zh) * 2020-07-13 2020-11-24 上海眼控科技股份有限公司 签名识别方法及设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030215145A1 (en) * 2002-05-14 2003-11-20 Microsoft Corporation Classification analysis of freeform digital ink input
CN102103593B (zh) * 2009-12-18 2012-10-31 北大方正集团有限公司 一种文字的笔画拆分排版方法及系统
JP5717691B2 (ja) * 2012-05-28 2015-05-13 株式会社東芝 手書き文字検索装置、方法及びプログラム
CN112598768B (zh) * 2021-03-04 2021-05-25 中国科学院自动化研究所 常用字体汉字笔画拆解方法、系统、装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1260526A (zh) * 1999-01-13 2000-07-19 国际商业机器公司 具有文字分割用户接口的手写信息处理系统
CN101833376A (zh) * 2009-03-05 2010-09-15 王道平 基于汉字拆分的智能语句级汉字输入系统
CN111523306A (zh) * 2019-01-17 2020-08-11 阿里巴巴集团控股有限公司 文本的纠错方法、装置和系统
CN110490157A (zh) * 2019-08-23 2019-11-22 安徽淘云科技有限公司 文字评估方法、文字学习方法、装置、设备及存储介质
CN111985319A (zh) * 2020-07-13 2020-11-24 上海眼控科技股份有限公司 签名识别方法及设备

Also Published As

Publication number Publication date
CN113297892A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113495900B (zh) 基于自然语言的结构化查询语言语句获取方法及装置
AU2015357110B2 (en) Method for text recognition and computer program product
AU2010311067B2 (en) System and method for increasing the accuracy of optical character recognition (OCR)
US11288324B2 (en) Chart question answering
CN107330379B (zh) 一种蒙古语手写识别方法和装置
CN114596566B (zh) 文本识别方法及相关装置
Mohd et al. Quranic optical text recognition using deep learning models
CN111310441A (zh) 基于bert的语音识别后文本修正方法、装置、终端及介质
EP3539051A1 (en) System and method of character recognition using fully convolutional neural networks
CN112085011A (zh) 一种ocr识别结果纠错方法、装置及存储介质
CN113408535B (zh) 一种基于中文字符级特征和语言模型的ocr纠错方法
CN110928981A (zh) 一种文本标签体系搭建及完善迭代的方法、系统及存储介质
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN115438154A (zh) 基于表征学习的中文自动语音识别文本修复方法及系统
TW201544976A (zh) 自然語言處理系統、自然語言處理方法、及自然語言處理程式
CN115034208A (zh) 一种基于bert的中文asr输出文本修复方法及系统
CN110619119B (zh) 文本智能编辑方法、装置及计算机可读存储介质
CN115064154A (zh) 混合语言语音识别模型的生成方法及装置
CN109325237B (zh) 用于机器翻译的完整句识别方法与系统
CN113297892B (zh) 针对形近汉字的图像优化识别系统
CN112632956A (zh) 文本匹配方法、装置、终端和存储介质
CN116909435A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN113269192B (zh) 一种基于词匹配和语法匹配的ocr后处理方法
CN108021918B (zh) 文字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant