CN116597453B - 一种形近字单字识别方法 - Google Patents

一种形近字单字识别方法 Download PDF

Info

Publication number
CN116597453B
CN116597453B CN202310549344.7A CN202310549344A CN116597453B CN 116597453 B CN116597453 B CN 116597453B CN 202310549344 A CN202310549344 A CN 202310549344A CN 116597453 B CN116597453 B CN 116597453B
Authority
CN
China
Prior art keywords
word
shape
shape near
identified
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310549344.7A
Other languages
English (en)
Other versions
CN116597453A (zh
Inventor
潘金全
王子杨
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DMAI Guangzhou Co Ltd
Original Assignee
DMAI Guangzhou Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DMAI Guangzhou Co Ltd filed Critical DMAI Guangzhou Co Ltd
Priority to CN202310549344.7A priority Critical patent/CN116597453B/zh
Publication of CN116597453A publication Critical patent/CN116597453A/zh
Application granted granted Critical
Publication of CN116597453B publication Critical patent/CN116597453B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/19007Matching; Proximity measures
    • G06V30/19093Proximity measures, i.e. similarity or distance measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开了一种形近字单字识别方法,包括以下步骤:获取待识别形近字;根据预先构建的形近字库,得到待识别形近字的标准字集合;提取待识别形近字和标准字集合中各个元素的掩膜特征,并计算特征相似度;根据掩膜特征相似度,得到相似度最高的标准字,得到识别结果;本发明通过预先建立形近字库对形近字进行匹配分析,无需结合文字的上下文信息也可实现单字识别,拓展了文字识别的应用场景。

Description

一种形近字单字识别方法
技术领域
本发明涉及图像文字识别技术领域,更具体的说是涉及一种形近字单字识别方法。
背景技术
OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,然后用字符识别方法将形状翻译成计算机文字的过程;即,对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。OCR软件主要由图像输入、预处理、二值化、噪声去除、倾斜较正、版面分析、字符切割和字符识别组成,现有OCR识别方法是针对长文本的识别方法,需要借助上下文信息,对单字的文字检测和识别效果较差,不适合短文本或上下文信息不足的场景。
因此,如何在短文本不具有上下文信息的场景下,实现单字识别是本领域技术人员亟需解决的问题。
发明内容
有鉴于此,本发明提供了一种形近字单字识别方法,无需结合文本的上下文信息也可实现单字识别,拓展了文字识别的应用场景。
为了实现上述目的,本发明采用如下技术方案:
一种形近字单字识别方法,包括以下步骤:
获取待识别形近字;
根据预先构建的形近字库,得到待识别形近字的标准字集合;
提取待识别形近字和标准字集合中各个元素的掩膜特征,并计算特征相似度;
根据掩膜特征相似度,得到相似度最高的标准字,得到识别结果。
进一步的,所述形近字库由多组形近标准字集合构成。
进一步的,计算特征相似度,步骤为:
采用余弦相似度算法分别计算标准字集合中各个元素与待识别形近字之间的掩膜特征相似度。
进一步的,所述获取待识别形近字,步骤包括:
获取待识别文字;
通过预先训练的分类器对所述待识别文字进行文字识别,得到待识别形近字。
进一步的,根据预先构建的形近字库,得到待识别形近字的标准字集合,具体为:
所述分类器通过所述预先构建的形近字库对待识别形近字进行类别判断,得到分类结果,当所述分类结果为非形近时,直接输出识别结果;
当所述分类结果为形近时,则输出对应汉子类别的标准字集合。
进一步的,获取待识别文字,步骤包括:
采用预先训练的YOLOv5检测文字,并进行图像裁剪;
采用OTSU算法对裁剪的图像进行自适应二值化,得到文字掩膜,作为待识别文字。
进一步的,通过预先训练的分类器对所述待识别文字进行文字识别,得到待识别形近字,步骤包括:所述分类器为ResNet18神经网络,用于文字掩膜的识别。
进一步的,所述分类器进行训练时,损失函数采用交叉熵损失函数并通过SGD优化器进行网络优化。
本发明的有益效果:
经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种形近字单字识别方法,通过预先建立形近字库对形近字进行匹配分析,无需结合文字的上下文信息也可实现单字识别,拓展了文字识别的应用场景;此外,本发明还提供了两个阶段的文字识别方法,即文字初步识别,利用已知的形近字库,区分形近字,使非形近字能直接跳过纠正阶段输出识别结果,保证整体的文字识别效率,同时使形近字能进一步进行有效纠正,使本发明更具有精确度上的提升。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1附图为本发明提供一种形近字单字识别方法示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1
本发明实施例公开了一种形近字单字识别方法,包括以下步骤:
S1:获取待识别形近字;
在一种实施例中,待识别形近字的获取方式具体为:
S11:获取待识别文字;采用预先训练的YOLOv5网络模型检测文字,并进行图像裁剪;其中,通过YOLOv5网络模型,能够定位到图片中的文字区域,并进行框选,实现文字的检测;采用OTSU算法对裁剪的图像进行自适应二值化,得到文字掩膜,作为待识别文字;
S12:通过预先训练的分类器对待识别文字进行文字识别,得到待识别形近字;
在一种实施例中,分类器为ResNet18神经网络,损失函数采用交叉熵损失函数并通过SGD优化器进行网络优化;训练完成后,得到Resnet18的文字识别分类器。
S2:根据预先构建的形近字库,得到待识别形近字的标准字集合;其中,形近字库由多组形近标准字集合构成,每组形近字集合内由多个互为形近字的标准字构成,每组形近字集合构成一种汉字类别;如“玉”、“王”、“主”、“玊”、“壬”、“生”、“玍”为第一组;“已”、“巳”、“己”为第二组;“工”“土”“干”“士”为第三组;“伯”、“泊”、“怕”、“拍”、“佰”为第四组等等。
在本实施例中,在分类器输入分辨率为224×224的文字掩膜图片,模型计算输出经过softmax后获得每个汉字类别的置信度,取置信度最大的类别作为分类结果。当分类结果为非形近时,直接输出识别结果;当分类结果为形近时,则输出对应汉子类别的标准字集合。
S3:提取待识别形近字和标准字集合中各个元素的掩膜特征,并计算特征相似度;如确认的组别是第二组,则分别提取第二组内,“已”、“巳”和“己”的掩膜特征以及待识别形近字的掩膜特征,进行相似度计算;
其中,相似度计算可采用余弦相似度算法,公式如下:
式中,A表示待识别形近字的特征,B表示标准字的特征;n表示掩膜特征的个数。
S4:根据掩膜特征相似度,得到相似度最高的标准字,得到识别结果。
实施例2
本发明还实施例提供一种书法智能评测系统,该系统采用了实施例1中提供的一种形近字单字识别方法,包括图像采集模块、文字检测模块、预处理模块、识别模块和评测模块;
图像采集模块用于获取书法字帖图像;
文字检测模块用于在书法字帖中检测文字;
预处理模块用于对检测的文字进行裁剪并进行二值化处理,得到文字掩膜;
识别模块对文字掩膜进行识别,得到识别结果,识别结果为标准字;
评测模块根据识别结果和文字掩膜计算相似度,输出相似度评分。
在另一实施例中,还包括纠正模块,纠正模块包括特征匹配子模块、特征提取子模块、特征分析子模块和形近字库;
特征匹配子模块用于根据识别模块输出的识别结果在形近字库中进行查阅,判断是否为形近字库内的文字,当判断为是时,提取相应的库内文字;
特征提取子模块用于对库内文字和文字掩膜进行特征提取;
特征分析子模块用于根据文字掩膜的特征和各库内文字的特征进行相似度计算,并将相似度最高的一组中对应库内文字作为最终识别结果,参与评测。
本发明通过预先建立形近字库对形近字进行匹配分析,无需结合文字的上下文信息也可实现单字识别,拓展了文字识别的应用场景;此外,本发明还提供了两个阶段的文字识别方法,即文字初步识别,利用已知的形近字库,识别形近字,使非形近字能直接跳过纠正阶段输出识别结果,保证整体的文字识别效率,同时使形近字能进一步进行有效纠正,使本发明更具有精确度上的提升。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (5)

1.一种形近字单字识别方法,其特征在于,包括以下步骤:
获取待识别形近字,具体包括:采用预先训练的YOLOv5检测文字,并进行图像裁剪,采用OTSU算法对裁剪的图像进行自适应二值化,得到文字掩膜,作为待识别文字,通过预先训练的分类器对所述待识别文字进行文字识别,得到待识别形近字;
根据预先构建的形近字库,得到待识别形近字的标准字集合,具体包括:所述分类器计算输出经过softmax后获得每个汉字类别的置信度,取置信度最大的类别作为分类结果,当所述分类结果为非形近时,直接输出识别结果;当所述分类结果为形近时,则根据所述预先构建的形近字库输出对应汉字类别的标准字集合;
提取待识别形近字和标准字集合中各个元素的掩膜特征,并计算特征相似度;
根据掩膜特征相似度,得到相似度最高的标准字,得到识别结果。
2.根据权利要求1所述的一种形近字单字识别方法,其特征在于,所述形近字库由多组形近标准字集合构成。
3.根据权利要求1所述的一种形近字单字识别方法,其特征在于,计算特征相似度,步骤为:
采用余弦相似度算法分别计算标准字集合中各个元素与待识别形近字之间的掩膜特征相似度。
4.根据权利要求1所述的一种形近字单字识别方法,其特征在于,通过预先训练的分类器对所述待识别文字进行文字识别,得到待识别形近字,步骤包括:所述分类器为ResNet18神经网络,用于文字掩膜的识别。
5.根据权利要求4所述的一种形近字单字识别方法,其特征在于,所述分类器进行训练时,损失函数采用交叉熵损失函数并通过SGD优化器进行网络优化。
CN202310549344.7A 2023-05-16 2023-05-16 一种形近字单字识别方法 Active CN116597453B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310549344.7A CN116597453B (zh) 2023-05-16 2023-05-16 一种形近字单字识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310549344.7A CN116597453B (zh) 2023-05-16 2023-05-16 一种形近字单字识别方法

Publications (2)

Publication Number Publication Date
CN116597453A CN116597453A (zh) 2023-08-15
CN116597453B true CN116597453B (zh) 2024-08-20

Family

ID=87611012

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310549344.7A Active CN116597453B (zh) 2023-05-16 2023-05-16 一种形近字单字识别方法

Country Status (1)

Country Link
CN (1) CN116597453B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496212A (zh) * 2021-06-25 2021-10-12 腾讯云计算(北京)有限责任公司 箱式结构的文本识别方法、装置及电子设备
CN113947773A (zh) * 2021-07-13 2022-01-18 北京金山数字娱乐科技有限公司 文字识别模型的训练方法及装置
CN114550158A (zh) * 2022-02-23 2022-05-27 厦门大学 一种场景文字识别方法及系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100390815C (zh) * 2005-08-18 2008-05-28 北大方正集团有限公司 模板优化的字符识别方法和系统
CN102096821B (zh) * 2010-04-15 2014-05-07 西安理工大学 基于复杂网络理论的强干扰环境下的车牌识别方法
CN106598920B (zh) * 2016-11-28 2019-09-27 昆明理工大学 一种笔画编码结合汉字点阵的形近字分类方法
CN109447055B (zh) * 2018-10-17 2022-05-03 中电万维信息技术有限责任公司 一种基于ocr字形相近文字识别方法
CN110533057B (zh) * 2019-04-29 2022-08-12 浙江科技学院 一种单样本与少样本场景下的汉字验证码识别方法
CN115858797A (zh) * 2022-02-10 2023-03-28 北京中关村科金技术有限公司 一种基于ocr技术生成中文近义词的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113496212A (zh) * 2021-06-25 2021-10-12 腾讯云计算(北京)有限责任公司 箱式结构的文本识别方法、装置及电子设备
CN113947773A (zh) * 2021-07-13 2022-01-18 北京金山数字娱乐科技有限公司 文字识别模型的训练方法及装置
CN114550158A (zh) * 2022-02-23 2022-05-27 厦门大学 一种场景文字识别方法及系统

Also Published As

Publication number Publication date
CN116597453A (zh) 2023-08-15

Similar Documents

Publication Publication Date Title
TWI536277B (zh) Form identification method and device
US7970213B1 (en) Method and system for improving the recognition of text in an image
CN112818951B (zh) 一种票证识别的方法
CN106297755B (zh) 一种用于乐谱图像识别的电子设备及识别方法
US7136526B2 (en) Character string recognition apparatus, character string recognizing method, and storage medium therefor
CN101957919A (zh) 基于图像局部特征检索的文字识别方法
CN111695453B (zh) 绘本识别方法、装置及机器人
TWI765469B (zh) 車牌辨識系統與方法及提取車牌中複數個字元段的方法
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN111401099A (zh) 文本识别方法、装置以及存储介质
Özgen et al. Text detection in natural and computer-generated images
CN111340020A (zh) 一种公式识别方法、装置、设备及存储介质
CN116704523A (zh) 一种用于出版印刷设备的文字排版图像识别系统
CN108921006B (zh) 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法
JP2008225695A (ja) 文字認識誤り修正装置およびプログラム
Karanje et al. Survey on text detection, segmentation and recognition from a natural scene images
JP3216800B2 (ja) 手書き文字認識方法
CN116597453B (zh) 一种形近字单字识别方法
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN115795079A (zh) 一种工程造价分析数据采集与处理方法、系统
JP2002063548A (ja) 手書き文字認識方法
US11335108B2 (en) System and method to recognise characters from an image
Kumar et al. Line based robust script identification for indianlanguages
JP2005250786A (ja) 画像認識方法
JPH08287188A (ja) 文字列認識装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant