CN116597453B

CN116597453B - 一种形近字单字识别方法

Info

Publication number: CN116597453B
Application number: CN202310549344.7A
Authority: CN
Inventors: 潘金全; 王子杨
Original assignee: DMAI Guangzhou Co Ltd
Current assignee: DMAI Guangzhou Co Ltd
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2024-08-20
Anticipated expiration: 2043-05-16
Also published as: CN116597453A

Abstract

本发明公开了一种形近字单字识别方法，包括以下步骤：获取待识别形近字；根据预先构建的形近字库，得到待识别形近字的标准字集合；提取待识别形近字和标准字集合中各个元素的掩膜特征，并计算特征相似度；根据掩膜特征相似度，得到相似度最高的标准字，得到识别结果；本发明通过预先建立形近字库对形近字进行匹配分析，无需结合文字的上下文信息也可实现单字识别，拓展了文字识别的应用场景。

Description

一种形近字单字识别方法

技术领域

本发明涉及图像文字识别技术领域，更具体的说是涉及一种形近字单字识别方法。

背景技术

OCR(optical character recognition)文字识别是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。OCR软件主要由图像输入、预处理、二值化、噪声去除、倾斜较正、版面分析、字符切割和字符识别组成，现有OCR识别方法是针对长文本的识别方法，需要借助上下文信息，对单字的文字检测和识别效果较差，不适合短文本或上下文信息不足的场景。

因此，如何在短文本不具有上下文信息的场景下，实现单字识别是本领域技术人员亟需解决的问题。

发明内容

有鉴于此，本发明提供了一种形近字单字识别方法，无需结合文本的上下文信息也可实现单字识别，拓展了文字识别的应用场景。

为了实现上述目的，本发明采用如下技术方案：

一种形近字单字识别方法，包括以下步骤：

获取待识别形近字；

根据预先构建的形近字库，得到待识别形近字的标准字集合；

提取待识别形近字和标准字集合中各个元素的掩膜特征，并计算特征相似度；

根据掩膜特征相似度，得到相似度最高的标准字，得到识别结果。

进一步的，所述形近字库由多组形近标准字集合构成。

进一步的，计算特征相似度，步骤为：

采用余弦相似度算法分别计算标准字集合中各个元素与待识别形近字之间的掩膜特征相似度。

进一步的，所述获取待识别形近字，步骤包括：

获取待识别文字；

通过预先训练的分类器对所述待识别文字进行文字识别，得到待识别形近字。

进一步的，根据预先构建的形近字库，得到待识别形近字的标准字集合，具体为：

所述分类器通过所述预先构建的形近字库对待识别形近字进行类别判断，得到分类结果，当所述分类结果为非形近时，直接输出识别结果；

当所述分类结果为形近时，则输出对应汉子类别的标准字集合。

进一步的，获取待识别文字，步骤包括：

采用预先训练的YOLOv5检测文字，并进行图像裁剪；

采用OTSU算法对裁剪的图像进行自适应二值化，得到文字掩膜，作为待识别文字。

进一步的，通过预先训练的分类器对所述待识别文字进行文字识别，得到待识别形近字，步骤包括：所述分类器为ResNet18神经网络，用于文字掩膜的识别。

进一步的，所述分类器进行训练时，损失函数采用交叉熵损失函数并通过SGD优化器进行网络优化。

本发明的有益效果：

经由上述的技术方案可知，与现有技术相比，本发明公开提供了一种形近字单字识别方法，通过预先建立形近字库对形近字进行匹配分析，无需结合文字的上下文信息也可实现单字识别，拓展了文字识别的应用场景；此外，本发明还提供了两个阶段的文字识别方法，即文字初步识别，利用已知的形近字库，区分形近字，使非形近字能直接跳过纠正阶段输出识别结果，保证整体的文字识别效率，同时使形近字能进一步进行有效纠正，使本发明更具有精确度上的提升。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1附图为本发明提供一种形近字单字识别方法示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例公开了一种形近字单字识别方法，包括以下步骤：

S1：获取待识别形近字；

在一种实施例中，待识别形近字的获取方式具体为：

S11：获取待识别文字；采用预先训练的YOLOv5网络模型检测文字，并进行图像裁剪；其中，通过YOLOv5网络模型，能够定位到图片中的文字区域，并进行框选，实现文字的检测；采用OTSU算法对裁剪的图像进行自适应二值化，得到文字掩膜，作为待识别文字；

S12：通过预先训练的分类器对待识别文字进行文字识别，得到待识别形近字；

在一种实施例中，分类器为ResNet18神经网络，损失函数采用交叉熵损失函数并通过SGD优化器进行网络优化；训练完成后，得到Resnet18的文字识别分类器。

S2：根据预先构建的形近字库，得到待识别形近字的标准字集合；其中，形近字库由多组形近标准字集合构成，每组形近字集合内由多个互为形近字的标准字构成，每组形近字集合构成一种汉字类别；如“玉”、“王”、“主”、“玊”、“壬”、“生”、“玍”为第一组；“已”、“巳”、“己”为第二组；“工”“土”“干”“士”为第三组；“伯”、“泊”、“怕”、“拍”、“佰”为第四组等等。

在本实施例中，在分类器输入分辨率为224×224的文字掩膜图片，模型计算输出经过softmax后获得每个汉字类别的置信度，取置信度最大的类别作为分类结果。当分类结果为非形近时，直接输出识别结果；当分类结果为形近时，则输出对应汉子类别的标准字集合。

S3：提取待识别形近字和标准字集合中各个元素的掩膜特征，并计算特征相似度；如确认的组别是第二组，则分别提取第二组内，“已”、“巳”和“己”的掩膜特征以及待识别形近字的掩膜特征，进行相似度计算；

其中，相似度计算可采用余弦相似度算法，公式如下：

式中，A表示待识别形近字的特征，B表示标准字的特征；n表示掩膜特征的个数。

S4：根据掩膜特征相似度，得到相似度最高的标准字，得到识别结果。

实施例2

本发明还实施例提供一种书法智能评测系统，该系统采用了实施例1中提供的一种形近字单字识别方法，包括图像采集模块、文字检测模块、预处理模块、识别模块和评测模块；

图像采集模块用于获取书法字帖图像；

文字检测模块用于在书法字帖中检测文字；

预处理模块用于对检测的文字进行裁剪并进行二值化处理，得到文字掩膜；

识别模块对文字掩膜进行识别，得到识别结果，识别结果为标准字；

评测模块根据识别结果和文字掩膜计算相似度，输出相似度评分。

在另一实施例中，还包括纠正模块，纠正模块包括特征匹配子模块、特征提取子模块、特征分析子模块和形近字库；

特征匹配子模块用于根据识别模块输出的识别结果在形近字库中进行查阅，判断是否为形近字库内的文字，当判断为是时，提取相应的库内文字；

特征提取子模块用于对库内文字和文字掩膜进行特征提取；

特征分析子模块用于根据文字掩膜的特征和各库内文字的特征进行相似度计算，并将相似度最高的一组中对应库内文字作为最终识别结果，参与评测。

本发明通过预先建立形近字库对形近字进行匹配分析，无需结合文字的上下文信息也可实现单字识别，拓展了文字识别的应用场景；此外，本发明还提供了两个阶段的文字识别方法，即文字初步识别，利用已知的形近字库，识别形近字，使非形近字能直接跳过纠正阶段输出识别结果，保证整体的文字识别效率，同时使形近字能进一步进行有效纠正，使本发明更具有精确度上的提升。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下，在其它实施例中实现。因此，本发明将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims

1.一种形近字单字识别方法，其特征在于，包括以下步骤：

获取待识别形近字，具体包括：采用预先训练的YOLOv5检测文字，并进行图像裁剪，采用OTSU算法对裁剪的图像进行自适应二值化，得到文字掩膜，作为待识别文字，通过预先训练的分类器对所述待识别文字进行文字识别，得到待识别形近字；

根据预先构建的形近字库，得到待识别形近字的标准字集合，具体包括：所述分类器计算输出经过softmax后获得每个汉字类别的置信度，取置信度最大的类别作为分类结果，当所述分类结果为非形近时，直接输出识别结果；当所述分类结果为形近时，则根据所述预先构建的形近字库输出对应汉字类别的标准字集合；

2.根据权利要求1所述的一种形近字单字识别方法，其特征在于，所述形近字库由多组形近标准字集合构成。

3.根据权利要求1所述的一种形近字单字识别方法，其特征在于，计算特征相似度，步骤为：

4.根据权利要求1所述的一种形近字单字识别方法，其特征在于，通过预先训练的分类器对所述待识别文字进行文字识别，得到待识别形近字，步骤包括：所述分类器为ResNet18神经网络，用于文字掩膜的识别。

5.根据权利要求4所述的一种形近字单字识别方法，其特征在于，所述分类器进行训练时，损失函数采用交叉熵损失函数并通过SGD优化器进行网络优化。