CN116543400A - 一种错字识别方法、装置设备及介质 - Google Patents
一种错字识别方法、装置设备及介质 Download PDFInfo
- Publication number
- CN116543400A CN116543400A CN202310608977.0A CN202310608977A CN116543400A CN 116543400 A CN116543400 A CN 116543400A CN 202310608977 A CN202310608977 A CN 202310608977A CN 116543400 A CN116543400 A CN 116543400A
- Authority
- CN
- China
- Prior art keywords
- character
- image
- recognition
- stroke sequence
- stroke
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000012549 training Methods 0.000 claims description 42
- 238000000605 extraction Methods 0.000 claims description 26
- 238000010586 diagram Methods 0.000 claims description 23
- 238000003860 storage Methods 0.000 claims description 10
- 108091026890 Coding region Proteins 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 3
- 238000005520 cutting process Methods 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 238000004891 communication Methods 0.000 description 9
- 238000004590 computer program Methods 0.000 description 9
- 238000012545 processing Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 6
- 238000012937 correction Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000002776 aggregation Effects 0.000 description 3
- 238000004220 aggregation Methods 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 238000003786 synthesis reaction Methods 0.000 description 3
- 230000003993 interaction Effects 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000011049 filling Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004816 latex Substances 0.000 description 1
- 229920000126 latex Polymers 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 238000007639 printing Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/32—Digital ink
- G06V30/333—Preprocessing; Feature extraction
- G06V30/347—Sampling; Contour coding; Stroke extraction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
- G06V30/1801—Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本公开涉及一种错字识别方法、装置设备及介质,该方法包括:获取待识别的单字符图像;通过预设的整字识别模型对单字符图像进行字符识别,得到识别字符和识别字符的置信度;通过预设的笔画序列识别模型对单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;根据识别字符的置信度和第一笔画序列确定目标字符是否为书写错误字符。本公开能够较准确地实现错字识别。
Description
技术领域
本公开涉及图像处理技术领域,尤其涉及一种错字识别方法、装置设备及介质。
背景技术
在日常书写中,主要存在错字和别字两种错误书写方式,别字为字结构正确但用法错误,错字为字结构错误,如多写一笔。目前通过文本比对等智能批改方法很容易识别批改别字,但针对错字却很难进行识别。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种错字识别方法、装置设备及介质。
根据本公开的一方面,提供了一种错字识别方法,包括:
获取待识别的单字符图像;
通过预设的整字识别模型对所述单字符图像进行字符识别,得到识别字符和所述识别字符的置信度;
通过预设的笔画序列识别模型对所述单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;
根据所述识别字符的置信度和所述第一笔画序列确定所述目标字符是否为书写错误字符。
根据本公开的另一方面,提供了一种错字识别装置,包括:
图像获取模块,用于获取待识别的单字符图像;
整字识别模块,用于通过预设的整字识别模型对所述单字符图像进行字符识别,得到识别字符和所述识别字符的置信度;
笔画识别模块,用于通过预设的笔画序列识别模型对所述单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;
错字识别模块,用于根据所述识别字符的置信度和所述第一笔画序列确定所述目标字符是否为书写错误字符。
根据本公开的另一方面,提供了一种电子设备,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,当所述计算机指令在终端设备上运行时,使得所述终端设备实现上述方法。
本公开实施例提供的技术方案与现有技术相比具有如下优点:
本公开实施例提供的一种错字识别方法、装置设备及介质,包括:获取待识别的单字符图像;通过预设的整字识别模型对单字符图像进行字符识别,得到识别字符和识别字符的置信度;通过预设的笔画序列识别模型对单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;根据识别字符的置信度和第一笔画序列确定目标字符是否为书写错误字符。本公开能够较准确地实现对书写错误字符的识别。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的错字识别方法流程图;
图2为本公开实施例提供的错字示意图;
图3为本公开实施例提供的错字识别过程示意图;
图4为本公开实施例提供的一种训练图像示意图;
图5为本公开实施例提供的另一种训练图像示意图;
图6为本公开实施例提供的错字识别装置的结构示意图;
图7为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
智能批改是一种基于计算机视觉技术辅助人们学习、工作的方法,可以基于题库对选择题、填空题、应用题等书写内容进行识别和批改,但目前的智能批改方法尚无法针对错字进行识别批改。基于此,本公开实施例提供一种错字识别方法、装置、设备及介质,该技术可以应用于工作学习中对错字有识别批改需求的场景,例如,处在认字练字阶段的低年级学生,需要尽早对其进行规范及引导,于是可以利用本技术方案对其书写内容中的错字进行识别批改。为便于理解,以下对本公开实施例展开描述。
图1为本公开实施例提供的一种错字识别方法流程图。本方法可以应用于错字识别装置,该装置可以采用软件和/或硬件的方式实现。如图1所示,该错字识别方法可以包括以下步骤。
步骤S102,获取待识别的单字符图像。
本实施例可以通过图像拍摄操作或图像上传操作等方式获取包含至少一个字符的原始图像;为了对原始图像上的各个字符逐一进行识别,可以从原始图像上裁剪各个字符对应的单字符图像,对各个单字符图像中的字符进行错字识别。
在获取到单字符图像后,将单字符图像分别输入至预设的整字识别模型和笔画序列识别模型。
步骤S104,通过预设的整字识别模型对单字符图像进行字符识别,得到识别字符和识别字符的置信度。
整字识别模型的输入为单字符图像,对单字符图像中目标字符的整体进行文本识别,以输出多个字符识别结果和对应的置信度,再利用置信度从多个字符识别结果中确定最终的识别字符。
步骤S106,通过预设的笔画序列识别模型对单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列。
笔画序列识别模型的输入为单字符图像,基于transfomer结构对单字符图像中目标字符的笔画序列进行识别,以输出目标字符对应的第一笔画序列。
步骤S108,根据识别字符的置信度和第一笔画序列确定目标字符是否为书写错误字符。
由于笔画序列正确并不表示字书写正确,如图2展示了书写错误的“丘”、“王”、“田”;以“丘”为例,其第一笔画序列为:撇、竖、横、竖、横,虽然该第一笔画序列是正确的,但是其中的一个笔画“竖”书写过长而穿过了笔画“横”,显然为书写错误。从而,本实施例在第一笔画序列的基础上结合识别字符及置信度,也即综合笔画序列识别模型和整字识别模型的结果,共同判断单字符图像上目标字符为书写错误还是书写正确的字符。
本实施例提供的错字识别方法,针对待识别的单字符图像,分别地通过整字识别模型识别单字符图像的识别字符和置信度,以及通过笔画序列识别模型识别单字符图像中目标字符的第一笔画序列;由于识别字符及其置信度能够表示字符识别结果的准确性,第一笔画序列能够体现字符书写结构的规范性,于是根据识别字符的置信度和第一笔画序列共同确定目标字符是否为书写错误字符。该技术方案通过综合考虑识别字符的置信度和第一笔画序列,能够较准确地实现对书写错误字符的识别。
为便于理解,以下对本公开实施例提供的错字识别方法展开详细描述。
在一种获取待识别的单字符图像的实施例中,可以包括如下内容。
首先,获取包括至少一个字符的原始图像。该原始图像诸如是利用智能硬件的摄像头对学生的作业进行拍照得到的图像,其包含的字符可以为手写体和/或打印体。
考虑到获取的原始图像可能存在尺寸差异,为了简化图像处理,本实施例可以利用双线性插值法将原始图像转化为宽高为预设值、通道数为3的图像,并利用处理后的原始图像进行检测和裁剪等后续处理。
其次,检测原始图像中各字符的文本框位置。参照图3,本实施例可以将处理后的原始图像输入至预设的检测模型,利用检测模型检测原始图像中各字符的文本框位置。
在一种实施例中,检测模型可以包括特征提取网络、上采样模块和两个卷积模型。在检测时,通过特征提取网络对原始图像进行特征提取,得到第一特征图。示例性的,可以选择DLA(Deep Layer Aggregation,深度聚合)网络作为特征提取网络,该网络是一种深层聚合网络,与resnet、densenet等相比,该网络在性能上有较大提升。利用特征提取网络对原始图像进行特征提取,得到尺寸为h*w*n的第一特征图(具体如30*20*512),其中h代表第一特征图的高,w代表第一特征图的宽,n代表通道数。
特征提取网络将第一特征图输入至上采样模块,通过上采样模块对第一特征图进行上采样,得到第二特征图。本实施例可以采用反卷积作为上采样模块;沿用上述示例中30*20*512的第一特征图,上采样模块对第一特征图进行上采样,得到240*160*64的第二特征图。
上采样模块将第二特征图分别输入至两个卷积模块,通过两个卷积模块分别对第二特征图进行卷积操作,得到各自对应的中心点热力图和宽高预测图;其中,中心点热力图中的像素点具有表示字符中心点概率的热力值。
根据预设的热力值阈值对中心点热力图中的像素点进行过滤,得到原始图像中各字符的中心点位置。仍沿用上述示例,中心点热力图为240*160*1的张量,宽高均为原始图像的宽高的1/4。中心点热力图上一个像素点的热力值,表示该像素点在原始图像上所对应的4*4区域是否为某一字符中心点的概率。以中心点热力图上坐标为(x1,y1)处的像素点举例,若坐标(x1,y1)处的热力值大于热力值阈值,则确定该像素点在原始图像中所对应的4*4区域为某一字符的中心点;反之,若坐标(x1,y1)处的热力值不大于热力值阈值,则确定该像素点在原始图像中所对应的4*4区域为背景。
将宽高预测图中各中心点位置处的值确定为各字符的文本框的尺寸。在实现时,宽高预测图为240*160*2的张量,该宽高预测图的宽和高与中心点热力图相同,但通道数为2,因此宽高预测图实际为两个240*160*1的张量堆叠而成,两个张量为张量W和张量H,分别用于预测文本框的宽和高。具体的,对于利用中心点热力图确定的中心点的位置坐标(x1,y1),获取张量W中在坐标(x1,y1)处的值,该值为文本框的宽;以及,获取张量H在坐标(x1,y1)处的值,该值为文本框的高;从而,采用上述宽和高确定文本框的尺寸。相应的,基于中心点位置和文本框的尺寸确定原始图像中各字符的文本框位置。
接下来,根据文本框位置从原始图像中对各字符进行裁剪,得到各字符对应的单字符图像。本实施例可以根据本文框位置,将原始图像中各字符的文本区域裁剪下来,再利用双线性插值法将裁剪下来的图像调整为预设高宽的单字符图像。
参照图3,将单字符图像分别输入至整字识别模型和笔画序列识别模型,以进行字符识别和笔画序列识别。
在本实施例中,整字识别模型包括第一特征提取层和全连接层;通过整字识别模型对单字符图像进行字符识别可以包括:
通过整字识别模型的第一特征提取层对单字符图像进行特征提取,得到第三特征图。在一实现方式中,整字识别模型可以采用优化后的Resnet18作为第一特征提取层。将单字符图像输入至整字识别模型的第一特征提取层,第一特征提取层对单字符图像进行特征提取,得到维度为1*1*512的第三特征图,其中512为通道数。
第三特征图将第三特征图输入至全连接层,通过全连接层对第三特征图进行特征融合,得到第三特征图中的多个候选字符和候选字符的置信度。以及,将置信度最大的候选字符确定为单字符图像的识别字符。
具体示例中,上述全连接层的输入维度为512,输出维度为2500,即要识别的字符的类别数。全连接层对第三特征图进行特征融合,得到维度1*1*2500的张量,该张量第三个维度上的多个值表示多个候选字符索引及对应的置信度。确定置信度最大的候选字符索引,在记录字符及字符索引之间映射关系的字符表中,检索上述置信度最大的候选字符索引对应的字符,将检索到的字符确定为单字符图像的识别字符,以及获取识别字符的置信度。如图3示例,通过整字识别模型输出的识别字符为“丘”,其置信度为0.95。
在本实施例中,笔画序列识别模型包括第二特征提取层和自注意力层;通过笔画序列识别模型对单字符图像中目标字符的笔画序列进行识别可以包括:
通过笔画序列识别模型的第二特征提取层对单字符图像进行特征提取,得到第四特征图。在一实现方式中,笔画序列识别模型采用优化后Resnet18作为第二特征提取层,所做的优化为调整了Resnet中的池化尺寸以使得输出特征图宽高均为4。将单字符图像输入至笔画序列识别模型的第二特征提取层,第二特征提取层对单字符图像进行特征提取,得到维度为4*4*512的第四特征图,第四特征图的高和宽均为4,512为通道数。
通过自注意力层(transformer)对第四特征图中的目标字符进行笔画识别,得到第一笔画序列。具体实现时,可以先对第四特征图进行矩阵变换,得到维度为1*16*512的笔画张量;其中,矩阵变换可以为reshape操作,reshape能够保证张量内容不变,在张量维度层面进行重新组织张量,如2*2的二维特征图,将第1列与第2列首位相接,可得到维度为1*4的张量。然后将笔画张量输送至自注意力层,自注意力层对第四特征图中的目标字符进行笔画序列识别,得到多个目标笔画编码;根据预先建立的用于记录笔画对应的笔画编码的字符表,检索各目标笔画编码对应的笔画,得到第一笔画序列。如图3示例,通过笔画识别模型输出的第一笔画序列为“撇、竖、横、竖、横”。
根据以上实施例得到的识别字符的置信度以及第一笔画序列,可以确定目标字符是否为书写错误字符,本实施例可以参照如下内容。
判断识别字符的置信度是否小于预设置信度阈值;如果是,表示未能识别到较准确地字符,在此情况下,可以直接确定目标字符为书写错误字符。
如果否,则根据预设的字符与笔画序列之间的对应关系,检索识别字符对应的第二笔画序列。在识别字符的置信度不小于置信度阈值的情况下,可以认为识别字符是单字符图像中目标字符的正确识别结果,在此情况下,检索该识别字符对应的第二笔画序列。
而后,比对第一笔画序列和第二笔画序列是否相同,并在比对不相同的情况下,确定目标字符为书写错误字符。在第一笔画序列和第二笔画序列比对不相同的情况下,表示整字识别模型和笔画序列识别模型中有至少一个模型输出的识别结果是错误的;可以理解,识别错误有极大概率是书写错误导致的。基于此,可以在以上两者比对不相同的情况下,确定目标字符为书写错误字符。相应的,在比对相同的情况下,确定目标字符为书写正确字符。
为了使以上实施例中的整字识别模型和笔画序列识别模型可以直接应用于错字识别,需要事先训练上述模型。对此,本实施例对整字识别模型和笔画序列识别模型的训练过程展开描述。
在本实施例中,对整字识别模型进行训练的过程可参照如下所示。
(1)获取训练图像和训练图像中的真实字符。在实际应用中,根据国家颁布的小学语文教学大纲,小学阶段学生需掌握2500个常用字的书写,基于此,本实施例以这2500个常用字为参考来获取训练图像。当然,上述语文教学中的常用字仅为一种训练图像的示例,在实际应用中可拓展至更多字符。
本实施例可以通过opencv合成和人工手写等方式获取训练图像,每张训练图像包括一个字符,字符为合成的整字(如图4在最左边所示的“丘”)或手写的整字(如图5最左边所示的“丘”)。其中,opencv合成过程中可以使用不同字体并加以图像增强,以提高模型鲁棒性。
当通过opencv合成训练图像时,可直接得到训练图像的真实字符,当通过手写方式获取训练图像时,可通过人工标注的方式得到训练图像的真实字符。
(2)根据预先建立的第一字符表对真实字符进行编码,得到样本字符编码;其中,第一字符表用于记录多个字符对应的字符编码。
(3)将样本字符编码标注于训练图像,并利用标注样本字符编码的训练图像对整字识别模型进行训练。对整字识别模型进行训练可参照现有的模型训练方法,在此不再展开描述。
在本实施例中,对笔画序列识别模型进行训练的过程可参照如下所示。
(I)获取训练图像和训练图像中的真实字符对应的样本笔画序列。本实施例可以通过opencv合成和人工手写等方式获取训练图像,每组训练图像包括整体图像和笔画图像。训练图像中的整字图像和笔画图像可参照图4和图5所示,整字图像对应于整字“丘”,笔画图像分别对应于笔画序列“撇、竖、横、竖、横”,图4为通过opencv合成的训练图像,图5为通过手写方式获得的训练图像。
(II)根据预先建立的第二字符表对样本笔画序列进行编码,得到样本笔画编码序列;其中,第二字符表用于记录多个笔画对应的笔画编码。考虑组成汉字的笔画及汉字书写规则,可以将常用字解构为笔画序列,参照如下表1所示的第二字符表,建立汉字基本笔画及笔画编码之间的对应关系。
表1:第二字符表
以整字“丘”为例,其解构得到笔画序列为“撇、竖、横、竖、横”,根据第二字符表对样本笔画序列进行编码,得到如下样本笔画编码序列“5-3-1-3-1”。
(III)将样本笔画编码序列标注于训练图像,并利用标注样本笔画编码序列的训练图像对笔画序列识别模型进行训练。对笔画序列识别模型进行训练可参照现有的模型训练方法,在此不再展开描述。
综上,本公开实施例提供的错字识别方法,将单字符图像分别输入至整字识别模型和笔画序列识别模型,整字识别模型识别单字符图像的识别字符和置信度,笔画序列识别模型借鉴公式识别的思想,类似于将公式识别为latex序列,笔画序列识别模型基于transfomer结构将单字符图像识别为第一笔画序列。而后根据识别字符的置信度和第一笔画序列确定目标字符是否为书写错误字符;其中,识别字符及其置信度能够表示字符识别结果的准确性,第一笔画序列能够体现字符书写结构的规范性,因此,通过综合考虑识别字符的置信度和第一笔画序列,能够较准确地实现对书写错误字符进行识别。
图6为本公开实施例提供的一种错字识别装置结构框图。本装置可以用于实现上述实施例提供的错字识别方法。如图6所示,错字识别装置600可以包括以下模块。
图像获取模块602,用于获取待识别的单字符图像;
整字识别模块604,用于通过预设的整字识别模型对所述单字符图像进行字符识别,得到识别字符和所述识别字符的置信度;
笔画识别模块606,用于通过预设的笔画序列识别模型对所述单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;
错字识别模块608,用于根据所述识别字符的置信度和所述第一笔画序列确定所述目标字符是否为书写错误字符。
本实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图7,现将描述可以作为本公开的服务器或客户端的电子设备700的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图7所示,电子设备700包括计算单元701,其可以根据存储在只读存储器(ROM)702中的计算机程序或者从存储单元708加载到随机访问存储器(RAM)703中的计算机程序,来执行各种适当的动作和处理。在RAM 703中,还可存储电子设备700操作所需的各种程序和数据。计算单元701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
电子设备700中的多个部件连接至I/O接口705,包括:输入单元706、输出单元707、存储单元708以及通信单元709。输入单元706可以是能向电子设备700输入信息的任何类型的设备,输入单元706可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元707可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元708可以包括但不限于磁盘、光盘。通信单元709允许电子设备700通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元701可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元701的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元701执行上文所描述的各个方法和处理。例如,在一些实施例中,错字识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元708。在一些实施例中,计算机程序的部分或者全部可以经由ROM702和/或通信单元709而被载入和/或安装到电子设备700上。在一些实施例中,计算单元701可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行错字识别方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (11)
1.一种错字识别方法,其特征在于,包括:
获取待识别的单字符图像;
通过预设的整字识别模型对所述单字符图像进行字符识别,得到识别字符和所述识别字符的置信度;
通过预设的笔画序列识别模型对所述单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;
根据所述识别字符的置信度和所述第一笔画序列确定所述目标字符是否为书写错误字符。
2.根据权利要求1所述的方法,其特征在于,所述根据所述识别字符的置信度和所述第一笔画序列确定所述目标字符是否为书写错误字符,包括:
判断所述识别字符的置信度是否小于预设置信度阈值;
如果是,则确定所述目标字符为书写错误字符;
如果否,则根据预设的字符与笔画序列之间的对应关系,检索所述识别字符对应的第二笔画序列;
比对所述第一笔画序列和所述第二笔画序列是否相同,并在比对不相同的情况下,确定所述目标字符为书写错误字符。
3.根据权利要求1所述的方法,其特征在于,所述获取待识别的单字符图像,包括:
获取包括至少一个字符的原始图像;
检测所述原始图像中各字符的文本框位置;
根据所述文本框位置从所述原始图像中对各所述字符进行裁剪,得到各所述字符对应的单字符图像。
4.根据权利要求3所述的方法,其特征在于,所述检测所述原始图像中各字符的文本框位置,包括:
通过特征提取网络对所述原始图像进行特征提取,得到第一特征图;
对所述第一特征图进行上采样,得到第二特征图;
通过两个卷积模块分别对所述第二特征图进行卷积操作,得到各自对应的中心点热力图和宽高预测图;其中,所述中心点热力图中的像素点具有表示字符中心点概率的热力值;
根据预设的热力值阈值对所述中心点热力图中的像素点进行过滤,得到所述原始图像中各字符的中心点位置;
将所述宽高预测图中各所述中心点位置处的值确定为各所述字符的文本框的尺寸;
基于所述中心点位置和所述文本框的尺寸确定所述原始图像中各字符的文本框位置。
5.根据权利要求1所述的方法,其特征在于,所述整字识别模型包括第一特征提取层和全连接层;所述通过预设的整字识别模型对所述单字符图像进行字符识别,得到识别字符,包括:
通过整字识别模型的第一特征提取层对所述单字符图像进行特征提取,得到第三特征图;
通过所述全连接层对所述第三特征图进行特征融合,得到所述第三特征图中的多个候选字符和所述候选字符的置信度;
将置信度最大的候选字符确定为所述单字符图像的识别字符。
6.根据权利要求1所述的方法,其特征在于,所述笔画序列识别模型包括第二特征提取层和自注意力层;所述通过预设的笔画序列识别模型对所述单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列,包括:
通过笔画序列识别模型的第二特征提取层对所述单字符图像进行特征提取,得到第四特征图;
通过所述自注意力层对所述第四特征图中的目标字符进行笔画识别,得到第一笔画序列。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取训练图像和所述训练图像中的真实字符;
根据预先建立的第一字符表对所述真实字符进行编码,得到样本字符编码;其中,所述第一字符表用于记录多个字符对应的字符编码;
将所述样本字符编码标注于所述训练图像,并利用标注所述样本字符编码的训练图像对所述整字识别模型进行训练。
8.根据权利要求6所述的方法,其特征在于,所述方法还包括:
获取训练图像和所述训练图像中的真实字符对应的样本笔画序列;
根据预先建立的第二字符表对所述样本笔画序列进行编码,得到样本笔画编码序列;其中,所述第二字符表用于记录多个笔画对应的笔画编码;
将所述样本笔画编码序列标注于所述训练图像,并利用标注所述样本笔画编码序列的训练图像对所述笔画序列识别模型进行训练。
9.一种错字识别装置,其特征在于,包括:
图像获取模块,用于获取待识别的单字符图像;
整字识别模块,用于通过预设的整字识别模型对所述单字符图像进行字符识别,得到识别字符和所述识别字符的置信度;
笔画识别模块,用于通过预设的笔画序列识别模型对所述单字符图像中目标字符的笔画序列进行识别,得到第一笔画序列;
错字识别模块,用于根据所述识别字符的置信度和所述第一笔画序列确定所述目标字符是否为书写错误字符。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8中任一所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,当所述计算机指令在终端设备上运行时,使得所述终端设备实现如权利要求1-8中任一所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310608977.0A CN116543400A (zh) | 2023-05-25 | 2023-05-25 | 一种错字识别方法、装置设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310608977.0A CN116543400A (zh) | 2023-05-25 | 2023-05-25 | 一种错字识别方法、装置设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116543400A true CN116543400A (zh) | 2023-08-04 |
Family
ID=87450582
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310608977.0A Pending CN116543400A (zh) | 2023-05-25 | 2023-05-25 | 一种错字识别方法、装置设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116543400A (zh) |
-
2023
- 2023-05-25 CN CN202310608977.0A patent/CN116543400A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10762376B2 (en) | Method and apparatus for detecting text | |
US20220114750A1 (en) | Map constructing method, positioning method and wireless communication terminal | |
US9014480B2 (en) | Identifying a maximally stable extremal region (MSER) in an image by skipping comparison of pixels in the region | |
CN114155546B (zh) | 一种图像矫正方法、装置、电子设备和存储介质 | |
CN106980856B (zh) | 公式识别方法及系统和符号推理计算方法及系统 | |
CN114022887B (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN115100659A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN111435407A (zh) | 错别字的纠正方法、装置、设备及存储介质 | |
CN113850238B (zh) | 文档检测方法、装置、电子设备及存储介质 | |
CN113850239B (zh) | 多文档检测方法、装置、电子设备及存储介质 | |
CN113255629B (zh) | 文档处理方法、装置、电子设备及计算机可读存储介质 | |
CN116543400A (zh) | 一种错字识别方法、装置设备及介质 | |
CN113486171B (zh) | 一种图像处理方法及装置、电子设备 | |
CN112308062B (zh) | 一种复杂背景图像中的医疗影像访问号识别方法 | |
CN115376137A (zh) | 一种光学字符识别处理、文本识别模型训练方法及装置 | |
CN114663886A (zh) | 文本识别方法、模型的训练方法及装置 | |
CN114494678A (zh) | 文字识别方法和电子设备 | |
CN113052156A (zh) | 光学字符识别方法、装置、电子设备和存储介质 | |
CN116563864B (zh) | 页码识别方法、装置、电子设备及可读存储介质 | |
CN116386049A (zh) | 公式识别方法、装置、设备及存储介质 | |
CN113850805A (zh) | 多文档检测方法、装置、电子设备及存储介质 | |
CN114708581A (zh) | 一种图像处理方法、装置、电子设备和存储介质 | |
CN116798048A (zh) | 一种文本识别方法、装置、设备和存储介质 | |
CN116912849A (zh) | 文档恢复方法、装置、电子设备及存储介质 | |
CN115063822A (zh) | 文档检测方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |