CN115294581A - 错误字符的识别方法、装置、电子设备及存储介质 - Google Patents
错误字符的识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115294581A CN115294581A CN202210917853.6A CN202210917853A CN115294581A CN 115294581 A CN115294581 A CN 115294581A CN 202210917853 A CN202210917853 A CN 202210917853A CN 115294581 A CN115294581 A CN 115294581A
- Authority
- CN
- China
- Prior art keywords
- character
- target
- error
- text image
- recognized
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/1914—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries, e.g. user dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/48—Extraction of image or video features by mapping characteristic values of the pattern into a parameter space, e.g. Hough transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
- G06V10/765—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects using rules for classification or partitioning the feature space
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/768—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/772—Determining representative reference patterns, e.g. averaging or distorting patterns; Generating dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/18—Extraction of features or characteristics of the image
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19127—Extracting features by transforming the feature space, e.g. multidimensional scaling; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19147—Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供一种错误字符的识别方法、装置、电子设备及存储介质,属于图像处理领域。该方法包括:获取待识别文本图像;对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,所述字符识别结果包括至少一个字符和所述字符的识别概率;在基于所述识别概率确定所述待识别文本图像中存在目标错误字符时,获取所述目标错误字符在所述待识别文本图像中的上下文信息;基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息;对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别。采用本公开,可以识别错误字符的错误类别。
Description
技术领域
本发明涉及图像处理领域,尤其涉及一种错误字符的识别方法、装置、电子设备及存储介质。
背景技术
在教育场景下,或者说在作业批改中字词听写的场景下,判断学生写错了哪个字,同时指出他错在了哪里至关重要。
目前的文本识别方法按照输入图像中文本行数量可以分为单行识别和多行识别,按照标注方式来说有基于字符和基于序列两种,总的来说单行和基于序列的方法是主流,形成了矫正部分、特征提取部分、识别解码部分依次结合的文本识别方法范式,大部分方法遵循这样的范式,针对弯曲文本、模糊文本等多种问题进行具体改进。
但就中文识别而言,很少有针对其错字进行具体识别的方法,大多数识别为二分类的识别,即识别是否为错字,但并不能识别具体错在何处。
发明内容
有鉴于此,本公开实施例提供了一种错误字符的识别方法、装置、电子设备及存储介质,以解决不能识别错字的错误类别的问题。
根据本公开的一方面,提供了一种错误字符的识别方法,上述方法包括:
获取待识别文本图像;
对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,所述字符识别结果包括至少一个字符和所述字符的识别概率;
在基于所述识别概率确定所述待识别文本图像中存在目标错误字符时,获取所述目标错误字符在所述待识别文本图像中的上下文信息;
基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息;
对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别。
根据本公开的另一方面,提供了一种文本识别装置,上述装置包括:
获取模块,用于获取待识别文本图像;
第一识别模块,用于对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,所述字符识别结果包括至少一个字符和所述字符的识别概率;
第二识别模块,用于在基于所述识别概率确定所述待识别文本图像中存在目标错误字符时,获取所述目标错误字符在所述待识别文本图像中的上下文信息;基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息;对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别。
根据本公开的另一方面,提供了一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,上述程序包括指令,上述指令在由上述处理器执行时使上述处理器执行上述错误字符的识别方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,上述计算机指令用于使计算机执行上述错误字符的识别方法。
本公开中,通过目标字符在正确字符字典中的位置信息和目标错误字符在待识别文本图像中的上下文信息,对目标错误字符的错误类别进行识别,由于目标字符在正确字符字典中的位置唯一,在使用位置信息进行识别时,可以定位到该目标字符的错误分类中,分类数量减少,从而可以有效降低解空间,在识别错误类别的同时提高错误字符的识别效率。
附图说明
在下面结合附图对于示例性实施例的描述中,本公开的更多细节、特征和优点被公开,在附图中:
图1示出了根据本公开示例性实施例提供的错误字符的识别方法流程图;
图2示出了根据本公开示例性实施例提供的字符识别方法流程图;
图3示出了根据本公开示例性实施例提供的模型训练方法流程图;
图4示出了根据本公开示例性实施例提供的错误字符的识别装置的示意性框图;
图5示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。
具体实施方式
下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例,然而应当理解的是,本公开可以通过各种形式来实现,而且不应该被解释为限于这里阐述的实施例,相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是,本公开的附图及实施例仅用于示例性作用,并非用于限制本公开的保护范围。
应当理解,本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行,和/或并行执行。此外,方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
本文使用的术语“包括”及其变形是开放性包括,即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”;术语“另一实施例”表示“至少一个另外的实施例”;术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意,本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
需要注意,本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的,本领域技术人员应当理解,除非在上下文另有明确指出,否则应该理解为“一个或多个”。
本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的,而并不是用于对这些消息或信息的范围进行限制。
为了清楚阐明本公开提供的技术方案,首先对本公开所涉及的技术背景进行介绍。
现在常见的文本识别方案主要针对印刷体和手写体,而印刷体和手写体里面又包括不同的语言,因此关于文本识别方法的研究也主要集中在改善图像质量、增加语义信息、充分利用位置信息和多语种识别等方向,基本没有针对错别字识别的研究。主要原因有三,一是对于印刷体几乎不存在错别字,二是手写体信息中的错别字也比较少,三是识别模型都需要字典实现从概率位置到字符的转换,而一个字可能会有各种书写错误,难以处理。总的来说,就是现在的识别方法可以对错字进行二分类(将所有错字归为一类),但是没法具体指出某个字错在了哪里。但是在教育场景下,或者说在作业批改中字词听写的场景下,判断学生写错了哪个字,同时指出他错在了哪里至关重要。
就中文识别而言,很少有针对其错字进行具体识别的方法,同时因其字典庞大,每个单字可以有多种写错的可能,比如“因”这个字如果少写“一”,那么就是“囚”字,不算错字,但是多写“一”,里面是个“夫”字,那就是错字,或者说把“一”写成“|”那么也是错字,故而如果把所有的可能错误写法全部加入字典,那么不仅会增加分类的类别数量,同时也很难收集到各种错误写法对应的数据样本,这就会造成样本分布不平衡,识别效果很差。
为了解决上述技术问题,本公开提供了一种错误字符的识别方法,该方法基于分阶段的技术构思可以降低识别的错误分类数量,极大地降低了识别难度。该方法可以由终端、服务器和/或其他具备处理能力的设备完成。本公开实施例提供的方法可以由上述任一设备完成,也可以由多个设备共同完成,本公开对此不作限定。
下面将参照图1示出的错误字符的识别方法流程图,对该方法进行介绍。该方法包括如下步骤101-105。
步骤101,获取待识别文本图像。
在一种可能的实施方式中,当需要对图像中的字符进行识别时,可以触发识别信号,并获取待识别文本图像。例如,用户可以使用终端对图像进行拍摄,并点击识别文本的选项,进而触发识别信号。又例如,用户可以长按终端显示的图像,并在终端显示识别文本的选项后点击该选项,进而触发识别信号。本实施例对触发识别信号的具体场景不作限定。
在一些应用场景中,待识别文本图像可以为包括书写笔迹的图像,由于可能存在笔误,待识别文本图像中可以包括正确字符和/或错误字符。
步骤102,对待识别文本图像进行处理,得到待识别文本图像的字符识别结果。
其中,字符识别结果包括至少一个字符和字符的识别概率。
在一种可能的实施方式中,可以通过预先训练的文本识别模型对待识别文本图像进行处理,识别该待识别文本图像中包括的至少一个字符,并且可以得到每个字符对应的识别概率,从而将识别得到的至少一个字符和每个字符对应的识别概率,作为待识别文本图像的字符识别结果进行输出。
可选的,参照图2示出的字符识别方法流程图,上述步骤102的具体处理可以如下步骤201-205:
步骤201,对待识别文本图像进行特征提取,得到待识别文本图像的特征映射向量;
步骤202,基于特征映射向量,构建多个上下文信息;
步骤203,分别对每个上下文信息进行处理,得到每个上下文信息对应的字符识别概率;
步骤204,基于正确字符字典和字符识别概率,确定每个上下文信息对应的识别结果;
步骤205,基于识别结果,得到至少一个字符和字符的识别概率,并生成待识别文本图像的字符识别结果。
在一种可能的实施方式中,文本识别模型可以包括3个部分,具体可以为特征提取模块、上下文构建模块、解码模块。
当接收到上述待识别文本图像时,可以将待识别文本图像输入特征提取模块。在特征提取模块中,可以对待识别文本图像进行处理,提取待识别文本图像中的特征信息,得到待识别文本图像的特征映射向量。作为一种示例,特征提取模块可以采用Resnet18网络(一种残差网络)。
将上述特征映射向量输入上下文构建模块,进行上下文建模,并输出加强了序列关系的一组特征映射。作为一种示例,上下文构建模块可以采用两层双向LSTM(LongShort-Term Memory,长短期记忆网络)。
将上述加强了序列关系的一组特征映射输入解码模块,在解码模块中基于序列关系输出每个时间步的上下文信息和该上下文信息对应的字符识别概率(即上述识别结果),即可得到多个上下文信息以及每个上下文信息对应的字符识别概率。作为一种示例,解码模块可以采用一个注意力层和一个GRU(Gate Recurrent Unit,门循环单元)层,基于上述加强了序列关系的一组特征映射具有多个时间步,解码模块可以对其按照时间步进行解码得到多个隐状态向量。在每个时间步中,以上一个时间步的隐状态向量作为查询向量,以上述加强了序列关系的一组特征映射作为值向量和键向量,根据查询向量、值向量和键向量计算得到注意力得分,并根据注意力得分计算得到上下文向量(即上述上下文信息),然后以该上下文向量和上一个时间步的字符识别概率作为GRU层的输入,可以得到当前时间步的隐状态向量,再根据当前时间步的隐状态向量和上下文向量可以得到当前时间步的字符识别概率。
文本识别模型可以具有预先设置的正确字符字典,该正确字符字典存储有多个预设字符,上述字符识别概率是指任一字符属于正确字符字典中每个预设字符的概率,作为一种示例,该字符识别概率可以为矩阵的形式,每一个矩阵位置代表一个预设字符,矩阵位置上的概率值代表待识别的字符为该矩阵位置的预设字符的概率。
在确定字符识别概率后,可以通过贪心解码或beamsearch(集束搜索)解码的方式,在正确字符字典中查找到待识别的字符。确定字符后,可以将该字符在字符识别概率矩阵中的概率值,作为该字符的识别概率。
步骤103,在基于识别概率确定待识别文本图像中存在目标错误字符时,获取目标错误字符在待识别文本图像中的上下文信息。
在一种可能的实施方式中,可以在上述字符识别结果中,将每个字符的识别概率与预先设置的概率阈值(如0.2)进行对比,判断待识别文本图像中是否存在错字。由于错字是指无中生有的字,无法在正确字符字典中查找到对应的字符,当存在错字时,计算得到的上述识别概率较小。当存在识别概率小于概率阈值的字符时,表明待识别文本图像中存在错字,则将待识别文本图像中该字符对应的错字作为目标错误字符,将该字符作为后续处理的目标字符。进而,可以获取上述步骤102中识别该目标字符所使用的上下文信息,该上下文信息也代表了目标错误字符在待识别文本图像中的图像信息。
步骤104,基于目标错误字符在字符识别结果中的目标字符和预先设置的正确字符字典,确定目标字符在正确字符字典中的位置信息。
在一种可能的实施方式中,目标字符在正确字符字典中存在唯一的位置,因此可以根据该位置确定目标字符的位置信息,具体处理可以如下:
在字符识别结果中,获取识别概率小于概率阈值的字符,作为目标错误字符在字符识别结果中的目标字符;获取目标字符在正确字符字典中的顺序信息;对顺序信息进行编码,确定目标字符在正确字符字典中的位置信息。
其中,确定目标字符的处理在上文已经介绍,此处不再赘述。
可以在正确字符字典中确定目标字符所处的顺序,并通过正余弦函数对该位置信息进行编码,得到目标字符的位置编码向量,作为目标字符在正确字符字典中的位置信息。需要说明的是,对于同一字符,不论该字符在不同的文本图像中处于何位置,通过上述方法确定的位置信息唯一。
步骤105,对上下文信息和位置信息进行处理,得到目标错误字符的错误类别。
在一种可能的实施方式中,上述位置信息对应于一个确定的字符,上下文信息可以代表目标错误字符在待识别文本图像中的图像信息,因此,通过对上下文信息和位置信息进行处理,可以针对该字符并结合目标错误字符在待识别文本图像中的图像信息,识别该字符之下可能的错误写法,得到目标错误字符的错误类别。
具体的,可以通过如下处理实现上述步骤105:
将上下文信息和位置信息逐点相加,得到目标错误字符的第一特征信息;
对第一特征信息进行处理,得到目标错误字符的第二特征向量,第二特征向量携带有目标错误字符的分类特征信息;
基于第二特征向量,识别目标错误字符的错误类别。
作为一种示例,可以采用Transformer模型(一种文本翻译模型)的编码器模块对上述第一特征信息进行处理,可选的,传统的编码器模块可以具有多个基础模块,本实施例中可以采用两个基础模块对上述第一特征信息进行处理。处理完成后,可以输出一个512维向量用作分类特征向量(即上述第二特征向量)。
由于分类特征向量可以携带有目标错误字符的分类特征信息,基于该分类特征向量可以识别得到目标错误字符的错误类别,具体处理可以如下:
对第二特征向量进行处理,计算目标错误字符的预设数目个分类概率;
获取目标字符对应的预设数目个错误分类;
基于预设数目个分类概率,在预设数目个错误分类中确定目标错误字符的错误类别。
作为一种示例,可以通过全连接层对上述第二特征向量进行处理,全连接层的节点数目为上述预设数目,代表预估的错误分类数目,每个节点输出对该节点对应的错误类别计算得到的分类概率。例如,全连接层的节点数目可以为10个,假定字符有10种错误的写法,分别为错误类别1到错误类别10,全连接层可以输出对每个错误类别计算的分类概率,分类概率越高,代表目标错误字符属于该错误类别的概率越高。
需要说明的是,上述预设数目可以是对每个字符统计得到的最大错误分类数目,对于错误分类数目不足该预设数目的字符,如错误分类包括错误类别1到错误类别5,对应于节点1到节点5,剩余的节点6到节点10计算得到的分类概率可以较小,不影响根据节点1到节点5计算得到的分类概率确定相应的错误类别。
可选的,可以通过错误字符字典存储每个预设字符的错误写法,每种错误写法对应于一个错误类别。上述正确字符字典可以存储有多个预设字符,错误字符字典可以存储有每个预设字符的预设数目个错误分类,每个预设字符在正确字符字典和错误字符字典的存储顺序相同。对于实际错误分类不足预设数目个的字符,可以使用空白符在错误字符字典中将错误分类补齐至预设数目个,本实施例对此不作限定。
在此基础上,上述获取目标字符对应的预设数目个错误分类的处理可以如下:根据位置信息,在预先设置的错误字符字典中,获取目标字符对应的预设数目个错误分类。由于每个预设字符在正确字符字典和错误字符字典的存储顺序相同,根据目标字符在正确字符字典中的位置信息,可以在错误字符字典中获取该目标字符对应的错误分类,从而在该目标字符的错误分类之下,确定目标错误字符的错误类别。
本实施例中,通过目标字符在正确字符字典中的位置信息和目标错误字符在待识别文本图像中的上下文信息,对目标错误字符的错误类别进行识别,由于目标字符在正确字符字典中的位置唯一,在使用位置信息进行识别时,可以定位到该目标字符的错误分类中,分类数量减少,从而可以有效降低解空间,在识别错误类别的同时提高错误字符的识别效率。例如,如果有6000个常用汉字,每个汉字假定10种写错的方式(即10个错误分类),则共存在60000个错误类别,增加了分类难度;而通过本实施例提供的方法,首先在6000个常用汉字中进行识别,当存在错字时,再通过该错字对应的正确汉字,定位到该汉字的10个错误分类,从而在这10个错误分类中确定具体的错误类别即可,降低了解空间的数量级。
上文提到的文本识别模型、编码器模块以及全连接层在使用之前可以进行模型训练,本实施例将对模型训练过程进行介绍。
参照图3示出的模型训练方法流程图,模型训练的方法包括如下步骤301-303。
步骤301,构建训练数据集。
在一种可能的实施方式中,收集大量的待识别手写文本图像(从文本排布上可以包括直文本、倾斜文本和弯曲文本图像,从图像质量上包括常规的模糊、影印的文本图像,以及其他一些文本图像,但这些文本图像都是单行文本图像),然后人工进行序列标注,如果文本图像中有错字,那么对这个错字做“EC”标识,然后标注对应的正确字符,以此得到训练数据集,其中所有文字都正确的样本构成正确字符对应的第一训练数据集,存在错误的文字的样本构成错误字符对应的第二训练数据集。
并且,还可以将第一训练数据集中的各个正确字符作为预设字符,建立上述正确字符字典。并在第二训练数据集中,将属于同一个字的所有可能错字的错误写法收集起来,建立上述错误字符字典。
步骤302,基于训练数据集对文本识别模型进行训练。
在一种可能的实施方式中,可以构建一个文本识别模型,具体结构包括上述特征提取模块、上下文构建模块和解码模块,文本识别模型中的处理与上述步骤102同理。对文本识别模型的训练可以分为两个阶段,第一阶段采用上述第一训练数据集进行训练,损失函数使用多分类交叉熵损失函数,训练完成时,文本识别模型可以实现正确字符的文本识别;第二阶段采用上述第二训练数据集进行训练,损失函数使用多分类交叉熵损失函数,训练完成时,文本识别模型可以实现将错误字符识别为对应的正确字符。两个阶段的训练均采用上述正确字符字典,因此对于正确字符识别成其对应的字符的识别概率较高,而对于错误字符识别成其对应的字符的识别概率较低,从而可以基于该识别概率确定是否存在错误字符。正确字符的样本数量大于错误字符的样本数量,当将正确字符和错误字符混合在一起训练时,错误字符的识别准确率较低,识别效果较差,而本实施例中采用上述两阶段的训练,在对错误字符进行识别的训练过程中,降低了正确字符的样本占比,可以有效解决样本不平衡问题。
步骤303,将文本识别模型、编码器模块以及全连接层相结合,基于错误字符对应的第二训练数据集进行训练。
在一种可能的实施方式中,在上述两阶段的训练完成后,将文本识别模型的模型参数冻结,也即是在后续的训练过程中不再进行调整,与上述编码器模块以及全连接层相结合,构建适用于错误字符的识别模型,该识别模型中的具体处理与上述步骤102-103同理。
训练过程中,采用上述第二训练数据集进行训练,损失函数使用多分类交叉熵损失函数。训练完成时,该识别模型可以实现上述识别错误字符的错误类别的过程。
本公开实施例提供了一种错误字符的识别装置,该装置用于实现上述错误字符的识别方法。如图4所示的示意性框图,错误字符的识别装置400包括:获取模块401,第一识别模块402,第二识别模块403。
获取模块401,用于获取待识别文本图像;
第一识别模块402,用于对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,所述字符识别结果包括至少一个字符和所述字符的识别概率;
第二识别模块403,用于在基于所述识别概率确定所述待识别文本图像中存在目标错误字符时,获取所述目标错误字符在所述待识别文本图像中的上下文信息;基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息;对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别。
可选的,所述第一识别模块402,用于:
对所述待识别文本图像进行特征提取,得到所述待识别文本图像的特征映射向量;
基于所述特征映射向量,构建多个上下文信息;
分别对每个上下文信息进行处理,得到每个上下文信息对应的字符识别概率;
基于所述正确字符字典和所述字符识别概率,确定每个上下文信息对应的识别结果;
基于所述识别结果,得到至少一个字符和所述字符的识别概率,并生成所述待识别文本图像的字符识别结果。
可选的,所述第二识别模块403,用于:
在所述字符识别结果中,获取识别概率小于概率阈值的字符,作为所述目标错误字符在所述字符识别结果中的目标字符;
获取所述目标字符在所述正确字符字典中的顺序信息;
对所述顺序信息进行编码,确定所述目标字符在所述正确字符字典中的位置信息。
可选的,所述第二识别模块403,用于:
将所述上下文信息和所述位置信息逐点相加,得到所述目标错误字符的第一特征信息;
对所述第一特征信息进行处理,得到所述目标错误字符的第二特征向量,所述第二特征向量携带有所述目标错误字符的分类特征信息;
基于所述第二特征向量,识别所述目标错误字符的错误类别。
可选的,所述第二识别模块403,用于:
对所述第二特征向量进行处理,计算所述目标错误字符的预设数目个分类概率;
获取所述目标字符对应的所述预设数目个错误分类;
基于所述预设数目个分类概率,在所述预设数目个错误分类中确定所述目标错误字符的错误类别。
可选的,所述第二识别模块403,用于:
根据所述位置信息,在预先设置的错误字符字典中,获取所述目标字符对应的所述预设数目个错误分类;
其中,所述正确字符字典存储有多个预设字符,所述错误字符字典存储有每个预设字符的预设数目个错误分类,每个预设字符在所述正确字符字典和所述错误字符字典的存储顺序相同。
本实施例中,通过目标字符在正确字符字典中的位置信息和目标错误字符在待识别文本图像中的上下文信息,对目标错误字符的错误类别进行识别,由于目标字符在正确字符字典中的位置唯一,在使用位置信息进行识别时,可以定位到该目标字符的错误分类中,分类数量减少,从而可以有效降低解空间,在识别错误类别的同时提高错误字符的识别效率。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图5,现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备500操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备,输入单元506可以接收输入的数字或文本信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元508可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,上述错误字符的识别方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行上述错误字符的识别方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (10)
1.一种错误字符的识别方法,其特征在于,所述方法包括:
获取待识别文本图像;
对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,所述字符识别结果包括至少一个字符和所述字符的识别概率;
在基于所述识别概率确定所述待识别文本图像中存在目标错误字符时,获取所述目标错误字符在所述待识别文本图像中的上下文信息;
基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息;
对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,包括:
对所述待识别文本图像进行特征提取,得到所述待识别文本图像的特征映射向量;
基于所述特征映射向量,构建多个上下文信息;
分别对每个上下文信息进行处理,得到每个上下文信息对应的字符识别概率;
基于所述正确字符字典和所述字符识别概率,确定每个上下文信息对应的识别结果;
基于所述识别结果,得到至少一个字符和所述字符的识别概率,并生成所述待识别文本图像的字符识别结果。
3.根据权利要求1所述的方法,其特征在于,所述基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息,包括:
在所述字符识别结果中,获取识别概率小于概率阈值的字符,作为所述目标错误字符在所述字符识别结果中的目标字符;
获取所述目标字符在所述正确字符字典中的顺序信息;
对所述顺序信息进行编码,确定所述目标字符在所述正确字符字典中的位置信息。
4.根据权利要求1所述的方法,其特征在于,所述对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别,包括:
将所述上下文信息和所述位置信息逐点相加,得到所述目标错误字符的第一特征信息;
对所述第一特征信息进行处理,得到所述目标错误字符的第二特征向量,所述第二特征向量携带有所述目标错误字符的分类特征信息;
基于所述第二特征向量,识别所述目标错误字符的错误类别。
5.根据权利要求4所述的方法,其特征在于,所述基于所述第二特征向量,识别所述目标错误字符的错误类别,包括:
对所述第二特征向量进行处理,计算所述目标错误字符的预设数目个分类概率;
获取所述目标字符对应的所述预设数目个错误分类;
基于所述预设数目个分类概率,在所述预设数目个错误分类中确定所述目标错误字符的错误类别。
6.根据权利要求5所述的方法,其特征在于,所述获取所述目标字符对应的所述预设数目个错误分类,包括:
根据所述位置信息,在预先设置的错误字符字典中,获取所述目标字符对应的所述预设数目个错误分类;
其中,所述正确字符字典存储有多个预设字符,所述错误字符字典存储有每个预设字符的预设数目个错误分类,每个预设字符在所述正确字符字典和所述错误字符字典的存储顺序相同。
7.一种错误字符的识别装置,其特征在于,所述装置包括:
获取模块,用于获取待识别文本图像;
第一识别模块,用于对所述待识别文本图像进行处理,得到所述待识别文本图像的字符识别结果,所述字符识别结果包括至少一个字符和所述字符的识别概率;
第二识别模块,用于在基于所述识别概率确定所述待识别文本图像中存在目标错误字符时,获取所述目标错误字符在所述待识别文本图像中的上下文信息;基于所述目标错误字符在所述字符识别结果中的目标字符和预先设置的正确字符字典,确定所述目标字符在所述正确字符字典中的位置信息;对所述上下文信息和所述位置信息进行处理,得到所述目标错误字符的错误类别。
8.根据权利要求7所述的装置,其特征在于,所述第二识别模块用于:
在所述字符识别结果中,获取识别概率小于概率阈值的字符,作为所述目标错误字符在所述字符识别结果中的目标字符;
获取所述目标字符在所述正确字符字典中的顺序信息;
对所述顺序信息进行编码,确定所述目标字符在所述正确字符字典中的位置信息。
9.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-6中任一项所述的方法。
10.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使计算机执行根据权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210917853.6A CN115294581A (zh) | 2022-08-01 | 2022-08-01 | 错误字符的识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210917853.6A CN115294581A (zh) | 2022-08-01 | 2022-08-01 | 错误字符的识别方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115294581A true CN115294581A (zh) | 2022-11-04 |
Family
ID=83826378
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210917853.6A Pending CN115294581A (zh) | 2022-08-01 | 2022-08-01 | 错误字符的识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115294581A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743857A (zh) * | 2023-12-29 | 2024-03-22 | 北京海泰方圆科技股份有限公司 | 文本纠错模型训练、文本纠错方法、装置、设备和介质 |
-
2022
- 2022-08-01 CN CN202210917853.6A patent/CN115294581A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117743857A (zh) * | 2023-12-29 | 2024-03-22 | 北京海泰方圆科技股份有限公司 | 文本纠错模型训练、文本纠错方法、装置、设备和介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108537176B (zh) | 目标弹幕的识别方法、装置、终端及存储介质 | |
CN113269189B (zh) | 文本识别模型的构建方法、文本识别方法、装置及设备 | |
CN113254654B (zh) | 模型训练、文本识别方法、装置、设备和介质 | |
CN113205160B (zh) | 模型训练、文本识别方法、装置、电子设备和介质 | |
CN113313022A (zh) | 文字识别模型的训练方法和识别图像中文字的方法 | |
CN114022882B (zh) | 文本识别模型训练、文本识别方法、装置、设备及介质 | |
CN112509555A (zh) | 方言语音识别方法、装置、介质及电子设备 | |
CN116543404A (zh) | 基于单元格坐标优化的表格语义信息抽取方法、系统、设备及介质 | |
CN113158656B (zh) | 讽刺内容识别方法、装置、电子设备以及存储介质 | |
US20220358955A1 (en) | Method for detecting voice, method for training, and electronic devices | |
CN113673432A (zh) | 手写识别方法、触摸显示设备、计算机设备及存储介质 | |
CN114639096A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN115100659A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN110414622B (zh) | 基于半监督学习的分类器训练方法及装置 | |
CN115294581A (zh) | 错误字符的识别方法、装置、电子设备及存储介质 | |
CN115273103A (zh) | 文本识别方法、装置、电子设备及存储介质 | |
CN113723367B (zh) | 一种答案确定方法、判题方法及装置和电子设备 | |
CN115565186A (zh) | 文字识别模型的训练方法、装置、电子设备和存储介质 | |
CN114663886A (zh) | 文本识别方法、模型的训练方法及装置 | |
CN114758330A (zh) | 一种文本识别方法、装置、电子设备和存储介质 | |
CN114758331A (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114781359A (zh) | 文本纠错方法、装置、计算机设备及存储介质 | |
CN111625636A (zh) | 一种人机对话的拒绝识别方法、装置、设备、介质 | |
CN114998896B (zh) | 文本识别方法和装置 | |
CN115100662B (zh) | 公式识别方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |