CN118135578A

CN118135578A - 一种基于图文识别后的文字学习校对系统

Info

Publication number: CN118135578A
Application number: CN202410573260.1A
Authority: CN
Inventors: 张闯; 丛义群; 刘美豆
Original assignee: Shenyang Publishing House Co ltd
Current assignee: Shenyang Publishing House Co ltd
Priority date: 2024-05-10
Filing date: 2024-05-10
Publication date: 2024-06-04

Abstract

本发明公开了一种基于图文识别后的文字学习校对系统，涉及文字校对领域，包括用户登录模块、图文管理模块、图文识别模块、用户管理模块以及识别结果管理模块；该基于图文识别后的文字学习校对系统，将图文信息记录到图文数据表中，对用户输入的图文信息进行文字检测，其中文字检测包括错字检测以及行检测，对文字检测模块检测完成的图文数据进行文字调整，其中文字调整包括错别字调整以及位置调整，进行文字识别以及易混淆字识别，同时对易混淆字进行易混淆字调整，这样设置不仅可以实现对图文信息的文字识别同时在进行文字识别时有针对性的对易混淆字进行识别与调整，减少了文字识别过程中错误发生的概率。

Description

一种基于图文识别后的文字学习校对系统

技术领域

本发明涉及文字校对技术，具体涉及一种基于图文识别后的文字学习校对系统。

背景技术

图书校对方法是指在出版印刷过程中，通过检查和修正图书内容、格式、排版等环节中出现的错误和问题，确保图书的质量，提高图书的可读性和可信度的一种方法。

随着信息化和智能化的不断发展，文字识别成为图书校对的重要方式。目前的文字识别方法主要是通过将图像内的文本划分为多个独立字符，并对每个独立字符进行单独识别，在利用该方式进行识别时效率较低，且无法结合相邻独立字符之间的关联信息，导致识别准确性较低。

发明内容

本发明的目的是提供一种基于图文识别后的文字学习校对系统，以解决现有技术中的上述不足之处。

为了实现上述目的，本发明提供如下技术方案：一种基于图文识别后的文字学习校对系统，包括：

用户登录模块，所述用户登录模块用于帮助用户注册和登录图文识别系统，然后进行图文图片的检测和识别，每当有新的用户进行注册后，用户表里就会记录新的用户名称以及密码；

图文管理模块，所述图文管理模块用于负责管理用户输入的图文信息，当用户在系统中输入图文之后，图文的信息会被记录到图文数据表中，记录图文的信息可以保证每一次被识别的图文都有迹可循，方便以后的查阅和修改；

图文识别模块，所述图文识别模块用于接收图文管理模块输入的图文数据，并对接收的图文数据进行文字检测、文字调整以及文字识别；

用户管理模块，所述用户管理模块用于对用户的账户进行管理，维护用户信息；

识别结果管理模块，所述识别结果管理模块用于负责管理识别结果，每当有一张新的图文传入系统时，识别出来的文字内容就会存储在识别结果数据表中。

进一步地，所述图文识别模块包括：

文字检测模块，所述文字检测模块用于对图文识别模块接收的图文管理模块输入的图文数据后进行文字检测，所述文字检测包括易混淆字检测、错字检测以及行检测；

文字调整模块，所述文字调整模块用于对文字检测模块检测完成的图文数据进行文字调整，所述文字调整包括易混淆字调整、错别字调整以及位置调整；

文字识别模块，所述文字识别模块用于对文字调整模块调整完成的图文数据进行文字识别。

进一步地，所述文字检测模块包括：

易混淆字检测模块，所述易混淆字检测模块用于检测图文数据中的易混淆字，所述混淆字包括但不限于数字“0”与字母“O”、数字“1”与字母“I”、汉字“妹”与汉字“妺”以及标点“.”与标点符号“，”；

错字检测模块，所述错字检测模块用于检测图文数据中的错别字；

行检测模块，所述行检测模块用于对图文数据中文字进行位置检测与行分割。

进一步地，所述文字调整模块包括：

位置调整模块，所述位置调整模块用于对行检测模块检测的同一行文字进行位置调整，保证同一行文字在同一水平线上；

错别字调整模块，所述错别字调整模块用于对错字检测模块检查出的错别字进行自动调整；

易混淆字调整模块，所述易混淆字调整模块用于结合易混淆字的上下文选择匹配文字，并将替换结果进行展示。

进一步地，所述文字识别模块包括以下工作步骤：

A1，为填充文字笔画内的细微孔洞，使用泛洪填充算法，将背景填充为白色像素点，对填充后的图像进行图像非运算，对原始图像和非运算操作后的图像进行图像异或运算，通过以上三个步骤，能够完全填充文字笔画内的细小空洞；

A2，笔画区域仍然存在一些孤立的小点，通过开运算来进行消除；

A3，笔画图像用RGB的三种不同权重进行处理，得到灰度图像，灰度处理的计算公式如下所示：

其中R、G、B代表叶脉分割图像的三原色——红、绿、蓝的值，“Gray”表示灰度值；

A4，为了保留更多笔画的细节，使用中值滤波平滑文字的轮廓并去除噪声点，具体包括以下步骤：

A41，笔画图像的像素值被划分为[1，2，…，l]级，n_i用来表示图像像素值的数量，因此，笔画图像的总像素值的计算公式如下所示：

；

A42，其中，图像中单个像素频率p_i的计算公式如下所示：

；

A43，将两个变量定义为局部变量w₀和变量w₁频率值之和，二者关系如下公式所示：

；

A44，则笔画区域图像的前景像素频率u₀和背景像素频率u₁如下所示：

，其中U_T表示前景像素频率u₀和背景像素频率u₁之和；

A5，使用最大类间方差法对图像进行二值处理；

A6，为了测量笔画长度，最后再将原始形态学笔画算法融入，构建出细化算法从而获得没有毛刺的单像素笔画线；

A7，通过组合获得的单像素笔画线从而得出待识别文字。

进一步地，所述易混淆字调整模块包括以下工作步骤：

B1，基于文字识别模块的识别方法在对易混淆字进行识别时通过获取易混淆字各笔画的向量，从而结合获得易混淆字向量；

B2，基于文字识别模块的识别方法在对易混淆字上下文进行识别时通过获取易混淆字上下文各笔画的向量，从而结合获得上下文向量；

B3，过滤易混淆字向量特征信息中的无用特征，通过激活函数作为门控状态，再与易混淆字向量特征经过点乘后，经过激活函数得到门口单元对特征的筛选；

B4，使用注意力机制将上下文中关键向量特征信息进行加强，根据向量特征类型得到嵌入向量t以及文本的特征表示，通过t^T，对文本中的每个特征进行打分，以此感知文本中的重要信息，如下式所示：

；

B5，可得经过评估之后的上下文的特征表示，如下式所示：

，/> ，/>是上下文的向量矩阵；

B6，由向量特征信息融合得到查询表示和上下文的特征表示/>，然后通过最大相似度（MaxSim）进行计算求得，通过/>和/>计算易混淆字向量和上下文向量之间的得分Score，即为易混淆字的各向量与剩下的上下文向量表示的最大相似度总和，如下式所示：

。

进一步地，具体包括以下工作步骤：

S1，用户通过登录界面登录文字学习校对系统；

S2，判断当前用户是否为首次登录，若判断结果为是则用户通过登录界面进行注册，并将注册信息记录在用户表中，若判断结果为否则执行步骤S3；

S3，用户输入图文信息之后，并将图文信息记录到图文数据表中；

S4，对用户输入的图文信息进行文字检测，其中文字检测包括错字检测以及行检测；

S5，对文字检测模块检测完成的图文数据进行文字调整，其中文字调整包括错别字调整以及位置调整；

S6，进行文字识别以及易混淆字识别，同时对易混淆字进行易混淆字调整，并将识别结果传输至识别结果数据表；

S7，将文字识别结果与易混淆字调整结果进行展示。

与现有技术相比，本发明提供的一种基于图文识别后的文字学习校对系统，将图文信息记录到图文数据表中，对用户输入的图文信息进行文字检测，其中文字检测包括错字检测以及行检测，对文字检测模块检测完成的图文数据进行文字调整，其中文字调整包括错别字调整以及位置调整，进行文字识别以及易混淆字识别，同时对易混淆字进行易混淆字调整，这样设置不仅可以实现对图文信息的文字识别同时在进行文字识别时有针对性的对易混淆字进行识别与调整，减少了文字识别过程中错误发生的概率。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明中记载的一些实施例，对于本领域普通技术人员来讲，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的整体结构示意图；

图2为本发明实施例提供的结构示意图。

具体实施方式

为了使本领域的技术人员更好地理解本发明的技术方案，下面将结合附图对本发明作进一步的详细介绍。

请参阅图1-2，一种基于图文识别后的文字学习校对系统，包括：

用户登录模块，用户登录模块用于帮助用户注册和登录图文识别系统，然后进行图文图片的检测和识别，每当有新的用户进行注册后，用户表里就会记录新的用户名称以及密码；

图文管理模块，图文管理模块用于负责管理用户输入的图文信息，当用户在系统中输入图文之后，图文的信息会被记录到图文数据表中，记录图文的信息可以保证每一次被识别的图文都有迹可循，方便以后的查阅和修改；

图文识别模块，图文识别模块用于接收图文管理模块输入的图文数据，并对接收的图文数据进行文字检测、文字调整以及文字识别；

用户管理模块，用户管理模块用于对用户的账户进行管理，维护用户信息；

识别结果管理模块，识别结果管理模块用于负责管理识别结果，每当有一张新的图文传入系统时，识别出来的文字内容就会存储在识别结果数据表中。

具体包括以下工作步骤：用户通过登录界面登录文字学习校对系统，判断当前用户是否为首次登录，若判断结果为是则用户通过登录界面进行注册，并将注册信息记录在用户表中，若判断结果为否则用户输入图文信息之后，并将图文信息记录到图文数据表中，对用户输入的图文信息进行文字检测，其中文字检测包括错字检测以及行检测，对文字检测模块检测完成的图文数据进行文字调整，其中文字调整包括错别字调整以及位置调整，进行文字识别以及易混淆字识别，同时对易混淆字进行易混淆字调整，这样设置通过在进行文字识别是有针对性的对易混淆字进行识别与调整，减少了文字识别过程中错误发生的概率，并将识别结果传输至识别结果数据表，将文字识别结果与易混淆字调整结果进行展示。

图文识别模块包括：

文字检测模块，文字检测模块用于对图文识别模块接收的图文管理模块输入的图文数据后进行文字检测，文字检测包括易混淆字检测、错字检测以及行检测；

文字调整模块，文字调整模块用于对文字检测模块检测完成的图文数据进行文字调整，文字调整包括易混淆字调整、错别字调整以及位置调整；

文字识别模块，文字识别模块用于对文字调整模块调整完成的图文数据进行文字识别。

文字检测模块包括：

易混淆字检测模块，易混淆字检测模块用于检测图文数据中的易混淆字，混淆字包括但不限于数字“0”与字母“O”、数字“1”与字母“I”、汉字“妹”与汉字“妺”以及标点“.”与标点符号“，”；

错字检测模块，错字检测模块用于检测图文数据中的错别字；

行检测模块，行检测模块用于对图文数据中文字进行位置检测与行分割。

文字调整模块包括：

位置调整模块，位置调整模块用于对行检测模块检测的同一行文字进行位置调整，保证同一行文字在同一水平线上；

错别字调整模块，错别字调整模块用于对错字检测模块检查出的错别字进行自动调整；

易混淆字调整模块，易混淆字调整模块用于结合易混淆字的上下文选择匹配文字，并将替换结果进行展示。

文字识别模块包括以下工作步骤：

；

A42，其中，图像中单个像素频率p_i的计算公式如下所示：

；

，其中U_T表示前景像素频率u₀和背景像素频率u₁之和；

A5，使用最大类间方差法对图像进行二值处理；

A7，通过组合获得的单像素笔画线从而得出待识别文字。

易混淆字调整模块包括以下工作步骤：

；

B5，可得经过评估之后的上下文的特征表示，如下式所示：/> ，/> ，是上下文的向量矩阵；

。

以上只通过说明的方式描述了本发明的某些示范性实施例，毋庸置疑，对于本领域的普通技术人员，在不偏离本发明的精神和范围的情况下，可以用各种不同的方式对所描述的实施例进行修正。因此，上述附图和描述在本质上是说明性的，不应理解为对本发明权利要求保护范围的限制。

Claims

1.一种基于图文识别后的文字学习校对系统，其特征在于，包括：

2.根据权利要求1所述的一种基于图文识别后的文字学习校对系统，其特征在于，所述图文识别模块包括：

3.根据权利要求2所述的一种基于图文识别后的文字学习校对系统，其特征在于，所述文字检测模块包括：

4.根据权利要求3所述的一种基于图文识别后的文字学习校对系统，其特征在于，所述文字调整模块包括：

5.根据权利要求4所述的一种基于图文识别后的文字学习校对系统，其特征在于，所述文字识别模块包括以下工作步骤：

A3，笔画图像用RGB的三种不同权重进行处理，得到灰度图像，灰度处理的计算公式如下所示：其中R、G、B代表叶脉分割图像的三原色——红、绿、蓝的值，“Gray”表示灰度值；

A41，笔画图像的像素值被划分为[1，2，…，l]级，n_i用来表示图像像素值的数量，因此，笔画图像的总像素值的计算公式如下所示：；

A42，其中，图像中单个像素频率p_i的计算公式如下所示：；

A43，将两个变量定义为局部变量w₀和变量w₁频率值之和，二者关系如下公式所示：；

A44，则笔画区域图像的前景像素频率u₀和背景像素频率u₁如下所示：，其中U_T表示前景像素频率u₀和背景像素频率u₁之和；

A5，使用最大类间方差法对图像进行二值处理；

A7，通过组合获得的单像素笔画线从而得出待识别文字。

6.根据权利要求5所述的一种基于图文识别后的文字学习校对系统，其特征在于，所述易混淆字调整模块包括以下工作步骤：

B4，使用注意力机制将上下文中关键向量特征信息进行加强，根据向量特征类型得到嵌入向量t以及文本的特征表示；

。

7.根据权利要求1所述的一种基于图文识别后的文字学习校对系统，其特征在于，具体包括以下工作步骤：

S1，用户通过登录界面登录文字学习校对系统；

S7，将文字识别结果与易混淆字调整结果进行展示。