CN113554033B

CN113554033B - 智能文本机器人的文本识别方法、装置及系统

Info

Publication number: CN113554033B
Application number: CN202111095638.4A
Authority: CN
Inventors: 周柳阳; 蒋林林
Original assignee: Shenzhen Yihao Hulian Technology Co ltd
Current assignee: Shenzhen Yihao Hulian Technology Co ltd
Priority date: 2021-09-18
Filing date: 2021-09-18
Publication date: 2021-12-10
Anticipated expiration: 2041-09-18
Also published as: CN113554033A

Abstract

本发明适用于文本识别技术领域，提供了一种智能文本机器人的文本识别方法、装置及系统，所述方法包括以下步骤：获取初始文本图像；对初始文本图像进行预处理得到增强文本图像；对增强文本图像进行区间框选；对文本字符进行结构拆分得到局部字符，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度；当每一个第一匹配度值都大于或者等于第一预定值时，局部识别字符有效，对局部识别字符进行组合得到识别字符。本发明能够对手写字体进行拆分，局部字符相比整个文本字符更加容易识别与匹配，有效提高了手写字体的识别准确度。

Description

智能文本机器人的文本识别方法、装置及系统

技术领域

本发明涉及文本识别技术领域，具体是涉及一种智能文本机器人的文本识别方法、装置及系统。

背景技术

随着文本量的激增，为了提高文本处理效率，社会上出现了一些自动化的文本识别设备，这些文本识别设备能够对文本中的文字进行自动识别，常用的文字识别方法有几何特征抽取法，通过抽取文字的一些几何特征，如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等，并根据这些特征的位置和相互关系进行逻辑组合判断。

现有的文本识别设备识别电脑字体时，准确度较高；但是识别手写字体时，准确度不够高，手写复杂字体的几何特征信息较为复杂，难以识别。因此，需要提供一种智能文本机器人的文本识别方法、装置及系统，旨在解决上述问题。

发明内容

针对现有技术存在的不足，本发明的目的在于提供一种智能文本机器人的文本识别方法、装置及系统，以解决上述背景技术中存在的问题。

本发明是这样实现的，一种智能文本机器人的文本识别方法，所述方法包括以下步骤：

获取初始文本图像；

对初始文本图像进行预处理得到增强文本图像；

对增强文本图像进行区间框选，以使得每个区间中有且只有一个文本字符；

对文本字符进行结构拆分得到局部字符，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度；

对所有的第一匹配度进行判定；

当每一个第一匹配度值都大于或者等于第一预定值时，局部识别字符有效，对局部识别字符进行组合得到识别字符；

当存在一个第一匹配度值小于第一预定值时，局部识别字符无效，将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

作为本发明进一步的方案：所述对初始文本图像进行预处理得到增强文本图像的步骤，具体包括：

对初始文本图像进行灰度化处理得到第一文本图像；

对第一文本图像进行降噪处理得到第二文本图像；

对第二文本图像进行二值化处理得到增强文本图像。

作为本发明进一步的方案：所述对增强文本图像进行区间框选的步骤，具体包括：

识别增强文本图像中黑点聚集区域和白点聚集区域；

当某一个黑点聚集区域的四周均有白点聚集区域，且四周的白点聚集区域能够连接成框形，标记所述黑点聚集区域为字块；

将每个字块进行区间框选，框选的每个区间中有且只有一个字块，一个字块即为一个文本字符。

作为本发明进一步的方案：根据每个文本字符中白点聚集情况判定文本字符的结构类型，所述结构类型包括左右结构、上下结构、左中右结构、上中下结构、半包围结构以及全包围结构；

根据文本字符的结构类型对文本字符进行结构拆分得到若干个局部字符。

作为本发明进一步的方案：将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度的步骤，具体包括：

建立字库模型，所述字库模型用于收集字母字符、数字字符、汉字字符以及汉字偏旁字符；

将局部字符与字库模型中的字符进行匹配，将字库模型中与局部字符匹配度最高的字符标记为局部识别字符；

输出所有的局部识别字符与对应的局部字符之间的第一匹配度。

作为本发明进一步的方案：所述对局部识别字符进行组合得到识别字符的步骤，还包括对组合得到的识别字符进行验证，具体步骤为：

将组合得到识别字符输入至字库模型中进行匹配；

当匹配过程中存在匹配值大于或者等于第二预定值时，组合得到识别字符有效；

当匹配过程中匹配值始终小于第二预定值时，组合得到识别字符无效，将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

本发明的另一目的在于提供一种智能文本机器人的文本识别装置，所述装置包括：

图像获取模块，用于获取初始文本图像；

图像增强模块，用于对初始文本图像进行预处理得到增强文本图像；

区间框选模块，用于对增强文本图像进行区间框选，以使得每个区间中有且只有一个文本字符；

结构拆分模块，用于对文本字符进行结构拆分得到局部字符，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度；

判定模块，用于对所有的第一匹配度进行判定；

识别字符输出模块一，当每一个第一匹配度值都大于或者等于第一预定值时，局部识别字符有效，对局部识别字符进行组合得到识别字符；以及

识别字符输出模块二，当存在一个第一匹配度值小于第一预定值时，局部识别字符无效，将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

作为本发明进一步的方案：所述图像增强模块包括：

灰度化处理单元，用于对初始文本图像进行灰度化处理得到第一文本图像；

降噪处理单元，用于对第一文本图像进行降噪处理得到第二文本图像；以及

二值化处理单元，用于对第二文本图像进行二值化处理得到增强文本图像。

作为本发明进一步的方案：所述区间框选模块包括：

聚集区域识别单元，用于识别增强文本图像中黑点聚集区域和白点聚集区域；

字块确定单元，当某一个黑点聚集区域的四周均有白点聚集区域，且四周的白点聚集区域能够连接成框形，标记所述黑点聚集区域为字块；以及

区间框选单元，用于将每个字块进行区间框选，框选的每个区间中有且只有一个字块，一个字块即为一个文本字符。

本发明的目的还在于提供一种智能文本机器人的文本识别系统，所述系统包括：一个或者多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行所述智能文本机器人的文本识别方法。

与现有技术相比，本发明的有益效果是：本发明能够对初始文本图像进行预处理得到增强文本图像，以方便识别文本字符，然后对文本字符进行结构拆分得到局部字符，通过对局部字符进行识别后得到局部识别字符，对局部识别字符进行组合得到识别字符，即本发明能够对手写字体进行拆分，局部字符相比整个文本字符更加容易识别与匹配，有效提高了手写字体的识别准确度。

附图说明

图1为一种智能文本机器人的文本识别方法的流程图。

图2为一种智能文本机器人的文本识别方法中对初始文本图像进行预处理得到增强文本图像的流程图。

图3为一种智能文本机器人的文本识别方法中对增强文本图像进行区间框选的流程图。

图4为一种智能文本机器人的文本识别方法中对文本字符进行结构拆分得到局部字符的流程图。

图5为一种智能文本机器人的文本识别方法中将所述文本字符的所有局部字符输入至字库模型中进行匹配的流程图。

图6为一种智能文本机器人的文本识别方法中对组合得到的识别字符进行验证的流程图。

图7为一种智能文本机器人的文本识别装置的结构示意图。

图8为一种智能文本机器人的文本识别装置中图像增强模块的结构示意图。

图9为一种智能文本机器人的文本识别装置中区间框选模块的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清晰，以下结合附图及具体实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述。

如图1所示，本发明实施例提供了一种智能文本机器人的文本识别方法，包括以下步骤：

S100，获取初始文本图像；

S200，对初始文本图像进行预处理得到增强文本图像；

S300，对增强文本图像进行区间框选，以使得每个区间中有且只有一个文本字符；

S400，对文本字符进行结构拆分得到局部字符，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度；

S500，对所有的第一匹配度进行判定；

S600，当每一个第一匹配度值都大于或者等于第一预定值时，局部识别字符有效，对局部识别字符进行组合得到识别字符；

S700，当存在一个第一匹配度值小于第一预定值时，局部识别字符无效，将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

可以理解的是，随着文本量的激增，为提高文本处理效率，社会上出现了一些自动化的文本识别设备，这些文本识别设备能够对文本中的文字进行自动识别，识别电脑字体时，准确度较高；但是识别手写字体时，准确度不够高，本发明实施例的目的在于提高手写字体的识别准确率。

本发明实施例中，首先需要获取初始文本图像，初始文本图像可以通过扫描得到，接着需要对初始文本图像进行增强处理，可以理解的是，初始文本图像可能是彩色的，文字与背景的对比不够强烈，增强处理后，可以使得文字与背景的对比度足够强烈，以便于后续对文字进行识别，常用的文本图像增强手段有灰度化处理、降噪处理以及二值化处理，接着需要对增强文本图像进行区间框选，并使得每个区间中有且只有一个文本字符，对文本字符进行结构拆分得到局部字符，将所述文本字符的所有局部字符输入至字库模型中进行匹配，所述字库模型是事先建立的，字库模型用于收集字母字符、数字字符、汉字字符、汉字偏旁字符等等，当局部字符与字库模型中的某个字符匹配度最高时，所述字符即为局部识别字符，同时输出局部识别字符与对应的局部字符之间的第一匹配度，可以理解的是，一个文本字符被拆分后，有若干个局部识别字符，就会产生若干个第一匹配度，当有一个第一匹配度值很小时，说明局部字符的识别并不准确，只有当每一个第一匹配度值都大于或者等于第一预定值时，例如全部大于或者等于90%，局部识别字符才有效，对局部识别字符进行组合得到识别字符；另外，当局部识别字符无效，将所述文本字符整体输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。拆分的目的是为了保证较为复杂的字符都能够被准确识别，对于一些不能够或者不容易拆分的字符而言，例如独体字，强行拆分反而会导致识别不够准确，因此需要第一匹配度值都大于或者等于第一预定值。

需要说明的是，字符匹配的方法有几何特征抽取法，通过抽取文字的一些几何特征，如文字的端点、分叉点、凹凸部分以及水平、垂直、倾斜等各方向的线段、闭合环路等，根据这些特征的位置和相互关系进行逻辑组合判断，获得字符特征信息，根据两个字符的字符特征信息就能够得到这两个字符的匹配度，对于手写字体而言，字符特征信息相对较为复杂，匹配效果不佳，因此本发明实施例通过对手写字体进行拆分得到局部字符，局部字符的特征信息相对简单，匹配效率更高且准确，有效提高了手写字体的识别准确度。

如图2所示，作为本发明一个优选的实施例，所述对初始文本图像进行预处理得到增强文本图像的步骤，具体包括：

S201，对初始文本图像进行灰度化处理得到第一文本图像；

S202，对第一文本图像进行降噪处理得到第二文本图像；

S203，对第二文本图像进行二值化处理得到增强文本图像。

本发明实施例中，灰度化处理能够将彩色图像转变为灰度图像，灰度图像中包含灰色梯度信息，便于进行图像识别以及后续的二值化处理；降噪处理是为了对图像进行去噪，提升图片质量，提升图像识别的精确度；二值化处理就是将图像上的像素点的灰度值设置为0或255，也就是将整个图像呈现出明显的黑白效果的过程，二值化处理后的图像即为黑白图像。

如图3所示，作为本发明一个优选的实施例，所述对增强文本图像进行区间框选的步骤，具体包括：

S301，识别增强文本图像中黑点聚集区域和白点聚集区域；

S302，当某一个黑点聚集区域的四周均有白点聚集区域，且四周的白点聚集区域能够连接成框形，标记所述黑点聚集区域为字块；

S303，将每个字块进行区间框选，框选的每个区间中有且只有一个字块，一个字块即为一个文本字符。

本发明实施例中，当图像被二值化处理后，就能够识别增强文本图像中黑点聚集区域和白点聚集区域，可以理解的是，每一个字符都是一个黑点聚集区域，且每一个字符的四周都应该有白点聚集区域，即使手写时字符与字符之间产生连笔，连笔也就是一根线条，并不影响白点聚集区域将一个字符包围，根据上述原理就可以确定字块，接着将每个字块进行区间框选，框选的每个区间中有且只有一个字块。

如图4所示，作为本发明一个优选的实施例，所述对文本字符进行结构拆分得到局部字符的步骤，具体包括：

S401，根据每个文本字符中白点聚集情况判定文本字符的结构类型，所述结构类型包括左右结构、上下结构、左中右结构、上中下结构、半包围结构以及全包围结构；

S402，根据文本字符的结构类型对文本字符进行结构拆分得到若干个局部字符。

本发明实施例中，需要说明的是，较为复杂汉字的结构类型主要有左右结构、上下结构、左中右结构、上中下结构、半包围结构以及全包围结构，这些结构的汉字中都有较为明显的缝隙，这些缝隙即为白点聚集区，通过对白点聚集区的分布情况进行判断，即可判定文本字符的结构类型，接着根据结构类型对文本字符进行结构拆分得到若干个局部字符，例如文本字符为“谢”，对“谢”中的白点进行识别可以得到两条竖直状的白点聚集条，两个白点聚集条可以将“谢”字拆分为左、中、右三个局部字符。

如图5所示，作为本发明一个优选的实施例，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度的步骤，具体包括：

S403，建立字库模型，所述字库模型用于收集字母字符、数字字符、汉字字符以及汉字偏旁字符；

S404，将局部字符与字库模型中的字符进行匹配，将字库模型中与局部字符匹配度最高的字符标记为局部识别字符；

S405，输出所有的局部识别字符与对应的局部字符之间的第一匹配度。

本发明实施例中，字库模型中的汉字偏旁字符可以收集多种手写体的，因为汉字偏旁在手写时相对变形较大，且汉字偏旁数量较少、容易收集；将局部字符与字库模型中的字符进行匹配，实际上是对局部字符的几何特征信息进行识别后，将局部字符的特征信息与字库模型中字符的特征信息进行匹配，将字库模型中与局部字符匹配度最高的字符标记为局部识别字符。

如图6所示，作为本发明一个优选的实施例，所述对局部识别字符进行组合得到识别字符的步骤，还包括对组合得到的识别字符进行验证，具体步骤为：

S601，将组合得到识别字符输入至字库模型中进行匹配；

S602，当匹配过程中存在匹配值大于或者等于第二预定值时，组合得到识别字符有效；

S603，当匹配过程中匹配值始终小于第二预定值时，组合得到识别字符无效，将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

本发明实施例中，需要说明的是，文本字符是如何拆分的，文本字符对应的局部识别字符就如何进行组合，可以理解的是，组合后形成的识别字符可能并不存在，因此，需要将组合的识别字符输入至字库模型中进行匹配，当匹配过程中存在匹配值大于或者等于第二预定值时，基本可以说明组合得到识别字符是存在的；当匹配过程中匹配值始终小于第二预定值时，基本可以说明组合得到识别字符是不存在的，此时需要将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

如图7所示，本发明实施例提供了一种智能文本机器人的文本识别装置，所述装置包括：

图像获取模块100，用于获取初始文本图像；

图像增强模块200，用于对初始文本图像进行预处理得到增强文本图像；

区间框选模块300，用于对增强文本图像进行区间框选，以使得每个区间中有且只有一个文本字符；

结构拆分模块400，用于对文本字符进行结构拆分得到局部字符，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度；

判定模块500，用于对所有的第一匹配度进行判定；

识别字符输出模块一600，当每一个第一匹配度值都大于或者等于第一预定值时，局部识别字符有效，对局部识别字符进行组合得到识别字符；以及

识别字符输出模块二700，当存在一个第一匹配度值小于第一预定值时，局部识别字符无效，将所述文本字符输入至字库模型中进行匹配，输出匹配度最高的作为识别字符。

如图8所示，作为本发明一个优选的实施例，所述图像增强模块200包括：

灰度化处理单元201，用于对初始文本图像进行灰度化处理得到第一文本图像；

降噪处理单元202，用于对第一文本图像进行降噪处理得到第二文本图像；以及

二值化处理单元203，用于对第二文本图像进行二值化处理得到增强文本图像。

如图9所示，作为本发明一个优选的实施例，所述区间框选模块300包括：

聚集区域识别单元301，用于识别增强文本图像中黑点聚集区域和白点聚集区域；

字块确定单元302，当某一个黑点聚集区域的四周均有白点聚集区域，且四周的白点聚集区域能够连接成框形，标记所述黑点聚集区域为字块；以及

区间框选单元303，用于将每个字块进行区间框选，框选的每个区间中有且只有一个字块，一个字块即为一个文本字符。

本发明实施例还提供了一种智能文本机器人的文本识别系统，所述系统包括一个或者多个处理器；以及与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行所述智能文本机器人的文本识别方法。

以上仅对本发明的较佳实施例进行了详细叙述，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

应该理解的是，虽然本发明各实施例的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，各实施例中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

本领域技术人员在考虑说明书及实施例处的公开后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

Claims

1.一种智能文本机器人的文本识别方法，其特征在于，所述方法包括以下步骤：

获取初始文本图像；

对初始文本图像进行预处理得到增强文本图像，所述对初始文本图像进行预处理得到增强文本图像的步骤，具体包括：对初始文本图像进行灰度化处理得到第一文本图像；对第一文本图像进行降噪处理得到第二文本图像；对第二文本图像进行二值化处理得到增强文本图像；

对增强文本图像进行区间框选，以使得每个区间中有且只有一个文本字符，所述对增强文本图像进行区间框选的步骤，具体包括：识别增强文本图像中黑点聚集区域和白点聚集区域；当某一个黑点聚集区域的四周均有白点聚集区域，且四周的白点聚集区域能够连接成框形，标记所述黑点聚集区域为字块；将每个字块进行区间框选，框选的每个区间中有且只有一个字块，一个字块即为一个文本字符；

对所有的第一匹配度进行判定；

2.根据权利要求1所述一种智能文本机器人的文本识别方法，其特征在于，所述对文本字符进行结构拆分得到局部字符的步骤，具体包括：

根据每个文本字符中白点聚集情况判定文本字符的结构类型，所述结构类型包括左右结构、上下结构、左中右结构、上中下结构、半包围结构以及全包围结构；

3.根据权利要求1所述一种智能文本机器人的文本识别方法，其特征在于，将所述文本字符的所有局部字符输入至字库模型中进行匹配，输出每个局部字符匹配度最高的局部识别字符，输出所有的局部识别字符与对应的局部字符之间的第一匹配度的步骤，具体包括：

4.根据权利要求1所述一种智能文本机器人的文本识别方法，其特征在于，所述对局部识别字符进行组合得到识别字符的步骤，还包括对组合得到的识别字符进行验证，具体步骤为：

将组合得到识别字符输入至字库模型中进行匹配；

5.一种智能文本机器人的文本识别装置，其特征在于，所述装置包括：

图像获取模块，用于获取初始文本图像；

图像增强模块，用于对初始文本图像进行预处理得到增强文本图像，所述图像增强模块包括：灰度化处理单元，用于对初始文本图像进行灰度化处理得到第一文本图像；降噪处理单元，用于对第一文本图像进行降噪处理得到第二文本图像；以及二值化处理单元，用于对第二文本图像进行二值化处理得到增强文本图像；

区间框选模块，用于对增强文本图像进行区间框选，以使得每个区间中有且只有一个文本字符，所述区间框选模块包括：聚集区域识别单元，用于识别增强文本图像中黑点聚集区域和白点聚集区域；字块确定单元，当某一个黑点聚集区域的四周均有白点聚集区域，且四周的白点聚集区域能够连接成框形，标记所述黑点聚集区域为字块；以及区间框选单元，用于将每个字块进行区间框选，框选的每个区间中有且只有一个字块，一个字块即为一个文本字符；

判定模块，用于对所有的第一匹配度进行判定；

6.一种计算机系统，其特征在于，所述系统包括：

一个或者多个处理器；以及

与所述一个或多个处理器关联的存储器，所述存储器用于存储程序指令，所述程序指令在被所述一个或多个处理器读取执行时，执行上述权利要求1-4任一项所述的方法。