CN113537195B

CN113537195B - 一种图像文本识别方法、系统和电子设备

Info

Publication number: CN113537195B
Application number: CN202110824501.1A
Authority: CN
Inventors: 欧阳谷; 唐会军; 刘拴林; 梁堃; 陈建
Original assignee: Beijing Nextdata Times Technology Co ltd
Current assignee: Beijing Nextdata Times Technology Co ltd
Priority date: 2021-07-21
Filing date: 2021-07-21
Publication date: 2022-02-08
Anticipated expiration: 2041-07-21
Also published as: CN113537195A

Abstract

本发明涉及图像文本识别技术领域，提供一种图像文本识别方法、系统和电子设备，采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作，得到多组上下文特征向量，即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系，然后进行后续的文本识别，得到包含待识别文本图像中的文本的字符串，字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本，且避免使用LSTM，在保证识别效率的同时，还能保证识别精度。

Description

一种图像文本识别方法、系统和电子设备

技术领域

本发明涉及图像文本识别技术领域，尤其涉及一种图像文本识别方法、系统和电子设备。

背景技术

目前，OCR(Optical Character Recognition，光学字符识别)技术已经广泛应用于车牌识别、文档分析、图像文字信息提取等方方面面。通用的OCR技术借助图像分类的思想，经过CNN(Convolutional Neural Networks，卷积神经网络)提取图像特征，使用LSTM(Long Short-Term Memory，长短期记忆网络)学习文字之间的上下文信息，最后用CTCLoss来学习文字的类别概率，那么会存在如下问题：

由于LSTM的巨大参数量网络和结构的复杂性，使得预测耗时严重，但如果不使用LSTM，会丢失文字间的上下文的语义信息，降低了识别精度。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供了一种图像文本识别方法、系统和电子设备。

本发明的一种图像文本识别方法的技术方案如下：

获取包含文本的待识别文本图像；

从所述待识别文本图像中提取卷积特征，采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作，得到多组上下文特征向量；

对每组上下文特征向量进行池化，得到多个池化结果，按照所述预设顺序对所有的池化结果进行串联，得到一维上下文特征向量；

将所述一维上下文特征向量进行拓展，得到与所述卷积特征大小相等的上下文特征矩阵，并将所述上下文特征矩阵与所述卷积特征进行融合，得到融合后的特征信息；

根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵；

根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。

本发明的一种图像文本识别方法的有益效果如下：

采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作，得到多组上下文特征向量，即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系，然后进行后续的文本识别，得到包含待识别文本图像中的文本的字符串，字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本，且避免使用LSTM，在保证识别效率的同时，还能保证识别精度。在上述方案的基础上，本发明的一种图像文本识别方法还可以做如下改进。

进一步，每种卷积核的尺寸均为所述卷积特征的宽的整数倍，且所有卷积核的总数量与所述卷积特征的高相等。

进一步，所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串，包括：

采用BeamSearch算法对所述预测概率矩阵进行最优路径选择，得到包含所述待识别文本图像中的文本的字符串。

进一步，所述获取包括文本的待识别文本图像，包括：

判断待识别图像中是否包含文本；

当所述待识别图像中包含文本时，确定所述文本在所述待识别图像中的位置，并根据所述位置进行裁剪，得到所述待识别文本图像。

采用上述进一步技术方案的有益效果是：在进行图像文本识别之前，首先判断待识别图像中是否文本，无需对没有包含文本的待识别图像进行识别，提高图像文本识别的效果，而且，当待识别图像包含文本时，确定文本在待识别图像中的位置，并根据位置进行裁剪，得到待识别文本图像，并对待识别文本图像进行识别，而不需要对整个待识别图像进行识别，进一步提高图像文本识别的效率。

进一步，所述从所述待识别文本图像中提取卷积特征，包括：

采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。

进一步，还包括：按照预设方式对所述字符串进行优化，得到包含所述待识别文本图像中的文本的字符串。

进一步，所述按照预设方式对所述字符串进行优化，包括：

判断字符串中的每个字符是否为占位符，并删除所有的占位符。

本发明的一种图像文本识别系统的技术方案如下：

包括获取模块、卷积模块、池化串联模块、拓展融合模块、预测模块和识别模块；

所述获取模块用于获取包含文本的待识别文本图像；

所述卷积模块用于：从所述待识别文本图像中提取卷积特征，采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作，得到多组上下文特征向量；

所述池化串联模块用于：对每组上下文特征向量进行池化，得到多个池化结果，按照所述预设顺序对所有的池化结果进行串联，得到一维上下文特征向量；

所述拓展融合模块用于：将所述一维上下文特征向量进行拓展，得到与所述卷积特征大小相等的上下文特征矩阵，并将所述上下文特征矩阵与所述卷积特征进行融合，得到融合后的特征信息；

所述预测模块用于：根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵，所述预设字符集中的字符包括文字、标点符号和占位符；

所述识别模块用于根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。

本发明的一种图像文本识别系统的有益效果如下：

采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作，得到多组上下文特征向量，即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系，然后进行后续的文本识别，得到包含待识别文本图像中的文本的字符串，字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本，且避免使用LSTM，在保证识别效率的同时，还能保证识别精度。在上述方案的基础上，本发明的一种图像文本识别系统还可以做如下改进。

进一步，所述预测模块具体用于：

进一步，所述获取模块具体用于：

判断待识别图像中是否包含文本；

进一步，所述获取模块还用于：采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。

进一步，还包括优化模块，所述优化模块用于：按照预设方式对所述字符串进行优化，得到包含所述待识别文本图像中的文本的字符串。

进一步，所述优化模块具体用于：判断字符串中的每个字符是否为占位符，并删除所有的占位符。

本发明的一种电子设备的技术方案如下：

包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现如上述任一项所述的一种图像文本识别方法的步骤。

附图说明

图1为本发明实施例的一种图像文本识别方法的流程示意图之一；

图2为本发明实施例的一种图像文本识别系统的结构示意图之二；

图3为本发明实施例的一种图像文本识别系统的结构示意图；

具体实施方式

如图1所示，本发明实施例的一种图像文本识别方法，包括如下步骤：

S1、获取包含文本的待识别文本图像，具体包括：

S10、判断待识别图像中是否包含文本；

S11、当所述待识别图像中包含文本时，确定所述文本在所述待识别图像中的位置，并根据所述位置进行裁剪，得到所述待识别文本图像。

其中，采用文字检测算法如PSENet、SegLink或FTSN网络等判断待识别图像中是否包含文本，并能确定所述文本在所述待识别图像中的位置，并根据位置进行裁剪，得到待识别文本图像，此时待识别文本图像中包含文本。

也就是说，在进行图像文本识别之前，首先判断待识别图像中是否文本，无需对没有包含文本的待识别图像进行识别，提高图像文本识别的效果，而且，当待识别图像包含文本时，确定文本在待识别图像中的位置，并根据位置进行裁剪，得到待识别文本图像，并对待识别文本图像进行识别，而不需要对整个待识别图像进行识别，进一步提高图像文本识别的效率。

S2、从所述待识别文本图像中提取卷积特征，采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作，得到多组上下文特征向量；

其中，从所述待识别文本图像中提取卷积特征，包括：

1)采用IResNet50神经网络从所述待识别文本图像中提取所述卷积特征。

2)采用ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。

S3、对每组上下文特征向量进行池化，得到多个池化结果，按照所述预设顺序对所有的池化结果进行串联，得到一维上下文特征向量；

S4、将所述一维上下文特征向量进行拓展，得到与所述卷积特征大小相等的上下文特征矩阵，并将所述上下文特征矩阵与所述卷积特征进行融合，得到融合后的特征信息；

S5、根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵，所述预设字符集中的字符包括文字、标点符号和占位符；

S6、根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。

采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作，得到多组上下文特征向量，即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系，然后进行后续的文本识别，得到包含待识别文本图像中的文本的字符串，字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本，且避免使用LSTM，在保证识别效率的同时，还能保证识别精度较优地，在上述技术方案中，每种卷积核的尺寸均为所述卷积特征的宽的整数倍，且所有卷积核的总数量与所述卷积特征的高相等。

较优地，在上述技术方案中，还包括：

S7、按照预设方式对所述字符串进行优化，得到包含所述待识别文本图像中的文本的字符串，具体地：

1)判断字符串中的每个字符是否为占位符，并删除所有的占位符。

2)提取字符串中的所有文字，并按照字符串中的先后关系进行组合，得到待识别文本图像中的文本。

较优地，在上述技术方案中，S6中，所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串，包括如下两种形式：

1)采用BeamSearch算法对所述预测概率矩阵进行最优路径选择，得到包含所述待识别文本图像中的文本的字符串。

2)确定预测概率矩阵中每行预设概率中的最大预设概率，得到每个最大概率对应的字符，将这些字符进行合并，即得到包含所述待识别文本图像中的文本的字符串。

例如，预测概率矩阵的第三行的所有预设概率中的最大预设概率所对应的字符为空字符，则识别出的字符串中，第三个字符为空字符，可用空格代替；

例如，预测概率矩阵中，第十行的所有预设概率中的最大预设概率所对应的字符为逗号，则识别出的字符串中，第十个字符为逗号。

例如，预测概率矩阵中，第十五行的所有预设概率中的最大预设概率所对应的字符为文字“武”，则识别出的字符串中，第十五个字符为“武”。下面通过另外一个实施例对本申请的一种图像文本识别方法进行阐述，如图2所示，具体地：

S80、获取待识别文本图像，具体参考上述对S1的阐述；

S81、获取卷积特征，具体地：

在获取卷积特征之前，还可对待识别文本图像的大小进行调整，例如调整至48×280个像素大小，然后，采用IResNet50神经网络从待识别文本图像中提取所述卷积特征，例如，该卷积特征的大小为35×1152，具体为矩阵形式，其中，35为卷积特征的高，1152为卷积特征的宽；

S82、进行卷积操作，得到多组上下文特征向量，具体地：

设置3种尺寸的卷积核，且每种卷积核的尺寸均为所述卷积特征的宽的整数倍，且所有卷积核的总数量与所述卷积特征的高相等，例如，3种尺寸的卷积核分别为：5×1152、3×1152和2×1152，且尺寸为5×1152的卷积核数量为12组，尺寸为3×1152的卷积核数量为12组，尺寸为2×1152的卷积核数量为11组，即所有卷积核的总数量为35组，与卷积特征的高相等；

并按照预设顺序对所述卷积特征进行卷积操作，得到多组上下文特征向量，其中，可人为设置预设顺序，或随机设置预设顺序。

S83、得到一维上下文特征向量，具体地：

使用maxpooling对每组上下文特征向量进行池化，得到每组上下文特征向量对应的池化结果，该池化结果具体为一个数值，按照上述的预设顺序对所有的池化结果进行串联，得到一维上下文特征向量，也就是说，该一维上下文特征向量的行数为35，共1列，每个元素为一个池化结果，且35个池化结果按照预设顺序排序；

S84、得到上下文特征矩阵，具体地：

由于一维上下文特征向量的行数为35，列数为1，由于行数与卷积特征的高相等，故将一维上下文特征向量按照列进行拓展，即将该一维上下文特征向量中的所有元素进行复制，使得到的上下文特征矩阵的行数为35，列数为1152，即上下文特征矩阵的大小为35×1152，与卷积特征大小相等；

S85、进行融合，具体地：

由于上下文特征矩阵的大小与卷积特征大小相等，此时上下文特征矩阵和卷积特征中的相同位置的元素进行相加，得到融合后的特征信息，融合后的特征信息具体也为一个大小为35×1152的矩阵；

S86、得到预测概率矩阵，具体地：

预设字符集中包括7560个字符，包括文字占位符、标点字符等，那么，利用卷积神经网络中的全连接层根据融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵，得到的预测概率矩阵的行数为35，列数为7560；

其中，预测概率矩阵的第一行、第一列的位置的元素表示：识别出的字符串中的第一个字符为预设字符集中的第一个字符的预测概率；预测概率矩阵的第一行、第二列的位置的元素表示：识别出的字符串中的第一个字符为预设字符集中的第二个字符的预测概率；预测概率矩阵的第二行、第一列的位置的元素表示：识别出的字符串中的第二个字符为预设字符集中的第一个字符的预测概率；预测概率矩阵的第二行、第二列的位置的元素表示：识别出的字符串中的第二个字符为预设字符集中的第二个字符的预测概率；

S87、得到字符串：

1)采用BeamSearch算法对所述预测概率矩阵进行最优路径选择，得到包含所述待识别文本图像中的文本的字符串，具体地：

采用BeamSearch算法能够得到35个字符，预测概率矩阵中的每行元素即预测概率对应一个字符；那么：

例如，预测概率矩阵中的第一行元素所对应的字符为文字“武”，预测概率矩阵中的第五行元素所对应的字符为文字“汉”，预测概率矩阵中的第六行元素所对应的字符为文字“植”，预测概率矩阵中的第八行元素所对应的字符为文字“物”，预测概率矩阵中的第十行元素所对应的字符为“园”，其它的每行元素对应的字符均为空字符，则得到的字符串为：

武[占位符][占位符][占位符]汉植[占位符]物[占位符]园[占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符][占位符]；

其中，占字符可用空格表示，则此时文本为：

武汉植物园；其中，由于本申请中“并按照预设顺序对所述卷积特征进行卷积操作”以及“按照所述预设顺序对所有的池化结果进行串联”，则能过保证识别出的文本中的文字顺序与待识别文本图像中的文字的排列顺序一致。

2)确定预测概率矩阵中每行预设概率中的最大预设概率，得到每个最大概率对应的文字，将这些文字进行合并，即得到待识别文本图像中的文本，具体地：

确定预测概率矩阵中每行的所有元素即预设概率中的最大预设概率，得到每个最大预设概率对应的字符，将这些字符进行合并，即得到字符串，具体地：

预测概率矩阵中的第一行的所有预设概率中的最大预设概率所对应的字符为文字“武”，预测概率矩阵中的第五行的所有预设概率中的最大预设概率所对应的符号为文字“汉”，预测概率矩阵中的第六行的所有预设概率中的最大预设概率所对应的符号为文字“植”，预测概率矩阵中的第八行的所有预设概率中的最大预设概率所对应的字符为文字“物”，预测概率矩阵中的第十行的所有预设概率中的最大预设概率所对应的符号为文字“园”，其它的每行的所有预设概率中的最大预设概率对应的字符均为空字符，则得到的字符串为：

其中，占字符可用空格表示，则此时文本为：

武汉植物园；

S88、优化，判断字符串中的每个字符是否为占位符，并删除所有的占位符，具体地：判断识别出的字符串的每个字符是文字、占字符或标点符号，若是文字则保留，若是占字符则删除，若是标点符号则保留，那么，优化后的文本为：武汉植物园。在上述各实施例中，虽然对步骤进行了编号S1、S2等，但只是本申请给出的具体实施例，本领域的技术人员可根据实际情况调整S1、S2等的执行顺序，此也在本发明的保护范围内，可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

如图3所示，本发明实施例的一种图像文本识别系统200，包括获取模块210、卷积模块220、池化串联模块230、拓展融合模块240、预测模块250和识别模块260；

所述获取模块210用于获取包含文本的待识别文本图像；

所述卷积模块220用于：从所述待识别文本图像中提取卷积特征，采用至少两种尺寸的卷积核并按照预设顺序对所述卷积特征进行卷积操作，得到多组上下文特征向量；

所述池化串联模块230用于：对每组上下文特征向量进行池化，得到多个池化结果，按照所述预设顺序对所有的池化结果进行串联，得到一维上下文特征向量；

所述拓展融合模块240用于：将所述一维上下文特征向量进行拓展，得到与所述卷积特征大小相等的上下文特征矩阵，并将所述上下文特征矩阵与所述卷积特征进行融合，得到融合后的特征信息；

所述预测模块250用于：根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵，所述预设字符集中的字符包括文字、标点符号和占位符；

所述识别模块260用于根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串。

采用至少两种尺寸的卷积核并按照预设顺序对卷积特征进行卷积操作，得到多组上下文特征向量，即通过不同尺寸的卷积核来获取文本中的文字间的依赖关系，然后进行后续的文本识别，得到包含待识别文本图像中的文本的字符串，字符串中的占位符并不影响用户阅读以及应用待识别文本图像中的文本，且避免使用LSTM，在保证识别效率的同时，还能保证识别精度。较优地，在上述技术方案中，每种卷积核的尺寸均为所述卷积特征的宽的整数倍，且所有卷积核的总数量与所述卷积特征的高相等。

较优地，在上述技术方案中，所述预测模块250具体用于：

较优地，在上述技术方案中，所述获取模块210具体用于：

判断待识别图像中是否包含文本；

在进行图像文本识别之前，首先判断待识别图像中是否文本，无需对没有包含文本的待识别图像进行识别，提高图像文本识别的效果，而且，当待识别图像包含文本时，确定文本在待识别图像中的位置，并根据位置进行裁剪，得到待识别文本图像，并对待识别文本图像进行识别，而不需要对整个待识别图像进行识别，进一步提高图像文本识别的效率。

较优地，在上述技术方案中，所述获取模块210还用于：采用IResNet50神经网络或ResNet50神经网络从所述待识别文本图像中提取所述卷积特征。

较优地，在上述技术方案中，还包括优化模块，所述优化模块用于：按照预设方式对所述字符串进行优化，得到包含所述待识别文本图像中的文本的字符串。

较优地，在上述技术方案中，所述优化模块具体用于：判断字符串中的每个字符是否为占位符，并删除所有的占位符。

上述关于本发明的一种图像文本识别系统200中的各参数和各个单元模块实现相应功能的步骤，可参考上文中关于一种图像文本识别方法的实施例中的各参数和步骤，在此不做赘述。

本发明实施例的一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，所述处理器执行所述程序时实现上述任一实施的一种图像文本识别方法的步骤。

其中，电子设备可以选用电脑、手机等，相对应地，其程序为电脑软件或手机APP等，且上述关于本发明的一种电子设备中的各参数和步骤，可参考上文中一种图像文本识别方法的实施例中的各参数和步骤，在此不做赘述。

所属技术领域的技术人员知道，本发明可以实现为系统、方法或计算机程序产品。

因此，本公开可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。

可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM),只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种图像文本识别方法，其特征在于，包括：

获取包含文本的待识别文本图像；

根据所述融合后的特征信息计算预设字符集中的每个字符的预测概率，得到预测概率矩阵，所述预设字符集中的字符包括文字、标点符号和占位符；

根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串；

每种卷积核的尺寸均为所述卷积特征的宽的整数倍，且所有卷积核的总数量与所述卷积特征的高相等。

2.根据权利要求1所述一种图像文本识别方法，其特征在于，所述根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串，包括：

3.根据权利要求1所述的一种图像文本识别方法，其特征在于，所述获取包括文本的待识别文本图像，包括：

判断待识别图像中是否包含文本；

4.根据权利要求1所述一种图像文本识别方法，其特征在于，所述从所述待识别文本图像中提取卷积特征，包括：

5.一种图像文本识别系统，其特征在于，包括获取模块、卷积模块、池化串联模块、拓展融合模块、预测模块和识别模块；

所述获取模块用于获取包含文本的待识别文本图像；

所述识别模块用于根据所述预测概率矩阵得到包含所述待识别文本图像中的文本的字符串；

6.根据权利要求5所述一种图像文本识别系统，其特征在于，所述预测模块具体用于：

7.根据权利要求5所述的一种图像文本识别系统，其特征在于，所述获取模块具体用于：

判断待识别图像中是否包含文本；

8.一种电子设备，包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至4任一项所述的一种图像文本识别方法的步骤。