CN111027553A

CN111027553A - 一种圆形印章文字识别方法

Info

Publication number: CN111027553A
Application number: CN201911335690.5A
Authority: CN
Inventors: 王家奎; 王旺
Original assignee: Wuhan Veilytech Co ltd
Current assignee: Wuhan Veilytech Co ltd
Priority date: 2019-12-23
Filing date: 2019-12-23
Publication date: 2020-04-17

Abstract

本发明公开了一种圆形印章文字识别方法，包括预测部分与训练部分；其中预测部分包括如下步骤：S1、制作训练集，收集和使用软件技术生成大量的圆形印章图片，并获取图片文字，称为标签；S2、通过整理标签的字符，将其进行统计并输入一个文件中用于制作字符集；S3、对图像和标签进行预处理，使其符合输入网络模型的要求；S4、将预处理过的图像和标签输入网络模型；S5、输出训练完成的网络模型，用于下一步的预测部分；S6：将需要预测的图片按照训练部分的方法进行预处理；本发明提供了一种无须标注文本框训练并且可以一次性识别多行文本，且网络模型简单，识别速度快、识别准确率高的圆形印章文字的方法。

Description

一种圆形印章文字识别方法

技术领域

本发明涉及图像处理、文字识别技术领域，具体为一种圆形印章文字识别方法。

背景技术

OCR（OpticalCharacterRecognition，光学字符识别）技术已经是现在相当成熟的技术，再各个领域都有应用，但目前的传统的OCR识别技术在对圆形印章文字等弯曲文本的检测识别都是通过先检测旋转的文字框并做一个仿射变换，然后在featuremap上将文字区域抠出来使用crnn等方法识别，这样的方法由于crnn识别方法的限制，只能识别单行文本，所以对检测算法的要求非常高，在印章文本比较密集的情况下文字检测部分可能不够精准，对识别的结果有非常大的影响，而且在训练阶段的数据集标注非常消耗人工成本，所以现在需要一种流程更为简单，标注更为方便，准确率更高的圆形印章文字识别方法。

发明内容

本发明提供一种圆形印章文字识别方法，可以有效解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种圆形印章文字识别方法，包括预测部分与训练部分；其中预测部分包括如下步骤：

S1、制作训练集，收集和使用软件技术生成大量的圆形印章图片，并获取图片文字，称为标签；

S2、通过整理标签的字符，将其进行统计并输入一个文件中用于制作字符集；

S3、对图像和标签进行预处理，使其符合输入网络模型的要求；

S4、将预处理过的图像和标签输入网络模型；

S5、输出训练完成的网络模型，用于下一步的预测部分；

S6：将需要预测的图片按照训练部分的方法进行预处理；

S7：将seq个“”填充如一个空白序列中，并且第一个字符为“<S>”作为data和步骤S6的图像一起输入网络；

S8：网络加载训练部分训练完成的权重模型，执行Encode部分；

S9：执行Decode部分。

优选的，所述步骤S2中包括如下步骤：

S21：统计全部标签中的字符，将其无重复的放入一个文件中，作为字符表，每个字符对应其所在序列的序号，该字符表的意义是，全部能够识别的字符范围全在该字符表中，其他字符不在能够识别范围内，如需扩展字符表，应该扩展图像训练集的字符多样性；

S22：在字符表开头添加几个字符，分别为代表语句开头的“<S>”、代表语句结尾的“<E>”和表示字符填充的“”；

S23：将标签中的所有字符都通过查询字符表替换成对应的序号，以便在后续步骤中输入网络中进行训练。

优选的，所述步骤S3中包括如下步骤：

S31：将收集到的图像训练集转换为灰度图像；

S32：将所有图像尺寸转换为统一尺寸；

S33：将图像由numpy格式转为tensor格式并进行标准化处理；

S34：图像的标签不仅可以包含文字，也可以适当增加分隔符等字符来使得最终预测的结果也具有相应格式，包括但不限于“_”、“，”和“\t”，由于图像转换为灰度，所以对印章颜色没有特别要求，但是需要图像画面较为清晰和干净；

S35：根据所有标签长度，取最大长度设定为标准长度，将标签内容复制一份，称为data并且将其右移一位，空出的位置插入文本头“<S>”，不够标准长度的语句在其后补充“”来填充至标准长度，标签则在语句后插入文本结束“<E>”，并在其后也进行填充，以便后续计算损失和准确率。

优选的，所述步骤S4中，网络模型分为两大部分，分别为S41：Encode和S42：Decode。

优选的，所述Encode部分中，其输入部分就是通过步骤S3预处理过后的图像，其网络结构主要分为5层结构；

分为conv1_x：主要由2层卷积网络加1层max_pool组成；

第二层conv2_x：由1层Residualblock、1层Multi-AspectGCAttention模块、1层卷积网络再加上1层max_pool组成；

第三层conv3_x：由2层Residualblock、1层Multi-AspectGCAttention模块、1层卷积网络再加上1层max_pool组成；

第四层conv4_x：由5层Residualblock、1层Multi-AspectGCAttention模块加1层卷积网络组成；

第五层conv5_x：由3层Residualblock、1层Multi-AspectGCAttention模块加1层卷积网络组成，Encode部分的输出为经过5层结构后提取的特征；

所述Multi-AspectGCAttention模块中，将输入在通道上划分了h份，每份做了一系列操作之后再叠加起来做后续操作。

6.根据权利要4所述的一种圆形印章文字识别方法，其特征在于，所述Decode部分中，其网络输入分为两项；

其一为Encode部分输出的提取的特征；

另一个为步骤S3预处理过后的data，两者对应；

所述Decode部分的网络结构可以分为3个部分：

第一部分为Embedding和PositionalEncoding，主要用于处理输入数据，输入数据包括data和Encode的输出；

第2部分可以分为三个模块，该部分可以循环迭代训练来加强网络能力；

第3部分为对输出的处理，主要就是Linear网络和softmax；

第2部分为主要部分，第一个模块为MaskedMulti-HeadAttention，其网络结构需要3个输入；第二个模块为Multi-HeadAttention，该模块也有3个输入；第三个模块为FeedForward，输入为前一个模块的输出，该模块的输出可以作为下一个循环的data的输入，Decode输出得到最终预测的矩阵，该矩阵shape为[batch,seq,logit]，其意义为每次同时预测Batch张图片，每张图片对应一条语句，每条语句都是seq（步骤S3的标准长度），即每条语句有seq个字符，每个字符有n种可能，n为字符表的字符个数，也就是字符表中每个字符都对应一个概率值，最后取logit维度中的最大值，即取概率最大的那个字符为最终预测值，取max之后的矩阵shape为[batch,seq]；

其中在Multi-HeadAttention模块中，其有三个输入，分别为Q、K和V，在运算中，先将这三个输入分别经过h个线性变换矩阵，然后输入到放缩点积attention，然后将这h次的放缩点积attention结果进行拼接，再进行一次线性变换得到的值为最后输出，Attention的计算为

，MaskedMulti-HeadAttention与Multi-HeadAttention结构相似，但是多了一次masked，因为在解码部分，解码的时候时从左到右依次解码的，当解出第一个字的时候，第一个字只能与第一个字计算相关性，当解出第二个字的时候，只能计算出第二个字与第一个字和第二个字的相关性，所以需要进行masked。

优选的，所述步骤S5中，取步骤S4输出的预测值和步骤S3预处理过得标签值一起计算损失，然后通过优化器进行迭代训练，最后保存本次的训练的参数，作为训练部分最终的输出权重模型，在预测部分中使用。

优选的，所述步骤S7中，data内容全部都是“”；

所述步骤S9中，第n次循环进行Decode部分操作，会得到该预测语句的第n个字，将该字符替换语句的第n个位置，然后将前n个预测字符和后面的填充字符一起进行第n+1次循环，直至循环结束，得到全部预测字符。

与现有技术相比，本发明的有益效果：本发明提供了一种无须标注文本框训练并且可以一次性识别多行文本，且网络模型简单，识别速度快、识别准确率高的圆形印章文字的方法。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

在附图中：

图1是本发明实例的训练和预测流程示意图；

图2是软件生成的圆形印章图案样例图；

图3是本发明实例的预处理部分的流程示意图；

图4是本发明实例的神经网络流程示意图；

图5-9是本发明实例神经网络的Encode各部分模块的网络结构流程图；

图10是本发明实例的神经网络的Encode中采用的两种残差网络结构流程图；

图11是本发明实例的神经网络的Encode中的Multi-AspectGCAttention模块的网络结构流程图；

图12是本发明实例的神经网络的Decode中的Multi-HeadAttention模块的网络结构流程图；

图13是本发明实例的神经网络的Decode中的Positional-wiseFeed-ForwardNet模块的网络流程图；

图14是本发明实例对图2的识别结果。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

实施例：如图1所示，本发明提供一技术方案，一种圆形印章文字识别方法，包括如下步骤：

使用软件生成大量圆形印章图片，并且将对应的印章文字与图片对应的存放；

整理字符表，需要包含全部待识别字符以及需要识别的字符；

将印章图像和标签文字进行预处理；

将预处理过得图像和标签一起输入网络模型；

经过一定次数的迭代之后生成训练好的权重模型；

将待识别的图像进行预处理，并生成空白序列作为一同输入的数据；

加载权重模型并输入数据；

得到识别的文字。

进一步的，上述步骤的第1步中包含如下工作：

生成的图像尺寸为400*400的RGB图像，背景为白色，印章图案的圆环及其文字为红色；

见图2所示，图案上部为公司名称，中部为五角星图案和专用章名，下部为编号，这个都做该图案的标签也对应保存，其中每一部分之间以“\t”作为分割符；

为了加强神经网络的泛化性能，作为训练集的印章图案，除了公司名称，其他部分故意设计缺失，印章在整张图像的位置随机摆放，随机旋转角度，以此来做数据增强。

进一步的，上述步骤的第2步中包含如下工作：

统计常见汉字字符、数字、中英文标点和“”、“<S>”、“<E>”这三个特殊字符，作为初级字符表，其中三个特殊字符在最前面；

便利全部印章的标签文字，将不在字符表的字符加入字符表中，对字符表进行扩充。

进一步的，如图3所示：上述步骤的第3步中包含如下步骤，

将图像转为灰度；

将图像转为同样尺寸的方法需注意的是应当采用padding的方法保证图像内容不会失真，多出的内容用白色填充；

将图像转为tensor是采用torchvision提供的ToTensor方法；

将图像标准化是采用torchvision提供的Normalize方法，输入参数为(0.5,),(0.5,)；

将标签文字转为该字符在字符表中的序号，同时设置标准长度为70；

将标签一分为二，一部分称为data，在data数据前插入1（“<S>”的序号），同时如数据内容长度超过70，则去掉多余的部分，若长度不足70，则填充0（“”的序号）作为补充；另一部分称为target，在target数据末尾插入2（“<E>”的序号）作为数据结尾，然后不足70的部分填充0。

进一步的，如图4-6所示，上述步骤第4步为神经网络模型部分，其网络结构分为两部分，网络结构及其参数。

Encode部分主要包含5个模块，分别为Conv1_x、Conv2_x、Conv3_x、Conv4_x和Conv5_x，见图4；

上述5个模块中的每层卷积网络和max_pool的参数在图中已经标出，见图5-9；

Encode中的Multi-AspectGCAttention模块的3个参数C、h和r的输入值在图中已经标出，见图6-9；其网络结构见图11；

上述5个模块中的残差块结构见图10，其中Conv2_x和Conv3_x采用的是Residual_1结构，Conv4_x和Conv5_x采用的是Residual_2结构，网络参数在图中已经标出；

Decode部分主要包含三个部分，第一部分为输入部分，主要包括输入数据的Enbedding和positionalEncode，输入包括输入的标签和Encode的输出部分；第二部分包括两个Attention模块和一个FeedForward网络模块，这部分迭代循环3次，其第一次的输入为上一部分的输出，输出作为下一次的输入，迭代结束之后，其输出作为下一部分的输入；第三部分为一个全连接层加softmax计算字符概率，见图4；

Multi-HeadAttention模块的网络结构见图12；MaskedMulti-HeadAttention模块的网络结构图与其相同，再计算上有所不同；两个模块都需要3个输入，分别记为V、K和Q，MaskedMulti-HeadAttention这三个输入都是data，但是Multi-HeadAttention的三个输入，V和K都是上一步的输出，Q为Encode的输出；

Positional-wiseFeed-ForwardNet模块的网络结构见图13，网络参数在图中已经标出。

上述步骤第5步中包含如下工作：

损失函数的计算通过使用pytorch提供的CrossEntropyLoss函数；

优化器使用Adam，使用pytorch提供的函数；

batch设为16，初始学习率设为0.0001，总共设置100次迭代，每20次学习率衰减为原本的0.1。

进一步的，上述步骤第6步中，该模型保存后可以用于同类型的印章图像文字识别，不需要重复训练。

进一步的，上述步骤第7步中，预测部分的网络模型和训练部分是一样的，只需要加载权重模型后即可使用训练得到的权重进行识别。

进一步的，上述步骤第8步，本发明实例的最终识别结果见图14。

采用本发明测试使用软件生成图片21558张，全部字符识别正确率达到99%，而且识别速度快，提取信息准确。

最后应说明的是：以上所述仅为本发明的优选实例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种圆形印章文字识别方法，其特征在于：包括预测部分与训练部分；包括如下步骤：

S4、将预处理过的图像和标签输入网络模型；

S5、输出训练完成的网络模型，用于下一步的预测部分；

S6：将需要预测的图片按照训练部分的方法进行预处理；

S9：执行Decode部分。

2.根据权利要求1所述的一种圆形印章文字识别方法，其特征在于，所述步骤S2中包括如下步骤：

3.根据权利要求1所述的一种圆形印章文字识别方法，其特征在于，所述步骤S3中包括如下步骤：

S31：将收集到的图像训练集转换为灰度图像；

S32：将所有图像尺寸转换为统一尺寸；

S33：将图像由numpy格式转为tensor格式并进行标准化处理；

S34：图像的标签不仅可以包含文字，也可以适当增加分隔符等字符来使得最终预测的结果也具有相应格式；

4.根据权利要求1所述的一种圆形印章文字识别方法，其特征在于，所述步骤S4中，网络模型分为两大部分，分别为S41：Encode和S42：Decode。

5.根据权利要求4所述的一种圆形印章文字识别方法，其特征在于，所述Encode部分中，其输入部分就是通过步骤S3预处理过后的图像，其网络结构主要分为5层结构；

分为conv1_x：主要由2层卷积网络加1层max_pool组成；

其一为Encode部分输出的提取的特征；

另一个为步骤S3预处理过后的data，两者对应；

所述Decode部分的网络结构可以分为3个部分：

第3部分为对输出的处理，主要就是Linear网络和softmax。

7.根据权利要求1所述的一种圆形印章文字识别方法，其特征在于，所述步骤S5中，取步骤S4输出的预测值和步骤S3预处理过得标签值一起计算损失，然后通过优化器进行迭代训练，最后保存本次的训练的参数，作为训练部分最终的输出权重模型，在预测部分中使用。

8.根据权利要求1所述的一种圆形印章文字识别方法，其特征在于，所述步骤S7中，data内容全部都是“”；