CN111985397B

CN111985397B - 一种基于深度学习的小学生口算题文本图片内容识别方法

Info

Publication number: CN111985397B
Application number: CN202010841478.2A
Authority: CN
Inventors: 纪睿哲; 程艳云
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-08-20
Filing date: 2020-08-20
Publication date: 2022-07-12
Anticipated expiration: 2040-08-20
Also published as: CN111985397A

Abstract

本发明公开一种基于深度学习的小学生口算题文本图片内容识别方法，其针对小学生口算题图像识别，主要针对Densenet网络做了多分支改进，使其可以对图像特征进行充分的提取；同时，为了充分利用多分支Densenet网络所提取的特征，针对联合CTC‑Attention模型做了多分支改进，以提升对口算题的识别效果，解决了现有技术中，由于小学生口算题图像中同时含有印刷体数字和不规范的手写体数字，从而导致采用传统的识别方法准确度有限的问题。

Description

一种基于深度学习的小学生口算题文本图片内容识别方法

技术领域

本专利属于文本图像处理技术领域，具体涉及一种基于深度学习的小学生口算题文本图片内容识别方法。

技术背景

机器视觉技术发展至今，已被广泛用于完成各种难以手动执行的复杂任务，并取得非凡的成就。为了充分利用该技术，教育领域适时出现了各种产品。近年来，出现了一类被广泛使用在作业或试卷智能批改的应用程序，它们可以通过上传照片来自动批阅小学生的数学口算题，文本识别模块作为这类应用程序最为核心的的部分，其准确率将直接影响到批阅的效果，是良好用户体验的根基。虽然现阶段智能批改在口算作业批改方面取得了一定的成绩，但总的来说还处在发展初期，还面临与人工批改的一致性较低、手写识别的准确较低等问题。

小学生的口算题混合了印刷体题目部分和手写体答案部分，目前现有技术中采用的识别方法为对印刷体和手写体进行分离，再交由对应的识别模块进行分别识别。

考虑到口算题的题目与答案部分存在一定的逻辑运算关系，而最终批阅的结果仅需要验证逻辑运算关系是否正确，由于图像中同时含有的小学生手写字符可能存在书写不规范的问题，例如学生的试卷、作业上出现涂改、污渍、字体不规范、书写出现粘连或重叠的情况时，采用传统的识别方式，其识别准确性较低，且现有技术中的识别模型结构均过于复杂，往往导致过拟合，使其在预测未知数据时的泛化能力较差。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

为克服现有技术的缺陷，本发明的目的在于公开一种基于深度学习的小学生口算题文本图片内容识别方法，其针对小学生口算题图像识别，解决了现有技术中，由于小学生口算题图像中同时含有印刷体数字和不规范的手写数字，从而导致采用传统的识别方法准确度有限的问题；本发明实现了小学生口算题图像识别快速、准确的效果，以便于后续对口算题计算结果的快速判断。

为尽可能多的提取图像的特征以达到提升识别准确度的效果，本发明技术方案采用一种多分支改进后的Densenet结构，这种结构可以提取出输入图像的高中低维特征，并输出不同解析的特征向量；同时，为了充分利用这些多分支特征，本发明对联合CTC-Attention结构也做了多分支改进。

鉴于上述问题，本发明提供一种基于深度学习的小学生口算题文本图片内容识别方法，具体包括：

步骤一：使用多分支结构改进了的Densenet网络对输入的口算题图像进行特征提取，在除最后一个的每个密集块(Dense Block)后的卷基层之后拓展此多分支结构，以使该网络提取的特征尽可能的涵盖高中低维度特征，并输出三个不同尺寸的输出特征，其中，两个输出特征为多分支结构所提取的输出特征，标记为F2和F3，一个输出特征为正常的Densenet网络所提取的输出特征，标记为F1；

因为低维度特征相对高维度特征拥有更多的位置信息，对提升模型识别能力具有有益效果，采用多分支结构，以尽可能多的提取出输入的口算题图像的高中低维特征；

步骤二：对Densenet生成的三个输出特征做不同预处理处理，以适应多分支联合CTC-Attention结构的CTC部分和Attention部分；所述CTC部分，对不同尺寸的输出特征F1，F2和F3做上采样以统一尺寸，之后再做叠加处理以得到F3'，再对F3'的特征尺寸进行调整，即将特征尺寸由三维数组表示成二维数组，重新命名其为F3'，作为CTC部分的输入；所述Attention部分，直接输入F1，F2和F3，同样对特征的尺寸进行调整，将特征尺寸由三维数组表示成二维数组，依次对应命名为A,B和E，作为Attention部分对输入；

步骤三：对于CTC部分，将步骤二中预处理后的二维特征F3'输入基于LSTM-CTC的编码器-解码器模型，主要是通过LSTM编码器将特征进行编码，再交由CTC-LSTM解码器进行解码；对于Attention部分，则将步骤二中预处理后的二维特征A,B和E直接分别入Attention-LSTM编码器-解码器模型以输出预测序列状态；

步骤四：设置CTC模型和Attention模型预测联合最大化的最大概率，基于步骤2获得的预测状态进行联合解码，最终的预测结果通过LaTeX格式输出。

优选地，所述步骤三中，CTC部分使用贝叶斯定理计算预测序列的后验概率分布，如下式：

此式中的p(z_t|X)表示从已知输入特征X所获得的当前t时刻隐藏变量z_t的概率,而p(z_t|z_t-1,S)则为依据前一时刻t-1时刻，在当前预测状态S下隐藏变量输出(z_t-1,S)所预测的隐藏变量z_t的条件概率，通过这两者的运算可以得到所需要的预测状态S＝[s₁,s₂,…,s_t]。

优选地，步骤三中，所述Attention部分的编码器-解码器模型采用了多分支架构，预处理后的三个特征输入编码器后将分别得到三个不同的输出，本方法拟分别获得该结果，并使之连接在一起，并交由LSTM解码器来得到状态。

优选地，所述步骤三中，所述将多分支Densenet模型所提取出的特征F1，F2和F3转化后的二维数组特征直接分别输入Attention-LSTM编码器-解码器模型进行编解码操作，具体实现过程如下：当前解码器的预测状态

可以被可以计算为：

在此式中,y_t-1代表先前输入的值，其初始值被设置为为＜sos＞。而s_t-1也同样是一个初始化参数。接下来需要计算的是coverage值Cov_t，a_i在步骤t条件下的能量e_ti以及Attention概率α_ti，可以通过以下公式计算：

e_ti＝v_att tanh(W_C*C_ti+W_h*h_t-1+W_a*a_i)

此处的α_l代表了此前已获得的Attention概率，Q是随网络训练而更新的随机初始化矩阵。e_ti主要取决于a_i，其亦与网络的先前隐藏状态的值h_t-1以及Cov_t的第i_th个向量C_ti有关。α_ti则由e_ti与t步骤的全部能量计算得到。

最终，c_t可通过先前得到的a_i与α_ti计算得到，如下式：

但由于编码器采用了多分支架构，因此将得到三个不同的输出。本方法拟分别获得其结果，并使之连接在一起，命名为c_t。最终，该c_t将被交由LSTM解码器来得到状态s_t，如下式所示：

c_t＝[cA_t；cB_t；cE_t]

本方法采用cat函数来合并结果以得到c_t。其次，将刚刚得到的c_t与

将被一同解码以得到s_t。

优选地，步骤四中，所述联合解码采用CTC模型和Attention模型预测联合最大化的最大概率为：

λ是一个取值为0≤λ≤1的可变参数。

进一步优选地，通过相关对比实验证明，在针对解决本申请提出的小学生口算题识别的条件下，λ取值为0.2时效果最佳。

本申请的有益效果是：针对小学生口算题图像进行整体识别，从而避免了复杂的分离或分析操作，提升了模型的泛化能力；同时，为了解决手写-印刷混合字符识别，以及小学生的手写字符不规范等问题所引发的字符与字符之间的差异较大的情况；本申请针对Densenet网络做了多分支改进，使其可以对图像特征进行充分的提取；同时，为了充分利用多分支Densenet网络所提取的特征，本申请亦针对联合CTC-Attention模型中的CTC部分与Attention部分做了多分支改进，以提升对口算题的识别效果。

附图说明

图1：为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中多分支Densenet结构示意图；

图2：为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中联合CTC-Attention结构的CTC处理部分结构图；

图3：为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中联合CTC-Attention结构的Attention处理部分结构图；

图4：为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中识别效果图展示。

具体实施方式

本发明实施例提供了一种基于深度学习的小学生口算题文本图片内容识别方法，为了更好的理解上述技术方案，下面通过附图及具体实施例对本发明技术方案进行详细的说明，应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细说明，而不是对本说明书技术方案的限定。

本申请采用的技术方案，具体实施步骤如下：

(1)特征提取：本申请首先对传统Densenet网络进行改进，由于低维度特征相对高维度特征拥有更多的位置信息，故本申请将其改进为多分支结构，以尽可能多的提取出输入的口算题图像的高中低维特征，对提升模型识别能力具有有益效果。具体实现方式是在除最后一个的每个Dense Block后的卷基层之后拓展此多分支结构，以使该网络提取的特征尽可能的涵盖高中低维度特征，并最终得到三个不同尺寸的输出特征，其中两个为多分支结构所提取的特征，标记为F2，F3；一个为正常的Densenet网络所提取的特征标记为F1，如图1所示。

(2)特征预处理：为了最大程度地利用这些多分支特征并针对性的发挥CTC和Attention的优势，本申请提出对Densenet生成的三个输出特征做不同处理，以适应多分支联合CTC-Attention结构中的CTC部分和Attention部分。

对于CTC部分，对不同尺寸的输出特征F1，F2和F3做上采样以统一尺寸，之后再做叠加处理以得到F3'，再对F3'的特征尺寸进行调整，以适应编码器-解码器模型的输入要求，即将特征尺寸由三维数组表示成二维数组，以F3`为例，即尺寸为4H*4W*C```的三维数组，将其表示成尺寸为16L*C```(此处的16L＝4H*4W)的二维数组以适应LSTM的输入格式，预处理后的F3`即可作为CTC部分的输入；

对于Attention部分，与上述CTC部分相同，为适应编码器-解码器模型的输入要求，这里仍需对特征的尺寸进行调整，以F1为例，即尺寸为H*W*C的三维数组，将其表示成尺寸为L*C(此处的L＝H*W)的二维数组以适应LSTM的输入格式。对输出特征F1，F2和F3进行预处理操作，使其变为对应的二维数组，并依次命名为A,B和E。预处理结束后的这些特征将在LSTM-Attention编码器-解码器模型内部进行多分支处理，具体如步骤(4)所示；

多分支联合CTC-Attention结构的CTC处理部分：由于联合模型中的CTC部分主要作用是对Attention模型进行空间约束，从而降低其可能存在的偏移问题，以提高识别率；在步骤(2)对针对输入CTC部分的多分支特征做处理后输入基于LSTM-CTC的编码器-解码器模型。其首先通过LSTM编码器将特征编码为[h₁,h₂,...,h_T]。再交由CTC-LSTM解码器进行解码，此处的CTC模型主要假定所有标签之间彼此独立，并使用贝叶斯定理计算预测序列的后验概率分布。

(3)多分支联合CTC-Attention结构的Attention处理部分：与CTC模型不同，Attention模型则将前后文关系带入预测，为预测长序列提供了便利，在联合模型中起到了巨大的作用；考虑到Attention部分在联合CTC-Attention模型中对识别所起到的作用相对较高，即针对Attention模型进行更进一步的多尺度改进显得尤为重要。直接将通过上采样并横向连接后的特征交由普通Attention模型进行处理未必能充分发挥出多分支Densenet模型所提取到的多分支特征的优势。本申请亦将Coverage vector引入Attention模型中，以避免对已分析内容的重复关注。

基于多尺度改进后的Attention模型的LSTM编码器-解码器模型具体实现过程如下：以输入特征A为例，当前解码器的预测状态

可以被可以计算为：

e_ti＝v_att tanh(W_C*C_ti+W_h*h_t-1+W_a*a_i) (4)

最终，c_t可通过先前得到的a_i与α_ti计算得到，如下式：

c_t＝[cA_t；cB_t；cE_t] (7)

将被一同解码以得到s_t。

(4)联合解码：本申请将对由步骤(3)、(4)获得的预测状态进行联合解码。为了实现联合解码，本申请决定设置CTC模型和Attention模型预测联合最大化的最大概率为：

λ是一个取值为0≤λ≤1的可变参数。通过相关对比实验证明，在针对解决本申请提出的小学生口算题识别的条件下，λ取值为0.2时效果最佳。最终的预测结果将通过LaTeX格式输出，效果如图4所示。

(5)答案分析：由于本申请所提出的识别模型可以将输入的图像识别为LaTeX格式的输出，该格式的输出可以通过计算机直接运算得到结果，而小学生口算题由“等号”，“大于号”，“小于号”等逻辑关系连接，故可以在识别之后的结果中找到此类逻辑关系符号，再进而对其左右两侧的运算关系加以计算，判断逻辑关系的准确与否即可判断本题的正确与否。

本专利提供的一种基于深度学习的小学生口算题文本图片内容识别方法针对小学生口算题图像进行整体识别，从而避免了复杂的分离或分析操作，提升了模型的泛化能力。同时，为了解决手写-印刷混合字符识别，以及小学生的手写字符不规范等问题所引发的字符与字符之间的差异较大的情况。本申请针对Densenet网络做了多分支改进，使其可以对图像特征进行充分的提取。同时，为了充分利用多分支Densenet网络所提取的特征，本申请亦针对联合CTC-Attention模型中的CTC部分与Attention部分做了多分支改进，以提升对口算题的识别效果。

本申请所提方法相比当前主流方法的有益之处在于本申请对待识别的图像进行了充分的特征提取，并在编解码部分充分的利用了所提取到的特征，在对于小学生口算题的识别精度方面相比当下主流识别方法有较大的提升。

本申请拟使用单词错误率(Word Error Rate，WER)作为评估标准。该评估标准是通过计算预测序列校正为标准顺序所需的字符替换，删除或插入操作的数量总数除以标准序列总字符数而获得的百分比，计算公式如下：

此处，S为替换的字符个数，D为删除的字符个数,I为插入的字符个数，而N则为标签字符的总个数。

如下表所示，相比当前在整体识别领域广泛使用的CRNN模型以及WAP模型，本申请提出的模型具有更好的性能。而对于采用目标识别再做处理的“爱作业“等方法，本申请的识别准确率亦提升达到了8％。

Claims

1.一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，具体包括：

步骤一：使用多分支结构改进了的Densenet网络对输入的口算题图像进行特征提取，在除最后一个的每个密集块Dense Block后的卷基层之后拓展此多分支结构，以使该网络提取的特征尽可能的涵盖高中低维度特征，并输出三个不同尺寸的输出特征，其中，两个输出特征为多分支结构所提取的输出特征，标记为F2和F3，一个输出特征为正常的Densenet网络所提取的输出特征，标记为F1；

步骤二：对Densenet生成的三个输出特征做不同预处理，以适应多分支联合CTC-Attention结构的CTC部分和Attention部分；所述CTC部分，对不同尺寸的输出特征F1，F2和F3做上采样以统一尺寸，之后再做叠加处理以得到F3'，再对F3'的特征尺寸进行调整，即将特征尺寸由三维数组表示成二维数组，重新命名其为F3'，作为CTC部分的输入；所述Attention部分，直接输入F1，F2和F3，同样对特征的尺寸进行调整，将特征尺寸由三维数组表示成二维数组，依次对应命名为A,B和E，作为Attention部分对输入；

步骤三：对于CTC部分，将步骤二中预处理后的二维特征F3'输入基于LSTM-CTC的编码器-解码器模型，主要是通过LSTM编码器将特征进行编码，再交由CTC-LSTM解码器进行解码；对于Attention部分，则将步骤二中预处理后的二维特征A,B和E直接分别输入Attention-LSTM编码器-解码器模型以输出预测序列状态；

步骤四：设置CTC模型和Attention模型预测联合最大化的最大概率，基于步骤三获得的预测状态进行联合解码，最终的预测结果通过LaTeX格式输出。

2.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，所述步骤三中的CTC部分，使用贝叶斯定理计算预测序列的后验概率分布，如下式：

3.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，步骤三中，将多分支Densenet模型所提取出的特征F1，F2和F3转化后的二维数组特征直接分别输入Attention-LSTM编码器-解码器模型进行编解码操作。

4.根据权利要求3所述一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，步骤三中，所述Attention部分的编码器-解码器模型采用了多分支架构，预处理后的三个特征输入该编码器后将分别得到三个不同的输出，本方法拟分别获得该结果，并使之连接在一起，并交由LSTM解码器来得到状态。

5.根据权利要求3所述的一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，对于Attention部分的编解码操作具体实现过程如下：当前解码器的预测状态

可以被计算为：

在此式中,y_t-1代表先前输入的值，其初始值被设置为＜sos＞，而s_t-1也同样是一个初始化参数，接下来需要计算的是coverage值Cov_t，a_i在步骤t条件下的能量e_ti以及Attention概率α_ti，可以通过以下公式计算：

e_ti＝v_atttanh(W_C*C_ti+W_h*h_t-1+W_a*a_i)，

此处的α_l代表了此前已获得的Attention概率，Q是随网络训练而更新的随机初始化矩阵，e_ti主要取决于a_i，其亦与网络的先前隐藏状态的值h_t-1以及Cov_t的第i_th个向量C_ti有关，α_ti则由e_ti与t步骤的全部能量计算得到；

最终，c_t可通过先前得到的a_i与α_ti计算得到，如下式：

但由于编码器采用了多分支架构，因此将得到三个不同的输出，并分别获得其结果，并使之连接在一起，命名为c_t，最终，该c_t将被交由LSTM解码器来得到状态s_t，如下式所示：

c_t＝[cA_t；cB_t；cE_t]，

采用cat函数来合并结果以得到c_t，其次，将刚刚得到的c_t与

将被一同解码以得到s_t。

6.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，步骤四中，所述联合解码采用CTC模型和Attention模型预测联合最大化的最大概率为：

λ是一个取值为0≤λ≤1。

7.根据权利要求5所述一种基于深度学习的小学生口算题文本图片内容识别方法，其特征在于，λ取值为0.2。