CN111985397A - 一种基于深度学习的小学生口算题文本图片内容识别方法 - Google Patents

一种基于深度学习的小学生口算题文本图片内容识别方法 Download PDF

Info

Publication number
CN111985397A
CN111985397A CN202010841478.2A CN202010841478A CN111985397A CN 111985397 A CN111985397 A CN 111985397A CN 202010841478 A CN202010841478 A CN 202010841478A CN 111985397 A CN111985397 A CN 111985397A
Authority
CN
China
Prior art keywords
attention
ctc
branch
model
oral
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010841478.2A
Other languages
English (en)
Other versions
CN111985397B (zh
Inventor
纪睿哲
程艳云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202010841478.2A priority Critical patent/CN111985397B/zh
Publication of CN111985397A publication Critical patent/CN111985397A/zh
Application granted granted Critical
Publication of CN111985397B publication Critical patent/CN111985397B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开一种基于深度学习的小学生口算题文本图片内容识别方法,其针对小学生口算题图像识别,主要针对Densenet网络做了多分支改进,使其可以对图像特征进行充分的提取;同时,为了充分利用多分支Densenet网络所提取的特征,针对联合CTC‑Attention模型做了多分支改进,以提升对口算题的识别效果,解决了现有技术中,由于小学生口算题图像中同时含有印刷体数字和不规范的手写体数字,从而导致采用传统的识别方法准确度有限的问题。

Description

一种基于深度学习的小学生口算题文本图片内容识别方法
技术领域
本专利属于文本图像处理技术领域,具体涉及一种基于深度学习的小学生口算题文本图片内容识别方法。
技术背景
机器视觉技术发展至今,已被广泛用于完成各种难以手动执行的复杂任务,并取得非凡的成就。为了充分利用该技术,教育领域适时出现了各种产品。近年来,出现了一类被广泛使用在作业或试卷智能批改的应用程序,它们可以通过上传照片来自动批阅小学生的数学口算题,文本识别模块作为这类应用程序最为核心的的部分,其准确率将直接影响到批阅的效果,是良好用户体验的根基。虽然现阶段智能批改在口算作业批改方面取得了一定的成绩,但总的来说还处在发展初期,还面临与人工批改的一致性较低、手写识别的准确较低等问题。
小学生的口算题混合了印刷体题目部分和手写体答案部分,目前现有技术中采用的识别方法为对印刷体和手写体进行分离,再交由对应的识别模块进行分别识别。
考虑到口算题的题目与答案部分存在一定的逻辑运算关系,而最终批阅的结果仅需要验证逻辑运算关系是否正确,由于图像中同时含有的小学生手写字符可能存在书写不规范的问题,例如学生的试卷、作业上出现涂改、污渍、字体不规范、书写出现粘连或重叠的情况时,采用传统的识别方式,其识别准确性较低,且现有技术中的识别模型结构均过于复杂,往往导致过拟合,使其在预测未知数据时的泛化能力较差。
发明内容
以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。
为克服现有技术的缺陷,本发明的目的在于公开一种基于深度学习的小学生口算题文本图片内容识别方法,其针对小学生口算题图像识别,解决了现有技术中,由于小学生口算题图像中同时含有印刷体数字和不规范的手写数字,从而导致采用传统的识别方法准确度有限的问题;本发明实现了小学生口算题图像识别快速、准确的效果,以便于后续对口算题计算结果的快速判断。
为尽可能多的提取图像的特征以达到提升识别准确度的效果,本发明技术方案采用一种多分支改进后的Densenet结构,这种结构可以提取出输入图像的高中低维特征,并输出不同解析的特征向量;同时,为了充分利用这些多分支特征,本发明对联合CTC-Attention结构也做了多分支改进。
鉴于上述问题,本发明提供一种基于深度学习的小学生口算题文本图片内容识别方法,具体包括:
步骤一:使用多分支结构改进了的Densenet网络对输入的口算题图像进行特征提取,在除最后一个的每个密集块(Dense Block)后的卷基层之后拓展此多分支结构,以使该网络提取的特征尽可能的涵盖高中低维度特征,并输出三个不同尺寸的输出特征,其中,两个输出特征为多分支结构所提取的输出特征,标记为F2和F3,一个输出特征为正常的Densenet网络所提取的输出特征,标记为F1;
因为低维度特征相对高维度特征拥有更多的位置信息,对提升模型识别能力具有有益效果,采用多分支结构,以尽可能多的提取出输入的口算题图像的高中低维特征;
步骤二:对Densenet生成的三个输出特征做不同预处理处理,以适应多分支联合CTC-Attention结构的CTC部分和Attention部分;所述CTC部分,对不同尺寸的输出特征F1,F2和F3做上采样以统一尺寸,之后再做叠加处理以得到F3',再对F3'的特征尺寸进行调整,即将特征尺寸由三维数组表示成二维数组,重新命名其为F3',作为CTC部分的输入;所述Attention部分,直接输入F1,F2和F3,同样对特征的尺寸进行调整,将特征尺寸由三维数组表示成二维数组,依次对应命名为A,B和E,作为Attention部分对输入;
步骤三:对于CTC部分,将步骤二中预处理后的二维特征F3'输入基于LSTM-CTC的编码器-解码器模型,主要是通过LSTM编码器将特征进行编码,再交由CTC-LSTM解码器进行解码;对于Attention部分,则将步骤二中预处理后的二维特征A,B和E直接分别入Attention-LSTM编码器-解码器模型以输出预测序列状态;
步骤四:设置CTC模型和Attention模型预测联合最大化的最大概率,基于步骤2获得的预测状态进行联合解码,最终的预测结果通过LaTeX格式输出。
优选地,所述步骤三中,CTC部分使用贝叶斯定理计算预测序列的后验概率分布,如下式:
Figure BDA0002641618180000031
此式中的p(zt|X)表示从已知输入特征X所获得的当前t时刻隐藏变量zt的概率,而p(zt|zt-1,S)则为依据前一时刻t-1时刻,在当前预测状态S下隐藏变量输出(zt-1,S)所预测的隐藏变量zt的条件概率,通过这两者的运算可以得到所需要的预测状态S=[s1,s2,…,st]。
优选地,步骤三中,所述Attention部分的编码器-解码器模型采用了多分支架构,预处理后的三个特征输入编码器后将分别得到三个不同的输出,本方法拟分别获得该结果,并使之连接在一起,并交由LSTM解码器来得到状态。
优选地,所述步骤三中,所述将多分支Densenet模型所提取出的特征F1,F2和F3转化后的二维数组特征直接分别输入Attention-LSTM编码器-解码器模型进行编解码操作,具体实现过程如下:当前解码器的预测状态
Figure BDA0002641618180000041
可以被可以计算为:
Figure BDA0002641618180000042
在此式中,yt-1代表先前输入的值,其初始值被设置为为<sos>。而st-1也同样是一个初始化参数。接下来需要计算的是coverage值Covt,ai在步骤t条件下的能量eti以及Attention概率αti,可以通过以下公式计算:
Figure BDA0002641618180000043
eti=vatt tanh(WC*Cti+Wh*ht-1+Wa*ai)
Figure BDA0002641618180000044
此处的αl代表了此前已获得的Attention概率,Q是随网络训练而更新的随机初始化矩阵。eti主要取决于ai,其亦与网络的先前隐藏状态的值ht-1以及Covt的第ith个向量Cti有关。αti则由eti与t步骤的全部能量计算得到。
最终,ct可通过先前得到的ai与αti计算得到,如下式:
Figure BDA0002641618180000051
但由于编码器采用了多分支架构,因此将得到三个不同的输出。本方法拟分别获得其结果,并使之连接在一起,命名为ct。最终,该ct将被交由LSTM解码器来得到状态st,如下式所示:
ct=[cAt;cBt;cEt]
Figure BDA0002641618180000052
本方法采用cat函数来合并结果以得到ct。其次,将刚刚得到的ct
Figure BDA0002641618180000054
将被一同解码以得到st
优选地,步骤四中,所述联合解码采用CTC模型和Attention模型预测联合最大化的最大概率为:
Figure BDA0002641618180000053
λ是一个取值为0≤λ≤1的可变参数。
进一步优选地,通过相关对比实验证明,在针对解决本申请提出的小学生口算题识别的条件下,λ取值为0.2时效果最佳。
本申请的有益效果是:针对小学生口算题图像进行整体识别,从而避免了复杂的分离或分析操作,提升了模型的泛化能力;同时,为了解决手写-印刷混合字符识别,以及小学生的手写字符不规范等问题所引发的字符与字符之间的差异较大的情况;本申请针对Densenet网络做了多分支改进,使其可以对图像特征进行充分的提取;同时,为了充分利用多分支Densenet网络所提取的特征,本申请亦针对联合CTC-Attention模型中的CTC部分与Attention部分做了多分支改进,以提升对口算题的识别效果。
附图说明
图1:为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中多分支Densenet结构示意图;
图2:为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中联合CTC-Attention结构的CTC处理部分结构图;
图3:为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中联合CTC-Attention结构的Attention处理部分结构图;
图4:为本发明一种基于深度学习的小学生口算题文本图片内容识别方法一较佳实施例中识别效果图展示。
具体实施方式
本发明实施例提供了一种基于深度学习的小学生口算题文本图片内容识别方法,为了更好的理解上述技术方案,下面通过附图及具体实施例对本发明技术方案进行详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细说明,而不是对本说明书技术方案的限定。
本申请采用的技术方案,具体实施步骤如下:
(1)特征提取:本申请首先对传统Densenet网络进行改进,由于低维度特征相对高维度特征拥有更多的位置信息,故本申请将其改进为多分支结构,以尽可能多的提取出输入的口算题图像的高中低维特征,对提升模型识别能力具有有益效果。具体实现方式是在除最后一个的每个Dense Block后的卷基层之后拓展此多分支结构,以使该网络提取的特征尽可能的涵盖高中低维度特征,并最终得到三个不同尺寸的输出特征,其中两个为多分支结构所提取的特征,标记为F2,F3;一个为正常的Densenet网络所提取的特征标记为F1,如图1所示。
(2)特征预处理:为了最大程度地利用这些多分支特征并针对性的发挥CTC和Attention的优势,本申请提出对Densenet生成的三个输出特征做不同处理,以适应多分支联合CTC-Attention结构中的CTC部分和Attention部分。
对于CTC部分,对不同尺寸的输出特征F1,F2和F3做上采样以统一尺寸,之后再做叠加处理以得到F3',再对F3'的特征尺寸进行调整,以适应编码器-解码器模型的输入要求,即将特征尺寸由三维数组表示成二维数组,以F3`为例,即尺寸为4H*4W*C```的三维数组,将其表示成尺寸为16L*C```(此处的16L=4H*4W)的二维数组以适应LSTM的输入格式,预处理后的F3`即可作为CTC部分的输入;
对于Attention部分,与上述CTC部分相同,为适应编码器-解码器模型的输入要求,这里仍需对特征的尺寸进行调整,以F1为例,即尺寸为H*W*C的三维数组,将其表示成尺寸为L*C(此处的L=H*W)的二维数组以适应LSTM的输入格式。对输出特征F1,F2和F3进行预处理操作,使其变为对应的二维数组,并依次命名为A,B和E。预处理结束后的这些特征将在LSTM-Attention编码器-解码器模型内部进行多分支处理,具体如步骤(4)所示;
多分支联合CTC-Attention结构的CTC处理部分:由于联合模型中的CTC部分主要作用是对Attention模型进行空间约束,从而降低其可能存在的偏移问题,以提高识别率;在步骤(2)对针对输入CTC部分的多分支特征做处理后输入基于LSTM-CTC的编码器-解码器模型。其首先通过LSTM编码器将特征编码为[h1,h2,...,hT]。再交由CTC-LSTM解码器进行解码,此处的CTC模型主要假定所有标签之间彼此独立,并使用贝叶斯定理计算预测序列的后验概率分布。
Figure BDA0002641618180000071
此式中的p(zt|X)表示从已知输入特征X所获得的当前t时刻隐藏变量zt的概率,而p(zt|zt-1,S)则为依据前一时刻t-1时刻,在当前预测状态S下隐藏变量输出(zt-1,S)所预测的隐藏变量zt的条件概率,通过这两者的运算可以得到所需要的预测状态S=[s1,s2,…,st]。
(3)多分支联合CTC-Attention结构的Attention处理部分:与CTC模型不同,Attention模型则将前后文关系带入预测,为预测长序列提供了便利,在联合模型中起到了巨大的作用;考虑到Attention部分在联合CTC-Attention模型中对识别所起到的作用相对较高,即针对Attention模型进行更进一步的多尺度改进显得尤为重要。直接将通过上采样并横向连接后的特征交由普通Attention模型进行处理未必能充分发挥出多分支Densenet模型所提取到的多分支特征的优势。本申请亦将Coverage vector引入Attention模型中,以避免对已分析内容的重复关注。
基于多尺度改进后的Attention模型的LSTM编码器-解码器模型具体实现过程如下:以输入特征A为例,当前解码器的预测状态
Figure BDA0002641618180000081
可以被可以计算为:
Figure BDA0002641618180000082
在此式中,yt-1代表先前输入的值,其初始值被设置为为<sos>。而st-1也同样是一个初始化参数。接下来需要计算的是coverage值Covt,ai在步骤t条件下的能量eti以及Attention概率αti,可以通过以下公式计算:
Figure BDA0002641618180000083
eti=vatt tanh(WC*Cti+Wh*ht-1+Wa*ai) (4)
Figure BDA0002641618180000084
此处的αl代表了此前已获得的Attention概率,Q是随网络训练而更新的随机初始化矩阵。eti主要取决于ai,其亦与网络的先前隐藏状态的值ht-1以及Covt的第ith个向量Cti有关。αti则由eti与t步骤的全部能量计算得到。
最终,ct可通过先前得到的ai与αti计算得到,如下式:
Figure BDA0002641618180000091
但由于编码器采用了多分支架构,因此将得到三个不同的输出。本方法拟分别获得其结果,并使之连接在一起,命名为ct。最终,该ct将被交由LSTM解码器来得到状态st,如下式所示:
ct=[cAt;cBt;cEt] (7)
Figure BDA0002641618180000092
本方法采用cat函数来合并结果以得到ct。其次,将刚刚得到的ct
Figure BDA0002641618180000093
将被一同解码以得到st
(4)联合解码:本申请将对由步骤(3)、(4)获得的预测状态进行联合解码。为了实现联合解码,本申请决定设置CTC模型和Attention模型预测联合最大化的最大概率为:
Figure BDA0002641618180000094
λ是一个取值为0≤λ≤1的可变参数。通过相关对比实验证明,在针对解决本申请提出的小学生口算题识别的条件下,λ取值为0.2时效果最佳。最终的预测结果将通过LaTeX格式输出,效果如图4所示。
(5)答案分析:由于本申请所提出的识别模型可以将输入的图像识别为LaTeX格式的输出,该格式的输出可以通过计算机直接运算得到结果,而小学生口算题由“等号”,“大于号”,“小于号”等逻辑关系连接,故可以在识别之后的结果中找到此类逻辑关系符号,再进而对其左右两侧的运算关系加以计算,判断逻辑关系的准确与否即可判断本题的正确与否。
本专利提供的一种基于深度学习的小学生口算题文本图片内容识别方法针对小学生口算题图像进行整体识别,从而避免了复杂的分离或分析操作,提升了模型的泛化能力。同时,为了解决手写-印刷混合字符识别,以及小学生的手写字符不规范等问题所引发的字符与字符之间的差异较大的情况。本申请针对Densenet网络做了多分支改进,使其可以对图像特征进行充分的提取。同时,为了充分利用多分支Densenet网络所提取的特征,本申请亦针对联合CTC-Attention模型中的CTC部分与Attention部分做了多分支改进,以提升对口算题的识别效果。
本申请所提方法相比当前主流方法的有益之处在于本申请对待识别的图像进行了充分的特征提取,并在编解码部分充分的利用了所提取到的特征,在对于小学生口算题的识别精度方面相比当下主流识别方法有较大的提升。
本申请拟使用单词错误率(Word Error Rate,WER)作为评估标准。该评估标准是通过计算预测序列校正为标准顺序所需的字符替换,删除或插入操作的数量总数除以标准序列总字符数而获得的百分比,计算公式如下:
Figure BDA0002641618180000101
此处,S为替换的字符个数,D为删除的字符个数,I为插入的字符个数,而N则为标签字符的总个数。
如下表所示,相比当前在整体识别领域广泛使用的CRNN模型以及WAP模型,本申请提出的模型具有更好的性能。而对于采用目标识别再做处理的“爱作业“等方法,本申请的识别准确率亦提升达到了8%。
Figure BDA0002641618180000111

Claims (7)

1.一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,具体包括:
步骤一:使用多分支结构改进了的Densenet网络对输入的口算题图像进行特征提取,在除最后一个的每个密集块(Dense Block)后的卷基层之后拓展此多分支结构,以使该网络提取的特征尽可能的涵盖高中低维度特征,并输出三个不同尺寸的输出特征,其中,两个输出特征为多分支结构所提取的输出特征,标记为F2和F3,一个输出特征为正常的Densenet网络所提取的输出特征,标记为F1;
步骤二:对Densenet生成的三个输出特征做不同预处理处理,以适应多分支联合CTC-Attention结构的CTC部分和Attention部分;所述CTC部分,对不同尺寸的输出特征F1,F2和F3做上采样以统一尺寸,之后再做叠加处理以得到F3',再对F3'的特征尺寸进行调整,即将特征尺寸由三维数组表示成二维数组,重新命名其为F3',作为CTC部分的输入;所述Attention部分,直接输入F1,F2和F3,同样对特征的尺寸进行调整,将特征尺寸由三维数组表示成二维数组,依次对应命名为A,B和E,作为Attention部分对输入;
步骤三:对于CTC部分,将步骤二中预处理后的二维特征F3'输入基于LSTM-CTC的编码器-解码器模型,主要是通过LSTM编码器将特征进行编码,再交由CTC-LSTM解码器进行解码;对于Attention部分,则将步骤二中预处理后的二维特征A,B和E直接分别输入Attention-LSTM编码器-解码器模型以输出预测序列状态;
步骤四:设置CTC模型和Attention模型预测联合最大化的最大概率,基于步骤三获得的预测状态进行联合解码,最终的预测结果通过LaTeX格式输出。
2.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,所述步骤三中的CTC部分,使用贝叶斯定理计算预测序列的后验概率分布,如下式:
Figure FDA0002641618170000021
此式中的p(zt|X)表示从已知输入特征X所获得的当前t时刻隐藏变量zt的概率,而p(zt|zt-1,S)则为依据前一时刻t-1时刻,在当前预测状态S下隐藏变量输出(zt-1,S)所预测的隐藏变量zt的条件概率,通过这两者的运算可以得到所需要的预测状态S=[s1,s2,…,st]。
3.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,步骤三中,所述将多分支Densenet模型所提取出的特征F1,F2和F3转化后的二维数组特征直接分别输入Attention-LSTM编码器-解码器模型进行编解码操作。
4.根据权利要求3所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,步骤三中,所述Attention部分的编码器-解码器模型采用了多分支架构,预处理后的三个特征输入该编码器后将分别得到三个不同的输出,本方法拟分别获得该结果,并使之连接在一起,并交由LSTM解码器来得到状态。
5.根据权利要求3所述的一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,对于Attention部分的编解码操作具体实现过程如下:当前解码器的预测状态
Figure FDA0002641618170000022
可以被可以计算为:
Figure FDA0002641618170000023
在此式中,yt-1代表先前输入的值,其初始值被设置为为<sos>,而st-1也同样是一个初始化参数,接下来需要计算的是coverage值Covt,ai在步骤t条件下的能量eti以及Attention概率αti,可以通过以下公式计算:
Figure FDA0002641618170000031
eti=vatttanh(WC*Cti+Wh*ht-1+Wa*ai),
Figure FDA0002641618170000032
此处的αl代表了此前已获得的Attention概率,Q是随网络训练而更新的随机初始化矩阵,eti主要取决于ai,其亦与网络的先前隐藏状态的值ht-1以及Covt的第ith个向量Cti有关,αti则由eti与t步骤的全部能量计算得到;
最终,ct可通过先前得到的ai与αti计算得到,如下式:
Figure FDA0002641618170000033
但由于编码器采用了多分支架构,因此将得到三个不同的输出,并分别获得其结果,并使之连接在一起,命名为ct,最终,该ct将被交由LSTM解码器来得到状态st,如下式所示:
ct=[cAt;cBt;cEt],
Figure FDA0002641618170000034
采用cat函数来合并结果以得到ct,其次,将刚刚得到的ct
Figure FDA0002641618170000035
将被一同解码以得到st
6.根据权利要求1所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,步骤四中,所述联合解码采用CTC模型和Attention模型预测联合最大化的最大概率为:
Figure FDA0002641618170000036
λ是一个取值为0≤λ≤1。
7.根据权利要求5所述一种基于深度学习的小学生口算题文本图片内容识别方法,其特征在于,λ取值为0.2。
CN202010841478.2A 2020-08-20 2020-08-20 一种基于深度学习的小学生口算题文本图片内容识别方法 Active CN111985397B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010841478.2A CN111985397B (zh) 2020-08-20 2020-08-20 一种基于深度学习的小学生口算题文本图片内容识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010841478.2A CN111985397B (zh) 2020-08-20 2020-08-20 一种基于深度学习的小学生口算题文本图片内容识别方法

Publications (2)

Publication Number Publication Date
CN111985397A true CN111985397A (zh) 2020-11-24
CN111985397B CN111985397B (zh) 2022-07-12

Family

ID=73442310

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010841478.2A Active CN111985397B (zh) 2020-08-20 2020-08-20 一种基于深度学习的小学生口算题文本图片内容识别方法

Country Status (1)

Country Link
CN (1) CN111985397B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703311A (zh) * 2023-04-25 2023-09-05 无锡玉江缘科技有限公司 一种大数据互动教学实训系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN110766012A (zh) * 2019-09-20 2020-02-07 北京航空航天大学 一种基于深度学习的手写体数学表达式识别方法与装置
CN111553350A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的注意力机制文本识别方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109543667A (zh) * 2018-11-14 2019-03-29 北京工业大学 一种基于注意力机制的文本识别方法
CN110766012A (zh) * 2019-09-20 2020-02-07 北京航空航天大学 一种基于深度学习的手写体数学表达式识别方法与装置
CN111553350A (zh) * 2020-04-26 2020-08-18 佛山市南海区广工大数控装备协同创新研究院 一种基于深度学习的注意力机制文本识别方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
史建伟等: "基于改进YOLOv3和BGRU的车牌识别系统", 《计算机工程与设计》 *
黄金星等: "基于残差连接的场景文本识别端到端网络结构优化", 《计算机科学》 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116703311A (zh) * 2023-04-25 2023-09-05 无锡玉江缘科技有限公司 一种大数据互动教学实训系统
CN116703311B (zh) * 2023-04-25 2024-01-02 山西红蓝融合科技集团有限公司 一种大数据互动教学实训系统

Also Published As

Publication number Publication date
CN111985397B (zh) 2022-07-12

Similar Documents

Publication Publication Date Title
CN109919147A (zh) 服装吊牌图像中文本识别的方法
Zhang et al. Radical analysis network for learning hierarchies of Chinese characters
CN110059741A (zh) 基于语义胶囊融合网络的图像识别方法
CN109255284B (zh) 一种基于运动轨迹的3d卷积神经网络的行为识别方法
CN104463101A (zh) 用于文字性试题的答案识别方法及系统
CN105138973A (zh) 人脸认证的方法和装置
CN112686345B (zh) 一种基于注意力机制的脱机英文手写识别方法
CN112818951A (zh) 一种票证识别的方法
CN110598733A (zh) 一种基于交互建模的多标记距离度量学习方法
CN109948735A (zh) 一种多标签分类方法、系统、装置及存储介质
CN115761764A (zh) 一种基于视觉语言联合推理的中文手写文本行识别方法
CN111985397B (zh) 一种基于深度学习的小学生口算题文本图片内容识别方法
CN114170461A (zh) 基于特征空间重整化的师生架构含噪声标签图像分类方法
CN112001155B (zh) 智能语音标注方法和系统
CN111738177B (zh) 一种基于姿态信息提取的学生课堂行为识别方法
CN111783697A (zh) 一种基于卷积神经网络的错题检测及靶向推荐系统和方法
Zhang et al. C2st: Cross-modal contextualized sequence transduction for continuous sign language recognition
CN116563624A (zh) 一种基于多任务学习的肺结节分类方法
CN113592045B (zh) 从印刷体到手写体的模型自适应文本识别方法和系统
CN109522892A (zh) 神经网络辅助的文字图像信息标注方法
CN109815889A (zh) 一种基于特征表示集的跨分辨率人脸识别方法
CN114299510A (zh) 一种手写英文行识别系统
CN115512340A (zh) 基于图片的意图检测方法及装置
CN112668628A (zh) 一种空调外机质量检测与可视化方法
CN103793720A (zh) 一种眼睛定位方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant