CN110705399A - 一种数学公式自动识别的方法 - Google Patents

一种数学公式自动识别的方法 Download PDF

Info

Publication number
CN110705399A
CN110705399A CN201910884275.9A CN201910884275A CN110705399A CN 110705399 A CN110705399 A CN 110705399A CN 201910884275 A CN201910884275 A CN 201910884275A CN 110705399 A CN110705399 A CN 110705399A
Authority
CN
China
Prior art keywords
layer
convolution
formula
output
encoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910884275.9A
Other languages
English (en)
Inventor
史贯丽
严军峰
陈家海
叶家鸣
吴波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anhui Seven Days Education Technology Co Ltd
Original Assignee
Anhui Seven Days Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anhui Seven Days Education Technology Co Ltd filed Critical Anhui Seven Days Education Technology Co Ltd
Priority to CN201910884275.9A priority Critical patent/CN110705399A/zh
Publication of CN110705399A publication Critical patent/CN110705399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及图像识别技术领域,且公开了一种数学公式自动识别的方法,该系统基于序列到序列的网络架构,主要包含异构卷积部分,编码器部分、解码器部分、attention部分,beamsearch搜索部分;该数学公式自动识别的方法针对扫描试卷这种特殊的文档图像数据,提出一种基于多层异构卷积神经网络的seq2seq模型,在整个seq2seq模型中,编码层和解码层都是基于卷积神经网络的,传统的基于RNN的seq2seq模型的实现需要依赖于序列的历史信息,不能并行实现。所使用的卷积神经网络是一种异构卷积网络,与传统的卷积层不同的是,它的过滤器中可以包含不同大小的卷积核(一部分为3*3,另外一部分是1*1),相对于使用同样的卷积核(3*3),计算速度会有提升。

Description

一种数学公式自动识别的方法
技术领域
本发明涉及图像识别技术领域,具体为一种数学公式自动识别的方法。
背景技术
现在大部分人都是利用互联网这个传播渠道进行发布和交换信息,但是大多数的信息资源在网上是通过电子文档或者是图片的形式传播的。目前试卷这种资源很少会以可编辑的形式进行发布,大部分是图片或者pdf形式。对于一些只包含文字类的试卷,现在的OCR方法可以很好的进行识别,不存在很大的问题。但是像数学试卷,里面包含很多数学公式,现有的OCR并不能很好地进行识别,对于想要再次编辑,重新对试题进行利用是比较困难的。因此,采用某种计算机技术对数学公式类的字符进行自动识别,就显得尤为重要。
近年来,深度学习技术已经被广泛应用到图像识别中,并且展示出强大的图像识别能力。目前专门针对数学公式图片进行识别的方法很少。由于我们想要实现图片到字符序列的生成,而Seq2Seq解决问题的主要思路是通过深度神经网络模型将一个作为输入的序列映射为一个作为输出的序列,这一过程由编码输入(encoder)与解码输出(decoder)两个环节组成,因此采用seq2seq这个模型。目前大部分的seq2seq是基于rnn的,而rnn的输入是依赖于前一个的输出,因此很难实现并行化。考虑使用堆叠的cnn来捕捉各个输入之间的关系,就不存在前后的依赖关系,可很好的实现并行化。由于attention模块会根据序列的重要程度给予不同的权重,所以采用含有attention模块的基于cnn的seq2seq进行公式图像识别。
现有的公式识别是利用一些统计学的方法,将图片进行二值化处理,分别计算纯文本行与带有数学公式的文本行之间的差异,进行公式行的定位,随后会根据字体的大小、长宽比、宽度和高度等特征与数学公式字符特征间的差别,进一步对公式中的字符进行分割。最后对分割后的数学公式字符按照模板匹配法进行匹配。显然这种方法是将公式中的一个个字符作为一个独立的个体,没有考虑到它们之间可能存在是依赖关系,而且字体的大小和长宽比这些可能随着不同的场景会有所不同。
发明内容
(一)解决的技术问题
针对现有技术的不足,本发明提供了一种数学公式自动识别的方法,解决了现有的公式识别是利用一些统计学的方法,将图片进行二值化处理,分别计算纯文本行与带有数学公式的文本行之间的差异,进行公式行的定位,这种方法是将公式中的一个个字符作为一个独立的个体,没有考虑到它们之间可能存在是依赖关系,而且字体的大小和长宽比这些可能随着不同的场景会有所不同的问题。
(二)技术方案
为实现上述目的,本发明提供如下技术方案:一种数学公式自动识别的方法,该系统基于序列到序列的网络架构,主要包含异构卷积部分,编码器部分、解码器部分、attention部分,beamsearch搜索部分。
优选的,所述异构卷积部分具体描述为:传统的过滤器是3*3*64,表示的是64个过滤器中的卷积核都是同样的大小3*3;所谓的异构卷积,表示的是这个64个过滤器中的卷积核大小不是唯一的,它允许同一层的过滤器中含有不同大小的卷积核,在这里使用的是两种卷积核(3*3和1*1),相比于使用同样的卷积核(3*3),采用了1*1的卷积核在进行卷积计算时,计算量会有明显的减少,假设M为输入通道的数量,P为控制卷积核数量的参数,N为输出通道的个数,这里P=4,则3*3卷积核的个数为M/P个,其余的都是1*1卷积核,假设第一个过滤器中3*3卷积是从第一个位置开始的,紧随之后的是(P-1)个1*1的卷积核,而第二个过滤器中的3*3卷积核是从第二个位置开始,后面还是紧跟(P-1)个1*1的卷积核,后面的过滤器依次类推。
优选的,所述编码器部分具体描述为:包括6个异构卷积层,通道数依次为64,128,256,256,256,512;第一层、第二层后面会有pooling层,之后紧跟非线性激活函数elu,中间层有2个残差连接,第三层卷积的输出与第四层的输出相加作为第五层的输入,第四层的输出和第五层的输出相加作为第六层的输入;第六个卷积层之后会进行一个positionembedding操作。
优选的,所述attention部分具体描述为:使用多步注意力机制,对于解码器中的每一个卷积层,都使用单独的attention机制,因为卷积层可以提取出局部信息,而每一层的局部信息是不相同的,每一层对encoder结果的关注位置也是不相同的,所以decoder的每一层对encoder的attention也是不一样的,每个单独的attention是与传统的attention是相似的,权重是由decoder的当前层的输出hi和encoder的所有输出的zi共同决定,利用该权重对encoder的输出进行加权,得到表示输入信息的向量ci,ci和hi进行连接组成新的hi,计算公式表示为:
Figure BDA0002206817550000031
其中
Figure BDA0002206817550000032
表示的是权重信息,
Figure BDA0002206817550000033
是对做了一个线性操作然后加上gi(输入的embedding值),融合了encoder的输出和decoder的输出进行向量点积的操作,之后进行softmax操作。
优选的,所述解码器部分具体描述为:首先对输入的公式进行embedding操作,后续进入卷积操作,卷积操作包括4个卷积层,每个卷积层还有1个卷积和1个elu非线性激活层,卷积层还是异构卷积层,卷积核的大小为Wkd*2d,其中d是向量的长度,k是卷积窗口大小,每次卷积都会生成两个d维向量,对其中的一列d维向量进行softmax操作之后,与另外一列的d维向量执行向量的点积操作,使用这个门控机制可以控制让重要的信息传递到下一层,然后利用当前层的输出结果与encoder的输出结果进行attention操作,得到对encoder输出的加权结果c,最后将c与decoder当前层的输出进行相加的结果传入到下一层。
优选的,所述beamsearch部分具体描述:在对图像进行预测时,不知道图像对应的标签,所以需要使用beamsearch进行结果的搜索,它为一种维特比算法的贪心形式,使用beamsize参数限制每一步保留下来的可能性词的数量,在训练阶段不需要使用,对于预测出的结果使用BLEU指标进行效果的评估。
优选的,包括以下具体步骤:
步骤一、训练数据获取:由于现实中没有针对公式图片的标注数据,采用的是网上开源的tex格式的文章,启发式方法找到tex文件中所含有的公式,这是latex格式的,因为我们的输入是图片格式的,需要使用pdflatex,convert等命令将latex格式的公式转换成图片格式的公式,这些图片公式一般不包含中文字符,可将这些公式中的一些单词用中文字符代替,从而实现样本中包含中文字符,但是得到的图片背景还是比较干净的,为了与现实中的样本更加相像,需要在图片样本上增加一些噪声,对图像的色差进行一些改变,将图片的背景变得复杂一些;
步骤二、数据预处理:由于得到的公式图片包含许多空白区域,公式四周有很大一圈的背景区域,如果图像尺寸太大,比较耗内存,增加计算时间,需要将训练数据的背景部分裁剪掉,尽可能保留含有内容的部分,本发明输入图像尺寸采用120*50大小;
步骤三、训练神经网络:整体采用端到端的序列到序列模型进行训练,超参数的选择如下:
1)学习率:初始学习率设置为0.001,采用的是warm up操作,前5轮,都是采用的初始学习率,随后每训练2轮减小0.05;
2)优化器:使用adam优化器;
3)其它:批处理大小设置为8,与显存容量有关;beam size为5;总共训练轮数为50;
步骤四、数据后处理:由于最后得到的是公式中的一个个字符,把它转换成latex格式,使用pandoc命令将latex格式转换成word格式;
步骤五、结果输出:加载训练好的模型,对实际的公式图像进行预测,输出得到的word版的公式。
(三)有益效果
本发明提供了一种数学公式自动识别的方法,具备以下有益效果:
本发明针对公式图像数据,提出了一种基于异构卷积的seq2seq加入attention机制的解决方案。整体基于序列到序列的架构设计,加入了多步attention进行公式的识别。本发明设计合理,使用方便,效果良好,解决了现有的公式识别是利用一些统计学的方法,将图片进行二值化处理,分别计算纯文本行与带有数学公式的文本行之间的差异,进行公式行的定位,这种方法是将公式中的一个个字符作为一个独立的个体,没有考虑到它们之间可能存在是依赖关系,而且字体的大小和长宽比这些可能随着不同的场景会有所不同的问题。
附图说明
图1为本发明的整体网络结构图;
图2为本发明中异构卷积的网络结构图;
图3为本发明中编码器的网络结构图;
图4为本发明的解码器的网络结构图;
图5为本发明的整体实施流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1-5所示,本发明提供一种技术方案:一种数学公式自动识别的方法,包括异构卷积部分,编码器部分、解码器部分,attention部分组成和beamsearch搜索部分;
异构卷积部分:请参阅图2,传统的过滤器时3*3*64,表示的是64个过滤器中的卷积核都是同样的大小3*3;所谓的异构卷积,就是表示的是这个64个过滤器中的卷积核大小不是唯一的,它允许同一层的过滤器中含有不同大小的卷积核,在这里使用的是两种卷积核(3*3和1*1),相比于使用同样的卷积核(3*3),采用了1*1的卷积核可以在进行卷积计算时,计算量会有明显的减少;假设M为输入通道的数量,P为控制卷积核的数量的参数,N为输出通道的个数,这里P=4,则3*3卷积核的个数为M/P个,其余的都是1*1卷积核。假设第一个过滤器中3*3卷积是从第一个位置开始的,紧随之后的是(P-1)个1*1的卷积核,而第二个过滤器中的3*3卷积核是从第二个位置开始,后面还是紧跟(P-1)个1*1的卷积核,后面的过滤器依次类推。
编码器部分:请参阅图3,包括6个异构卷积层,通道数依次为64,128,256,256,256,512;第一层,第二层后面会有pooling层,之后紧跟非线性激活函数elu,中间层有2个残差连接,第三层卷积的输出与第四层的输出相加作为第五层的输入,第四层的输出和第五层的输出相加作为第六层的输入;第六个卷积层之后会进行一个position embedding操作。
解码器部分:请参阅图4,首先对输入的公式进行embedding操作,后续进入卷积操作,卷积操作包括4个卷积层,每个卷积层还有1个卷积和1个elu非线性激活层,卷积层还是异构卷积层,卷积核的大小为Wkd*2d,其中d是词向量的长度,k是卷积窗口大小。每次卷积都会生成两个d维向量。对其中的一列d维向量进行softmax操作之后与另外一列的d维向量,执行向量的点积操作。使用这个门控机制可以控制让重要的信息传递到下一层。然后利用当前层的输出结果与encoder的输出结果进行attention操作,得到对encoder输出的加权结果c,最后将c与decoder当前层的输出进行相加的结果传入到下一层。
attention部分:使用多步注意力机制,对于解码器中的每一个卷积层,都使用单独的attention机制。因为卷积层可以提取出局部信息,而每一层的局部信息是不相同的,每一层对encoder结果的关注位置也是不相同的,所以decoder的每一层对encoder的attention也是不一样的。每个单独的attention是与传统的attention是相似的,权重是由decoder的当前层的输出hi和encoder的所有输出的zi共同决定,利用该权重对encoder的输出进行加权,得到表示输入句子信息的向量ci,ci和hi进行连接组成新的hi。计算公式表示为:
Figure BDA0002206817550000071
其中
Figure BDA0002206817550000072
表示的是权重信息,
Figure BDA0002206817550000073
是对
Figure BDA0002206817550000074
做了一个线性操作然后加上gi(输入的embedding值),融合了encoder的输出和decoder的输出进行向量点积的操作,之后进行softmax操作。
Beamsearch部分:在对图像进行预测时,不知道图像对应的标签,所以需要使用beamsearch进行结果的搜索。它为一种维特比算法的贪心形式,使用beamsize参数限制每一步保留下来的可能性词的数量。在训练阶段不需要使用。针对预测出的结果使用BLEU指标进行效果的评估。
一种数学公式自动识别方法,具体步骤包括以下,如图5所示:
步骤一、训练数据获取:由于现实中没有针对公式图片的标注数据,采用的是网上开源的tex格式的文章,启发式方法找到tex文件中所含有的公式,这是latex格式的,因为我们的输入是图片格式的,需要使用pdflatex,convert等命令将latex格式的公式转换成图片格式的公式。这些图片公式没有包含一些含有中文字符的公式,将这些公式中的符号使用相同的中文字符进行代替,从而实现样本中还有中字符。但是得到的图片背景还是比较干净的,为了与现实中的样本更加相像,需要在图片样本上增加一些噪声,对图像的色差进行一些改变,将图片的背景变得复杂一些;
步骤二、数据预处理:由于得到的公式图片包含许多空白区域,公式四周有很大一圈的背景区域,如果图像尺寸太大,比较耗内存,增加计算时间,需要将训练数据的背景部分裁剪掉,尽可能保留含有内容的部分,本发明输入图像尺寸采用120*50大小;
步骤三、训练神经网络:整体采用端到端的序列到序列模型进行训练,超参数的设置如下:
1)学习率:初始学习率设置为0.001,采用的是warm up操作,前5轮,都是采用的初始学习率,随后每训练2轮减小0.05;
2)优化器:使用adam优化器;
3)其他:批处理大小设置为8,与显存容量有关;beam size为5;总共训练轮数为50;
步骤四、数据后处理:由于最后得到的是公式中的一个个字符,把它转换成latex格式,使用pandoc命令将latex格式转换成word格式;
步骤五、结果输出:加载训练好的模型,对实际的公式图像进行预测,输出得到的word版的公式。
综上可得,本发明针对公式图像数据,提出了一种基于异构卷积的seq2seq加入attention机制的解决方案。整体基于序列到序列的架构设计,加入了多步attention进行公式的识别。本发明设计合理,使用方便,效果良好,解决了现有的公式识别是利用一些统计学的方法,将图片进行二值化处理,分别计算纯文本行与带有数学公式的文本行之间的差异,进行公式行的定位,这种方法是将公式中的一个个字符作为一个独立的个体,没有考虑到它们之间可能存在是依赖关系,而且字体的大小和长宽比这些可能随着不同的场景会有所不同的问题。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (7)

1.一种数学公式自动识别的方法,其特征在于,该系统基于序列到序列的网络架构,主要包含异构卷积部分,编码器部分、解码器部分、attention部分,beamsearch搜索部分。
2.根据权利要求1所述的一种数学公式自动识别的方法,其特征在于:异构卷积部分具体描述为:所述传统的过滤器是3*3*64,表示的是64个过滤器中的卷积核都是同样的大小3*3;所谓的异构卷积,表示的是这个64个过滤器中的卷积核大小不是唯一的,它允许同一层的过滤器中含有不同大小的卷积核,在这里使用的是两种卷积核(3*3和1*1),相比于使用同样的卷积核(3*3),采用了1*1的卷积核在进行卷积计算时,计算量会有明显的减少,假设M为输入通道的数量,P为控制卷积核数量的参数,N为输出通道的个数,这里P=4,则3*3卷积核的个数为M/P个,其余的都是1*1卷积核,假设第一个过滤器中3*3卷积是从第一个位置开始的,紧随之后的是(P-1)个1*1的卷积核,而第二个过滤器中的3*3卷积核是从第二个位置开始,后面还是紧跟(P-1)个1*1的卷积核,后面的过滤器依次类推。
3.根据权利要求1所述的一种数学公式自动识别的方法,其特征在于:所述编码器部分具体描述为:包括6个异构卷积层,通道数依次为64,128,256,256,256,512;第一层、第二层后面会有pooling层,之后紧跟非线性激活函数elu,中间层有2个残差连接,第三层卷积的输出与第四层的输出相加作为第五层的输入,第四层的输出和第五层的输出相加作为第六层的输入;第六个卷积层之后会进行一个position embedding操作。
4.根据权利要求1所述的一种数学公式自动识别的方法,其特征在于:所述attention部分具体描述为:使用多步注意力机制,对于解码器中的每一个卷积层,都使用单独的attention机制,因为卷积层可以提取出局部信息,而每一层的局部信息是不相同的,每一层对encoder结果的关注位置也是不相同的,所以decoder的每一层对encoder的attention也是不一样的,每个单独的attention是与传统的attention是相似的,权重是由decoder的当前层的输出hi和encoder的所有输出的zi共同决定,利用该权重对encoder的输出进行加权,得到表示输入信息的向量ci,ci和hi进行连接组成新的hi,计算公式表示为:
Figure FDA0002206817540000021
其中
Figure FDA0002206817540000022
表示的是权重信息,
Figure FDA0002206817540000023
是对做了一个线性操作然后加上gi(输入的embedding值),融合了encoder的输出和decoder的输出进行向量点积的操作,之后进行softmax操作。
5.根据权利要求1所述的一种数学公式自动识别的方法,其特征在于:所述解码器部分具体描述为:首先对输入的公式进行embedding操作,后续进入卷积操作,卷积操作包括4个卷积层,每个卷积层还有1个卷积和1个elu非线性激活层,卷积层还是异构卷积层,卷积核的大小为Wkd*2d,其中d是向量的长度,k是卷积窗口大小,每次卷积都会生成两个d维向量,对其中的一列d维向量进行softmax操作之后,与另外一列的d维向量执行向量的点积操作,使用这个门控机制可以控制让重要的信息传递到下一层,然后利用当前层的输出结果与encoder的输出结果进行attention操作,得到对encoder输出的加权结果c,最后将c与decoder当前层的输出进行相加的结果传入到下一层。
6.根据权利要求1所述的一种数学公式自动识别的方法,其特征在于:所述beamsearch部分具体描述:在对图像进行预测时,不知道图像对应的标签,所以需要使用beamsearch进行结果的搜索,它为一种维特比算法的贪心形式,使用beamsize参数限制每一步保留下来的可能性词的数量,在训练阶段不需要使用,对于预测出的结果使用BLEU指标进行效果的评估。
7.根据权利要求1所述的一种数学公式自动识别的方法,其特征在于:包括以下具体步骤:
步骤一、训练数据获取:由于现实中没有针对公式图片的标注数据,采用的是网上开源的tex格式的文章,启发式方法找到tex文件中所含有的公式,这是latex格式的,因为我们的输入是图片格式的,需要使用pdflatex,convert等命令将latex格式的公式转换成图片格式的公式,这些图片公式一般不包含中文字符,可将这些公式中的一些单词用中文字符代替,从而实现样本中包含中文字符,但是得到的图片背景还是比较干净的,为了与现实中的样本更加相像,需要在图片样本上增加一些噪声,对图像的色差进行一些改变,将图片的背景变得复杂一些;
步骤二、数据预处理:由于得到的公式图片包含许多空白区域,公式四周有很大一圈的背景区域,如果图像尺寸太大,比较耗内存,增加计算时间,需要将训练数据的背景部分裁剪掉,尽可能保留含有内容的部分,本发明输入图像尺寸采用120*50大小;
步骤三、训练神经网络:整体采用端到端的序列到序列模型进行训练,超参数的选择如下:
1)学习率:初始学习率设置为0.001,采用的是warm up操作,前5轮,都是采用的初始学习率,随后每训练2轮减小0.05;
2)优化器:使用adam优化器;
3)其它:批处理大小设置为8,与显存容量有关;beam size为5;总共训练轮数为50;
步骤四、数据后处理:由于最后得到的是公式中的一个个字符,把它转换成latex格式,使用pandoc命令将latex格式转换成word格式;
步骤五、结果输出:加载训练好的模型,对实际的公式图像进行预测,输出得到的word版的公式。
CN201910884275.9A 2019-09-19 2019-09-19 一种数学公式自动识别的方法 Pending CN110705399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910884275.9A CN110705399A (zh) 2019-09-19 2019-09-19 一种数学公式自动识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910884275.9A CN110705399A (zh) 2019-09-19 2019-09-19 一种数学公式自动识别的方法

Publications (1)

Publication Number Publication Date
CN110705399A true CN110705399A (zh) 2020-01-17

Family

ID=69194914

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910884275.9A Pending CN110705399A (zh) 2019-09-19 2019-09-19 一种数学公式自动识别的方法

Country Status (1)

Country Link
CN (1) CN110705399A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN111738169A (zh) * 2020-06-24 2020-10-02 北方工业大学 一种基于端对端网络模型的手写公式识别方法
CN111767889A (zh) * 2020-07-08 2020-10-13 北京世纪好未来教育科技有限公司 公式识别方法、电子设备及计算机可读介质
CN112712075A (zh) * 2020-12-30 2021-04-27 科大讯飞股份有限公司 算式检测方法、电子设备和存储装置
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113626588A (zh) * 2020-05-09 2021-11-09 北京金山数字娱乐科技有限公司 卷积神经网络训练的方法和装置、文章分类的方法和装置
CN116630979A (zh) * 2023-04-10 2023-08-22 雄安创新研究院 一种ocr识别方法、系统、存储介质和边缘设备
CN112651353B (zh) * 2020-12-30 2024-04-16 南京红松信息技术有限公司 一种基于自定义标签的目标口算的定位识别方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法
US20190244609A1 (en) * 2018-02-08 2019-08-08 Capital One Services, Llc Adversarial learning and generation of dialogue responses

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190244609A1 (en) * 2018-02-08 2019-08-08 Capital One Services, Llc Adversarial learning and generation of dialogue responses
CN109614612A (zh) * 2018-11-29 2019-04-12 武汉大学 一种基于seq2seq+attention的中文文本纠错方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JONAS GEHRING ET AL.: "Convolutional Sequence to Sequence Learning", 《HTTPS://ARXIV.ORG/ABS/1705.03122》 *
PRAVENDRA SINGH ET AL.: "HetConv: Heterogeneous Kernel-Based Convolutions for Deep CNNs", 《HTTPS://ARXIV.ORG/PDF/1903.04120》 *
WANG, ZELUN ET AL.: "Translating Math Formula Images to LaTeX Sequences Using Deep Neural Networks with Sequence-level Training", 《HTTPS://ARXIV.ORG/ABS/1908.11415》 *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN113626588A (zh) * 2020-05-09 2021-11-09 北京金山数字娱乐科技有限公司 卷积神经网络训练的方法和装置、文章分类的方法和装置
CN111738169A (zh) * 2020-06-24 2020-10-02 北方工业大学 一种基于端对端网络模型的手写公式识别方法
CN111767889A (zh) * 2020-07-08 2020-10-13 北京世纪好未来教育科技有限公司 公式识别方法、电子设备及计算机可读介质
CN112712075A (zh) * 2020-12-30 2021-04-27 科大讯飞股份有限公司 算式检测方法、电子设备和存储装置
CN112712075B (zh) * 2020-12-30 2023-12-01 科大讯飞股份有限公司 算式检测方法、电子设备和存储装置
CN112651353B (zh) * 2020-12-30 2024-04-16 南京红松信息技术有限公司 一种基于自定义标签的目标口算的定位识别方法
CN113420543A (zh) * 2021-05-11 2021-09-21 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN113420543B (zh) * 2021-05-11 2024-03-22 江苏大学 基于改进Seq2Seq模型的数学试题自动标注方法
CN116630979A (zh) * 2023-04-10 2023-08-22 雄安创新研究院 一种ocr识别方法、系统、存储介质和边缘设备
CN116630979B (zh) * 2023-04-10 2024-04-30 雄安创新研究院 一种ocr识别方法、系统、存储介质和边缘设备

Similar Documents

Publication Publication Date Title
CN110705399A (zh) 一种数学公式自动识别的方法
CN112232149B (zh) 一种文档多模信息和关系提取方法及系统
CN111626063B (zh) 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统
US20190266246A1 (en) Sequence modeling via segmentations
CN108986186A (zh) 文字转化视频的方法和系统
CN110929665B (zh) 一种自然场景曲线文本检测方法
CN111738169B (zh) 一种基于端对端网络模型的手写公式识别方法
CN110163181B (zh) 手语识别方法及装置
CN109189862A (zh) 一种面向科技情报分析的知识库构建方法
CN111680684B (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
CN112163596B (zh) 复杂场景文本识别方法、系统、计算机设备及存储介质
CN114596566A (zh) 文本识别方法及相关装置
CN112070040A (zh) 一种用于视频字幕的文本行检测方法
Choi et al. Hierarchical latent structure for multi-modal vehicle trajectory forecasting
CN116229482A (zh) 网络舆情分析中视觉多模态文字检测识别及纠错方法
CN116524261A (zh) 一种基于多模态小样本持续学习的图像分类方法及产品
CN117793483A (zh) 视频标签的提取方法、系统、设备及介质
CN117851565A (zh) 基于多源交互的文本视觉问答方法及系统
CN116977712B (zh) 基于知识蒸馏的道路场景分割方法、系统、设备及介质
CN116992940A (zh) 通道剪枝与知识蒸馏相结合的sar图像多类型目标检测轻量化方法和装置
CN115186670B (zh) 一种基于主动学习的领域命名实体识别方法及系统
Baró et al. Optical music recognition by long short-term memory networks
CN113723367B (zh) 一种答案确定方法、判题方法及装置和电子设备
CN116798044A (zh) 文本识别方法、装置,以及电子设备
CN110674783B (zh) 一种基于多级预测架构的视频描述方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200117

RJ01 Rejection of invention patent application after publication