CN114882512A - 手写数学公式识别方法、系统、设备和存储介质 - Google Patents

手写数学公式识别方法、系统、设备和存储介质 Download PDF

Info

Publication number
CN114882512A
CN114882512A CN202210591293.XA CN202210591293A CN114882512A CN 114882512 A CN114882512 A CN 114882512A CN 202210591293 A CN202210591293 A CN 202210591293A CN 114882512 A CN114882512 A CN 114882512A
Authority
CN
China
Prior art keywords
layer
data
mathematical formula
module
bigru
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210591293.XA
Other languages
English (en)
Inventor
邓伟廷
邓智升
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shengma Intelligent Technology Shenzhen Co ltd
Original Assignee
Shengma Intelligent Technology Shenzhen Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shengma Intelligent Technology Shenzhen Co ltd filed Critical Shengma Intelligent Technology Shenzhen Co ltd
Priority to CN202210591293.XA priority Critical patent/CN114882512A/zh
Publication of CN114882512A publication Critical patent/CN114882512A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/22Character recognition characterised by the type of writing
    • G06V30/226Character recognition characterised by the type of writing of cursive writing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种手写数学公式识别方法、系统、设备和存储介质,方法包括对手写数学公式图像进行灰度化处理;卷积神经网络对灰度化的图片进行编码处理;BIGRU‑Attention模型对编码数据进行解码处理。本发明由于采用了卷积神经网络和BIGRU‑Attention模型,加强了特征提取,促进了梯度传播,工作效率得到了提高,其识别率有了较大提升,正确率有了提高;在对输入的数据集进行图像的特征提取时,丢掉了图像不重要的特征,保留了重要的图像特征,降低了编码和解码的时间;提高了对特征的提取速率,对数学表达式的识别效率。

Description

手写数学公式识别方法、系统、设备和存储介质
技术领域
本发明涉及手写数学公式识别技术领域,尤其是涉及一种手写数学公式识别方法、系统、设备和存储介质。
背景技术
由于数学符号在科学文档中起着至关重要的作用,对于描述数学,物理学和许多其他领域中的问题和理论是必不可少的。近年来由于计算机的技术领域的不断革新,由于数字笔、平板电脑、智能手机等新产品的迅速出现,人们渐渐习惯使用手写数学符号来作为数据表达式的输入,但是手写体数学公式的复杂结构会引入很多歧义。手写数学公式识别问题可以看成是序列到序列进行转录的学习问题,并且是多数据模态序列数据之间的学习问题,也即轨迹坐标序列到LaTeX符号序列之间的学习问题。传统的神经网络模型对手写体数学表达式的识别的识别范围较小且正确率较低,错误率较高,适用范围比较有限。
发明内容
本发明提供一种手写数学公式识别方法、系统、设备和存储介质,提高了识别的正确率和识别率,减少了错误率。
本发明的一种技术方案是:提供一种手写数学公式识别方法,包括如下步骤:
对手写数学公式图像进行灰度化处理;
卷积神经网络对灰度化的图片进行编码处理;
BIGRU-Attention模型对编码数据进行解码处理。
作为对本发明的改进,在上述卷积神经网络对灰度化的图片进行编码处理的步骤中,还包括如下内容:
对灰度化的图片进行卷积处理;
对卷积处理后的数据进行池化处理;
对池化后的数据进行压缩。
作为对本发明的改进,在上述对灰度化的图片进行卷积处理的步骤中,还包括如下内容:
将灰度化的图片分解为一系列有重叠的像素块;
将每个所述像素块输入到一个神经网路中,并保持权重不变;
将所述像素块转化成矩阵;
将输出值排成矩阵。
作为对本发明的改进,在上述BIGRU-Attention模型对编码数据进行解码处理的步骤中,还包括如下内容:
读取所述编码数据并进行清洗和向量化;
对词向量进行处理;
输出识别后的数学公式。
作为对本发明的改进,在读取所述编码数据并进行清洗和向量化的步骤中,还包括如下内容:
读取所述编码数据并进行清洗;
将数据向量化为规定长度的形式;
随机初始化数据,按8:2划分训练集和测试集。
作为对本发明的改进,在对词向量进行处理的步骤中,还包括如下内容:
计算BiGRU层输出的词向量;
计算每个词向量应分配的概率权重;
对分配的不同概率权重与各个隐层状态的乘积进行累加,使用softmax函数做归一化操作。
本发明的另一种技术方案是:提供一种手写数学公式识别系统,包括:
灰度处理模块,用于对手写数学公式图像进行灰度化处理;
卷积神经网络,用于对灰度化的图片进行编码处理;
BIGRU-Attention模型,用于对编码数据进行解码处理。
作为对本发明的改进,所述卷积神经网络包括:
卷积层,由于对灰度化的图片进行卷积处理;
池化层,用于对卷积处理后的数据进行池化处理;
压缩模块,用于对池化后的数据进行压缩。
作为对本发明的改进,所述卷积层包括如下内容:
分解模块,用于将灰度化的图片分解为一系列有重叠的像素块;
像素块输入模块,用于将每个所述像素块输入到一个神经网路中,并保持权重不变;
转化模块,用于将所述像素块转化成矩阵;
排列模块,用于将输出值排成矩阵。
作为对本发明的改进,所述BIGRU-Attention模型包括:
向量化输入层,用于读取所述编码数据并进行清洗和向量化;
隐含层,用于对词向量进行处理;
输出层,用于输出识别后的数学公式。
作为对本发明的改进,所述向量化输入层包括如下内容:
清洗模块,用于读取所述编码数据并进行清洗;
规定模块,用于将数据向量化为规定长度的形式;
初始化模块,用于随机初始化数据,按8:2划分训练集和测试集。
作为对本发明的改进,所述隐含层包括如下内容:
词向量计算模块,用于计算BiGRU层输出的词向量;
权重计算模块,用于计算每个词向量应分配的概率权重;
归一化处理模块,用于对分配的不同概率权重与各个隐层状态的乘积进行累加,使用softmax函数做归一化操作。
本发明的第三种技术方案是:提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现上述中任一项所述的手写数学公式识别方法的步骤。
本发明的第四种技术方案是:提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现上述中任一项所述的手写数学公式识别方法的步骤。
本发明由于采用了卷积神经网络和BIGRU-Attention模型,加强了特征提取,促进了梯度传播,工作效率得到了提高,其识别率有了较大提升,正确率有了提高;在对输入的数据集进行图像的特征提取时,丢掉了图像不重要的特征,保留了重要的图像特征,降低了编码和解码的时间;提高了对特征的提取速率,对数学表达式的识别效率。
附图说明
图1是本发明中手写数学公式识别方法的流程示意图。
图2是本发明中手写数学公式图像。
图3是图2的数学表达式识别图。
图4是本发明中手写数学公式识别系统的方框示意图。
图5是本发明中计算机设备的结构方框示意图。
其中:
1.灰度处理模块;2.卷积神经网络;3.BIGRU-Attention模型;71.处理器;72.输入接口;73.网络端口;74.显示单元;75.存储器。
具体实施方式
在本发明的描述中,需要理解的是,术语中“中心”、“上”、“下”、“前”、“后”、“左”、“右”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或组件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“连接”、“相连”应做广义理解,例如,可以是固定连接,也可以是拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以是通过中间媒介间接相连,可以是两个组件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明的具体含义。
一、本发明提供一种手写数学公式识别方法,请参见图1,包括如下步骤:
100.对手写数学公式图像进行灰度化处理;
200.卷积神经网络对灰度化的图片进行编码处理;
300.BIGRU-Attention模型对编码数据进行解码处理。
在本方法中,使用摄像头拍摄手写数学公式图像(请参见图2所示),得到清晰的手写数学公式图像,采用的拍摄装置可以是手机,也可以是摄像头,还可以是平板电脑。
在本方法的上述步骤100中,对手写数学公式图像进行灰度化处理,目的在于简化图片的像素信息,提高后续步骤神经网络处理图片的计算速度。还包括如下内容。
灰度化处理:彩色图像由RGB(R:红,G:绿,B:蓝)三个颜色通道组成,彩色图像上的每个像素点都由RGB三个颜色变量表示,将图像每个像素点的RGB三个通道根据公式1算出新的像素值,当图像上的每个像素点的RGB值都相等时,彩色图像就会变为单通道的灰度图像,将三通道的彩色图像转换成单通道的灰度图像可以加快图像的处理。
Gray=R*0.299+G*0.587+B*0.114 公式1
其中Gray表示图像的灰度值。
在本方法的上述步骤200中,卷积神经网络由5个密集块组成,每个密集块包括3个卷积层和1个池化层,3个卷积层设置在前面,1个池化层设置在后面,其中第一个卷积层与第二个卷积层均为为3*3,第三个卷积层为1*1;最后一层为池化层。
在本方法的上述步骤200中,卷积神经网络对灰度化的图片进行编码处理,还包括如下步骤。
201.对灰度化的图片进行卷积处理。
2011.将灰度化的图片分解为一系列有重叠的H*W像素块,有利于特征的提取。
2012.将每个像素块输入到一个简单的、单层的神经网路中,并保持权重不变,这一步骤主要用于提取特征。
2013.将像素块转化成矩阵,为进一步提取重要的特征信息提供便利。
2014.将输出值排成矩阵,以数据形式表示图片中每个区域的内容,不同轴分别代表宽度和高度。
202.对卷积处理后的数据进行池化处理。
对矩阵在空间维度上进行采样并处理为池化阵列,这其中只包含重要部分图像,并且丢掉了其他部分,目的在于提高对于图像特征的识别,有利于提高识别的效率。
203.对池化后的数据进行压缩。
需要说明的是,DenseNet提出了一个更激进的密集连接机制:即互相连接所有的层,具体来说就是每个层都会接受其前面所有层作为其额外的输入。DenseNets不是在特征传递给某一层之前将其进行相加(combine),而是将其进行拼接(concatenate)。在保证网络中层与层之间最大程度的信息传输的前提下,直接将所有层连接起来。为了能够保证前馈的特性,每一层将之前所有层的输入进行拼接,之后将输出的特征图传递给之后的所有层。在DenseNet中,每个层都会与前面所有层在channel维度上连接(concat)在一起(这里各个层的特征图大小是相同的,后面会有说明),并作为下一层的输入。对于一个L层的网络,DenseNet共包含
Figure BDA0003665191430000071
个连接而且DenseNet是直接concat来自不同层的特征图,这可以实现特征重用,提升效率。
在DenseNet中,会连接前面所有层作为输入:
xl=Ηl([x0,x1,.....,xl-1]) 公式2
其中,上面的Ηl()代表是非线性转化函数(non-liear transformation),它是一个组合操作,其可能包括一系列的BN(Batch Normalization),ReLU,Pooling及Conv操作。注意这里l层与l-1层之间可能实际上包含多个卷积层。
B.本发明所使用的DenseNet的网络架构及其原理
我们所使用的DenseNet由5个密集块(Dense Block)组成,每个密集块都由3个卷积层和1个池化层组成,前3层为卷积层,其中第一层与第二层均为为3*3,第3层为1*1;最后一层为池化层。在每个密集块中都包含以下结构:
(1)紧密连接(Dense connectivity)
在DenseNet结构中,每一层的输出都导入后面的所有层,DenseNet结构使用的是连结结构(concatenate)。这样的结构可以减少网络参数,避免被选择性丢弃,信息阻塞等的缺点。
(2)卷积层
3*3的卷积层用于对图像的重要特征的提取;1*1的卷积层用于压缩参数。每一层输出k个特征(feature),理论上将每个密集块(Dense Block)输出为4k个特征(feature)。卷积层的作用是将一个密集块(Dense Block)的参数压缩到4k个
(3)池化层
由于采用了密集连接(Dense Connectivity)结构,直接在各个层之间加入池化层是不可行的,因此采用的是密集块(Dense Block)组合的方式,在各个密集块(DenseBlock)之间加入卷积层和池化层。
(4)增长率(Growth rate)
这里的增长率代表的是每一层输出的特征(feature)的厚度。由于DenseNet中每一层都能直接为后面网络所用,所以k被限制在一个很小的数值
(5)压缩(Compression)
跟1*1卷积层作用类似,压缩参数。
在本方法的上述步骤300中,BIGRU-Attention模型对编码数据进行解码处理,BIGRU-Attention模型包括向量化输入层、隐含层和输出层,包括如下步骤。
301.读取编码数据并进行清洗和向量化。
读取编码数据并进行清洗;将数据向量化为规定长度的形式;随机初始化数据,按8:2划分训练集和测试集;将数据向量化后,特征都变成了统一长度的索引向量,每一个索引对应一个词向量。最后,将输入的数据变成根据索引对应向量的形成特征矩阵。
302.对词向量进行处理。
3021.计算BiGRU层输出的词向量。
对输入的文本向量进行深层次特征的提取,通过BIGRU层的特征提取后,可以充分地学习上下文之间的关系,进行语义编码。计算BiGRU层输出的词向量。图像向量为BiGRU层的输入向量。BiGRU层的目的主要是对输入的图像向量进行图像深层次特征的提取。根据BiGRU神经网络模型图,可以把BiGRU模型看做由向前GRU和反向GRU两部分组成,在这里简化为式公式3。在第i时刻输入的第j个图像的第t个图像的特征向量为cijt,通过BiGRU层特征提取后,可以更加充分地学习上下文之间的关系,进行语义编码,具体计算公式如式所示。
hijt=BiGRU(cijt),t∈[1,m] 公式3
3022.计算每个词向量应分配的概率权重。
主要是为不同的图像特征向量分配相应的概率权重,进一步提取图像特征,突出图像的关键信息BiGRU-Attention模型中引入了Attention机制层。Attention机制层的输入为上一层中经过BiGRU神经网络层激活处理的输出向量hijt,attention机制层的权重系数具体通过以下几个公式进行计算:
Figure BDA0003665191430000101
其中:hijt为上一层BiGRU神经网络层的输出向量,ww表示权重系数,bw表示偏置系数,uw表示随机初始化的注意力矩阵。Attention机制矩阵由attention机制分配的不同概率权重与各个隐层状态的乘积的累加和,使用softmax函数做归一化操作得到。
3023.对分配的不同概率权重与各个隐层状态的乘积进行累加,使用softmax函数做归一化操作。
303.输出识别后的数学公式。
将归一化的结果输入到输出层,由输出层逐字生成LaTeX序列,识别出所有的手写体数据公式的LaTeX序列,请参见图3所示。
本发明由于采用了卷积神经网络和BIGRU-Attention模型,加强了特征提取,促进了梯度传播,工作效率得到了提高,其识别率有了较大提升,正确率有了提高;在对输入的数据集进行图像的特征提取时,丢掉了图像不重要的特征,保留了重要的图像特征,降低了编码和解码的时间;提高了对特征的提取速率,对数学表达式的识别效率,同时减少计算机的损耗。
二、本发明提供一种手写数学公式识别系统,请参见图4,手写数学公式识别系统包括灰度处理模块1、卷积神经网络2和BIGRU-Attention模型3。
本实施例中,灰度处理模块1,用于对手写数学公式图像进行灰度化处理。卷积神经网络2,用于对灰度化的图片进行编码处理。BIGRU-Attention模型3,用于对编码数据进行解码处理。
本实施例中,使用摄像头拍摄手写数学公式图像,得到清晰的手写数学公式图像,采用的拍摄装置可以是手机,也可以是摄像头,还可以是平板电脑。
本实施例中,卷积神经网络2由5个密集块组成,每个密集块包括3个卷积层和1个池化层,3个卷积层设置在前面,1个池化层设置在后面,其中第一个卷积层与第二个卷积层均为为3*3,第三个卷积层为1*1;最后一层为池化层。
本实施例中,卷积神经网络2包括卷积层(未画图)、池化层(未画图)和压缩模块(未画图)。卷积层,由于对灰度化的图片进行卷积处理。池化层,用于对卷积处理后的数据进行池化处理,对矩阵在空间维度上进行采样并处理为池化阵列,这其中只包含重要部分图像,并且丢掉了其他部分,目的在于提高对于图像特征的识别,有利于提高识别的效率。压缩模块,用于对池化后的数据进行压缩。
卷积层包括分解模块、像素块输入模块、转化模块和排列模块,分解模块,用于将灰度化的图片分解为一系列有重叠的像素块;像素块输入模块,用于将每个所述像素块输入到一个神经网路中,并保持权重不变;转化模块,用于将所述像素块转化成矩阵;排列模块,用于将输出值排成矩阵。
本实施例中,BIGRU-Attention模型3包括向量化输入层(未画图)、隐含层(未画图)和输出层(未画图)。
向量化输入层,用于读取所述编码数据并进行清洗和向量化。向量化输入层包括如下内容:清洗模块,用于读取所述编码数据并进行清洗;规定模块,用于将数据向量化为规定长度的形式;初始化模块,用于随机初始化数据,按8:2划分训练集和测试集。
隐含层,用于对词向量进行处理。所述隐含层包括如下内容:词向量计算模块,用于计算BiGRU层输出的词向量;权重计算模块,用于计算每个词向量应分配的概率权重;归一化处理模块,用于对分配的不同概率权重与各个隐层状态的乘积进行累加,使用softmax函数做归一化操作。
输出层,用于输出识别后的数学公式。将归一化的结果输入到输出层,由输出层逐字生成LaTeX序列,识别出所有的手写体数据公式的LaTeX序列。
需要说明的是,前述方法实施例中的内容均适用于对应的系统实施例中,因而本系统实施例具体实现的功能与前述方法实施例相同,并且达到的有益效果也与前述方法实施例相同。并且,不再对系统实施例中的内容进行详细赘述,详细请参见上述方法内容。
三、结合上述方法和系统的内容,本发明提供一种最佳实施方案。
21.选择学生志愿者。在目标班级中随机选择50名学生作为学生志愿者,50名学生来自于不同年级。(学生数据采集涉及到人权,伦理,信息安全多个方面的问题,需要和教育部门,学校,学生家长以及学生本人做好沟通,采取志愿形式开展实验。)
22.购置手写数学公式数据采集设备。为选择的50名志愿者学生分别配置一台ipad以及电子笔,共50套。
23.录制手写数学公式视频数据。为学生安排不同的数学试题或数学公式利用电子笔进行书写,并采用高清的摄像头对学生的书写过程进行录制,将录制的视频存入ipad中。ipad与配置有Win10系统、NVIDA 3080Ti GPU、机器视觉库Opencv、基于Python语言的Pytorch深度学习框架、8G RAM的计算机相连接,拍摄到的照片发送至计算机。
24.截取手写数学公式。安排数据记录员从录制的手写数学公式视频中截取最终的数据公式高清彩色图片,并将结果及时存入计算机中。
25.对计算机中接收的彩色高清图片进行灰度化处理。彩色图像一般是由RGB三个颜色通道组成,其中R代表红色、G代表绿色、B代表蓝色。当图像上的每个像素点的RGB值都相等时,彩色的三通道图像就变成灰色的单通道图像。这里我们使用最大值法将彩色的三通道图像就变成灰色的单通道图像,这样可以加快图像的处理。
26.对灰度化处理后的图片进行降噪处理。要想从图片中识别目前字符,需要对噪声和背景去除。由于字符通常都是黑色或者较深的颜色,所以对生成的灰度图形进行二值化处理。通过处理后,图像中中字符为白色,背景变为黑色。
28.提取图片中高质量的特征。经处理后的图片输入到密集卷积神经网络对图像数据进行编码,提取高质量的图像特征,比如图像的宽度、高度、像素等特征。以数据的形式表示图像的每一个区域,形成一个数据矩阵。
29.对数据进行压缩。密集卷积神经网络的池化层对这些矩阵在空间维度上进行采样,处理结果为池化阵列,这其中只包含重要部分图像。丢掉了其他部分经过下采样的矩阵作为全连接层的输入,经过了池化和卷积操作,输入的尺寸被大幅减小。
30.将压缩后的数据矩阵输入到BIGRU-Attention网络中对数据进行解码。通过BIGRU循环神经网络可以充分学习到上下文信息和交互信息,突出字符或文本的关键信息,对这些信息进行编码。
31.BIGRU-Attention模型中的Attention层对分配的不同概率权重与各个隐层状态的乘积进行累加,再使用softmax函数做归一化操作,在将结果输入到输出层,由输出层逐字生成LaTeX序列。
32.识别出所有的手写体数据公式的LaTeX序列。
四、本发明提供一种计算机设备,请参见图5,本申请实施例提供的一种计算机设备的结构图,包括存储器75和处理器71,所述存储器75存储有计算机程序,所述处理器71执行所述计算机程序时,实现如上述公开的任一种手写数学公式识别方法的步骤。
具体的,存储器75包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器71在一些实施例中可以是一中央处理器(CentralProcessingUnit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,为计算机设备提供计算和控制能力。
所述计算机设备还包括:输入接口72,与处理器71相连,用于获取外部导入的计算机程序、参数和指令,经处理器71控制保存至存储器75中。该输入接口72可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触控板或鼠标等。
显示单元74,与处理器71相连,用于显示处理器71处理的数据以及用于显示可视化的用户界面。该显示单元74可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(OrganicLight-EmittingDiode,有机发光二极管)触摸器等。
网络端口73,与处理器71相连,用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
图5仅示出了具有组件71-75的计算机设备,本领域技术人员可以理解的是,图5示出的结构并不构成对计算机设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
五、本发明提供一种计算机可读存储介质,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序,所述计算机程序被处理器执行时时实现如上述公开的任一种手写数学公式识别方法的步骤。
前述方法实施例中的内容均适用于对应的存储介质实施例中,因而本存储介质实施例具体实现的功能与前述方法实施例相同,并且达到的有益效果也与前述方法实施例相同。
本领域技术人员可以理解的是,上述步骤在实际运行中可以根据需要调换顺序,或者并行处理。应当认识到,本申请的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。所述方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。所述计算机程序包括可由一个或多个处理器执行的多个指令。
进一步地,所述方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本申请的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本申请所述的方法和技术编程时,本申请还包括计算机本身。
计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本申请优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘。
需要说明的是,针对上述各实施方式的详细解释,其目的仅在于对本发明进行解释,以便于能够更好地解释本发明,但是,这些描述不能以任何理由解释成是对本发明的限制,特别是,在不同的实施方式中描述的各个特征也可以相互任意组合,从而组成其他实施方式,除了有明确相反的描述,这些特征应被理解为能够应用于任何一个实施方式中,而并不仅局限于所描述的实施方式。

Claims (14)

1.一种手写数学公式识别方法,其特征在于,包括如下步骤:
对手写数学公式图像进行灰度化处理;
卷积神经网络对灰度化的图片进行编码处理;
BIGRU-Attention模型对编码数据进行解码处理。
2.根据权利要求1所述的方法,其特征在于,在上述卷积神经网络对灰度化的图片进行编码处理的步骤中,还包括如下内容:
对灰度化的图片进行卷积处理;
对卷积处理后的数据进行池化处理;
对池化后的数据进行压缩。
3.根据权利要求2所述的方法,其特征在于,在上述对灰度化的图片进行卷积处理的步骤中,还包括如下内容:
将灰度化的图片分解为一系列有重叠的像素块;
将每个所述像素块输入到一个神经网路中,并保持权重不变;
将所述像素块转化成矩阵;
将输出值排成矩阵。
4.根据权利要求1所述的方法,其特征在于,在上述BIGRU-Attention模型对编码数据进行解码处理的步骤中,还包括如下内容:
读取所述编码数据并进行清洗和向量化;
对词向量进行处理;
输出识别后的数学公式。
5.根据权利要求4所述的方法,其特征在于,在读取所述编码数据并进行清洗和向量化的步骤中,还包括如下内容:
读取所述编码数据并进行清洗;
将数据向量化为规定长度的形式;
随机初始化数据,按8:2划分训练集和测试集。
6.根据权利要求5所述的方法,其特征在于,在对词向量进行处理的步骤中,还包括如下内容:
计算BiGRU层输出的词向量;
计算每个词向量应分配的概率权重;
对分配的不同概率权重与各个隐层状态的乘积进行累加,使用softmax函数做归一化操作。
7.一种手写数学公式识别系统,其特征在于,包括:
灰度处理模块,用于对手写数学公式图像进行灰度化处理;
卷积神经网络,用于对灰度化的图片进行编码处理;
BIGRU-Attention模型,用于对编码数据进行解码处理。
8.根据权利要求7所述的系统,其特征在于,所述卷积神经网络包括:
卷积层,由于对灰度化的图片进行卷积处理;
池化层,用于对卷积处理后的数据进行池化处理;
压缩模块,用于对池化后的数据进行压缩。
9.根据权利要求8所述的系统,其特征在于,所述卷积层包括如下内容:
分解模块,用于将灰度化的图片分解为一系列有重叠的像素块;
像素块输入模块,用于将每个所述像素块输入到一个神经网路中,并保持权重不变;
转化模块,用于将所述像素块转化成矩阵;
排列模块,用于将输出值排成矩阵。
10.根据权利要求7所述的系统,其特征在于,所述BIGRU-Attention模型包括:
向量化输入层,用于读取所述编码数据并进行清洗和向量化;
隐含层,用于对词向量进行处理;
输出层,用于输出识别后的数学公式。
11.根据权利要求10所述的系统,其特征在于,所述向量化输入层包括如下内容:
清洗模块,用于读取所述编码数据并进行清洗;
规定模块,用于将数据向量化为规定长度的形式;
初始化模块,用于随机初始化数据,按8:2划分训练集和测试集。
12.根据权利要求10所述的系统,其特征在于,所述隐含层包括如下内容:
词向量计算模块,用于计算BiGRU层输出的词向量;
权重计算模块,用于计算每个词向量应分配的概率权重;
归一化处理模块,用于对分配的不同概率权重与各个隐层状态的乘积进行累加,使用softmax函数做归一化操作。
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时,实现权利要求1至6中任一项所述的手写数学公式识别方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至6中任一项所述的手写数学公式识别方法的步骤。
CN202210591293.XA 2022-05-27 2022-05-27 手写数学公式识别方法、系统、设备和存储介质 Pending CN114882512A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210591293.XA CN114882512A (zh) 2022-05-27 2022-05-27 手写数学公式识别方法、系统、设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210591293.XA CN114882512A (zh) 2022-05-27 2022-05-27 手写数学公式识别方法、系统、设备和存储介质

Publications (1)

Publication Number Publication Date
CN114882512A true CN114882512A (zh) 2022-08-09

Family

ID=82677191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210591293.XA Pending CN114882512A (zh) 2022-05-27 2022-05-27 手写数学公式识别方法、系统、设备和存储介质

Country Status (1)

Country Link
CN (1) CN114882512A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363678A (zh) * 2023-05-31 2023-06-30 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116363678A (zh) * 2023-05-31 2023-06-30 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备
CN116363678B (zh) * 2023-05-31 2023-08-11 华南理工大学 一种数学公式图像的识别方法、系统和计算机设备

Similar Documents

Publication Publication Date Title
CN113657390B (zh) 文本检测模型的训练方法和检测文本方法、装置和设备
CN110084281A (zh) 图像生成方法、神经网络的压缩方法及相关装置、设备
CN112164002B (zh) 人脸矫正模型的训练方法、装置、电子设备及存储介质
CN106649542A (zh) 用于视觉问答的系统和方法
CN111428718A (zh) 一种基于图像增强的自然场景文本识别方法
CN112418292B (zh) 一种图像质量评价的方法、装置、计算机设备及存储介质
CN109408058B (zh) 基于机器学习的前端辅助开发方法和装置
CN111368773A (zh) 数学公式识别方法及装置、终端设备和可读存储介质
WO2024011835A1 (zh) 一种图像处理方法、装置、设备及可读存储介质
CN113254654A (zh) 模型训练、文本识别方法、装置、设备和介质
CN113343958B (zh) 一种文本识别方法、装置、设备及介质
CN110121719A (zh) 用于深度学习的装置、方法和计算机程序产品
CN110390254B (zh) 基于人脸的性格分析方法、装置、计算机设备及存储介质
CN114882512A (zh) 手写数学公式识别方法、系统、设备和存储介质
CN109784154B (zh) 基于深度神经网络的情绪识别方法、装置、设备及介质
Dong et al. Hr-prgan: High-resolution story visualization with progressive generative adversarial networks
CN114937285A (zh) 动态手势识别方法、装置、设备及存储介质
CN116152575B (zh) 基于类激活采样引导的弱监督目标定位方法、装置和介质
CN113159053A (zh) 图像识别方法、装置及计算设备
CN112036290A (zh) 一种基于类标编码表示的复杂场景文字识别方法及系统
CN112819848A (zh) 抠图方法、抠图装置和电子设备
CN116095183A (zh) 一种数据压缩方法以及相关设备
CN113313127B (zh) 文本图像识别方法、装置、计算机设备和存储介质
CN114973224A (zh) 一种文字识别方法、装置、电子设备及存储介质
Li Special character recognition using deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination