CN115063799B - 一种印刷体数学公式识别方法、装置及存储介质 - Google Patents

一种印刷体数学公式识别方法、装置及存储介质 Download PDF

Info

Publication number
CN115063799B
CN115063799B CN202210935737.7A CN202210935737A CN115063799B CN 115063799 B CN115063799 B CN 115063799B CN 202210935737 A CN202210935737 A CN 202210935737A CN 115063799 B CN115063799 B CN 115063799B
Authority
CN
China
Prior art keywords
feature matrix
matrix
mathematical formula
picture
print
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210935737.7A
Other languages
English (en)
Other versions
CN115063799A (zh
Inventor
龙军
洪泉
杨柳
王子冬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Central South University
Original Assignee
Central South University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Central South University filed Critical Central South University
Priority to CN202210935737.7A priority Critical patent/CN115063799B/zh
Publication of CN115063799A publication Critical patent/CN115063799A/zh
Application granted granted Critical
Publication of CN115063799B publication Critical patent/CN115063799B/zh
Priority to PCT/CN2023/100351 priority patent/WO2024027349A1/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/158Segmentation of character regions using character size, text spacings or pitch estimation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种印刷体数学公式识别方法、装置及存储介质,其中方法包括:获取印刷体数学公式图片并进行预处理;基于编码器提取印刷体数学公式图片的第一特征矩阵;提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;将第三特征矩阵输入解码器中,得到印刷体数学公式的Latex格式序列。第三特征矩阵是第一特征矩阵的基础上依次进行了上下文语义特征和元素间相对位置特征的再次提取,提取的特征更加能准确反映印刷体数学公式的特性,提高了最终印刷体数学公式识别的准确率。

Description

一种印刷体数学公式识别方法、装置及存储介质
技术领域
本发明涉及印刷体公式识别技术领域,尤其涉及一种印刷体数学公式识别方法、装置及存储介质。
背景技术
在科研教育领域,很多科研文献中的印刷体数学公式以图片的形式存在,而以图片形式存储的公式一方面不便于计算机的处理和编辑,另一方面存储图片所消耗的空间也会比较大。将印刷体公式图片转换为文本序列的Latex格式进行存储能很好的解决上述两个问题。
当下印刷体数学公式识别为Latex格式序列主要可分类两类。一类是将识别过程划分为字符分割、字符识别、结构分析的多阶段顺序识别方法。另一类则是基于机器学习的全局识别方法。基于多阶段顺序识别的方法,其最大的问题在于,上游任务中产生的错误可能会传播到下游任务并被下游任务捕获,导致错误在识别过程中的不断传递甚至放大,从而导致最后的识别效果出现偏差。而基于机器学习的全局识别方法,则消除了多阶段任务,避免了错误在识别过程中的积累。
现有的基于机器学习的方法主要采用深度学习中的编码器-解码器模型架构实现印刷体公式识别的过程,在该模型架构中编码器一般使用10层以内的卷积神经网络(CNN),解码器则采用循环神经网络(RNN)。但是印刷体数学公式图片包含着复杂的语义特征和结构特征,现有的技术无法准确的提取到公式图片中的语义特征和结构特征,对模型的识别准确率产生了一定的影响。
发明内容
本发明提供了一种印刷体数学公式识别方法、装置及存储介质,以解决现有的印刷体数学公式识别方法准确率不高的问题。
第一方面,提供了一种印刷体数学公式识别方法,包括:
获取印刷体数学公式图片并进行预处理;
基于编码器提取印刷体数学公式图片的第一特征矩阵;
提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;
使用相对位置编码技术对第二特征矩阵进行位置编码,得到第三特征矩阵;
将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
其中第三特征矩阵是第一特征矩阵的基础上依次进行了上下文语义特征提取和相对位置信息编码,提取的特征更加能准确反映数学公式的特性,提高了最终的印刷体数学公式识别的准确率。
进一步地,所述预处理过程包括:
裁剪出印刷体数学公式图片的公式核心区域图片。
用户上传的待识别的印刷体数学公式图片,往往包含许多无效的空白部分,而印刷体数学公式图片中真正包含数学公式的部分仅仅只占整个图片很小的一部分。所以通过截取印刷体数学公式图片中的公式核心区域,缩小待识别处理的图片的尺寸,能提高印刷体数学公式的识别效果,减少识别过程的时空开销。
进一步地,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
基于印刷体公式图片建立直角坐标系;
根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
更具体地,以印刷体公式图片的最左上角为原点,以水平方向为横轴,以竖直方向为纵轴,建立直接坐标系;
横向及纵向遍历印刷体数学公式图片中每个像素点的灰度值(印刷体公式图片一般为单通道图片);
获取左方第一个满足灰度值小于100的点,取横坐标a1;
获取上方第一个满足灰度值小于100的点,取纵坐标b1;
获取右方第一个满足灰度值小于100的点,取横坐标a2;
获取下方第一个满足灰度值小于100的点,取纵坐标b2;
以(a1,b1)为待裁剪公式核心区域左上顶点,以(a2,b1)为待裁剪公式核心区域右上顶点,以(a1,b2)为待裁剪公式核心区域左下顶点,以(a2,b2)为待裁剪公式核心区域右下顶点,裁剪出对应的公式核心区域图片。
一般印刷体公式图片中只包含黑色和白色两种类型颜色,白色一般为背景色,黑色为公式内容区域,一般黑色区域的灰度值小于100,所以此处以灰度值100作为公式内容区域的选取阈值。
进一步地,所述编码器基于残差卷积神经网络模型构建而成,用于提取印刷体数 学公式图片的第一特征矩阵
Figure DEST_PATH_IMAGE001
本方法采用encoder-decoder的架构实现,将残差卷积神经网络应用于编码器中,可构建网络深度更大的特征提取网络,提取到的特征信息也更为丰富,识别效果也因此得到较大的提升。
进一步地,所述编码器为37层的残差卷积神经网络,其中conv_1采用64个7*7大小的卷积核,步长为1;池化层的窗口为2*2,步长为2;剩下36层卷积层中,所有卷积核均采用3*3大小卷积核,且步长为1;激活函数均采用Rule函数;剩下36层卷积层分为四种不同类型共计18个残差块,每个残差块内部由两层卷积层构成,组成如下:Conv_2x中包括2个残差块,其内部卷积层的卷积核数目为64;Conv_3x中包括6个残差块,其内部卷积层的卷积核数目为128;Conv_4x中包括6个残差块,其内部卷积层的卷积核数目为256;Conv_5x中包括4个残差块,其内部卷积层的卷积核数目为512。
进一步地,所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵,主要步骤如下:
提取第一特征矩阵的水平方向上的上下文语义信息,并得到特征矩阵
Figure DEST_PATH_IMAGE002
提取第一特征矩阵的垂直方向上的上下文语义信息,并得到特征矩阵
Figure DEST_PATH_IMAGE003
Figure 97693DEST_PATH_IMAGE002
Figure 704124DEST_PATH_IMAGE003
做矩阵加法得到第二特征矩阵
Figure DEST_PATH_IMAGE004
更具体地,包括:
将第一特征矩阵
Figure 789892DEST_PATH_IMAGE001
划分为
Figure DEST_PATH_IMAGE005
个维度为
Figure DEST_PATH_IMAGE006
的向量
Figure DEST_PATH_IMAGE007
,其中
Figure DEST_PATH_IMAGE008
同时将
Figure 411602DEST_PATH_IMAGE007
按照
Figure DEST_PATH_IMAGE009
Figure 619729DEST_PATH_IMAGE005
的顺序和
Figure DEST_PATH_IMAGE010
Figure DEST_PATH_IMAGE011
的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量
Figure DEST_PATH_IMAGE012
,其中输出向量
Figure 385560DEST_PATH_IMAGE012
的维 度预设值为B;将得到的
Figure 933740DEST_PATH_IMAGE005
个B维的向量拼接在一起,得到二维特征矩阵
Figure DEST_PATH_IMAGE013
,其中‘
Figure DEST_PATH_IMAGE014
’为矩阵拼接运算,并矩阵
Figure DEST_PATH_IMAGE015
转换为三维矩阵
Figure 858840DEST_PATH_IMAGE002
同时将
Figure 503448DEST_PATH_IMAGE007
按照
Figure DEST_PATH_IMAGE016
Figure 615629DEST_PATH_IMAGE005
的顺序和
Figure DEST_PATH_IMAGE017
的顺序分别输入双向GRU模型,每阶段双向GRU模型 输出一个向量
Figure DEST_PATH_IMAGE018
,其中
Figure 430483DEST_PATH_IMAGE018
的维度预设值为B;将得到的
Figure 288717DEST_PATH_IMAGE005
个B维的向量拼接在一起并转换 为三维矩阵,最终得到三维矩阵
Figure 979593DEST_PATH_IMAGE003
最后将
Figure 126540DEST_PATH_IMAGE002
Figure 685698DEST_PATH_IMAGE003
每一个相同位置的元素值进行相加,得到第二特征矩阵
Figure 788652DEST_PATH_IMAGE004
进一步地,所述使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,具体包括:
初始化生成一个与第二特征矩阵
Figure 509483DEST_PATH_IMAGE004
维度一致的矩阵
Figure DEST_PATH_IMAGE019
Figure DEST_PATH_IMAGE020
代表矩阵
Figure 346989DEST_PATH_IMAGE019
每个位置的元素值,同理
Figure DEST_PATH_IMAGE021
代表第二特征矩阵每 个位置的元素值;则矩阵的计算方法如下:
Figure DEST_PATH_IMAGE022
其中,a和b分别代表垂直缩放系数和水平缩放系数,取任意正数即可;
将编码后得到的矩阵
Figure 100050DEST_PATH_IMAGE019
和第二特征矩阵
Figure 808243DEST_PATH_IMAGE004
做矩阵加法,得到第三特征矩阵
Figure DEST_PATH_IMAGE023
进一步地,所述解码器采用的RNN模型。
第二方面,提供了一种印刷体数学公式识别装置,包括:
预处理模块,用于获取印刷体数学公式图片并进行预处理;
编码模块,用于基于编码器提取印刷体数学公式图片的第一特征矩阵;
特征处理模块,用于提取第一特征矩阵的上下文语义信息得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
解码模块,用于将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
第三方面,提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的印刷体数学公式识别方法。
有益效果:
本发明提出了一种印刷体数学公式识别方法、装置及存储介质,首先利用编码器对印刷体数学公式图片进行特征提取,得到第一特征矩阵;考虑到数学公式图片一般包含着明显的语义信息,因此通过使用双向GRU模型提取第一特征矩阵的上下文语义特征,以得到第二特征矩阵。考虑到印刷体数学公式各元素间有着明显的相对位置信息,因此通过相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,最后将第三特征矩阵输入解码器完成印刷体数学公式识别过程。其中第三特征矩阵是第一特征矩阵的基础上依次进行了上下文语义特征的特征二次提取和元素间相对位置信息的编码,提取的特征更加能准确反映数学公式的特性,提高了最终印刷体数学公式识别的准确率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种印刷体数学公式识别方法流程图;
图2是本发明实施例提供的印刷体数学公式图片的公式核心区域提取算法示例图;
图3是本发明实施例提供的编码器的残差卷积神经网络模型原型图;
图4是本发明实施例提供的印刷体数学公式示例图;
图5是本发明实施例提供的编码器-解码器模型原图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将对本发明的技术方案进行详细的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本发明所保护的范围。
本发明的印刷体数学公式识别技术是基于机器学习中的encoder-decoder框架,其总体思想如下:Latex作为一种基于TEX的排版系统,其可将二维的数学公式描述为一串文本序列,而本发明的目标是将图片中的印刷体数学公式识别成Latex格式的公式。从本质上可以将其视为将图片中的印刷体数学公式翻译成Latex格式序列。
对于从图片类型的信息映射到文字类型的信息,本发明提出的主要思路主要是使用当前非常热门的机器翻译模型对印刷体数学公式进行识别。在印刷体数学公式图片识别的这个应用场景下,模型的输入变成一张图片,输出仍然是一串文字序列,所以该模型的encoder(编码器)部分不能再使用用于提取文字特征的RNN网络。
为了解决这个问题,本发明设计用残差卷积神经网络替代encoder中的RNN网络,用于提取印刷体数学公式图片的特征信息。但是由于印刷体数学公式图片与一般图片又有着不同,数学公式图片包含着明显的上下文语义特征,而且数学公式图片中各元素间还有着非常明显的相对位置信息,公式的上下文语义特征和相对位置信息对于公式的识别有着至关重要的影响。
如图4所示,由数学公式图片内容可发现在其存在着明显的上下文语义信息。比如左边出现的元素xa 2 会在右边同样再次出现,因此,当解码器在翻译到某个位置时,可以用前面位置出现过的元素信息来预测当前位置可能出现的元素,以提高翻译的准确率。如图4,位置标号4和5的x可以用位置1出现的x来增强预测结果,位置标号3的a 2 可以用位置标号2的a 2 来增强预测结果。所以使用公式图片中的上下文语义信息来预测某个位置可能出现的符号是可以提高公式识别的准确率。
此外,数学公式中各元素之间还存在着较为丰富的相对位置信息,如图 4所示,公 式中
Figure DEST_PATH_IMAGE024
Figure DEST_PATH_IMAGE025
两部分都是由两个单一符号
Figure DEST_PATH_IMAGE026
Figure DEST_PATH_IMAGE027
,但是正是由于
Figure 556101DEST_PATH_IMAGE026
Figure 539625DEST_PATH_IMAGE027
的相对位置不同, 导致了公式
Figure 565219DEST_PATH_IMAGE024
Figure 314869DEST_PATH_IMAGE025
所表述的含义完全不同。由此可见数学公式中各元素之间的相对位置 信息对于公式的内容表达还是非常关键的。
一般的卷积神经网络在提取图片特征时,很难去提取到图片中的上下文语义特征以及对元素间的相对位置信息进行精准的表达。所以为了解决上述两个问题,本文提出了一个全新的解决方法,既在图片特征提取结束后,首先使用一个双向GRU模型提取图片特征的上下文语义特征,然后再使用相对位置编码技术对上一步得到的特征矩阵进行相对位置编码。得到一个全新的包含以下三个信息的新特征矩阵:(1)图片的特征信息,(2)公式的上下文语义信息,(3)公式中各元素间的相对位置信息。
接着将得到的新特征矩阵传入到decoder(解码器)部分,将其翻译成latex格式序列,由于这里输出的是一个Latex序列串,所以decoder部分采用RNN神经网络模型。
为进一步理解本发明的技术方案,下面结合一些具体实施例对本发明做进一步说明。
本发明实施例提供了一种印刷体数学公式识别方法,如图1、图5所示,包括:
S1:获取印刷体数学公式图片并进行预处理。本实施例中,所述预处理过程包括:
裁剪出印刷体数学公式图片的公式核心区域图片。
一般用户上传的待识别的印刷体数学公式图片,往往包含许多无效的空白部分,而印刷体数学公式图片中真正包含数学公式的部分仅只占整个图片很小的一部分。如果不对图片进行任何预处理,就会导致传入神经网络的无效数据较多,增加了计算的开销,也影响神经网络的识别效果。本实施例通过截取印刷体数学公式图片中的公式核心区域,使得待识别的图片尺寸变小很多,能提高印刷体数学公式的识别效果,减少识别的时空开销。
其中,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
基于印刷体公式图片建立直角坐标系;
根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
更具体地,如图2所示,本实施例提供了一种预处理算法,包括:
以印刷体公式图片的最左上角为原点,以水平方向为横轴,以竖直方向为纵轴,建立直接坐标系;
横向及纵向遍历印刷体数学公式图片中每个像素点的通道值;
由左往右遍历公式图片,获取左方第一个满足灰度值小于100的点,取横坐标a1;
由上往下遍历公式图片,获取上方第一个满足灰度值小于100的点,取纵坐标b1;
由右往左遍历公式图片,获取右方第一个满足灰度值小于100的点,取横坐标a2;
由下往上遍历公式图片,获取下方第一个满足灰度值小于100的点,取纵坐标b2;
注:一般公式图片中只包含黑色和白色两种类型颜色,白色一般为背景色,黑色为公式内容区域,一般黑色区域的灰度值小于100,所以此处以灰度值100作为公式内容区域的选取阈值;
以(a1,b1)为待裁剪公式核心区域左上顶点,以(a2,b1)为待裁剪公式核心区域右上顶点,以(a1,b2)为待裁剪公式核心区域左下顶点,以(a2,b2)为待裁剪公式核心区域右下顶点,裁剪出对应的公式核心区域图片。
S2:基于编码器提取印刷体数学公式图片的第一特征矩阵。
本实施例中,基于残差卷积神经网络模型构建编码器,用于提取印刷体数学公式图片的第一特征矩阵。
本实施例中,经过多次对比实验验证,网络深度为37层的残差卷积神经网络其识别效果比网络深度为20层、30层、56层的效果均好。
所以从识别效果、实用性、时空开销等角度综合考虑,最后选择总层数为37层的残差卷积神经网络作为编码器组件的主干网络。其结构如下表所示:
Figure DEST_PATH_IMAGE028
本实施例设计的模型中,模型的输入是一张高为H宽为W的单通道图片。接下来对 输入的图片采用64个7*7大小的卷积核进行卷积运算,并且使用池化层对其进行下采样,主 要是为了将图片的特征矩阵数目提升到64,增加特征的丰富性,并且将图片的特征矩阵的 宽高压缩至一半。然后紧接着通过36层卷积层进行特征提取,在后面36层卷积层中,所有卷 积核均采用3*3大小卷积核,并且步长为1。激活函数统一采用Rule函数。36层卷积层可以分 为4种不同类型的残差块,共计18个残差块,每个残差块内部由两层卷积层构成。4种不同类 型的残差块间最大的区别在于每个残差块内部的卷积层的卷积核数目,由64,128,256,512 依次递增。这4种不同类型的残差块的具体详细数据可见上表中Con2_x~Con5_x的第三列。 图片特征经过18个残差块共36层卷积层的卷积运算后,便得到了图片特征矩阵,即第一特 征矩阵
Figure DEST_PATH_IMAGE029
本实施例中,残差卷积神经网络模型设计的具体原型图可参见图3。需说明的是,37层的残差卷积神经网络只是一个优选的实施例,在其他实施例中,也可选择20层、30层、56层的残差卷积神经网络。
S3:使用双向GRU模型提取第一特征矩阵的上下文语义特征,得到第二特征矩阵。
本实施例中,使用双向GRU模型对编码器提取得到的第一特征矩阵进行上下文语义特征的提取。由于使用的是双向GRU模型,所以能同时从前往后和从后往前并行提取第一特征矩阵的上下文语义特征,增强上下文语义特征的丰富性,主要步骤包括:
Figure DEST_PATH_IMAGE030
提取第一特征矩阵的水平方向上的上下文语义信息,并得到特征矩阵
Figure 767716DEST_PATH_IMAGE002
Figure DEST_PATH_IMAGE031
提取第一特征矩阵的垂直方向上的上下文语义信息,并得到特征矩阵
Figure 622890DEST_PATH_IMAGE003
Figure DEST_PATH_IMAGE032
Figure 983333DEST_PATH_IMAGE002
Figure 400539DEST_PATH_IMAGE003
做矩阵加法得到第二特征矩阵
Figure 899653DEST_PATH_IMAGE004
对第一特征矩阵进行上下文语义信息提取时,可以采用LSTM网络模型或双向GRU模型,为了实现更高的识别精度,本实施例中以利用双向GRU模型提取上下文语义信息为例进行说明。具体地,实现过程包括:
S301:将第一特征矩阵
Figure 651577DEST_PATH_IMAGE001
划分为
Figure 628761DEST_PATH_IMAGE005
个维度为
Figure 900473DEST_PATH_IMAGE006
的向量的
Figure 570489DEST_PATH_IMAGE007
,其中
Figure 812639DEST_PATH_IMAGE008
S302:将
Figure 859092DEST_PATH_IMAGE007
按照
Figure 250890DEST_PATH_IMAGE009
Figure 747600DEST_PATH_IMAGE005
的顺序和
Figure 83903DEST_PATH_IMAGE010
Figure 74993DEST_PATH_IMAGE011
的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量
Figure 960778DEST_PATH_IMAGE012
,其中
Figure 972597DEST_PATH_IMAGE012
的维度预设值 为B;本实施例中B取50,当然,其他实施例中B也可取60、70等,可根据实际需要调整;将得到 的
Figure 671562DEST_PATH_IMAGE005
个B维的向量拼接在一起,得到二维特征矩阵
Figure 263081DEST_PATH_IMAGE013
, 其中‘
Figure 488526DEST_PATH_IMAGE014
’为矩阵拼接运算,并将矩阵
Figure 816387DEST_PATH_IMAGE015
转换为三维矩阵
Figure 392862DEST_PATH_IMAGE002
。此过程为按行依次将
Figure 194596DEST_PATH_IMAGE007
输 入到双向GRU模型,提取水平方向上的上下文语义信息。
S303:将
Figure 274547DEST_PATH_IMAGE007
按照
Figure 18381DEST_PATH_IMAGE016
Figure 82152DEST_PATH_IMAGE005
的顺序和
Figure 687577DEST_PATH_IMAGE017
的顺序分别输入双向GRU模型,剩余做法和步骤S302一 致,最终得到三维矩阵
Figure 622035DEST_PATH_IMAGE003
。此过程为按列依次将
Figure 536770DEST_PATH_IMAGE007
输入到双向GRU模型,提取垂直方向 上的上下文语义信息。
S304:将
Figure 25520DEST_PATH_IMAGE002
Figure 965794DEST_PATH_IMAGE003
每一个相同位置的元素值进行相加,得到第二特征矩阵
Figure 223600DEST_PATH_IMAGE004
。该第二特征矩阵包含了第一特征矩阵的上下文语义特征。
S4:使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵。
本实施例在这里增加了一个相对位置编码器用于对数学符号元素进行位置信息的表示。使用相对位置编码技术对第二特征矩阵进行相对位置编码的具体过程如下:
S401:初始化一个与第二特征矩阵
Figure 105975DEST_PATH_IMAGE004
维度一致的矩阵
Figure 816442DEST_PATH_IMAGE019
,维度均为
Figure DEST_PATH_IMAGE033
S402:用
Figure 825986DEST_PATH_IMAGE020
代表矩阵
Figure 128179DEST_PATH_IMAGE019
每个位置的元素值,同理
Figure 260083DEST_PATH_IMAGE021
代表第二特征矩 阵每个位置的元素值;则矩阵
Figure 395529DEST_PATH_IMAGE019
的计算方法如下:
Figure DEST_PATH_IMAGE034
其中,a和b分别代表垂直缩放系数和水平缩放系数,根据实际需要,取任意正数即可;此实例中,a取1,b取1,当然其他实施例中,a和b也可取2,3等。
S403:将编码后得到的矩阵P和第二特征矩阵
Figure 739923DEST_PATH_IMAGE004
做矩阵加法,得到第三特征矩 阵
Figure DEST_PATH_IMAGE035
S5:将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
解码器的主要作用是将经过优化后的第三特征矩阵进行解码,将其翻译成特定的Latex字符,需要注意的是,解码器输出的Latex格式序列的长度不是固定的。
本实施例中,所述解码器是一个RNN模型。该RNN模型总共有n个阶段(n由解码器预 测出latex串的长度决定),每个阶段会输出一个向量
Figure DEST_PATH_IMAGE036
,向量
Figure 831376DEST_PATH_IMAGE036
的维度等于Latex数学符号 的字典大小,Latex数学符号字典包括了常用的数学符号映射,例如数学中分数在Latex中 用‘\frac’表示,积分用‘\int’表示等。本实例中总共收集了485个latex数学符号,所以向 量维度的大小设置为485。同时我们对向量
Figure 134181DEST_PATH_IMAGE036
进行了SoftMax,既
Figure 6191DEST_PATH_IMAGE036
中485个分量,每个分量 的值都代表着对应的485个Latex数学符号预测概率,其中最大的分量值的下标就代表着
Figure 419855DEST_PATH_IMAGE036
预测的Latex符号在Latex数学符号字典中的元素的位置。
本发明的一些实施例还提供了一种数学公式识别装置,包括:
预处理模块,用于获取印刷体数学公式图片并进行预处理;
编码模块,用于基于编码器提取印刷体数学公式图片的第一特征矩阵;
特征处理模块,用于使用双向GRU模型提取第一特征矩阵上下文语义特征,得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
解码模块,用于将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列。
应当理解,本实施例中的功能单元模块可以集中在一个处理单元中,也可以是各个单元模块单独物理存在,也可以是两个或两个以上的单元模块集成在一个单元模块中,可以采用硬件或软件的形式来实现。
本发明的另一些实施例还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的印刷体数学公式识别方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
可以理解的是,上述各实施例中相同或相似部分可以相互参考,在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims (7)

1.一种印刷体数学公式识别方法,其特征在于,包括:
获取印刷体数学公式图片并进行预处理;
基于编码器提取印刷体数学公式图片的第一特征矩阵;
提取第一特征矩阵的上下文语义特征,得到第二特征矩阵;
使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列;
所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵,具体包括:
将第一特征矩阵
Figure FDA0004054163540000011
划分为H'*W'个维度为A的向量Qi,其中i∈1...H'*W';
同时将Qi按照i=1,2,3...H'*W'-1,H'*W'的顺序和i=H'*W',H'*W'-1...3,2,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hj,其中hj的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
Figure FDA0004054163540000012
同时将Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的顺序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hk,其中hk的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
Figure FDA0004054163540000013
最后将
Figure FDA0004054163540000014
Figure FDA0004054163540000015
每一个相同位置的元素值进行相加,得到第二特征矩阵
Figure FDA0004054163540000016
所述使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,具体包括:
初始化生成一个与第二特征矩阵
Figure FDA0004054163540000017
维度一致的矩阵P;
用P(i,x,y)代表矩阵P每个位置的元素值,同理V(2)(i,x,y)代表第二特征矩阵每个位置的元素值;则矩阵P的计算方法如下:
Figure FDA0004054163540000018
其中,a和b分别代表垂直缩放系数和水平缩放系数;
将经过位置编码后得到的矩阵P和第二特征矩阵
Figure FDA0004054163540000019
做矩阵加法,得到第三特征矩阵
Figure FDA00040541635400000110
2.根据权利要求1所述的印刷体数学公式识别方法,其特征在于,所述预处理过程包括:
裁剪出印刷体数学公式图片的公式核心区域图片。
3.根据权利要求2所述的印刷体数学公式识别方法,其特征在于,所述裁剪出印刷体数学公式图片的公式核心区域图片包括:
基于印刷体公式图片建立直角坐标系;
根据印刷体公式图片中像素点的灰度值确定公式核心区域的四个顶点坐标,基于四个顶点坐标裁剪出对应的公式核心区域图片。
4.根据权利要求1所述的印刷体数学公式识别方法,其特征在于,所述编码器基于残差卷积神经网络模型构建而成,用于提取印刷体数学公式图片的第一特征矩阵
Figure FDA0004054163540000021
5.根据权利要求4所述的印刷体数学公式识别方法,其特征在于,所述编码器为37层的残差卷积神经网络,其中conv_1采用64个7*7大小的卷积核,步长为1;池化层的窗口为2*2,步长为2;剩下36层卷积层中,所有卷积核均采用3*3大小卷积核,且步长为1;激活函数均采用Rule函数;剩下36层卷积层分为四种不同类型共计18个残差块,每个残差块内部由两层卷积层构成,组成如下:Conv_2x中包括2个残差块,其内部卷积层的卷积核数目为64;Conv_3x中包括6个残差块,其内部卷积层的卷积核数目为128;Conv_4x中包括6个残差块,其内部卷积层的卷积核数目为256;Conv_5x中包括4个残差块,其内部卷积层的卷积核数目为512。
6.一种印刷体数学公式识别装置,其特征在于,包括:
预处理模块,用于获取印刷体数学公式图片并进行预处理;
编码模块,用于基于编码器提取印刷体数学公式图片的第一特征矩阵;
特征处理模块,用于提取第一特征矩阵的上下文语义特征得到第二特征矩阵;使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵;
解码模块,用于将第三特征矩阵输入解码器中,得到数学公式的Latex格式序列;
所述提取第一特征矩阵的上下文语义特征,得到第二特征矩阵,具体包括:
将第一特征矩阵
Figure FDA0004054163540000022
划分为H'*W'个维度为A的向量Qi,其中i∈1...H'*W';
同时将Qi按照i=1,2,3...H'*W'-1,H'*W'的顺序和i=H'*W',H'*W'-1...3,2,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hj,其中hj的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
Figure FDA0004054163540000023
同时将Qi按照i=1,W'+1,2*W'+1...,(H'-1)*W',H'*W'的顺序和i=H'*W',(H'-1)*W'...2*W'+1,W'+1,1的顺序分别输入双向GRU模型,每阶段双向GRU模型输出一个向量hk,其中hk的维度预设值为B;将得到的H'*W'个B维的向量拼接在一起并转换为三维矩阵,最终得到三维矩阵
Figure FDA0004054163540000031
最后将
Figure FDA0004054163540000032
Figure FDA0004054163540000033
每一个相同位置的元素值进行相加,得到第二特征矩阵
Figure FDA0004054163540000034
所述使用相对位置编码技术对第二特征矩阵进行相对位置编码,得到第三特征矩阵,具体包括:
初始化生成一个与第二特征矩阵
Figure FDA0004054163540000035
维度一致的矩阵P;
用P(i,x,y)代表矩阵P每个位置的元素值,同理V(2)(i,x,y)代表第二特征矩阵每个位置的元素值;则矩阵P的计算方法如下:
Figure FDA0004054163540000036
其中,a和b分别代表垂直缩放系数和水平缩放系数;
将经过位置编码后得到的矩阵P和第二特征矩阵
Figure FDA0004054163540000037
做矩阵加法,得到第三特征矩阵
Figure FDA0004054163540000038
7.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述的印刷体数学公式识别方法。
CN202210935737.7A 2022-08-05 2022-08-05 一种印刷体数学公式识别方法、装置及存储介质 Active CN115063799B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202210935737.7A CN115063799B (zh) 2022-08-05 2022-08-05 一种印刷体数学公式识别方法、装置及存储介质
PCT/CN2023/100351 WO2024027349A1 (zh) 2022-08-05 2023-06-15 一种印刷体数学公式识别方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210935737.7A CN115063799B (zh) 2022-08-05 2022-08-05 一种印刷体数学公式识别方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN115063799A CN115063799A (zh) 2022-09-16
CN115063799B true CN115063799B (zh) 2023-04-07

Family

ID=83208356

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210935737.7A Active CN115063799B (zh) 2022-08-05 2022-08-05 一种印刷体数学公式识别方法、装置及存储介质

Country Status (2)

Country Link
CN (1) CN115063799B (zh)
WO (1) WO2024027349A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115063799B (zh) * 2022-08-05 2023-04-07 中南大学 一种印刷体数学公式识别方法、装置及存储介质
CN116188822B (zh) * 2023-04-28 2023-08-18 青岛尘元科技信息有限公司 图像相似性判断方法、装置、电子设备和存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN114255379A (zh) * 2021-12-22 2022-03-29 南京邮电大学 基于编解码的数学公式识别方法及装置、可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109614944B (zh) * 2018-12-17 2021-05-04 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
US10868785B2 (en) * 2019-04-29 2020-12-15 Microsoft Technology Licensing, Llc Purpose detection in communications using machine learning
CN111368773A (zh) * 2020-03-12 2020-07-03 广东小天才科技有限公司 数学公式识别方法及装置、终端设备和可读存储介质
CN111539410B (zh) * 2020-04-16 2022-09-06 深圳市商汤科技有限公司 字符识别方法及装置、电子设备和存储介质
CN115063799B (zh) * 2022-08-05 2023-04-07 中南大学 一种印刷体数学公式识别方法、装置及存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113283336A (zh) * 2021-05-21 2021-08-20 湖南大学 一种文本识别方法与系统
CN114255379A (zh) * 2021-12-22 2022-03-29 南京邮电大学 基于编解码的数学公式识别方法及装置、可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Global Context-Based Network with Transformer for Image2latex";Nuo Pang 等;《2020 25th International Conference on Pattern Recognition (ICPR)》;20210505;第1-7页 *

Also Published As

Publication number Publication date
CN115063799A (zh) 2022-09-16
WO2024027349A1 (zh) 2024-02-08

Similar Documents

Publication Publication Date Title
CN115063799B (zh) 一种印刷体数学公式识别方法、装置及存储介质
US20220121871A1 (en) Multi-directional scene text recognition method and system based on multi-element attention mechanism
JP7423715B2 (ja) テキスト抽出方法、テキスト抽出モデルのトレーニング方法、装置及び機器
CN113888744B (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN113470182B (zh) 人脸几何特征编辑方法及深度人脸重塑编辑方法
CN112381057A (zh) 手写文字识别方法及装置、存储介质、终端
CN110689599A (zh) 基于非局部增强的生成对抗网络的3d视觉显著性预测方法
WO2023174098A1 (zh) 一种实时手势检测方法及装置
WO2021076266A1 (en) Face-speech bridging by cycle video/audio reconstruction
CN113221879A (zh) 文本识别及模型训练方法、装置、设备及存储介质
KR102501773B1 (ko) 랜드마크를 함께 생성하는 발화 동영상 생성 장치 및 방법
CN115908205A (zh) 图像修复方法、装置、电子设备和存储介质
US20230394306A1 (en) Multi-Modal Machine Learning Models with Improved Computational Efficiency Via Adaptive Tokenization and Fusion
CN116634242A (zh) 语音驱动的说话视频生成方法、系统、设备和存储介质
CN111340005A (zh) 一种手语识别方法和系统
CN115512378A (zh) 一种基于Transformer的中文环境数学公式提取及识别方法
CN116434252A (zh) 图像识别模型的训练及图像识别方法、装置、介质、设备
CN113762241A (zh) 场景文字识别模型的训练方法与识别方法及装置
CN117612151A (zh) 一种基于结构增强注意力的英文艺术文字识别方法
CN113065561A (zh) 基于精细字符分割的场景文本识别方法
CN117593400A (zh) 图像生成方法、模型训练方法及对应装置
CN116597467A (zh) 一种图纸检测方法、系统、设备及存储介质
CN117809028B (zh) 基于跨模态交互推理的图像指代物体分割方法及系统
CN117113268B (zh) 多尺度数据融合方法、装置、介质及电子设备
CN118570054B (zh) 图像生成模型的训练方法、相关装置和介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant