CN113657413A - 手写公式的识别方法、装置、设备及介质 - Google Patents

手写公式的识别方法、装置、设备及介质 Download PDF

Info

Publication number
CN113657413A
CN113657413A CN202111212659.XA CN202111212659A CN113657413A CN 113657413 A CN113657413 A CN 113657413A CN 202111212659 A CN202111212659 A CN 202111212659A CN 113657413 A CN113657413 A CN 113657413A
Authority
CN
China
Prior art keywords
information
node
child node
attention
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111212659.XA
Other languages
English (en)
Other versions
CN113657413B (zh
Inventor
袁野
刘辉
刘霄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Century TAL Education Technology Co Ltd
Original Assignee
Beijing Century TAL Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Century TAL Education Technology Co Ltd filed Critical Beijing Century TAL Education Technology Co Ltd
Priority to CN202111212659.XA priority Critical patent/CN113657413B/zh
Publication of CN113657413A publication Critical patent/CN113657413A/zh
Application granted granted Critical
Publication of CN113657413B publication Critical patent/CN113657413B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Character Discrimination (AREA)
  • Image Analysis (AREA)

Abstract

本公开提出一种手写公式的识别方法、装置、设备及介质,识别方法包括:对包括手写公式的待识别图像进行特征提取,得到提取的图像特征;针对手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,根据提取的图像特征、当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,其中,自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,当前路径为从当前分支的根节点到当前节点的路径,下一子节点为当前节点的子节点,这样能有效降低模型在识别过程中,由于注意力漂移导致的错误,提高手写公式的识别准率。

Description

手写公式的识别方法、装置、设备及介质
技术领域
本公开涉及公式识别技术领域,尤其涉及一种手写公式的识别方法、装置、设备及介质。
背景技术
手写公式识别技术在自动阅卷、试题数字化等教育领域具有广泛的应用需求。目前,存在基于深度学习对手写公式进行识别的方案,但这些方案对手写公式的识别准确率较低,导致识别出现错误,有待提高。
发明内容
本公开实施例提供一种手写公式的识别方法、装置、设备及介质,以解决相关技术存在的问题,技术方案如下:
第一方面,本公开实施例提供了一种手写公式的识别方法,包括:
对包括手写公式的待识别图像进行特征提取,得到提取的图像特征;
针对手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,根据提取的图像特征、当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,其中,自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,当前路径为从当前分支的根节点到当前节点的路径,下一子节点为当前节点的子节点。
第二方面,本公开实施例提供了一种手写公式的识别装置,包括:
特征提取模块,用于对包括手写公式的待识别图像进行特征提取,得到提取的图像特征;
确定模块,用于针对手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,根据提取的图像特征、当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,其中,自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,当前路径为从当前分支的根节点到当前节点的路径,下一子节点为当前节点的子节点。
第三方面,本公开实施例提供了一种电子设备,包括:处理器和存储程序的存储器。所述程序包括指令,所述指令在由处理器执行时使所述处理器执行根据本公开实施例所述的方法。
第四方面,本公开实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,所述计算机指令用于使计算机执行根据本公开实施例所述的方法。
上述技术方案中的优点或有益效果至少包括:在公式识别过程中使用语法自适应注意力机制后,能有效降低模型在识别过程中,由于注意力漂移导致的错误,提高手写公式的识别准率。
概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本公开进一步的方面、实施方式和特征将会是容易明白的。
附图说明
在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本公开公开的一些实施方式,而不应将其视为是对本公开范围的限制。
图1为根据本公开实施例的手写公式的识别方法的流程图;
图2为根据本公开实施例的解码器的结构示意图;
图3为根据本公开实施例的注意力模块的结构示意图;
图4为根据本公开实施例的一公式的树结构展开示意图;
图5为根据本公开实施例的解码器的内部连接示意图;
图6为根据本公开实施例的手写公式识别的方法流程图;
图7为根据本公开实施例的手写公式的识别装置的框图;
图8为根据本公开实施例的手写公式的识别设备的框图。
具体实施方式
在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本公开的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。
为了便于理解,在此介绍一下本公开实施例中涉及的树结构,树结构的树状图是一种数据结构,它是由n(n≥1)个有限节点组成一个具有层次关系的集合。把树结构叫做“树”是因为它看起来像一棵倒挂的树,也就是说树结构是根朝上,而叶朝下的。一个节点如果有上一级节点,则称这个上一级节点是该节点的父节点。树结构具有以下的特点:每个节点有零个或多个子节点;没有父节点的节点称为根节点;每一个非根节点有且只有一个父节点;除了根节点外,每个子节点可以分为多个不相交的子树。
手写公式识别技术在试题数字化等教育领域具有广泛的应用需求。在相关技术中,通常采用基于深度学习的手写公式识别框架对手写公式进行识别,该框架利用注意力(attention)机制建立编码-解码(encoder-decoder)模型。为了避免模型重复解析公式中的文本,注意力模块在预测当前时刻的注意力分布时,通常会将过去时刻预测的注意力热力图作为历史信息输入到注意力模块中进行注意力计算。由于公式中存在其独有的二维语法结构,可以将公式进行树结构展开,并且不同子树之间相互独立,没有语法关系。然而,上述方式未严格区分不同子树的注意力热力图,存在其他子树的冗余信息的干扰,导致公式的识别出现错误,手写公式的识别准确率较低。
图1示出根据本公开示例性实施例的手写公式的识别方法的流程图。如图1所示,该识别方法可以包括:
在步骤S101中,对包括手写公式的图像进行特征提取,得到提取的图像特征,对应于编码步骤。
在步骤S102中,针对手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,执行解码步骤。
其中,解码步骤包括:根据提取的图像特征、当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息。
本公开中,自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,例如,在解析当前路径上的所有节点时,得到的相应节点注意力热图之和。当前路径为从当前分支的根节点到当前节点的路径。下一子节点为当前节点的子节点。需要说明的是,自适应的历史注意力信息可以包括当前路径上所有节点的历史符号注意力信息和历史空间关系注意力信息。
本公开实施例中,在对包括手写公式的图像进行公式识别时,应用自适应的注意力机制,并在注意力机制计算过程中输入自适应的历史注意力信息,输入的自适应的历史注意力信息等于手写公式在当前分支的根节点到父节点的路径上所有节点的注意力热力图之和,对于其他分支对应的其他路径上各节点的注意力热力图则忽略不计。这样,在公式识别过程中使用语法自适应注意力机制后,能有效降低模型在识别过程中,由于注意力漂移导致的错误,提高手写公式的识别准率。
在一些实施例中,在对包括手写公式的图像进行特征提取前,还可以对其进行预处理。示例性地,对图像中手写公式的图像区域进行宽高等比例归一化处理。可选的,在图像的目标高度为h,图像的原始高度为image_h时,可以根据缩放比例ratio = h / image_h,对图像进行缩放。相应地,图像的原始宽度为image_w时,缩放后图像的宽度为:w= ratio×image_w。示例性地,还可以对图像进行灰度处理,例如将彩色图像转为灰度图。示例性地,还可以将图像的像素值进行规范化处理,例如将原本在0~255之间的像素值,变为0~1之间。
上述包括手写公式的图像可以通过各种方式获取,例如,可以利用移动设备的相机拍照获取、可以通过电子屏幕手写板获取,也可以通过扫描仪扫描包括手写公式的文件等,本公开对此不作具体限定。
在一些可能的实施例中,响应于根据下一子节点的预测信息确定下一子节点不是终止节点,将该下一子节点作为当前节点继续执行解码步骤,其中,终止节点为当前分支中不存在子节点的预设节点。例如,本公开中针对当前分支中不存在子节点的节点预先设置子节点,该预先设置的子节点即为终止节点,用于标识当前分支的终止。
在上述编码步骤中可以通过编码器实现图像编码。可选的,编码器可以使用全卷积网络(DenseNet),输入图像通道数为1,输出的图像特征的通道数为684。输出图像特征的尺寸与输入的图像尺寸相比,宽高缩小为原来的1/16,即feature_h = image_h/16,feature_w = image_w/16,feature_h表示图像的目标高度,image_h表示图像的原始高度,feature_w表示图像的目标宽度,image_w表示图像的原始宽度。这仅为一种可选的编码器实现图像编码的示例,也可以采用其他卷积网络,也可以采用不同的模型参数,本公开对此并不限制。
可选的,若判定下一子节点是终止节点,则无需返回执行步骤S102,终止识别流程。
在针对手写公式进行识别的具体实现过程中,针对任意一个分支,将当前分支的父节点作为起始的当前节点开始执行解码步骤。
在上述解码步骤中可以通过解码器实现图像解码。请参阅图2,图2示出了解码器的结构示意图。具体的,解码器由符号模块和关系模块两部分构成,符号模块用于预测节点的符号,关系模块用于预测节点之间的关系,例如节点之间的空间关系。其中,符号模块包括两个门控循环单元(Gate Recurrent Unit,GRU)和一个注意力模块,关系模块包括两个GRU和一个注意力模块。
请参阅图3,图3示出了注意力模块的结构示意图。注意力模块的输入共包含三部分,分别为编码器的输出(
Figure 65853DEST_PATH_IMAGE001
)即提取的图像特征,第一个GRU的输出(
Figure 609092DEST_PATH_IMAGE002
)和语法自适应的历史注意力信息(
Figure 873983DEST_PATH_IMAGE003
)。
Figure 19924DEST_PATH_IMAGE001
Figure 714256DEST_PATH_IMAGE002
分别经过全连接层运算后,与经过卷积层运算的
Figure 959555DEST_PATH_IMAGE001
相加。三者之和经过非线性函数tanh激活后,再经过一个全连接层运算,最终计算的结果,经过softmax函数计算得到注意力热图。
综上,注意力热力图
Figure 977320DEST_PATH_IMAGE004
计算公式如下:
Figure 926953DEST_PATH_IMAGE005
其中,
Figure 940039DEST_PATH_IMAGE002
为第一个GRU输出,
Figure 949715DEST_PATH_IMAGE006
为编码器提取的图像特征,
Figure 454777DEST_PATH_IMAGE007
为语法自适应的历史注意力信息。
Figure 145783DEST_PATH_IMAGE008
Figure 431620DEST_PATH_IMAGE009
Figure 612196DEST_PATH_IMAGE010
Figure 870133DEST_PATH_IMAGE011
为可学习的权重。
注意力模块的输出为加权后的视觉特征,即将计算得到注意力热力图
Figure 223886DEST_PATH_IMAGE004
和提取的图像特征 (
Figure 883668DEST_PATH_IMAGE006
) 相乘后得到加权后的视觉特征。
其中,语法自适应的历史注意力信息的计算遵循公式LaTeX语法展开的形式。其结果等于当前分支上根节点到父节点的当前路径上所有注意力热力图之和,而对于非该当前路径上的其他节点信息则忽略不计。
以图4为例,图4示例性示出了一个公式的树结构展开示意图。图4中的根节点为sos,表示起始节点,终止节点为eos。具体的,该公式为:
Figure 969567DEST_PATH_IMAGE012
,LaTeX中对应的表达式为:\frac {x} {2} – 1。图4中在预测节点“1”的符号时,注意力模块输入的历史符号注意力信息等于预测的节点“\frac”和节点“-”的注意力热力图之和,而来自其他路径的注意力热力图则不考虑,即:
Figure 652483DEST_PATH_IMAGE013
其中,
Figure 75505DEST_PATH_IMAGE014
表示节点“1”的历史符号注意力信息,
Figure 578076DEST_PATH_IMAGE015
表示节点“\frac”的注意力热力图,
Figure 834876DEST_PATH_IMAGE016
表示节点“-”的注意力热力图。
具体的,请参阅图5所示,图5示出了解码器的内部连接示意图,在图5中为了区分符号模块和关系模块,符号模块中包括的两个GRU分别为第一GRU和第二GRU,符号模块中包括的注意模块为第一注意力模块,关系模块中包括的两个GRU分别为第三GRU和第四GRU,符号模块中包括的注意模块为第二注意力模块,本公开实施例中利用图2所示的解码器,可以实现步骤S102中的解码步骤。下一子节点的预测信息包括下一子节点的符号信息,自适应的历史注意力信息包括当前路径上所有节点的历史符号注意力信息,节点信息包括词向量和隐状态向量,其中,词向量和隐状态向量可以用来预测节点的符号和关系。具体的,解码步骤包括以下过程:
利用第一门控神经网络,基于当前节点的词信息和当前节点的隐状态信息,确定当前节点的语义信息;利用第一注意力模块,基于当前节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定下一子节点的图像信息;利用第二门控神经网络,基于当前节点的语义信息以及下一子节点的图像信息,确定下一子节点的隐状态信息;以及基于当前节点的词信息、下一子节点的图像信息以及下一子节点的隐状态信息,确定下一子节点的符号信息。
一种可能的实现方式中,利用第一注意力模块,基于当前节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定下一子节点的图像信息,包括:
利用第一注意力模块,基于当前节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定下一子节点的注意力热力图;以及基于下一子节点的注意力热力图和提取的图像特征,确定下一子节点的图像信息。其中,下一子节点的图像信息包括下一子节点的注意力热力图和提取的图像特征的乘积。
可选的,本公开实施例中,在预测下一子节点的符号时,将当前节点的节点词向量、注意力模块输出的加权后的第一视觉特征和第二GRU输出的下一子节点的隐状态向量这三者分别通过全连接层后相加,相加后的向量再经过一个全连接层后经softmax函数得到当前时刻下一子节点的最大概率的符号。
本公开实施例中通过计算的下一子节点的词向量来预测下一子节点的符号,根据计算的下一子节点的词向量,进一步的,在上述解码步骤中还可以预测下一子节点与当前节点之间的空间关系,此时,下一子节点的预测信息还包括下一子节点的空间关系信息,自适应的历史注意力信息还包括当前路径上所有节点的历史空间关系注意力信息,具体的,可以通过以下过程实现:
利用第三门控神经网络,基于下一子节点的词信息和下一子节点的隐状态信息,确定下一子节点的语义信息;利用第二注意力模块,基于下一子节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定待识别关系的图像信息;利用第四门控神经网络,基于下一子节点的语义信息以及待识别关系的图像信息,确定待识别关系的隐状态信息;以及基于下一子节点的词信息、待识别关系的图像信息以及待识别关系的隐状态信息,确定下一子节点的空间关系信息。其中,待识别关系包括当前节点下一子节点的空间关系,下一子节点的空间关系信息包括当前节点与下一子节点的空间关系的信息。
一种可能的实现方式中,利用第二注意力模块,基于该下一子节点的语义信息、该提取的图像特征以及该自适应的历史注意力信息,确定待识别关系的图像信息,包括:
利用第二注意力模块,基于下一子节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定待识别关系的注意力热力图;基于待识别关系的注意力热力图和提取的图像特征,确定待识别关系的图像信息。其中,待识别关系的图像信息包括待识别关系的注意力热力图和提取的图像特征的乘积。
可选的,本公开实施例中,在预测下一子节点与当前节点的关系时,将下一子节点的节点词向量、第二注意力模块输出的加权后的第二视觉特征和该第二GRU输出的关系隐状态向量这三者分别通过全连接层后相加,相加后的向量再经过7个不同的全连接层和Sigmoid函数。这7个全连接层和Sigmoid函数分别对应7种关系。经过Sigmoid函数后,值大于0.5代表这种关系存在,否则为这种关系不存在,从而得到子节点和当前节点之间的空间关系。
需要说明的是,上述第一注意力模块和第二注意力模块的计算过程可以参阅上述图3所示。
本公开实施例中,关系模块对当前节点所有潜在的空间关系进行预测。在此共定义7中关系,分别为“上:above”、“下:below”、“下标:sub”、“上标:sup”、“左上:l_sup”、“内部:inside”和“右:right”,各个关系反应了公式中符号之间的空间关系。
综上,对下一子节点进行预测时,会得到下一子节点的符号和下一子节点与当前节点之间的空间关系,如果预测的下一子节点不是终止节点,则需要对预测结果进行存储,继续返回上述解码步骤执行下一子节点的子节点的预测过程。
在对下一子节点的预测结果进行存储时,需要根据关系模块的预测结果,进行相应的存储,具体的可以包括两种情况:
情况1、如果预测的下一子节点不是终止节点,而且预测的关系包含除“右:right”,以外的任何关系时,则将预测的各个关系及下一子节点的隐状态向量和自适应的历史注意力信息分别入栈存储。入栈时各个关系与隐状态向量组合存入,即:(relation_1,下一子节点的隐状态向量,ξ_α),(relation_2,下一子节点的隐状态向量,ξ_α)…,其中,relation_n表示下一子节点与当前节点的第n个空间关系,n为正整数;ξ_α表示当前时刻预测的自适应的历史注意力信息。
情况2、如果预测的下一子节点不是终止节点,但预测的关系只包含“右:right”,则将预测的该下一子节点的符号、下一子节点的隐状态向量和自适应的历史注意力信息入栈存储,即:(下一子节点的符号,下一子节点的隐状态向量,ξ_α),其中,ξ_α表示当前时刻预测的自适应的历史注意力信息。
由于本公开实施例中在对手写公式的符号进行预测时,使用语法自适应的注意力机制,能够有效降低模型识别过程中,由于公式的不同子树之间注意力漂移导致的识别错误率,提高手写公式的识别准确率。
请参阅图6,图6示出根据本公开一实施例的结合栈存储实现手写公式识别的方法流程图,具体包括以下步骤:
在步骤S601中,对获取的包含手写公式的原始图像进行图像预处理。例如,对于原始图像的尺寸、像素值进行规范化处理。
在步骤S602中,利用编码器提取图像特征。
此时,编码器使用的是全卷积网络DenseNet,输入的图像通道数为1,输出的图像特征的通道数为684。输出的图像特征的尺寸与输入的图像尺寸相比,宽高缩小为原来的1/16。
在步骤S603中,初始化栈。
栈初始化后不为空,内部存储起始节点的符号和对应的起始隐状态向量,隐状态向量的维度为256。
在步骤S604中,判定栈是否为空。
若栈不为空,则执行步骤S605;若栈为空,则执行步骤S609。
在步骤S605中,栈顶弹出当前步骤计算的父节点信息。
从存储栈顶取出存储的父节点的符号,以及该父节点的隐状态向量。使用embedding映射,将该父节点的符号映射为节点词向量,节点词向量的维度与隐状态向量的维度相同,均为256。
例如,以上述图4为例,对公式进行树结构展开,其中sos和eos分别代表起始符和终止符,根节点为sos。以图4所示的公式为例,将公式进行树结构展开后,“\frac”的子节点包括“x”,“2” 和“-”。
在步骤S606中,解码器根据输入的图像特征和父节点信息预测其所有的子节点。具体的预测过程可以参阅上述图4所示的相关内容。
在步骤S607中,判定是否入栈。
入栈判定条件:根据符号模块的预测结果判断是否需要入栈存储,入栈判定条件包括以下两种情形:
情形1、如果预测的子节点为终止符,则无需入栈存储,返回步骤S604执行栈是否为空的判定。
情形2、如果预测的子节点不为终止符,则执行步骤S608。
在步骤S608中,将新预测的子节点的节点信息进行入栈存储。
在步骤S609中,返回预测结果。
循环执行上述流程,当栈为空时,则直接返回之前预测的全部结果。
请参阅图7所示,图7示出根据本公开一实施例的手写公式的识别装置,该识别装置包括:
特征提取模块701,用于对包括手写公式的待识别图像进行特征提取,得到提取的图像特征。
确定模块702,用于针对手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,根据提取的图像特征、当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息, 其中,自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,当前路径为从当前分支的根节点到当前节点的路径,下一子节点为当前节点的子节点。
在一种可能的实施方式中,下一子节点的预测信息包括下一子节点的符号信息,自适应的历史注意力信息包括当前路径上所有节点的历史符号注意力信息,确定模块702还用于:
利用第一门控神经网络,基于当前节点的词信息和当前节点的隐状态信息,确定当前节点的语义信息;利用第一注意力模块,基于当前节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定下一子节点的图像信息;利用第二门控神经网络,基于当前节点的语义信息以及下一子节点的图像信息,确定下一子节点的隐状态信息;以及基于当前节点的词信息、下一子节点的图像信息以及下一子节点的隐状态信息,确定下一子节点的符号信息。
在一种可能的实施方式中,确定模块702还用于:
利用第一注意力模块,基于当前节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定下一子节点的注意力热力图;以及基于下一子节点的注意力热力图和提取的图像特征,确定下一子节点的图像信息。
在一种可能的实施方式中,下一子节点的图像信息包括下一子节点的注意力热力图和提取的图像特征的乘积。
在一种可能的实施方式中,下一子节点的预测信息包括下一子节点的空间关系信息,自适应的历史注意力信息包括当前路径上所有节点的历史空间关系注意力信息,确定模块702还用于:
利用第三门控神经网络,基于下一子节点的词信息和下一子节点的隐状态信息,确定下一子节点的语义信息;利用第二注意力模块,基于下一子节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定待识别关系的图像信息;利用第四门控神经网络,基于下一子节点的语义信息以及待识别关系的图像信息,确定待识别关系的隐状态信息;以及基于下一子节点的词信息、待识别关系的图像信息以及待识别关系的隐状态信息,确定下一子节点的空间关系信息。
在一种可能的实施方式中,待识别关系包括当前节点与下一子节点的空间关系,下一子节点的空间关系信息包括当前节点与下一子节点的空间关系的信息。
在一种可能的实施方式中,确定模块702还用于:
利用第二注意力模块,基于下一子节点的语义信息、提取的图像特征以及自适应的历史注意力信息,确定待识别关系的注意力热力图;基于待识别关系的注意力热力图和提取的图像特征,确定待识别关系的图像信息。
在一种可能的实施方式中,其中,待识别关系的图像信息包括待识别关系的注意力热力图和提取的图像特征的乘积。
本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
请参阅图8,图8示出根据本公开实施例的手写公式的识别设备的结构框图。如图8所示,该识别设备包括:存储器810和处理器820,存储器810内存储有可在处理器820上运行的计算机程序。处理器820执行该计算机程序时实现上述实施例中的手写公式的识别方法。存储器810和处理器820的数量可以为一个或多个。
该识别设备还包括:
通信接口830,用于与外界设备进行通信,进行数据交互传输。
如果存储器810、处理器820和通信接口830独立实现,则存储器810、处理器820和通信接口830可以通过总线相互连接并完成相互间的通信。该总线可以是工业标准体系结构(Industry Standard Architecture,ISA)总线、外部设备互连(Peripheral ComponentInterconnect ,PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture ,EISA)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
可选的,在具体实现上,如果存储器810、处理器820及通信接口830集成在一块芯片上,则存储器810、处理器820及通信接口830可以通过内部接口完成相互间的通信。
本公开实施例提供了一种计算机可读存储介质,其存储有计算机程序,该程序被处理器执行时实现本公开实施例中提供的手写公式的识别方法。
本公开实施例还提供了一种芯片,该芯片包括,包括处理器,用于从存储器中调用并运行存储器中存储的指令,使得安装有芯片的通信设备执行本公开实施例提供的手写公式的识别方法。
本公开实施例还提供了一种芯片,包括:输入接口、输出接口、处理器和存储器,输入接口、输出接口、处理器以及存储器之间通过内部连接通路相连,处理器用于执行存储器中的代码,当代码被执行时,处理器用于执行公开实施例提供的手写公式的识别方法。
应理解的是,上述处理器可以是中央处理器(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者是任何常规的处理器等。值得说明的是,处理器可以是支持进阶精简指令集机器(ADVANCED RISC MACHINES,ARM)架构的处理器。
进一步地,可选的,上述存储器可以包括只读存储器和随机存取存储器,还可以包括非易失性随机存取存储器。该存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以包括只读存储器(Read-OnlyMemory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以包括随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用。例如,静态随机存取存储器(static RAM,SRAM)、动态随机存取存储器(Dynamic Random Access Memory,DRAM) 、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Date SDRAM,DDR SDRAM)、增强型同步动态随机存取存储器(EnhancedSDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DR RAM)。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行计算机程序指令时,全部或部分地产生按照本公开的流程或功能。计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本公开的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本公开的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分。并且本公开的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。
应理解的是,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。上述实施例方法的全部或部分步骤是可以通过程序来指令相关的硬件完成,该程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
此外,在本公开各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。上述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读存储介质中。该存储介质可以是只读存储器,磁盘或光盘等。
以上该,仅为本公开的具体实施方式,但本公开的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,可轻易想到其各种变化或替换,这些都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应以权利要求的保护范围为准。

Claims (11)

1.一种手写公式的识别方法,包括:
对包括手写公式的待识别图像进行特征提取,得到提取的图像特征;
针对所述手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,根据所述提取的图像特征、所述当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,
其中,所述自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,所述当前路径为从所述当前分支的根节点到所述当前节点的路径,所述下一子节点为所述当前节点的子节点。
2.根据权利要求1所述的方法,其中,所述下一子节点的预测信息包括所述下一子节点的符号信息,所述自适应的历史注意力信息包括当前路径上所有节点的历史符号注意力信息,
并且其中,所述根据所述提取的图像特征、所述当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,包括:
利用第一门控神经网络,基于所述当前节点的词信息和所述当前节点的隐状态信息,确定所述当前节点的语义信息;
利用第一注意力模块,基于所述当前节点的语义信息、所述提取的图像特征以及所述自适应的历史注意力信息,确定所述下一子节点的图像信息;
利用第二门控神经网络,基于所述当前节点的语义信息以及所述下一子节点的图像信息,确定所述下一子节点的隐状态信息;以及
基于所述当前节点的词信息、所述下一子节点的图像信息以及所述下一子节点的隐状态信息,确定所述下一子节点的符号信息。
3.根据权利要求2所述的方法,其中,所述利用第一注意力模块,基于所述当前节点的语义信息、所述提取的图像特征以及所述自适应的历史注意力信息,确定下一子节点的图像信息,包括:
利用所述第一注意力模块,基于所述当前节点的语义信息、所述提取的图像特征以及所述自适应的历史注意力信息,确定所述下一子节点的注意力热力图;以及
基于所述下一子节点的注意力热力图和所述提取的图像特征,确定所述下一子节点的图像信息。
4.根据权利要求3所述的方法,其中,所述下一子节点的图像信息包括所述下一子节点的注意力热力图和所述提取的图像特征的乘积。
5.根据权利要求1-4中任一项所述的方法,其中,所述下一子节点的预测信息包括所述下一子节点的空间关系信息,所述自适应的历史注意力信息包括当前路径上所有节点的历史空间关系注意力信息,
并且其中,所述根据所述提取的图像特征、所述当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,包括:
利用第三门控神经网络,基于所述下一子节点的词信息和所述下一子节点的隐状态信息,确定所述下一子节点的语义信息;
利用第二注意力模块,基于所述下一子节点的语义信息、所述提取的图像特征以及所述自适应的历史注意力信息,确定待识别关系的图像信息;
利用第四门控神经网络,基于所述下一子节点的语义信息以及所述待识别关系的图像信息,确定所述待识别关系的隐状态信息;以及
基于所述下一子节点的词信息、所述待识别关系的图像信息以及所述待识别关系的隐状态信息,确定所述下一子节点的空间关系信息。
6.根据权利要求5所述的方法,其中,所述待识别关系包括所述当前节点与所述下一子节点的空间关系,所述下一子节点的空间关系信息包括所述当前节点与所述下一子节点的空间关系的信息。
7.根据权利要求5所述的方法,其中,所述利用第二注意力模块,基于所述下一子节点的语义信息、所述提取的图像特征以及所述自适应的历史注意力信息,确定待识别关系的图像信息,包括:
利用所述第二注意力模块,基于所述下一子节点的语义信息、所述提取的图像特征以及所述自适应的历史注意力信息,确定所述待识别关系的注意力热力图;
基于所述待识别关系的注意力热力图和所述提取的图像特征,确定所述待识别关系的图像信息。
8.根据权利要求7所述的方法,其中,所述待识别关系的图像信息包括所述待识别关系的注意力热力图和所述提取的图像特征的乘积。
9.一种手写公式的识别装置,包括:
特征提取模块,用于对包括手写公式的待识别图像进行特征提取,得到提取的图像特征;
确定模块,用于针对所述手写公式对应的树结构中的当前分支,将该当前分支中的父节点作为当前节点,根据所述提取的图像特征、所述当前节点的节点信息和自适应的历史注意力信息,确定下一子节点的预测信息,
其中,所述自适应的历史注意力信息包括当前路径上所有节点的历史注意力信息,所述当前路径为从所述当前分支的根节点到所述当前节点的路径,所述下一子节点为所述当前节点的子节点。
10.一种电子设备,包括:
处理器;以及
存储程序的存储器,
其中,所述程序包括指令,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-8中任一项所述的方法。
11.一种存储有计算机指令的计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-8中任一项所述的方法。
CN202111212659.XA 2021-10-19 2021-10-19 手写公式的识别方法、装置、设备及介质 Active CN113657413B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111212659.XA CN113657413B (zh) 2021-10-19 2021-10-19 手写公式的识别方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111212659.XA CN113657413B (zh) 2021-10-19 2021-10-19 手写公式的识别方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN113657413A true CN113657413A (zh) 2021-11-16
CN113657413B CN113657413B (zh) 2022-02-15

Family

ID=78494585

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111212659.XA Active CN113657413B (zh) 2021-10-19 2021-10-19 手写公式的识别方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN113657413B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN101388068A (zh) * 2007-09-12 2009-03-18 汉王科技股份有限公司 数学公式识别编码方法
US8023738B1 (en) * 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8023738B1 (en) * 2006-03-28 2011-09-20 Amazon Technologies, Inc. Generating reflow files from digital images for rendering on various sized displays
CN101388068A (zh) * 2007-09-12 2009-03-18 汉王科技股份有限公司 数学公式识别编码方法
CN101149790A (zh) * 2007-11-14 2008-03-26 哈尔滨工程大学 中文印刷体公式识别方法
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN113657413B (zh) 2022-02-15

Similar Documents

Publication Publication Date Title
AU2019200270B2 (en) Concept mask: large-scale segmentation from semantic concepts
EP3660733B1 (en) Method and system for information extraction from document images using conversational interface and database querying
US11676282B2 (en) Enhanced semantic segmentation of images
CN113785305B (zh) 一种检测倾斜文字的方法、装置及设备
US20200117951A1 (en) Image captioning with weakly-supervised attention penalty
CN107111782B (zh) 神经网络结构及其方法
CN111615702B (zh) 一种从图像中提取结构化数据的方法、装置和设备
WO2020051114A9 (en) Information detection method, apparatus and device
CN115438215B (zh) 图文双向搜索及匹配模型训练方法、装置、设备及介质
US20180365594A1 (en) Systems and methods for generative learning
CN112163596B (zh) 复杂场景文本识别方法、系统、计算机设备及存储介质
CN115034201A (zh) 使用弱监督多奖励强化学习扩充用于句子分类的文本数据
CN111291552B (zh) 一种文本内容修正的方法和系统
CN111178363A (zh) 文字识别方法、装置、电子设备以及可读存储介质
CN117083605A (zh) 用于文本-图像-布局变换器模型的迭代训练
CN113657413B (zh) 手写公式的识别方法、装置、设备及介质
CN112183513B (zh) 一种图像中文字的识别方法、装置、电子设备及存储介质
CN111737957A (zh) 汉字拼音转换方法、装置、电子设备及存储介质
CN117315090A (zh) 基于跨模态风格学习的图像生成方法及装置
CN113239908B (zh) 一种题目处理方法、装置、设备及介质
CN115828848A (zh) 字体生成模型的训练方法、装置、设备及存储介质
CN112287653A (zh) 产生电子合同的方法、计算设备和计算机存储介质
CN116958981B (zh) 一种文字识别方法及装置
CN111815631B (zh) 模型生成方法、装置、设备和可读存储介质
US20240005685A1 (en) Geospatial image data processing to detect nodes and interconnections

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant