CN113095314A - 一种公式识别方法、装置、存储介质及设备 - Google Patents

一种公式识别方法、装置、存储介质及设备 Download PDF

Info

Publication number
CN113095314A
CN113095314A CN202110372899.XA CN202110372899A CN113095314A CN 113095314 A CN113095314 A CN 113095314A CN 202110372899 A CN202110372899 A CN 202110372899A CN 113095314 A CN113095314 A CN 113095314A
Authority
CN
China
Prior art keywords
formula
target
spatial structure
image
target formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110372899.XA
Other languages
English (en)
Inventor
朱辉辉
张建树
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Priority to CN202110372899.XA priority Critical patent/CN113095314A/zh
Publication of CN113095314A publication Critical patent/CN113095314A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请公开了一种公式识别方法、装置、存储介质及设备,该方法包括:首先获取包含待识别的目标公式的目标图像,提取目标图像的图像特征;然后根据该图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对目标公式进行解码,得到目标公式的解码结果;接着,根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果。可见,本申请是按照预设的公式空间结构关系和基于深度学习的解码方法分别对目标公式进行识别和解码,再综合得到的空间结构信息和解码结果确定最终识别结果,充分考虑了空间结构信息对公式识别结果的影响,提高了识别结果的准确率。

Description

一种公式识别方法、装置、存储介质及设备
技术领域
本申请涉及信息识别技术领域,尤其涉及一种公式识别方法、装置、存储介质及设备。
背景技术
随着人工智能技术的不断突破和各种智能终端设备的日益普及,多种多样的智能应用在人们日常工作、生活中出现的频率越来越高。其中如拍照翻译、手写识别、机器阅卷等智能应用,其背后均依靠着文本识别技术的支持。因此,识别结果的准确性显得尤为重要。
目前现有的文本识别方法通常采用的是基于深度学习的识别方法,具体是利用卷积神经网络对输入图片自动提取特征,然后直接对特征进行结果输出。但由于学术界和工业界的快速发展,包含公式、字母等中英文混合的文本越来越多的出现在以数理化为代表的理工科机器阅卷或者智能拍搜等应用场景,如仍采用上述识别方法,对于公式部分,由于上述识别方法并未考虑到公式的整体二维空间结构信息,导致对于公式的识别结果不够准确。例如,对于图1所示的图像,在利用基于深度学习的识别方法(如采用由编码encoder和解码decoder组成的ED方案)对其进行识别时,可以将图1中的左侧图识别为是‘蓝天’,然而在公式识别领域中,图1右侧图的公式对应的拉泰赫(LaTeX)表达式为“n^{2}”,可见,其中只有“n”和“2”是实体符号,表示的是公式中的具体数字,且在图1右侧图中具有对应的图像,而对于“^”、“{”、“}”这些虚体符号,其表示的是公式的结构信息,在图1右侧图中是没有对应的图像的,因此,利用上述识别方法是较难能够利用注意力机制关注到这些结构信息并解码成功的,所以会导致对于公式的识别不够准确。
因此,如何提高公式识别结果的准确率是目前亟待解决的技术问题。
发明内容
本申请实施例的主要目的在于提供一种公式识别方法、装置、存储介质及设备,能够提高公式识别结果的准确率。
本申请实施例提供了一种公式识别方法,包括:
获取待识别的目标图像;所述目标图像中包含待识别的目标公式;
提取所述目标图像的图像特征;
根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对所述目标公式进行解码,得到所述目标公式的解码结果;
根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果。
一种可能的实现方式中,所述根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息,包括:
根据所述目标图像的图像特征,对所述目标公式进行父节点解码,得到所述目标公式包含的父节点;
根据所述目标图像的图像特征,对所述目标公式进行子节点解码,得到所述目标公式包含的子节点;
根据所述目标公式包含的父节点和所述目标公式包含的子节点,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;
其中,所述目标公式包含的父节点和所述目标公式包含的子节点为所述目标公式包含的字母、数字或运算符号。
一种可能的实现方式中,所述预设的公式空间结构关系包括以下一项或多项空间结构关系:
用于代表子节点在父节点正上方的空间结构关系;
用于代表子节点在父节点正下方的空间结构关系;
用于代表子节点在父节点右上方的空间结构关系;
用于代表子节点在父节点右下方的空间结构关系;
用于代表子节点在父节点左上方的空间结构关系;
用于代表子节点在父节点内部的空间结构关系;
用于代表子节点在父节点右边的空间结构关系;
用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系;
用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系;
用于代表子节点和父节点换行的空间结构关系。
一种可能的实现方式中,所述目标公式的空间结构信息为M条,所述目标公式的解码结果为N个;所述M和N均为大于0的正整数;所述根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果,包括:
将所述目标公式的N个解码结果转换为对应的N个空间结构关系,得到转换后的N个空间结构关系;
将所述转换后的N个空间结构关系与所述目标公式的M条空间结构信息进行匹配,并在匹配成功后,将联合置信度最高的空间结构关系对应的解码结果作为所述目标公式的最终识别结果。
一种可能的实现方式中,所述根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息,包括:
利用预先构建的空间结构信息预测模型,根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息。
一种可能的实现方式中,所述利用预先构建的空间结构信息预测模型,根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息,包括:
通过所述空间结构信息预测模型的父节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和上一时刻子节点的值,计算当前时刻父节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
通过所述空间结构信息预测模型的子节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和所述父节点的预测值,计算当前时刻子节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
通过所述空间结构信息预测模型的空间结构关系预测模块,根据所述当前时刻父节点的预测值和所述当前时刻子节点的预测值,预测所述父节点和所述子节点之间的空间结构信息。
一种可能的实现方式中,所述空间结构信息预测模型的构建方式如下:
获取样本图像;所述样本图像中包含待识别的样本公式;
提取所述样本图像的图像特征;
根据所述样本图像的图像特征以及所述样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练,生成所述空间结构信息预测模型。
本申请实施例还提供了一种公式识别装置,包括:
第一获取单元,用于获取待识别的目标图像;所述目标图像中包含待识别的目标公式;
第二提取单元,用于提取所述目标图像的图像特征;
识别单元,用于根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对所述目标公式进行解码,得到所述目标公式的解码结果;
确定单元,用于根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果。
一种可能的实现方式中,所述识别单元包括:
第一解码子单元,用于根据所述目标图像的图像特征,对所述目标公式进行父节点解码,得到所述目标公式包含的父节点;
第二解码子单元,用于根据所述目标图像的图像特征,对所述目标公式进行子节点解码,得到所述目标公式包含的子节点;
识别子单元,用于根据所述目标公式包含的父节点和所述目标公式包含的子节点,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;
其中,所述目标公式包含的父节点和所述目标公式包含的子节点为所述目标公式包含的字母、数字或运算符号。
一种可能的实现方式中,所述预设的公式空间结构关系包括以下一项或多项空间结构关系:
用于代表子节点在父节点正上方的空间结构关系;
用于代表子节点在父节点正下方的空间结构关系;
用于代表子节点在父节点右上方的空间结构关系;
用于代表子节点在父节点右下方的空间结构关系;
用于代表子节点在父节点左上方的空间结构关系;
用于代表子节点在父节点内部的空间结构关系;
用于代表子节点在父节点右边的空间结构关系;
用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系;
用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系;
用于代表子节点和父节点换行的空间结构关系。
一种可能的实现方式中,所述目标公式的空间结构信息为M条,所述目标公式的解码结果为N个;所述M和N均为大于0的正整数;所述确定单元包括:
转换子单元,用于将所述目标公式的N个解码结果转换为对应的N个空间结构关系,得到转换后的N个空间结构关系;
确定子单元,用于将所述转换后的N个空间结构关系与所述目标公式的M条空间结构信息进行匹配,并在匹配成功后,将联合置信度最高的空间结构关系对应的解码结果作为所述目标公式的最终识别结果。
一种可能的实现方式中,所述识别单元具体用于:
利用预先构建的空间结构信息预测模型,根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息。
一种可能的实现方式中,所述识别单元包括:
第一计算子单元,用于通过所述空间结构信息预测模型的父节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和上一时刻子节点的值,计算当前时刻父节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
第二计算子单元,用于通过所述空间结构信息预测模型的子节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和所述父节点的预测值,计算当前时刻子节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
预测子单元,用于通过所述空间结构信息预测模型的空间结构关系预测模块,根据所述当前时刻父节点的预测值和所述当前时刻子节点的预测值,预测所述父节点和所述子节点之间的空间结构信息。
一种可能的实现方式中,所述装置还包括:
第二获取单元,用于获取样本图像;所述样本图像中包含待识别的样本公式;
第二提取单元,用于提取所述样本图像的图像特征;
训练单元,用于根据所述样本图像的图像特征以及所述样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练,生成所述空间结构信息预测模型。
本申请实施例还提供了一种公式识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述公式识别方法中的任意一种实现方式。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述公式识别方法中的任意一种实现方式。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述公式识别方法中的任意一种实现方式。
本申请实施例提供的一种公式识别方法、装置、存储介质及设备,首先获取待识别的目标图像,提取目标图像的图像特征,其中,目标图像中包含待识别的目标公式;然后再根据目标图像的图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对目标公式进行解码,得到目标公式的解码结果;接着,可以根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果。可见,由于本申请实施例是按照预设的公式空间结构关系和预设的基于深度学习的解码方法分别对目标公式进行识别和解码,再综合得到的空间结构信息和解码结果确定最终的公式识别结果,充分考虑了目标公式的空间结构信息对目标公式识别结果的影响,丰富了目标公式的识别依据,进而提高了公式识别结果的准确率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的包含文字和公式的图像示例图;
图2为本申请实施例提供的二维结构公式的图像示例图之一;
图3为本申请实施例提供的一种公式识别方法的流程示意图;
图4为本申请实施例提供的二维结构公式的图像示例图之二;
图5为本申请实施例提供的将LaTeX表示形式的公式转换为公式树的示例图;
图6为本申请实施例提供的预设的10种公式空间结构关系的结构示意图;
图7为本申请实施例提供的确定目标公式的空间结构信息的流程示意图;
图8为本申请实施例提供的空间结构信息预测模型的结构示意图;
图9为本申请实施例提供的公式识别模型的结构示意图;
图10为本申请实施例提供的一种公式识别装置的组成示意图。
具体实施方式
随着学术界和工业界的快速发展,包含公式、字母等中英文混合的文本越来越多的出现在以数理化为代表的理工科机器阅卷或者智能拍搜等智能应用场景。例如,如图2所示,其示出了本申请实施例提供的二维结构公式的图像示例图,图2所示的公式包含有二维空间结构信息,即,其内部构造除了左右结构,还同时嵌套了由分式形成的上下结构和指数形成的上下标等结构。
现有公式识别方法通常有两种:一种是基于传统方法的公式识别方式,另一种是基于深度学习的识别方法。虽然这两种识别方法各具特色,但是在方案设计中均未考虑待识别公式的整体空间结构,而公式本身又具有非常丰富的结构信息,如果不加以利用,将很难能够得到较为准确的识别结果,也就是说,现有的识别方法对于公式的识别均不够准确。
为解决上述缺陷,本申请提供了一种公式识别方法,首先获取待识别的目标图像,提取目标图像的图像特征,其中,目标图像中包含待识别的目标公式;然后再根据目标图像的图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对目标公式进行解码,得到目标公式的解码结果;接着,可以根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果。可见,由于本申请实施例是按照预设的公式空间结构关系和预设的基于深度学习的解码方法分别对目标公式进行识别和解码,再综合得到的空间结构信息和解码结果确定最终的公式识别结果,充分考虑了目标公式的空间结构信息对目标公式识别结果的影响,丰富了目标公式的识别依据,进而提高了公式识别结果的准确率。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
第一实施例
参见图3,为本实施例提供的一种公式识别方法的流程示意图,该方法包括以下步骤:
S301:获取待识别的目标图像;其中,目标图像中包含待识别的目标公式。
在本实施例中,将采用本实施例进行识别的任一公式定义为目标公式,并将目标公式所在的图像定义为待识别的目标图像。并且,本实施例不限制待识别的目标图像的类型,比如,目标图像可以是由红(G)、绿(G)、蓝(B)三原色组成的彩色图像、也可以是灰度图像等。
可以理解的是,包含目标公式的目标图像可以根据实际需要,通过拍照等方式获得,例如,在理工科机器阅卷或者智能拍搜等应用场景获得的如图2所示的图像和公式即可作为目标图像和目标公式,在获取到包含目标公式的目标图像后,可以利用本实施例提供的方案实现对该目标公式的识别。
S302:提取目标图像的图像特征。
在本实施例中,通过步骤S301获取到包含待识别的目标公式的目标图像后,为了准确识别出目标公式对应的公式信息,可以利用现有或未来出现的图像特征提取方法对其进行处理(即对其进行编码处理),比如,可以利用vgg16、resnet34、方向梯度直方图(Convolutional Neural Networks,简称HOG)特征提取、尺度不变特征变换(Scale-invariant feature transform,简称SIFT)特征提取方法等,从目标图像中提取出能够表征其图像信息(包含文字的语义信息和目标公式的空间结构信息)的特征,此处将该特征定义为图像特征,该图像特征中应携带对应目标图像的全部图像信息,且该图像特征的具体表现形式可以是特征图(向量矩阵),例如,可以将尺寸大小为200×200的目标图像通过等比例压缩的方式进行特征提取,以得到尺寸大小为10×10的特征图,作为目标图像的图像特征,然后将该图像特征作为识别依据,用以通过后续步骤S303-S304,实现对目标公式的准确识别。
需要说明的是,本申请实施例并不限定目标图像的图像特征的提取方法,也不限定具体的提取过程,可根据实际情况选择适当的提取方法,以及进行相应的特征提取操作。
S303:根据目标图像的图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对目标公式进行解码,得到目标公式的解码结果。
首先,需要说明的是,在实际应用中,数学公式通常会采用LaTeX的形式来表示,用于排版印刷等领域。其中,LaTeX是一种基于TeX的排版系统,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由TeX所提供的强大功能,能够在几天,甚至几小时内生成很多具有书籍质量的印刷品。尤其对于生成复杂表格和数学公式,这一点表现得尤为突出。例如,如图4所示,图中公式
Figure BDA0003009989690000101
的LaTeX表示形式为:y=\frac{x^{2}}{3}+\sqrt{1 1}。
并且,在对目标图像进行编码处理,得到表征其全部图像信息的特征图后,进一步的,在对其进行解码的过程中,当采用LaTeX的形式来表示公式时,还需要额外添加两个符号:<s>(起始符)和</s>(终止符),二者各自的含义分别是:开始解码的标识和结束解码的标识。所以,对于公式
Figure BDA0003009989690000102
在解码过程中的LaTeX表示形式最终为:<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>。
进一步的,还可以将任何一个采用LaTeX形式表示的公式转换为一颗公式树的形式。举例说明:对于公式
Figure BDA0003009989690000103
的LaTeX表示形式<s>y=\frac{x^{2}}{3}+\sqrt{11}</s>,可将其转换为如图5所示的公式树,图5中的每个箭头都表示公式中的一段公式内容,比如图4方框内的一段公式内容“x2”,对应的LaTeX表示形式为x^{2},则其在图5公式树中对应的部分为图5方框中的内容。需要说明的是,在公式树中,箭头是由父节点指向子节点的,比如在图5方框所示的公式内容中,父节点为x,子节点为2,两者的空间结构关系为“子节点2在父节点x右上方的空间结构关系”。
可见,对于任一包含有丰富的空间结构关系的公式,通过上述处理过程,均可确定出其对应的空间结构关系,由此,在本实施例中,通过步骤S302提取出目标图像的图像特征(即通过对目标图像进行编码处理,得到特征图作为图像特征)后,为了能够提高对于目标公式识别的准确率,进一步的,可以按照预先设定的公式空间结构关系,对目标图像的图像特征进行处理,以根据处理结果,确定目标公式的空间结构信息,用以执行后续步骤S304。
其中,预先设定的公式空间结构关系可以包括以下10项空间结构关系中的一项或多项:
用于代表子节点在父节点正上方的空间结构关系;用于代表子节点在父节点正下方的空间结构关系;用于代表子节点在父节点右上方的空间结构关系;用于代表子节点在父节点右下方的空间结构关系;用于代表子节点在父节点左上方的空间结构关系;用于代表子节点在父节点内部的空间结构关系;用于代表子节点在父节点右边的空间结构关系;用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系;用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系;用于代表子节点和父节点换行的空间结构关系。
接下来,将对上述10项空间结构关系进行一一介绍:
1、用于代表子节点在父节点正上方的空间结构关系
“用于代表子节点在父节点正上方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的正上方的关系,在此将其定义为“Above”。可以理解的是,该空间结构关系通常存在于公式中的分式关系,例如图6中的左侧第1个图所示,“Above”表示的是子节点a位于父节点“—”的正上方的空间结构关系。
2、用于代表子节点在父节点正下方的空间结构关系
“用于代表子节点在父节点正下方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的正下方的关系,在此将其定义为“Below”。可以理解的是,该空间结构关系通常指的是公式中的分式关系,例如图6中的左侧第2个图所示,“Below”表示的是子节点“b”位于父节点“—”的正下方的空间结构关系。
3、用于代表子节点在父节点右上方的空间结构关系
“用于代表子节点在父节点右上方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的右上方的关系,在此将其定义为“Sup”。可以理解的是,该空间结构关系通常指的是公式中的指数关系,例如图6中的左侧第3个图所示,“Sup”表示的是子节点“n”位于父节点“A”的右上方的空间结构关系。
4、用于代表子节点在父节点右下方的空间结构关系
“用于代表子节点在父节点右下方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的右下方的关系,在此将其定义为“Sub”。例如图6中的左侧第4个图所示,“Sub”表示的是子节点“n”位于父节点“A”的右下方的空间结构关系。
5、用于代表子节点在父节点左上方的空间结构关系
“用于代表子节点在父节点左上方的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的左上方的关系,在此将其定义为“Leftsup”。可以理解的是,该空间结构关系通常指的是公式中的开方关系,例如图6中的左侧第5个图所示,“Leftsup”表示的是子节点“a”位于父节点
Figure BDA0003009989690000121
的左上方的空间结构关系。
6、用于代表子节点在父节点内部的空间结构关系
“用于代表子节点在父节点内部的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的内部的关系,在此将其定义为“Inside”。可以理解的是,该空间结构关系通常指的是公式中的开方关系,例如图6中的右侧第1个图所示,“Inside”表示的是子节点“b”位于父节点
Figure BDA0003009989690000122
的内部的空间结构关系。
7、用于代表子节点在父节点右边的空间结构关系
“用于代表子节点在父节点右边的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点的右边的关系,在此将其定义为“Right”。例如图6中的右侧第2个图所示,“Right”表示的是子节点“+”位于父节点“a”的右边的空间结构关系。
8、用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系
“用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系”指的是在公式树的起始位置出现的,表示起始子节点对应的第一个字符和起始符(即“</s>”)之间的关系,在此将其定义为“Start”。例如图6中的右侧第3个图所示,“Start”位于公式的起始位置,表示的是起始子节点对应的第一个字符“a”和起始符<s>(即图6中右侧第3个图所示字符“a”左侧的方框)之间的空间结构关系。
9、用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系
“用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系”指的是在公式树的末尾位置出现的,表示末尾子节点对应的末尾字符和终止符(即“</s>”)之间的关系,在此将其定义为“End”。例如图6中的右侧第4个图所示,“End”位于公式的末尾位置,表示的是末尾子节点对应的末尾字符“b”和终止符<s>(即图6中右侧第4个图所示字符“b”右侧的方框)之间的空间结构关系。
10、用于代表子节点和父节点换行的空间结构关系
“用于代表子节点和父节点换行的空间结构关系”指的是公式树中某一箭头所指向的子节点位于该箭头起始位置所对应的父节点换行的关系,在此将其定义为“Nextline”。例如图6中的右侧第5个图所示,“Nextline”表示的是子节点“b”与父节点“c”之间换行的空间结构关系。
由此,按照上述10种预先设定的公式空间结构关系,对目标图像的图像特征进行处理,以根据处理结果,确定目标公式的空间结构信息。举例说明:假设目标公式为图4所示的公式
Figure BDA0003009989690000131
在将其对应的LaTeX表示形式<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>转化为图5所示的公式树后,可以采用深度优先遍历的原则,先上后下,先左后右,依次得到该公式树结构的各个由“父节点”、“子节点”以及二者之间的“空间结构关系”组成的子树序列分别表示为:(<s>、y、Start),(y、=、Right),(=、\frac、Right),(\frac、x、Above),(x、2、Sup),(\frac、3、Below),(\frac、+、Right),(+、\sqrt、Right),(\sqrt、1、Inside),(1、1、Right)、(1、</s>、End)”。
进一步的,再将上述各个子序列进行拆分处理,可以得到获取父节点、子节点和空间结构关系的列表。具体的,将上述各个子序列进行拆分处理后,得到的父节点列表为:[<s>,y,=,\frac,x,\frac,\frac,+,\sqrt,1,1]。子节点列表为:[y,=,\frac,x,2,3,+,\sqrt,1,1,</s>]。空间结构信息的列表为[Start,Right,Right,Above,Sup,Below,Right,Right,Inside,Right,End]。
在本实施例的一种可能的实现方式中,上述步骤S303中“根据目标图像的图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息”的实现过程具体可以包括:利用预先构建的空间结构信息预测模型,根据目标图像的图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息。
在本实现方式中,可以利用预先构建的空间结构信息预测模型,预测出目标公式的空间结构信息,具体实现过程请参见第二实施例。
此外,在本实施例中,在通过步骤S302提取出目标图像的图像特征(即通过对目标图像进行编码处理,得到特征图作为图像特征)后,为了进一步提高识别结果的准确性,不仅需要按照通过上述过程确定出目标公式的空间结构信息作为识别的辅助信息,还需要按照预设的基于深度学习的解码方法,对目标公式所在的特征图进行解码,得到目标公式的解码结果,然后再将其与之前确定出的目标公式的空间结构信息相结合,用以执行后续步骤S304,便于综合该解码结果和空间结构信息得到准确性更高的识别结果。
具体来讲,可以采用基于序列建模(Seq2seq)方案中的ED方案进行识别。例如,假设目标公式为图4所示的公式
Figure BDA0003009989690000141
其对应的LaTeX表示形式理论上应该是<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>,但在利用ED方案对其所在的特征图进行解码后,可以得到至少一个LaTeX表示形式的解码结果,而该解码结果与目标公式
Figure BDA0003009989690000142
对应的理论上的LaTeX表示形式<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>可能相同,也可能不同。如果相同,则得到的解码结果是<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>,如果不同,则得到的解码结果可能是<s>y=\frac{x^{2}}{3}+1 11</s>或<s>y=\frac{x^{2}}{3}+\sqrt{1 1 1}</s>等。由此,需要通过执行后续步骤S304,将得到的目标公式的解码结果与之前确定出的目标公式的空间结构信息相结合,以便从所有得到的解码结果中确定出准确性最高的解码结果,作为目标公式的识别结果。
S304:根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果。
在本实施例中,通过步骤S303得到目标公式的空间结构信息和目标公式的解码结果后,进一步可以将二者进行综合处理,以根据处理结果,确定出准确性更高的解码结果,作为目标公式的最终识别结果。
具体来讲,一种可选的实现方式是,当通过步骤S303确定出目标公式的空间结构信息为M条,以及目标公式的解码结果为N个时。其中,M和N均为大于0的正整数,本步骤S304的具体实现过程可以包括下述步骤A-B:
步骤A:将目标公式的N个解码结果转换为对应的N个空间结构关系,得到转换后的N个空间结构关系。
在本实现方式中,在通过步骤S303确定出目标公式的LaTeX表示形式的解码结果为N个,即,当按照预设的基于深度学习的解码方法,对目标公式进行解码,得到的目标公式的解码结果为N个,且这N个解码结果各自对应的置信度分别为a1、a2、…、aN后,进一步可以将这N个LaTeX表示形式的解码结果转换为对应的N个空间结构关系,用以执行后续步骤B。
举例说明:假设目标公式为图4所示的公式
Figure BDA0003009989690000151
N的取值为3,在采用ED方案对其所在的特征图进行解码后,可以得到3个LaTeX表示形式的解码结果分别为下述s1、s2、s3:
s1:<s>y=\frac{x^{2}}{3}+1 1 1</s>,其对应的置信度为a1。
s2:<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>,其对应的置信度为a2。
s3:<s>y=\frac{x^{2}}{3}+\sqrt{1 1 1}</s>,其对应的置信度为a3。
在对s1、s2、s3进行处理后,可以得到三者对应的空间结构关系分别为下述s1'、s2'、s3':
s1':[Start,Right,Right,Above,Sup,Below,Right,Right,Right,Right,End]。
s2':[Start,Right,Right,Above,Sup,Below,Right,Right,Inside,Right,End]。
s3':[Start,Right,Right,Above,Sup,Below,Right,Right,Inside,Right,Right,End]。
步骤B:将转换后的N个空间结构关系与目标公式的M条空间结构信息进行匹配,并在匹配成功后,将联合置信度最高的空间结构关系对应的解码结果作为目标公式的最终识别结果。
在本实现方式中,在通过步骤S303确定出目标公式的空间结构信息为M条,即,按照预设的公式空间结构关系,对目标公式进行识别,得到的目标公式的空间结构信息为M条,且这M条空间结构信息各自对应的置信度分别为b1、b2、…、bM后,进一步可以将通过步骤A确定的N个空间结构关系与这M条空间结构信息进行匹配(即从M条空间结构信息中寻找与N个空间结构关系相同的空间结构信息),并在匹配成功后,可以将成功匹配的空间结构关系和空间结构信息各自对应的置信度进行联合处理(如加权求和处理等),得到联合置信度,再将其中最高的联合置信度对应的空间结构关系所归属的解码结果作为目标公式的最终识别结果。
举例说明:基于上述举例,仍假设目标公式为图4所示的公式
Figure BDA0003009989690000161
M的取值为3,在按照预设的10种公式空间结构关系,对其进行识别后,可以得到3条空间结构信息分别为下述t1、t2、t3:
t1:[Start,Right,Right,Above,Sup,Below,Right,Right,Inside,Right,End],其对应的置信度为b1。
t2:[Start,Right,Right,Above,Sup,Below,Right,Right,Right,Right,End],其对应的置信度为b2。
t3:[Start,Right,Right,Above,Right,Below,Right,Right,Inside,Right,End],其对应的置信度为b3。
在将s1'、s2'、s3'与t1、t2、t3进行匹配后,可以得到的匹配结果为:s1'与t2匹配成功(即s1'与t2表示的空间结构关系相同),s2'与t1匹配成功(即s2'与t2表示的空间结构关系相同),s3'并未匹配成功(即s3'与t1、t2、t3表示的空间结构关系均不相同),因此,可以将s1'所属的s1对应的置信度a1与t2的置信度b2进行联合处理,得到第一处理结果,并将s2'所属的s2对应的置信度a2与t1的置信度b1进行联合处理,得到第二处理结果,以及将s3'所属的s3对应的置信度a3进行处理,得到第三处理结果。以加权求和处理为例,第一处理结果的计算公式为λ1a1+λ2b2,第二处理结果的计算公式为λ1a2+λ2b1,第三处理结果的计算公式为λ1a3,其中,λ1和λ2的具体取值可根据实际情况和经验值来确定,本申请实施例对此不进行限定,比如可以将λ1和λ2分别取值为0.6和0.4等。
进而可以从这三个处理结果中选择数值最高的处理结果对应的解码结果(即s1、s2或s3)作为公式
Figure BDA0003009989690000162
的最终解码结果。如假设λ1a2+λ2b1为最高处理结果(即联合置信度),则可以选择λ1a2+λ2b1对应的解码结果s2作为目标公式
Figure BDA0003009989690000163
的最终解码结果。
综上,本实施例提供的一种公式识别方法,首先获取待识别的目标图像,提取目标图像的图像特征,其中,目标图像中包含待识别的目标公式;然后再根据目标图像的图像特征,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对目标公式进行解码,得到目标公式的解码结果;接着,可以根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果。可见,由于本申请实施例是按照预设的公式空间结构关系和预设的基于深度学习的解码方法分别对目标公式进行识别和解码,再综合得到的空间结构信息和解码结果确定最终的公式识别结果,充分考虑了目标公式的空间结构信息对目标公式识别结果的影响,丰富了目标公式的识别依据,进而提高了公式识别结果的准确率。
第二实施例
本实施例首先将对第一实施例中利用预先构建的空间结构信息预测模型,预测出目标公式的空间结构信息的具体实施方式进行介绍。
需要说明的是,在本实施例中,空间结构信息预测模型的输入为目标图像,输出为目标图像中目标公式对应的空间结构信息。且该空间结构信息包括目标公式对应的LaTeX表示形式中每一父节点和子节点之间的空间结构关系。其中,每一父节点和子节点之间的空间结构关系为上述第一实施例中介绍的10种公式空间结构关系中的一种。
参见图7,其示出了本实施例提供的确定目标公式的空间结构信息的流程示意图,该流程包括以下步骤:
S701:根据目标图像的图像特征,对目标公式进行父节点解码,得到目标公式包含的父节点。
在本实施例中,在提取出目标图像的图像特征后,对于该图像特征,可以按照后续步骤S701-S703对其进行处理,以确定出目标公式的空间结构信息。
具体来讲,一种可选的实现方式是,为了能够准确确定出目标公式的空间结构信息,可以预先建立用于确定公式的空间结构信息的空间结构信息预测模型,该模型包括:特征提取模块、父节点注意力模块、子节点注意力模块和空间结构关系预测模块。该模型的示例图如图8所示,其中,特征提取模块为resnet34,父节点注意力模块由Parent Attention和Paraent GRU组成,子节点注意力模块由Child Attention和Child GRU组成,空间结构关系预测模块为FC Layer。
其中,特征提取模块(如图8中的resnet34)的输入是目标图像,对其进行特征提取(即编码处理)后,输出目标图像的图像特征(如图8中的特征图A)。父节点注意力模块的输入是目标图像的图像特征(如图8中的特征图A)和上一解码时刻对子节点进行解码后得到的子节点对应的隐层状态变量,输出是当前时刻父节点的预测值。子节点注意力模块的输入是目标图像的图像特征(如图8中的特征图A)和当前解码时刻对父节点进行解码后得到的父节点对应的隐层状态变量,输出是当前时刻子节点的预测值。空间结构关系预测模块的输入是通过父节点注意力模块确定的当前解码时刻父节点的上下文特征表达向量和通过子节点注意力模块确定的当前解码时刻子节点的上下文特征表达向量,输出是当前解码时刻父节点和子节点之间的空间结构信息的取值概率,根据该概率值可以确定出当前解码时刻父节点和子节点之间的空间结构信息。即,确定出解码时刻父节点和子节点之间的空间结构关系(为上述第一实施例中介绍的10种公式空间结构关系中的一种)。
需要说明的是,在后续内容中,本实施例将以图8所示的空间结构信息预测模型结构为准来介绍如何确定出目标公式的空间结构信息,而其它类似结构组成的空间结构信息预测模型的预测方式与之类似,不再一一赘述。
在此基础上,为了确定出目标公式的空间结构信息,首先可以将目标图像输入该空间结构信息预测模型,以通过模型的特征提取模块(如图8中的resnet34)对其进行特征提取,确定出目标图像的图像特征,并将其定义为特征图A(如图8中的特征图A)。
然后,在后续解码过程中,将当前解码时刻定义为第t时刻,并将上一时刻(即第t-1时刻)对子节点(此处将其定义为
Figure BDA0003009989690000181
)解码得到的隐层状态变量(hidden state)定义为
Figure BDA0003009989690000182
这样,在将
Figure BDA0003009989690000183
和特征图A输入父节点注意力模块(如图8中的Parent Attention)后,可以通过该父节点注意力模块,为目标图像中像素点的图像特征值赋予权重,并根据该权重和上一时刻子节点的值,计算当前时刻父节点的预测值。其中,权重的大小与像素点的图像特征值的重要程度有关。具体计算公式如下:
Figure BDA0003009989690000184
Figure BDA0003009989690000185
其中,
Figure BDA0003009989690000186
表示第t时刻父节点注意力模块(如图8中的Parent Attention)为目标图像中像素点的图像特征值赋予的权重;
Figure BDA0003009989690000187
表示第t时刻父节点注意力模块(如图8中的Parent Attention)的计算公式;ai表示特征图A中的第i个像素点对应的第i个图像特征值;
Figure BDA0003009989690000188
表示第t时刻父节点注意力模块(如图8中的Parent Attention)为目标图像中第i个像素点的第i个图像特征值赋予的权重;
Figure BDA0003009989690000189
表示第t时刻父节点的上下文特征表达向量,包含该父节点的语义信息和空间位置信息。
上述公式(1)中
Figure BDA0003009989690000191
的具体计算过程(即表示第t时刻父节点注意力模块(如图8中的Parent Attention)的计算公式
Figure BDA0003009989690000192
的实现过程)如下公式所示:
Figure BDA0003009989690000193
Figure BDA0003009989690000194
其中,
Figure BDA0003009989690000195
表示第t时刻父节点注意力模块(如图8中的Parent Attention)为目标图像中第i个像素点的第i个图像特征值赋予的权重;
Figure BDA0003009989690000196
表示将
Figure BDA0003009989690000197
进行归一化处理后得到的值;
Figure BDA0003009989690000198
Figure BDA0003009989690000199
均为模型的网络参数,本质为一个向量,具体取值可根据实际情况进行设定,并可以随着网络的训练过程进行迭代更新。
这样,在通过上述公式获取到表示第t时刻父节点的上下文特征表达向量的
Figure BDA00030099896900001910
后,进一步可以根据
Figure BDA00030099896900001911
的取值,通过模型中的Parent GRU计算出第t时刻父节点的隐层状态变量
Figure BDA00030099896900001912
具体计算公式如下:
Figure BDA00030099896900001913
其中,
Figure BDA00030099896900001914
表示第t时刻父节点的隐层状态变量;GRU()表示模型中的Parent GRU的基础网络参数;
Figure BDA00030099896900001915
表示第t时刻父节点的上下文特征表达向量;
Figure BDA00030099896900001916
表示第t-1时刻子节点的值(即表达向量)。
进一步的,可以根据第t-1时刻子节点的值
Figure BDA00030099896900001917
第t时刻父节点的隐层状态变量
Figure BDA00030099896900001918
以及第t时刻父节点的上下文特征表达向量
Figure BDA00030099896900001919
预测出第t时刻父节点的值
Figure BDA00030099896900001920
具体计算公式如下:
Figure BDA00030099896900001921
其中,
Figure BDA00030099896900001922
表示预测出的第t时刻父节点的值
Figure BDA00030099896900001923
的取值概率。
Figure BDA00030099896900001924
为模型的网络参数,本质为一个向量,具体取值可根据实际情况进行设定,并可以随着网络的训练过程进行迭代更新
举例说明:以图4所示的公式
Figure BDA00030099896900001925
为例,当第t时刻待预测的父节点是
Figure BDA00030099896900001926
时,即第t时刻父节点的值
Figure BDA00030099896900001927
理论上是
Figure BDA00030099896900001928
在通过上述公式(1)-(6)对其进行预测时,第t-1时刻子节点的值
Figure BDA00030099896900001929
取值为“+”,表征第t-1时刻子节点对应的隐层状态变量的
Figure BDA00030099896900001930
取值为“+”对应的隐层状态变量。进而可通过上述公式(1)-(6)得到第t时刻父节点
Figure BDA0003009989690000201
的上下文特征表达向量
Figure BDA0003009989690000202
和父节点的预测值
Figure BDA0003009989690000203
的取值概率
Figure BDA0003009989690000204
需要说明的是,当当前解码时刻(即第t时刻)为初始时刻时,先进行父节点解码,再进行子节点解码,具体的,在初始时刻进行解码时,先根据目标图像的图像特征,对目标公式进行父节点解码时,是将特征图A输入父节点注意力模块后,通过上述公式(1)-(6)进行解码,并且将公式中的
Figure BDA0003009989690000205
取值为0,即,将表征上一时刻子节点对应的隐层状态变量设置为0,得到初始时刻父节点的上下文特征表达向量和父节点的预测值,用以通过后续步骤S702确定出初始时刻子节点的上下文特征表达向量和子节点的预测值。
S702:根据目标图像的图像特征,对目标公式进行子节点解码,得到目标公式包含的子节点。
在本实施例中,通过步骤S701计算出当前时刻父节点的预测值
Figure BDA0003009989690000206
以及在确定出当前时刻(即第t时刻)父节点的隐层状态变量
Figure BDA0003009989690000207
后,还可以根据
Figure BDA0003009989690000208
以及目标图像的图像特征,对目标公式进行子节点解码,得到当前时刻(即第t时刻)的子节点。
具体来讲,一种可选的实现方式是,可以利用预先建立的空间结构信息预测模型中的子节点注意力模块,为目标图像中像素点的图像特征值赋予权重,并根据权重和父节点的预测值,计算当前时刻子节点的预测值。其中,权重的大小与所述像素点的图像特征值的重要程度有关。
与上述步骤S701中确定当前时刻子节点的过程类似,在确定当前时刻(即第t时刻)的子节点时,在将目标图像输入空间结构信息预测模型的特征提取模块(如图8中的resnet34)确定出目标图像的特征图A(如图8中的特征图A)后,可以将表示第t时刻父节点的隐层状态变量
Figure BDA0003009989690000209
和特征图A输入子节点注意力模块(如图8中的Child Attention)后,可以通过该子节点注意力模块,为目标图像中像素点的图像特征值赋予权重,并根据该权重和当前时刻父节点的值,计算当前时刻子节点的预测值;其中,权重的大小与像素点的图像特征值的重要程度有关。具体计算公式如下:
Figure BDA00030099896900002010
Figure BDA00030099896900002011
其中,
Figure BDA00030099896900002012
表示第t时刻子节点注意力模块(如图8中的Child Attention)为目标图像中像素点的图像特征值赋予的权重;
Figure BDA0003009989690000211
表示第t时刻子节点注意力模块(如图8中的Child Attention)的计算公式,其中子节点注意力模块和父节点注意力模块的网络结构可以是相同的,但是网络参数是不共享的;ai表示特征图A中的第i个像素点对应的第i个图像特征值;
Figure BDA0003009989690000212
表示第t时刻子节点注意力模块(如图8中的Child Attention)为目标图像中第i个像素点的第i个图像特征值赋予的权重;
Figure BDA0003009989690000213
表示第t时刻子节点的上下文特征表达向量,包含该子节点的语义信息和空间位置信息。
上述公式(7)中
Figure BDA0003009989690000214
的具体计算过程(即表示第t时刻子节点注意力模块(如图8中的Child Attention)的计算公式
Figure BDA0003009989690000215
的实现过程)与上述公式(1)中
Figure BDA0003009989690000216
的具体计算过程(即表示第t时刻父节点注意力模块(如图8中的Parent Attention)的计算公式
Figure BDA0003009989690000217
的实现过程)类似,可参考上述详细描述,在此不再赘述。
这样,在通过上述公式获取到表示第t时刻子节点的上下文特征表达向量的
Figure BDA0003009989690000218
后,进一步可以根据
Figure BDA0003009989690000219
的取值,通过模型中的Child GRU计算出第t时刻子节点的隐层状态变量
Figure BDA00030099896900002110
具体计算公式如下:
Figure BDA00030099896900002111
其中,
Figure BDA00030099896900002112
表示第t时刻子节点的隐层状态变量;GRU()表示模型中的Child GRU的基础网络参数;
Figure BDA00030099896900002113
表示第t时刻子节点的上下文特征表达向量;
Figure BDA00030099896900002114
表示通过步骤S701确定的第t时刻父节点的预测值。
进一步的,可以根据第t时刻父节点的预测值
Figure BDA00030099896900002115
第t时刻子节点的隐层状态变量
Figure BDA00030099896900002116
以及第t时刻子节点的上下文特征表达向量
Figure BDA00030099896900002117
预测出第t时刻子节点的值
Figure BDA00030099896900002118
具体计算公式如下:
Figure BDA00030099896900002119
其中,
Figure BDA00030099896900002120
表示预测出的第t时刻子节点的值
Figure BDA00030099896900002121
的取值概率。
Figure BDA00030099896900002122
为模型的网络参数,本质为一个向量,具体取值可根据实际情况进行设定,并可以随着网络的训练过程进行迭代更新。
举例说明:基于上述举例,仍以图4所示的公式
Figure BDA00030099896900002123
为例,当第t时刻待预测的子节点是
Figure BDA00030099896900002124
里面的第一个“1”时,即第t时刻子节点的值
Figure BDA00030099896900002125
理论上是“1”,在通过上述公式(7)-(10)对其进行预测时,表征第t时刻父节点的预测值
Figure BDA0003009989690000221
取值为通过步骤S701的举例中确定出的第t时刻父节点的预测值
Figure BDA0003009989690000222
表征第t时刻父节点的隐层状态变量
Figure BDA0003009989690000223
取值为通过步骤S701的举例中确定出的第t时刻父节点的隐层状态变量
Figure BDA0003009989690000224
进而可通过上述公式(7)-(10)得到第t时刻子节点“1”的上下文特征表达向量
Figure BDA0003009989690000225
和父节点的预测值
Figure BDA0003009989690000226
的取值概率
Figure BDA0003009989690000227
可以理解的是,目标公式包含的父节点和子节点指的是为目标公式包含的字母、数字或运算符号等实体。
S703:根据目标公式包含的父节点和目标公式包含的子节点,按照预设的公式空间结构关系,对目标公式进行识别,得到目标公式的空间结构信息。
在本实施例中,在通过步骤S701和S702分别确定出目标公式包含的父节点和子节点后,进一步可以按照预设的公式空间结构关系(即第一实施例中介绍的10种公式空间结构关系),对目标公式进行识别,得到目标公式的空间结构信息。
在本申请实施例的一种可能的实现方式中,可以利用预先建立的空间结构信息预测模型中的空间结构关系预测模块,根据当前时刻父节点的预测值和当前时刻子节点的预测值,预测父节点和子节点之间的空间结构信息。
具体来讲,在本申请方式中,在通过步骤S701和步骤S702分别确定出表示第t时刻父节点的上下文特征表达向量
Figure BDA0003009989690000228
和表示第t时刻子节点的上下文特征表达向量
Figure BDA0003009989690000229
后,由于
Figure BDA00030099896900002210
包含了第t时刻父节点的语义信息和空间位置信息,
Figure BDA00030099896900002211
包含了第t时刻子节点的语义信息和空间位置信息,则进一步可以直接将
Figure BDA00030099896900002212
Figure BDA00030099896900002213
输入空间结构关系预测模块(如图8中的FCLayer)后,以通过该空间结构关系预测模块中的分类层预测出父节点和子节点之间的空间结构信息,具体计算公式如下:
Figure BDA00030099896900002214
其中,
Figure BDA00030099896900002215
表示预测出的第t时刻父节点和子节点之间的空间结构信息的取值概率,其取值可以为一个10维度的向量,且其中每一个维度的向量值表示的是第t时刻父节点和子节点之间的空间结构关系为上述第一实施例中介绍的10种预设公式空间结构关系中的一种的概率,该概率值时经过归一化(softmax)计算后输出的,该概率值表征了第t时刻父节点和子节点之间的空间结构关系为对应种类预设公式空间结构关系的可能性,概率值越大,表明第t时刻父节点和子节点之间的空间结构关系为对应种类预设公式空间结构关系的可能性越高,反之,则表明第t时刻父节点和子节点之间的空间结构关系为对应种类预设公式空间结构关系的可能性越低。进而可以将其中最高概率值对应种类的预设公式空间结构关系作为预测出的第t时刻父节点和子节点之间的空间结构信息。
举例说明:假设
Figure BDA0003009989690000231
的取值为[0.004,0.05,0.78,0.02,0.06,0.05,0.001,0.03,0.002,0.003],则可以将最高概率值0.78对应的第3种预设公式空间结构关系“Sup”(即用于代表子节点在父节点右上方的空间结构关系)作为预测出的第t时刻父节点和子节点之间的空间结构信息。
而上述公式(11)中的
Figure BDA0003009989690000232
表示的是模型的网络参数,本质为一个10维的向量,具体取值可根据实际情况进行设定,并可以随着网络的训练过程进行迭代更新。
举例说明:基于上述举例,仍以图4所示的公式
Figure BDA0003009989690000233
为例,当第t时刻待预测的父节点是
Figure BDA0003009989690000234
待预测的子节点是
Figure BDA0003009989690000235
里面的第一个“1”时,即第t时刻父节点的值
Figure BDA0003009989690000236
理论上是
Figure BDA0003009989690000237
第t时刻子节点的值
Figure BDA0003009989690000238
理论上是“1”,在通过上述公式(11)对二者之间的空间结构信息进行预测时,表征第t时刻父节点的上下文特征表达向量
Figure BDA0003009989690000239
的取值为通过步骤S701的举例中确定出的第t时刻父节点的上下文特征表达向量
Figure BDA00030099896900002310
表征第t时刻子节点的上下文特征表达向量
Figure BDA00030099896900002311
的取值为通过步骤S702的举例中确定出的第t时刻子节点的上下文特征表达向量
Figure BDA00030099896900002312
进而可通过上述公式(11)得到第t时刻父节点
Figure BDA00030099896900002313
与子节点“1”之间的空间结构关系为上述第一实施例中介绍的10种公式空间结构关系中各种关系的取值概率
Figure BDA00030099896900002314
Figure BDA00030099896900002315
的取值为[0.003,0.05,0.01,0.02,0.01,0.902,0.001,0.002,0.001,0.001],则可以将最高概率值0.902对应的第6种预设公式空间结构关系“Inside”作为预测出的
Figure BDA00030099896900002316
与“1”之间的空间结构关系。
这样,本实施例可以利用预先构建的空间结构信息预测模型,根据预设的10种公式空间结构关系,更为准确地预测出了目标公式的空间结构信息,从而能够为后续识别公式提供更为准确、充分的识别依据。
接下来,本实施例将对空间结构信息预测模型的构建过程进行介绍,具体可以包括下述步骤①-③:
步骤①:获取样本图像;其中,样本图像中包含待识别的样本公式。
在本实施例中,为了构建空间结构信息预测模型,需要预先进行大量的准备工作,首先,需要收集大量包含数学公式的图像,比如,可以在理工科机器阅卷或者智能拍搜等应用场景获得如图4所示所示的包含各种数学公式(如图4中的公式
Figure BDA0003009989690000241
)的图像,通常需要收集至少数千幅图像,并对其进行灰度处理,这些图像数据可覆盖多种数学公式的符号,进而可以将收集到的各幅图像和其包含的数学公式分别作为样本图像和样本公式,同时,预先通过人工标注出这些样本公式对应的空间结构信息,用以训练空间结构信息预测模型。其中,人工标注出这些样本公式对应的空间结构信息包括每一样本公式对应的LaTeX表示形式中每一父节点和子节点之间的空间结构关系。并且,每一父节点和子节点之间的空间结构关系均为上述第一实施例中介绍的10种公式空间结构关系中的一种。
步骤②:提取样本图像的图像特征。
在本实施例中,通过步骤①获取到样本图像后,并不能直接用于训练生成空间结构信息预测模型,而是需要采用与第一实施例步骤S302中提取目标图像的图像特征类似的方法,将目标图像替换为样本图像,即可提取出各幅样本图像的图像特征,相关之处请参见第一实施例的介绍,在此不再赘述。
步骤③:根据样本图像的图像特征以及样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练,生成空间结构信息预测模型。
在进行本轮训练时,可以将上述步骤S701-S703中目标图像替换为本轮获取的样本图像,通过当前的初始空间结构信息预测模型,按照上述步骤S701-S703中的执行过程,便可以输出样本公式对应的空间结构信息识别结果。
具体地,按照上述步骤S701-S703,便可以在提取出样本图像的图像特征(即特征图)后,通过初始空间结构信息预测模型确定出样本公式对应的空间结构信息识别结果。然后,可以将该识别结果与样本图像对应的人工标注的空间结构信息进行比较,并根据二者的差异对模型参数进行更新,直至满足预设的条件,比如达到预设训练次数,loss函数收敛,连续两次训练后的模型准确率差值小于一定阈值等,则停止模型参数的更新,完成空间结构信息预测模型的训练,生成一个训练好的空间结构信息预测模型。
需要说明的是,在训练过程中,一种可选的实现方式是,可以利用给定的目标函数,来构建空间结构信息预测模型,并更新模型的网络参数,以提高模型对于父节点取值、子节点取值以及二者之间的空间结构信息的预测准确率,其中,目标函数用于确定模型在训练过程中的网络参数更新次数,即,在设定了目标函数后,如在设定了以分类损失函数作为目标函数后,在对模型进行多轮训练,并在每轮训练后根据目标函数的取值,更新模型的网络参数,直至目标函数的取值最小且基本不变时,表明模型已训练完成,此时即可停止对模型网络参数的更新。
并且,针对空间结构信息预测模型中各个组成模块(包括父节点注意力模块、子节点注意力模块和空间结构关系预测模块),可分别采用不同的目标函数进行构建,进而也可以将这三个模块对应的目标函数进行综合处理,以得到用于构成构建整个空间结构信息预测模型的最终目标函数,用以优化空间结构信息预测模型的整体网络参数。
具体来讲,为了训练出识别效果更好的空间结构信息预测模型,在训练过程中,对于父节点注意力模块的训练,本实施例采用的目标函数如下:
Figure BDA0003009989690000251
其中,
Figure BDA0003009989690000252
表示第t时刻样本公式中父节点的真实值。
在使用上述公式(12)中的目标函数对空间结构信息预测模型中的父节点注意力模块进行训练时,例如,以图4所示的公式
Figure BDA0003009989690000253
为样本公式为例,当第t时刻预测的父节点是公式中的
Figure BDA0003009989690000254
时,可以根据ξp值的变化,对父节点注意力模块的模型参数进行不断更新,直至ξp值满足要求,比如变化幅度很小,则停止模型参数的更新,完成父节点注意力模块的训练。
而训练过程中,对于子节点注意力模块的训练,本实施例采用的目标函数如下:
Figure BDA0003009989690000255
其中,
Figure BDA0003009989690000256
表示第t时刻样本公式中子节点的真实值。
在使用上述公式(13)中的目标函数对空间结构信息预测模型中的子节点注意力模块进行训练时,例如,仍以图4所示的公式
Figure BDA0003009989690000257
为样本公式为例,当第t时刻预测的子节点是公式中
Figure BDA0003009989690000258
里面的第一个“1”时,可以根据ξc值的变化,对子节点注意力模块的模型参数进行不断更新,直至ξc值满足要求,比如变化幅度很小,则停止模型参数的更新,完成子节点注意力模块的训练。
训练过程中,对于空间结构关系预测模块的训练,本实施例采用的目标函数如下:
ξre=-∑tlog pre(vt) (14)
其中,vt表示第t时刻样本公式中父节点和子节点之间的空间结构信息的真实值。
在使用上述公式(14)中的目标函数对空间结构信息预测模型中的空间结构关系预测模块进行训练时,例如,仍以图4所示的公式
Figure BDA0003009989690000261
为样本公式为例,当第t时刻预测父节点
Figure BDA0003009989690000262
和子节点“1”之间的空间结构信息时,可以根据ξre值的变化,对空间结构关系预测模块的模型参数进行不断更新,直至ξre值满足要求,比如变化幅度很小,则停止模型参数的更新,完成空间结构关系预测模块的训练。
进一步的,为了综合优化空间结构信息预测模型的整体网络参数,可以将上述公式(12)、(13)、(14)中的目标函数进行整合,得到最终模型优化目标函数如下公式所示:
Loss 1=β1ξp2ξc3ξre (15)
其中,β1、β2、β3分别表示ξp、ξc、ξre的权重,β1、β2、β3的具体取值可根据实际情况和经验值来确定,本申请实施例对此不进行限定,比如可以将β1、β2、β3分别取值为0.6、0.5、1等。
在此基础上,一种可选的实现方式是,上述步骤S304“根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果”的实现过程具体可以包括:利用预先构建的公式识别模型,根据目标公式的空间结构信息和目标公式的解码结果,确定目标公式的最终识别结果。
具体来讲,在本实现方式中,公式识别模型包含了空间结构信息预测模型和预设的基于深度学习的解码模型。该模型的示例图如图9所示,其中,空间结构信息预测模型和基于深度学习的解码模型可以共用resnet34作为特征提取模块,这样,在将目标图像输入该公式识别模型的特征提取模块resnet34后,可以通过该特征提取模块(即图9中的resnet34)对其进行特征提取,确定出目标图像的特征图A(即图9中的特征图A)。再由公式识别模型包含的空间结构信息预测模型中的其他解码模块和基于序列建模(Seq2seq)方案中的解码器,分别对特征图A进行解码识别,得到目标公式的空间结构信息和目标公式的解码结果,进而可以根据目标公式的空间结构信息和解码结果,按照上述步骤A-B的执行过程,确定出目标公式的最终识别结果。
其中,以Loss 1(具体取值可根据上述公式(14)确定)作为目标函数,利用空间结构信息预测模型中的其他解码模块对特征图A进行解码,从而确定出目标公式的空间结构信息的过程可参见上述步骤S701-S703的详细介绍,在此不再赘述。
而在序列建模(Seq2seq)的解码方案中,以ED方案为例,本申请在通过公式识别模型中的特征提取模块resnet34确定出目标图像的特征图A后,可以将其输入至Seq2Seq解码器进行解码,如图9所示,得到目标公式的解码结果,具体解码过程与现有方法一致,在此不再赘述。例如,假设目标公式为如图4所示的公式
Figure BDA0003009989690000271
则利用ED方案对其进行解码后,可以得到其对应的LaTeX表示形式为:<s>y=\frac{x^{2}}{3}+\sqrt{1 1}</s>。
其中,在序列建模(Seq2seq)的解码方案中,采用的目标函数Loss 2的具体计算公式如下:
Loss 2=-∑tlog po(lt) (16)
其中,lt表示第t时刻标公式对应的LaTeX表示形式的真实值。
这样,为了综合优化公式识别模型的整体网络参数,可以将上述公式(15)、和(16)中的目标函数进行整合,得到公式识别模型的最终优化目标函数如下公式所示:
Loss=β4Loss 1+β5Loss 2 (17)
其中,β4和β5分别表示Loss 1和Loss 2的权重,β4和β5的具体取值可根据实际情况和经验值来确定,本申请实施例对此不进行限定,比如可以将β4和β5均取值为1等。
综上,本实施例利用预先构建的包含空间结构信息预测模型和预设的基于深度学习的解码模型的公式识别模型,对目标公式进行识别时,充分考虑了目标公式的空间结构信息对目标公式识别结果的影响,丰富了目标公式的识别依据,通过将利于空间结构信息预测模型预测出的目标公式的空间结构信息和利用预设的基于深度学习的解码模型识别出的目标公式的解码进行综合处理,进一步提高了目标公式识别结果的准确性和识别效率。
第三实施例
本实施例将对一种公式识别装置进行介绍,相关内容请参见上述方法实施例。
参见图10,为本实施例提供的一种公式识别装置的组成示意图,该装置1000包括:
第一获取单元1001,用于获取待识别的目标图像;所述目标图像中包含待识别的目标公式;
第二提取单元1002,用于提取所述目标图像的图像特征;
识别单元1003,用于根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对所述目标公式进行解码,得到所述目标公式的解码结果;
确定单元1004,用于根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果。
在本实施例的一种实现方式中,所述识别单元1002包括:
第一解码子单元,用于根据所述目标图像的图像特征,对所述目标公式进行父节点解码,得到所述目标公式包含的父节点;
第二解码子单元,用于根据所述目标图像的图像特征,对所述目标公式进行子节点解码,得到所述目标公式包含的子节点;
识别子单元,用于根据所述目标公式包含的父节点和所述目标公式包含的子节点,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;
其中,所述目标公式包含的父节点和所述目标公式包含的子节点为所述目标公式包含的字母、数字或运算符号。
在本实施例的一种实现方式中,所述预设的公式空间结构关系包括以下一项或多项空间结构关系:
用于代表子节点在父节点正上方的空间结构关系;
用于代表子节点在父节点正下方的空间结构关系;
用于代表子节点在父节点右上方的空间结构关系;
用于代表子节点在父节点右下方的空间结构关系;
用于代表子节点在父节点左上方的空间结构关系;
用于代表子节点在父节点内部的空间结构关系;
用于代表子节点在父节点右边的空间结构关系;
用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系;
用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系;
用于代表子节点和父节点换行的空间结构关系。
在本实施例的一种实现方式中,所述目标公式的空间结构信息为M条,所述目标公式的解码结果为N个;所述M和N均为大于0的正整数;所述确定单元1004包括:
转换子单元,用于将所述目标公式的N个解码结果转换为对应的N个空间结构关系,得到转换后的N个空间结构关系;
确定子单元,用于将所述转换后的N个空间结构关系与所述目标公式的M条空间结构信息进行匹配,并在匹配成功后,将联合置信度最高的空间结构关系对应的解码结果作为所述目标公式的最终识别结果。
在本实施例的一种实现方式中,所述识别单元1002具体用于:
利用预先构建的空间结构信息预测模型,根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息。
在本实施例的一种实现方式中,所述识别单元1002包括:
第一计算子单元,用于通过所述空间结构信息预测模型的父节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和上一时刻子节点的值,计算当前时刻父节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
第二计算子单元,用于通过所述空间结构信息预测模型的子节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和所述父节点的预测值,计算当前时刻子节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
预测子单元,用于通过所述空间结构信息预测模型的空间结构关系预测模块,根据所述当前时刻父节点的预测值和所述当前时刻子节点的预测值,预测所述父节点和所述子节点之间的空间结构信息。
在本实施例的一种实现方式中,所述装置还包括:
第二获取单元,用于获取样本图像;所述样本图像中包含待识别的样本公式;
第二提取单元,用于提取所述样本图像的图像特征;
训练单元,用于根据所述样本图像的图像特征以及所述样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练,生成所述空间结构信息预测模型。
进一步地,本申请实施例还提供了一种公式识别设备,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述公式识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述公式识别方法的任一种实现方法。
进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述公式识别方法的任一种实现方法。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (11)

1.一种公式识别方法,其特征在于,包括:
获取待识别的目标图像;所述目标图像中包含待识别的目标公式;
提取所述目标图像的图像特征;
根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对所述目标公式进行解码,得到所述目标公式的解码结果;
根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果。
2.根据权利要求1所述的方法,其特征在于,所述根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息,包括:
根据所述目标图像的图像特征,对所述目标公式进行父节点解码,得到所述目标公式包含的父节点;
根据所述目标图像的图像特征,对所述目标公式进行子节点解码,得到所述目标公式包含的子节点;
根据所述目标公式包含的父节点和所述目标公式包含的子节点,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;
其中,所述目标公式包含的父节点和所述目标公式包含的子节点为所述目标公式包含的字母、数字或运算符号。
3.根据权利要求2所述的方法,其特征在于,所述预设的公式空间结构关系包括以下一项或多项空间结构关系:
用于代表子节点在父节点正上方的空间结构关系;
用于代表子节点在父节点正下方的空间结构关系;
用于代表子节点在父节点右上方的空间结构关系;
用于代表子节点在父节点右下方的空间结构关系;
用于代表子节点在父节点左上方的空间结构关系;
用于代表子节点在父节点内部的空间结构关系;
用于代表子节点在父节点右边的空间结构关系;
用于在起始位置出现,代表起始子节点对应的第一个字符和起始符的空间结构关系;
用于在末尾位置出现,代表末尾子节点对应的末尾字符和终止符的空间结构关系;
用于代表子节点和父节点换行的空间结构关系。
4.根据权利要求1所述的方法,其特征在于,所述目标公式的空间结构信息为M条,所述目标公式的解码结果为N个;所述M和N均为大于0的正整数;所述根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果,包括:
将所述目标公式的N个解码结果转换为对应的N个空间结构关系,得到转换后的N个空间结构关系;
将所述转换后的N个空间结构关系与所述目标公式的M条空间结构信息进行匹配,并在匹配成功后,将联合置信度最高的空间结构关系对应的解码结果作为所述目标公式的最终识别结果。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息,包括:
利用预先构建的空间结构信息预测模型,根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息。
6.根据权利要求5所述的方法,其特征在于,所述利用预先构建的空间结构信息预测模型,根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息,包括:
通过所述空间结构信息预测模型的父节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和上一时刻子节点的值,计算当前时刻父节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
通过所述空间结构信息预测模型的子节点注意力模块,为所述目标图像中像素点的图像特征值赋予权重,并根据所述权重和所述父节点的预测值,计算当前时刻子节点的预测值;其中,所述权重的大小与所述像素点的图像特征值的重要程度有关;
通过所述空间结构信息预测模型的空间结构关系预测模块,根据所述当前时刻父节点的预测值和所述当前时刻子节点的预测值,预测所述父节点和所述子节点之间的空间结构信息。
7.根据权利要求5所述的方法,其特征在于,所述空间结构信息预测模型的构建方式如下:
获取样本图像;所述样本图像中包含待识别的样本公式;
提取所述样本图像的图像特征;
根据所述样本图像的图像特征以及所述样本公式对应的空间结构信息识别标签对初始空间结构信息预测模型进行训练,生成所述空间结构信息预测模型。
8.一种公式识别装置,其特征在于,包括:
第一获取单元,用于获取待识别的目标图像;所述目标图像中包含待识别的目标公式;
第二提取单元,用于提取所述目标图像的图像特征;
识别单元,用于根据所述目标图像的图像特征,按照预设的公式空间结构关系,对所述目标公式进行识别,得到所述目标公式的空间结构信息;并按照预设的基于深度学习的解码方法,对所述目标公式进行解码,得到所述目标公式的解码结果;
确定单元,用于根据所述目标公式的空间结构信息和所述目标公式的解码结果,确定所述目标公式的最终识别结果。
9.一种公式识别设备,其特征在于,包括:处理器、存储器、系统总线;
所述处理器以及所述存储器通过所述系统总线相连;
所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。
11.一种计算机程序产品,其特征在于,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行权利要求1-7任一项所述的方法。
CN202110372899.XA 2021-04-07 2021-04-07 一种公式识别方法、装置、存储介质及设备 Pending CN113095314A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110372899.XA CN113095314A (zh) 2021-04-07 2021-04-07 一种公式识别方法、装置、存储介质及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110372899.XA CN113095314A (zh) 2021-04-07 2021-04-07 一种公式识别方法、装置、存储介质及设备

Publications (1)

Publication Number Publication Date
CN113095314A true CN113095314A (zh) 2021-07-09

Family

ID=76674985

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110372899.XA Pending CN113095314A (zh) 2021-04-07 2021-04-07 一种公式识别方法、装置、存储介质及设备

Country Status (1)

Country Link
CN (1) CN113095314A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657413A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 手写公式的识别方法、装置、设备及介质
CN113657353A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN113688803A (zh) * 2021-10-25 2021-11-23 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质

Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729865A (zh) * 2017-10-31 2018-02-23 中国科学技术大学 一种手写体数学公式离线识别方法及系统
CN109241861A (zh) * 2018-08-14 2019-01-18 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN109614944A (zh) * 2018-12-17 2019-04-12 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
CN110084239A (zh) * 2019-04-10 2019-08-02 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法
CN110705459A (zh) * 2019-09-29 2020-01-17 北京爱学习博乐教育科技有限公司 数理化公式自动识别方法及装置、模型训练方法及装置
CN111046751A (zh) * 2019-11-22 2020-04-21 华中师范大学 公式识别方法和装置
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN111310525A (zh) * 2018-12-12 2020-06-19 中财颐和科技发展(北京)有限公司 一种数学公式符号识别方法
CN111340020A (zh) * 2019-12-12 2020-06-26 科大讯飞股份有限公司 一种公式识别方法、装置、设备及存储介质
CN111340661A (zh) * 2020-02-21 2020-06-26 电子科技大学 一种基于图神经网络的应用题自动解题方法
CN111652145A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 一种公式检测的方法、装置、电子设备和存储介质
CN111738105A (zh) * 2020-06-04 2020-10-02 科大讯飞股份有限公司 公式识别方法、装置、电子设备和存储介质
CN112183513A (zh) * 2019-07-03 2021-01-05 杭州海康威视数字技术股份有限公司 一种图像中文字的识别方法、装置、电子设备及存储介质
CN112200194A (zh) * 2020-12-08 2021-01-08 北京易真学思教育科技有限公司 一种公式识别方法、装置、电子设备及存储介质

Patent Citations (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107729865A (zh) * 2017-10-31 2018-02-23 中国科学技术大学 一种手写体数学公式离线识别方法及系统
CN109241861A (zh) * 2018-08-14 2019-01-18 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及存储介质
CN109492679A (zh) * 2018-10-24 2019-03-19 杭州电子科技大学 基于注意力机制与联结时间分类损失的文字识别方法
CN111310525A (zh) * 2018-12-12 2020-06-19 中财颐和科技发展(北京)有限公司 一种数学公式符号识别方法
CN109614944A (zh) * 2018-12-17 2019-04-12 科大讯飞股份有限公司 一种数学公式识别方法、装置、设备及可读存储介质
CN110084239A (zh) * 2019-04-10 2019-08-02 中国科学技术大学 降低离线手写数学公式识别时网络训练过拟合的方法
CN112183513A (zh) * 2019-07-03 2021-01-05 杭州海康威视数字技术股份有限公司 一种图像中文字的识别方法、装置、电子设备及存储介质
CN110705459A (zh) * 2019-09-29 2020-01-17 北京爱学习博乐教育科技有限公司 数理化公式自动识别方法及装置、模型训练方法及装置
CN111046751A (zh) * 2019-11-22 2020-04-21 华中师范大学 公式识别方法和装置
CN111340020A (zh) * 2019-12-12 2020-06-26 科大讯飞股份有限公司 一种公式识别方法、装置、设备及存储介质
CN111259672A (zh) * 2020-02-12 2020-06-09 新疆大学 基于图卷积神经网络的中文旅游领域命名实体识别方法
CN111340661A (zh) * 2020-02-21 2020-06-26 电子科技大学 一种基于图神经网络的应用题自动解题方法
CN111652145A (zh) * 2020-06-03 2020-09-11 广东小天才科技有限公司 一种公式检测的方法、装置、电子设备和存储介质
CN111738105A (zh) * 2020-06-04 2020-10-02 科大讯飞股份有限公司 公式识别方法、装置、电子设备和存储介质
CN112200194A (zh) * 2020-12-08 2021-01-08 北京易真学思教育科技有限公司 一种公式识别方法、装置、电子设备及存储介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113657413A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 手写公式的识别方法、装置、设备及介质
CN113657353A (zh) * 2021-10-19 2021-11-16 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN113657413B (zh) * 2021-10-19 2022-02-15 北京世纪好未来教育科技有限公司 手写公式的识别方法、装置、设备及介质
CN113657353B (zh) * 2021-10-19 2022-03-11 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN113688803A (zh) * 2021-10-25 2021-11-23 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质
CN113688803B (zh) * 2021-10-25 2022-03-08 北京世纪好未来教育科技有限公司 公式识别方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN111291212B (zh) 基于图卷积神经网络的零样本草图图像检索方法和系统
Cao et al. Deep neural networks for learning graph representations
CN110046656B (zh) 基于深度学习的多模态场景识别方法
CN107480144B (zh) 具备跨语言学习能力的图像自然语言描述生成方法和装置
CN113095314A (zh) 一种公式识别方法、装置、存储介质及设备
CN113312500B (zh) 一种面向大坝安全运行的事件图谱构建方法
CN111079601A (zh) 基于多模态注意力机制的视频内容描述方法、系统、装置
CN110083729B (zh) 一种图像搜索的方法及系统
CN112287170B (zh) 一种基于多模态联合学习的短视频分类方法及装置
CN111159485A (zh) 尾实体链接方法、装置、服务器及存储介质
WO2023024412A1 (zh) 基于深度学习模型的视觉问答方法及装置、介质、设备
CN111275046A (zh) 一种字符图像识别方法、装置、电子设备及存储介质
CN110598022B (zh) 一种基于鲁棒深度哈希网络的图像检索系统与方法
CN114896434B (zh) 一种基于中心相似度学习的哈希码生成方法及装置
US11568140B2 (en) Optical character recognition using a combination of neural network models
CN111985520A (zh) 一种基于图卷积神经网络的多模态分类方法
CN114372465A (zh) 基于Mixup和BQRNN的法律命名实体识别方法
CN114691864A (zh) 文本分类模型训练方法及装置、文本分类方法及装置
CN111090765B (zh) 一种基于缺失多模态哈希的社交图像检索方法及系统
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN115658955A (zh) 跨媒体检索及模型训练方法、装置、设备、菜谱检索系统
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
CN113240033B (zh) 一种基于场景图高阶语义结构的视觉关系检测方法及装置
CN112966676A (zh) 一种基于零样本学习的文档关键信息抽取方法
CN115640401B (zh) 文本内容提取方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination