CN112200194A - 一种公式识别方法、装置、电子设备及存储介质 - Google Patents

一种公式识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112200194A
CN112200194A CN202011420144.4A CN202011420144A CN112200194A CN 112200194 A CN112200194 A CN 112200194A CN 202011420144 A CN202011420144 A CN 202011420144A CN 112200194 A CN112200194 A CN 112200194A
Authority
CN
China
Prior art keywords
character
formula
sequence
image
recognized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202011420144.4A
Other languages
English (en)
Other versions
CN112200194B (zh
Inventor
张蓓蓓
秦勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Yizhen Xuesi Education Technology Co Ltd
Original Assignee
Beijing Yizhen Xuesi Education Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Yizhen Xuesi Education Technology Co Ltd filed Critical Beijing Yizhen Xuesi Education Technology Co Ltd
Priority to CN202011420144.4A priority Critical patent/CN112200194B/zh
Publication of CN112200194A publication Critical patent/CN112200194A/zh
Application granted granted Critical
Publication of CN112200194B publication Critical patent/CN112200194B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例提供了一种公式识别方法、装置、电子设备及存储介质,涉及图像识别技术领域。其中,公式识别方法包括:获取包含公式的待识别图像;对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;并根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列;根据预设的编码字典,对字符编码向量序列进行解码,获得后缀表达式对应的字符序列;对获得的字符序列进行后缀表达式还原处理,获得字符公式。通过本申请实施例,可以提高公式识别的识别效率。

Description

一种公式识别方法、装置、电子设备及存储介质
技术领域
本申请实施例涉及图像识别技术领域,尤其涉及一种公式识别方法、装置、电子设备及存储介质。
背景技术
公式识别是指将图像中的公式识别为公式文本的过程。
目前,通常先采用单字符检测模型对公式中的单个字符进行检测,然后对检测出的各字符分别再进行字符识别,最后基于识别出的字符,以及确定出的各字符间的计算关系,得到相应公式。
上述过程中,需要经过单字符检测、单字符识别以及字符间计算关系确定这三个步骤之后,才能得到最终的识别结果。由于上述三个步骤的处理过程均较为复杂,因此,上述公式识别方法的识别效率较低。
发明内容
本申请的目的在于提出一种公式识别方法、装置、电子设备及计算机存储介质,用于解决现有技术中存在的公式识别效率较低的问题。
根据本申请实施例的第一方面,提供了一种公式识别方法,包括:
获取包含公式的待识别图像;
对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;并根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列;
根据预设的编码字典,对所述字符编码向量序列进行解码,获得所述后缀表达式对应的字符序列;
对获得的所述字符序列进行后缀表达式还原处理,获得字符公式。
根据本申请实施例的第二方面,提供了一种公式识别装置,包括:
待识别图像获取模块,用于获取包含公式的待识别图像;
字符编码向量序列获得模块,用于对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;并根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列;
字符序列获得模块,用于根据预设的编码字典,对所述字符编码向量序列进行解码,获得所述后缀表达式对应的字符序列;
字符公式获得模块,用于对获得的所述字符序列进行后缀表达式还原处理,获得字符公式。
根据本申请实施例的第三方面,提供了一种电子设备,包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述实施例的第一方面的公式识别方法。
根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例的第一方面的公式识别方法。
根据本申请实施例提供的公式识别方法、装置、电子设备及存储介质,在获取待识别图像之后,对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;并根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列;根据预设的编码字典,对所述字符编码向量序列进行解码,获得所述后缀表达式对应的字符序列;对获得的所述字符序列进行后缀表达式还原处理,获得字符公式。
本申请实施例中,是通过对从待识别图像中提取到的字符特征进行字符序列预测,得到指示公式对应的后缀表达式的字符编码向量序列,然后再对得到的字符编码向量序列进行解码和还原处理,即得到了待识别图像中的字符公式。因后缀表达式中携带了各字符之间充分的逻辑运算顺序信息,直接对其进行后缀表达式还原处理,即可获得唯一的字符公式。因此,与需要进行单字符检测、单字符识别以及确定字符间计算关系的现有公式识别方法相比,处理过程简单,处理成本低,且可有效提高公式识别的识别效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1为本申请实施例一中公式识别方法的步骤流程图;
图2为本申请实施例二中公式识别方法的步骤流程图;
图3为根据本申请实施例二提供的公式识别流程的示意图;
图4为本申请实施例三中公式识别装置的结构示意图;
图5为本申请实施例四中电子设备的结构示意图;
图6为本申请实施例五中电子设备的硬件结构。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅配置为解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
参照图1,图1为本申请实施例一中公式识别方法的步骤流程图。
具体地,本申请实施例提供的公式识别方法包括以下步骤:
步骤101,获取包含公式的待识别图像。
本申请实施例中的公式识别方法可适用于各种复杂程度的公式的识别,例如,可以用于对简单公式的识别,也可以用于对复杂公式的识别。其中,确定图像中包含的公式是否为简单公式的具体指标可以由本领域技术人员根据实际情况适当设置,例如:可以根据公式中所包含的运算符(运算关系)的种类来确定公式是否为简单公式,具体地:当公式中仅包含:“+”、“-”、“×”以及“÷”这四种运算符中的一种或多种时,确定公式为简单公式;当公式中包含有除上述四种运算符之外的其他运算符(例如:分式、连续开根号、指数、对数等)时,确定公式为复杂公式。又如,还可以根据公式中所包含的字符的总数量等来确定公式是否为简单公式,具体地:当公式中包含的字符总数量小于预设阈值时,确定公式为简单公式;当公式中包含的字符总数量大于或者等于上述预设阈值时,确定公式为复杂公式。本申请实施例中,对于确定公式是否为简单公式的具体指标,不作限制。
步骤102,对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;并根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列。
后缀表达式,也叫逆波兰式(Reverse Polish notation,RPN,或逆波兰记法),是一种将运算符写在操作数之后的公式表达形式。例如,对于公式:9+(3-1)*3+(10/2),其对应的后缀表达式则为:9 3 1-3*+ 10 2/。
步骤103,根据预设的编码字典,对字符编码向量序列进行解码,获得后缀表达式对应的字符序列。
具体地,编码字典用于表征:字符与字符编码向量之间的对应关系,在通过步骤102获取到用于指示公式对应的后缀表达式的字符编码向量序列之后,可以根据预设的编码字典,确定出字符编码向量序列中各字符编码向量对应的字符,以对字符编码向量序列进行解码,获得后缀表达式对应的字符序列。
本申请实施例中,可以直接采用的字符与字符编码向量之间的对应关系,作为编码字典,也可以是本领域技术人员根据实际情况,采用预设的编码算法,对各字符进行编码,得到各字符对应的字符编码向量,进而形成编码字典等。此处,对于编码字典的具体获取方式,不做限定。
步骤104,对获得的字符序列进行后缀表达式还原处理,获得字符公式。
由于在步骤102中,获得的是公式对应的后缀表达式的字符编码向量序列。对应地,在步骤103中,获得的是后缀表达式对应的字符序列,也就是说,在步骤103中,得到的字符序列是按照后缀表达式的呈现的,因此,可以对步骤103中获得的字符序列进行后缀表达式还原处理,以得到按照常规表达形式(中缀表达式)呈现的字符公式。
例如,在步骤103中获得的字符序列为:9 3 1-3*+ 10 2/,则可以根据后缀表达式与中缀表达式之间的转换方法,对上述字符序列进行后缀表达式还原处理,最终得到按照常规表达形式(中缀表达式)呈现的字符公式:9+(3-1)*3+(10/2)。
本申请实施例中,是通过对从待识别图像中提取到的字符特征进行字符序列预测,得到指示公式对应的后缀表达式的字符编码向量序列,然后再对得到的字符编码向量序列进行解码和还原处理,即得到了待识别图像中的字符公式。上述过程,与需要进行单字符检测、单字符识别以及确定字符间计算关系的现有公式识别方法相比,处理过程较为简单,因此,提高了公式识别的识别效率。
本申请实施例提供的公式识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端、移动终端、PC机和服务器等。
参照图2,图2为本申请实施例二中公式识别方法的步骤流程图。
具体地,本申请实施例提供的公式识别方法包括以下步骤:
步骤201,获取包含公式的待识别图像。
本申请实施例中的公式识别方法可适用于各种复杂程度的公式的识别,例如,可以用于对简单公式的识别,也可以用于对复杂公式的识别。其中,确定图像中包含的公式是否为简单公式的具体指标可以由本领域技术人员根据实际情况适当设置,例如:可以根据公式中所包含的运算符(运算关系)的种类来确定公式是否为简单公式,具体地:当公式中仅包含:“+”、“-”、“×”以及“÷”这四种运算符中的一种或多种时,确定公式为简单公式;当公式中包含有除上述四种运算符之外的其他运算符(例如:分式、连续开根号、指数、对数等)时,确定公式为复杂公式。又如,还可以根据公式中所包含的字符的总数量等来确定公式是否为简单公式,具体地:当公式中包含的字符总数量小于预设阈值时,确定公式为简单公式;当公式中包含的字符总数量大于或者等于上述预设阈值时,确定公式为复杂公式。本申请实施例中,对于确定公式是否为简单公式的具体指标,不作限制。
步骤202,将待识别图像输入预先训练完成的公式识别模型,通过公式识别模型中的卷积部分对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征。
本申请实施例中,可以构建至少包括:卷积部分和循环神经网络模型的公式识别模型,并预先对构建的上述公式识别模型进行训练。在获取到待识别图像之后,可以通过公式识别模型中的卷积部分将该待识别图像进行特征提取,以获取待识别图像中公式对应的字符特征。
步骤203,通过公式识别模型中的循环神经网络,根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列。
通过公式识别模型中的卷积部分获取到待识别图像中公式对应的字符特征之后,可以通过循环神经网络,根据获取的上述字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列。
在一些可选实施例中,上述公式识别模型的训练过程可以包括:
获取包含公式的图像样本;确定与图像样本中的公式对应的标签编码向量序列;将图像样本输入初始的公式识别模型,通过初始的公式识别模型获得预测编码向量序列;基于标签编码向量序列和预测编码向量序列,计算损失值;根据损失值,对初始的公式识别模型进行训练,得到公式识别模型。
可选地,确定与图像样本中的公式对应的标签编码向量序列,可以包括:确定图像样本包含的公式对应的后缀表达式;获取后缀表达式对应的样本字符序列;对样本字符序列进行编码,得到标签编码向量序列。
为便于理解,下面通过举例的方式,对标签编码向量序列的确定过程进行解释说明:
假设样本图像中包含的公式为:9+(3-1)*3,则可以先确定该公式对应的后缀表达式为:9 3 1-3*+,进而获取到后缀表达式对应的样本字符序列为字符串:9 3 1-3*+;假设根据预设编码字典,9对应的编码向量为A,3对应的编码向量为B,1对应的编码向量为C,“-”对应的编码向量为D,“*”对应的编码向量为E,空字符对应的编码向量为F,“+”对应的编码向量为G,则对字符串:9 3 1-3*+编码之后,可以得到图像样本的标签编码向量序列为:AFBFCDBEG。
可选地,对样本字符序列进行编码,得到标签编码向量序列的步骤,可以包括:分别对样本字符序列中的每个字符进行编码,得到每个字符对应的编码向量;其中,样本字符序列中的字符包括以下至少之一:字母、数字以及运算符;根据每个字符对应的编码向量,得到标签编码向量序列。
本申请实施例,在编码过程中,是将运算符也作为一个字符来进行编码的,也就是说,编码字典中不仅存在字母或数字与编码向量的对应关系,还存在运算符与编码向量之间的对应关系。因此,后续根据编码字典,对字符编码向量序列进行解码时,可以同时解码出公式中的运算符以及数字或字母,而无需先进行数字或字母的识别,然后再采用其他方式单独确定数字或字母之间的运算符,进一步地提高了公式识别的效率。
同时,由于本申请实施例中,每个运算符唯一对应一个编码向量,每个数字或字母也唯一对应一个编码向量,因此,根据编码向量确定出的运算符、数字或者字母也是唯一的,提高了公式识别的准确性。
通常情况下,一个字符序列中可以包括:多个字母或数字,上述多个字母或数据之间还包括运算符,这样一来,对于同一具体的字符序列而言,若按照不同的逻辑运算顺序或者说字符表达规律(例如:从左向右,或者从右向左)对其进行解读,可能会得到完全不同的数学公式。
因此,为避免因同一样本字符序列对应多个完全不同的数学公式,而导致的公式识别准确率较低的问题,在本申请实施例中,预先明确了样本字符序列中各字符之间的逻辑运算顺序(字符表达规律),即:本申请实施例的样本字符序列中各字符之间是按照后缀表达式的方式呈现的,具体的:先确定出图像样本中公式对应的后缀表达式,然后再获取后缀表达式对应的样本字符序列。
可选地,在上述公式识别模型的训练过程中,可以基于标签编码向量序列、预测编码向量序列以及预设的L1平滑损失函数,获得损失值。
可选地,本申请实施例中,循环神经网络可以包含多个输出节点,每个输出节点输出一个字符编码向量;其中,每个字符编码向量用于表征一个实体字符或者一个空字符。
具体地,循环神经网络中输出节点的数量可以根据实际需求设置,如实际应用中公式可能包含的最大字符数量确定,例如:通常情况下,公式中字符的数量不会超过100个,那么,可以将循环神经网络中输出节点的数量设置为100。或者,也可以根据大数据统计结果或者根据人工经验设置,本申请实施例对具体的设置方式及输出节点的数量不作限制。
可选的,本申请实施例中的循环神经网络可以为带有注意力机制的循环神经网络。
在循环神经网络中引入注意力机制,可以使得网络在计算能力有限的情况下,将更多的计算资源分配给字符序列预测这一重要任务。同时,也可以使得网络在输入的字符特征信息中聚焦于对字符序列预测这一任务而言更为关键的信息,降低对其他信息的关注度,解决信息过载问题,以提高字符序列预测的效率和准确性。
步骤204,根据预设的编码字典,对字符编码向量序列进行解码,获得后缀表达式对应的字符序列。
编码字典用于表征:字符与字符编码向量之间的对应关系,在获取到用于指示公式对应的后缀表达式的字符编码向量序列之后,可以根据预设的编码字典,确定出字符编码向量序列中各字符编码向量对应的字符,以对字符编码向量序列进行解码,获得后缀表达式对应的字符序列。
本申请实施例中,可以直接采用的字符与字符编码向量之间的对应关系,作为编码字典,也可以是本领域技术人员根据实际情况,采用预设的编码算法,对各字符进行编码,得到各字符对应的字符编码向量,进而形成编码字典等。此处,对于编码字典的具体获取方式,不做限定。
在一些可选实施例中,可以采用如下方式形成编码字典:
获取所有图像样本包含的公式中的字符,组成字符集合;对字符集合中的字符进行去重操作,得到去重后字符集合;基于去重后字符集合,采用预设编码算法进行字符编码,得到与去重后字符集合中的每个字符唯一对应的编码向量;基于每个字符以及与每个字符唯一对应的编码向量,形成编码字典。其中,预设编码算法可以为热独编码算法或word2vec编码算法。
步骤205,对获得的字符序列进行后缀表达式还原处理,获得字符公式。
由于在步骤203中,获得的是公式对应的后缀表达式的字符编码向量序列。对应地,在步骤204中,获得的是后缀表达式对应的字符序列,也就是说,在步骤204中,得到的字符序列是按照后缀表达式的形式呈现的,因此,可以对步骤204中获得的字符序列进行后缀表达式还原处理,以得到按照常规表达形式(中缀表达式)呈现的字符公式。
本申请实施例中,是通过预先训练完成的公式识别模型中的卷积部分对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;再通过公式识别模型中的循环神经网络,根据从待识别图像中提取到的字符特征进行字符序列预测,得到指示公式对应的后缀表达式的字符编码向量序列,然后再对得到的字符编码向量序列进行解码和还原处理,即得到了待识别图像中的字符公式。上述过程,在公式识别模型得到字符编码向量序列之后,只需要进行以下两步后处理:解码和还原处理,即得到字符公式。与需要进行单字符检测、单字符识别以及确定字符间计算关系的现有公式识别方法相比,后处理过程较为简单,因此,提高了公式识别的识别效率。
本申请实施例提供的公式识别方法可以由任意适当的具有数据处理能力的设备执行,包括但不限于:终端、移动终端、PC机和服务器等。
参见图3,图3为根据本申请实施例二提供的公式识别流程的示意图;
以下结合图3对本申请实施例二提供的公式识别流程进行简要说明,主要包括:
第一步:收集大量含数学公式的图像样本,用作训练数据。具体的,图像样本中的数学公式可以为复杂、且手写的数学公式。
第二步:对上述图像样本进行标注,并统计标注内容中出现的所有字符,形成数据集。具体的,可以标注出各图像样本包含的公式的后缀表达式对应的字符序列,作为样本字符序列。其中,上述样本字符序列中的字符可以包括以下至少之一:字母、数字以及运算符。
第三步:使用word2vec编码算法,对数据集中的每个字符进行编码,得到每个字符唯一对应的编码向量,采用本步骤的编码方式,在编码的过程中,不同字符之间的关系也被考虑。对于每个图像样本而言,对该图像样本的样本字符序列进行编码,用得到的编码向量序列作为该图像样本的标签编码向量序列。
第四步:构建由卷积部分和循环神经网络组成的公式识别模型。其中,公式识别模型的卷积部分用于从图像中提取图像中公式对应的字符特征,循环神经网络通过编码和解码操作,对提取到的字符特征进行字符序列预测,从而得到用于指示公式对应的后缀表达式的预测编码向量序列。其中,卷积部分和循环神经网络的层数以及参数可以根据实际情况来设定。
第五步:训练阶段,根据L1平滑损失函数将标签编码向量序列和预测编码向量序列之间的L1差值作为损失值,采用时延反向传播算法对第四步中构建的公式识别模型进行训练,得到训练完成的公式识别模型。本申请实施例公式识别模型中卷积神经网络包含多个(例如,可以设置100个)输出节点,每个输出节点输出一个字符编码向量;其中,每个字符编码向量表征一个实体字符或者一个空字符。
需要说明的是,本步骤为训练阶段的步骤,本领域技术人员应当明了,在前向推理阶段,无需执行该步骤。
第六步:前向推理阶段,根据预设的编码字典对卷积神经网络每个输出节点输出的字符编码向量进行解码,得到每个字符,进而根据得到的每个字符,得到字符序列。
第七步:由于上述第六步得到的字符序列是按照后缀表达式的形式呈现的,因此,可以对符序列进行后缀表达式还原处理(解析后缀表达式),以得到按照常规表达形式呈现的(真实的)字符公式。
参照图4,图4为本申请实施例三中公式识别装置的结构示意图。
本申请实施例提供的公式识别装置包括:
待识别图像获取模块401,用于获取包含公式的待识别图像;
字符编码向量序列获得模块402,用于对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;并根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列;
字符序列获得模块403,用于根据预设的编码字典,对字符编码向量序列进行解码,获得后缀表达式对应的字符序列;
字符公式获得模块404,用于对获得的字符序列进行后缀表达式还原处理,获得字符公式。
可选地,字符编码向量序列获得模块402,具体用于:
将待识别图像输入预先训练完成的公式识别模型,通过公式识别模型中的卷积部分对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;
通过公式识别模型中的循环神经网络,根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列。
可选地,本申请实施例的装置还包括:模型训练模块;
模型训练模块,包括:图像样本获取子模块、标签编码向量序列确定子模块、预测编码向量序列获得子模块、损失值计算子模块、模型得到子模块;
图像样本获取子模块,用于获取包含公式的图像样本;
标签编码向量序列确定子模块,用于确定与图像样本中的公式对应的标签编码向量序列;
预测编码向量序列获得子模块,用于将图像样本输入初始的公式识别模型,通过初始的公式识别模型获得预测编码向量序列;
损失值计算子模块,用于基于标签编码向量序列和预测编码向量序列,计算损失值;
模型得到子模块,用于根据损失值,对初始的公式识别模型进行训练,得到公式识别模型。
可选地,损失值计算子模块,具体用于基于标签编码向量序列、预测编码向量序列以及预设的L1平滑损失函数,获得损失值。
可选地,标签编码向量序列确定子模块,包括:后缀表达式确定单元、样本字符序列获取单元以及标签编码向量序列得到单元;
后缀表达式确定单元,用于确定图像样本包含的公式对应的后缀表达式;
样本字符序列获取单元,用于获取后缀表达式对应的样本字符序列;
标签编码向量序列得到单元,用于对样本字符序列进行编码,得到标签编码向量序列。
可选地,标签编码向量序列得到单元,具体用于:分别对样本字符序列中的每个字符进行编码,得到每个字符对应的编码向量;其中,样本字符序列中的字符包括以下至少之一:字母、数字以及运算符;根据每个字符对应的编码向量,得到标签编码向量序列。
可选地,循环神经网络包含多个输出节点,每个输出节点输出一个字符编码向量;其中,每个字符编码向量用于表征一个实体字符或者一个空字符。
可选地,循环神经网络为带有注意力机制的循环神经网络。
本申请实施例的公式识别装置用于实现前述方法实施例一或实施例二中相应的公式识别方法,并具有相应的方法实施例的有益效果,在此不再赘述。此外,本申请实施例的公式识别装置中的各个模块的功能实现均可参照前述方法实施例一或实施例二中的相应部分的描述,在此亦不再赘述。
图5为本申请实施例四中电子设备的结构示意图;该电子设备可以包括:
一个或多个处理器501;
计算机可读介质502,可以配置为存储一个或多个程序,
当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如上述实施例一或实施例二的公式识别方法。
图6为本申请实施例五中电子设备的硬件结构;如图6所示,该电子设备的硬件结构可以包括:处理器601,通信接口602,计算机可读介质603和通信总线604;
其中处理器601、通信接口602、计算机可读介质603通过通信总线604完成相互间的通信;
可选地,通信接口602可以为通信模块的接口,如GSM模块的接口;
其中,处理器601具体可以配置为:获取包含公式的待识别图像;对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;并根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列;根据预设的编码字典,对字符编码向量序列进行解码,获得后缀表达式对应的字符序列;对获得的字符序列进行后缀表达式还原处理,获得字符公式。
处理器601可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其它可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
计算机可读介质603可以是,但不限于,随机存取存储介质(Random AccessMemory,RAM),只读存储介质(Read Only Memory,ROM),可编程只读存储介质(Programmable Read-Only Memory,PROM),可擦除只读存储介质(Erasable ProgrammableRead-Only Memory,EPROM),电可擦除只读存储介质(Electric Erasable ProgrammableRead-Only Memory,EEPROM)等。
特别地,根据本申请实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本申请实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含配置为执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分从网络上被下载和安装,和/或从可拆卸介质被安装。在该计算机程序被中央处理单元(CPU)执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读介质例如可以但不限于是电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储介质(RAM)、只读存储介质(ROM)、可擦式可编程只读存储介质(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储介质(CD-ROM)、光存储介质件、磁存储介质件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输配置为由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写配置为执行本申请的操作的计算机程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络:包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个配置为实现规定的逻辑功能的可执行指令。上述具体实施例中有特定先后关系,但这些先后关系只是示例性的,在具体实现的时候,这些步骤可能会更少、更多或执行顺序有调整。即在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的模块也可以设置在处理器中,例如,可以描述为:一种处理器包括待识别图像获取模块、字符编码向量序列获得模块、字符序列获得模块和字符公式获得模块。其中,这些模块的名称在某种情况下并不构成对该模块本身的限定,例如,待识别图像获取模块还可以被描述为“获取包含公式的待识别图像的模块”。
作为另一方面,本申请还提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上述实施例一或实施例二所描述的公式识别方法。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的装置中所包含的;也可以是单独存在,而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该装置执行时,使得该装置:获取包含公式的待识别图像;对待识别图像进行特征提取,获取待识别图像中公式对应的字符特征;并根据字符特征进行字符序列预测,获得用于指示公式对应的后缀表达式的字符编码向量序列;根据预设的编码字典,对字符编码向量序列进行解码,获得后缀表达式对应的字符序列;对获得的字符序列进行后缀表达式还原处理,获得字符公式。
在本公开的各种实施方式中所使用的表述“第一”、“第二”、“所述第一”或“所述第二”可修饰各种部件而与顺序和/或重要性无关,但是这些表述不限制相应部件。以上表述仅配置为将元件与其它元件区分开的目的。例如,第一用户设备和第二用户设备表示不同的用户设备,虽然两者均是用户设备。例如,在不背离本公开的范围的前提下,第一元件可称作第二元件,类似地,第二元件可称作第一元件。
当一个元件(例如,第一元件)称为与另一元件(例如,第二元件)“(可操作地或可通信地)联接”或“(可操作地或可通信地)联接至”另一元件(例如,第二元件)或“连接至”另一元件(例如,第二元件)时,应理解为该一个元件直接连接至该另一元件或者该一个元件经由又一个元件(例如,第三元件)间接连接至该另一个元件。相反,可理解,当元件(例如,第一元件)称为“直接连接”或“直接联接”至另一元件(第二元件)时,则没有元件(例如,第三元件)插入在这两者之间。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (11)

1.一种公式识别方法,其特征在于,所述方法包括:
获取包含公式的待识别图像;
对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;并根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列;
根据预设的编码字典,对所述字符编码向量序列进行解码,获得所述后缀表达式对应的字符序列;
对获得的所述字符序列进行后缀表达式还原处理,获得字符公式。
2.根据权利要求1所述的方法,其特征在于,所述对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;并根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列,包括:
将所述待识别图像输入预先训练完成的公式识别模型,通过所述公式识别模型中的卷积部分对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;
通过所述公式识别模型中的循环神经网络,根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列。
3.根据权利要求2所述的方法,其特征在于,所述公式识别模型的训练过程包括:
获取包含公式的图像样本;
确定与所述图像样本中的公式对应的标签编码向量序列;
将所述图像样本输入初始的公式识别模型,通过所述初始的公式识别模型获得预测编码向量序列;
基于所述标签编码向量序列和所述预测编码向量序列,计算损失值;
根据所述损失值,对所述初始的公式识别模型进行训练,得到所述公式识别模型。
4.根据权利要求3所述的方法,其特征在于,所述基于所述标签编码向量序列和所述预测编码向量序列,计算损失值,包括:
基于所述标签编码向量序列、所述预测编码向量序列以及预设的L1平滑损失函数,获得损失值。
5.根据权利要求3或4所述的方法,其特征在于,所述确定与所述图像样本中的公式对应的标签编码向量序列,包括:
确定所述图像样本包含的公式对应的后缀表达式;
获取所述后缀表达式对应的样本字符序列;
对所述样本字符序列进行编码,得到标签编码向量序列。
6.根据权利要求5所述的方法,其特征在于,所述对所述样本字符序列进行编码,得到标签编码向量序列,包括:
分别对所述样本字符序列中的每个字符进行编码,得到每个字符对应的编码向量;其中,所述样本字符序列中的字符包括以下至少之一:字母、数字以及运算符;
根据所述每个字符对应的编码向量,得到标签编码向量序列。
7.根据权利要求2所述的方法,其特征在于,所述循环神经网络包含多个输出节点,每个输出节点输出一个字符编码向量;其中,每个字符编码向量用于表征一个实体字符或者一个空字符。
8.根据权利要求7所述的方法,其特征在于,所述循环神经网络为带有注意力机制的循环神经网络。
9.一种公式识别装置,其特征在于,所述装置包括:
待识别图像获取模块,用于获取包含公式的待识别图像;
字符编码向量序列获得模块,用于对所述待识别图像进行特征提取,获取所述待识别图像中所述公式对应的字符特征;并根据所述字符特征进行字符序列预测,获得用于指示所述公式对应的后缀表达式的字符编码向量序列;
字符序列获得模块,用于根据预设的编码字典,对所述字符编码向量序列进行解码,获得所述后缀表达式对应的字符序列;
字符公式获得模块,用于对获得的所述字符序列进行后缀表达式还原处理,获得字符公式。
10.一种电子设备,其特征在于,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一个可执行指令,所述可执行指令使所述处理器执行如权利要求1-8中任一项所述的公式识别方法对应的操作。
11.一种计算机存储介质,其特征在于,其上存储有计算机程序,该程序被处理器执行时实现如权利要求1-8中任一所述的公式识别方法。
CN202011420144.4A 2020-12-08 2020-12-08 一种公式识别方法、装置、电子设备及存储介质 Active CN112200194B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011420144.4A CN112200194B (zh) 2020-12-08 2020-12-08 一种公式识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011420144.4A CN112200194B (zh) 2020-12-08 2020-12-08 一种公式识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN112200194A true CN112200194A (zh) 2021-01-08
CN112200194B CN112200194B (zh) 2021-04-09

Family

ID=74034567

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011420144.4A Active CN112200194B (zh) 2020-12-08 2020-12-08 一种公式识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112200194B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052156A (zh) * 2021-03-12 2021-06-29 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备和存储介质
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63197222A (ja) * 1987-02-12 1988-08-16 Nec Corp デイレクトリ演算方式
CN107203500A (zh) * 2017-01-10 2017-09-26 大连交通大学 基于递归替换展开回溯的excel公式面向对象语言的自动转换方法
CN107301411A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式识别方法及装置
CN111832530A (zh) * 2020-07-24 2020-10-27 上海掌学教育科技有限公司 一种化学公式识别系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63197222A (ja) * 1987-02-12 1988-08-16 Nec Corp デイレクトリ演算方式
CN107301411A (zh) * 2016-04-14 2017-10-27 科大讯飞股份有限公司 数学公式识别方法及装置
CN107203500A (zh) * 2017-01-10 2017-09-26 大连交通大学 基于递归替换展开回溯的excel公式面向对象语言的自动转换方法
CN111832530A (zh) * 2020-07-24 2020-10-27 上海掌学教育科技有限公司 一种化学公式识别系统及方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113052156A (zh) * 2021-03-12 2021-06-29 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备和存储介质
CN113052156B (zh) * 2021-03-12 2023-08-04 北京百度网讯科技有限公司 光学字符识别方法、装置、电子设备和存储介质
CN113095314A (zh) * 2021-04-07 2021-07-09 科大讯飞股份有限公司 一种公式识别方法、装置、存储介质及设备

Also Published As

Publication number Publication date
CN112200194B (zh) 2021-04-09

Similar Documents

Publication Publication Date Title
CN112200194B (zh) 一种公式识别方法、装置、电子设备及存储介质
CN108090218B (zh) 基于深度强化学习的对话系统生成方法和装置
CN112465049A (zh) 异常检测模型生成方法和装置、异常事件检测方法和装置
CN113436620B (zh) 语音识别模型的训练方法、语音识别方法、装置、介质及设备
CN112462261B (zh) 一种电机异常检测方法、装置、电子设备及存储介质
CN113327599B (zh) 语音识别方法、装置、介质及电子设备
CN113361578A (zh) 图像处理模型的训练方法、装置、电子设备及存储介质
CN111651674B (zh) 双向搜索方法、装置及电子设备
CN112200173B (zh) 多网络模型训练方法、图像标注方法和人脸图像识别方法
CN114724168A (zh) 深度学习模型的训练方法、文本识别方法、装置和设备
CN111950692A (zh) 用于改进的通用化的基于汉明距离的稳健输出编码
CN114637843A (zh) 数据处理方法、装置、电子设备及存储介质
CN116956929A (zh) 针对桥梁管养文本数据的多特征融合命名实体识别方法、装置
CN111711868B (zh) 基于视听多模态的舞蹈生成方法、系统、装置
CN115600596A (zh) 命名实体识别方法、装置、电子设备及存储介质
CN115328753A (zh) 一种故障预测方法及装置、电子设备、存储介质
CN115186738A (zh) 模型训练方法、装置和存储介质
CN111444319B (zh) 文本匹配方法、装置和电子设备
CN113989569A (zh) 图像处理方法、装置、电子设备和存储介质
KR20060112380A (ko) 이진영상 압축장치 및 방법
CN113723515A (zh) 基于图像识别的摩尔纹识别方法、装置、设备及介质
CN115512693A (zh) 音频识别方法、声学模型训练方法、装置和存储介质
CN111813887B (zh) 基于人工智能的现金流数据分析方法、装置、设备及介质
CN115984302B (zh) 基于稀疏混合专家网络预训练的多模态遥感图像处理方法
CN110647519B (zh) 对测试样本中的缺失属性值进行预测的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant