CN113657353A - 公式识别方法、装置、电子设备及存储介质 - Google Patents
公式识别方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN113657353A CN113657353A CN202111212601.5A CN202111212601A CN113657353A CN 113657353 A CN113657353 A CN 113657353A CN 202111212601 A CN202111212601 A CN 202111212601A CN 113657353 A CN113657353 A CN 113657353A
- Authority
- CN
- China
- Prior art keywords
- node
- formula
- state information
- tree structure
- spatial position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
- Character Discrimination (AREA)
Abstract
本公开提供一种公式识别方法、装置、电子设备及存储介质。该方法包括:获取包含公式的待识别图像;基于解码器网络,对公式的树结构进行识别,得到公式包括的字符,其中,树结构包括的节点与公式包括的字符相对应;基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。由此,可以提高对公式识别的精度。
Description
技术领域
本公开涉及人工智能技术领域,尤其涉及公式识别方法、装置、电子设备及存储介质。
背景技术
随着线上教学的普及,公式识别的应用需求越来越多。在公式识别场景中,多是用户使用手机、平板电脑等电子设备对待识别的公式进行拍摄,以获得待识别图像。可执行公式识别的应用程序获取到待识别图像之后,采用模式识别算法识别图像中的公式。然而,采用现有的模式识别算法计算复杂度较高,而且识别精度低,有待改进。
发明内容
本公开提供了一种公式识别方法、装置、电子设备及存储介质。
根据本公开的一方面,提供了一种公式识别方法,包括:
获取包含公式的待识别图像;
基于解码器网络,对公式的树结构进行识别,得到公式包括的字符,其中,树结构包括的节点与公式包括的字符相对应;
基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。
根据本公开的另一方面,提供了一种公式识别装置,包括:
获取模块,配置为获取包含公式的待识别图像;
识别模块,配置为基于解码器网络,对公式的树结构进行识别,得到公式包括的字符,其中,树结构包括的节点与公式包括的字符相对应;
确定模块,配置为基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。
根据本公开的另一方面,提供了一种电子设备,包括:
至少一个处理器;以及
与该至少一个处理器通信连接的存储器;其中,
该存储器存储有可被该至少一个处理器执行的指令,该指令被该至少一个处理器执行,以使该至少一个处理器能够执行本公开任意一项实施例所提供的方法。
根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,该计算机指令用于使该计算机执行本公开任意一项实施例所提供的方法。
采用本公开,获取到包含公式的待识别图像,可以基于解码器网络,对公式的树结构进行识别,得到公式包括的字符,其中,树结构包括的节点与公式包括的字符相对应。基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。从而,通过解码器网络对公式的识别处理,可以得到公式中的各个字符及公式中各个字符之间的空间位置关系,以便根据公式中的各个字符及公式中各个字符之间的空间位置关系得到目标公式。由此,可以提高对公式识别的精度。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1为根据本公开实施例的公式识别方法的流程图;
图2为根据本公开实施例的应用示例中解码器网络的工作流程示意图;
图3为根据本公开实施例的应用示例中解码器网络的结构图;
图4为根据本公开实施例的公式识别装置的结构框图;
图5为根据本公开实施例的电子设备的结构框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。本文中术语“第一”、“第二”表示指代多个类似的技术用语并对其进行区分,并不是限定顺序的意思,或者限定只有两个的意思,例如,第一特征和第二特征,是指代有两类/两个特征,第一特征可以为一个或多个,第二特征也可以为一个或多个。
另外,为了更好的说明本公开,在下文的具体实施方式中给出了众多的具体细节。本领域技术人员应当理解,没有某些具体细节,本公开同样可以实施。在一些实例中,对于本领域技术人员熟知的方法、手段、元件和电路未作详细描述,以便于凸显本公开的主旨。
相关技术中,为了提高识别精度,可以使用注意机制算法对公式进行识别。注意机制算法可以包括编码器与解码器。编码器可以提取待识别图像的图像特征,并将图像特征输入到解码器进行解密。针对手写的公式图片识别场景而言,该公式图片与普通文本不同,公式具有二维结构,各个字符之间存在不同的空间位置关系,相对普通文本的识别,识别难度更高,可以根据公式中字符之间位置关系的不同,将公式进行树结构的展开,以针对该公式树的展开形式进行识别。
发明人发现,相关技术方案中的解码器结构设计复杂,使用了多个门控神经网络、注意力网络和多个全连接层等,计算量大。并且,这些多个网络设计中还存在重复冗余,模型的效率也不高。鉴于此,本公开提供一种公式识别方案,可以有效降低计算复杂度,避免模块的冗余,提高了模型运行速度,以及提高模型识别准确率。
根据本公开的实施例,提供了一种公式识别方法,图1是根据本公开实施例的公式识别方法的流程示意图,该方法可以应用于公式识别装置,例如,该装置可以部署于终端或服务器或其它处理设备执行的情况下,可以执行公式识别等处理。其中,终端可以为用户设备(UE,User Equipment)、移动设备、蜂窝电话、无绳电话、个人数字处理(PDA,PersonalDigital Assistant)、手持设备、计算设备、车载设备、可穿戴设备等。在一些可能的实现方式中,该方法还可以通过处理器调用存储器中存储的计算机可读指令的方式来实现。如图1所示,方法可以包括如下步骤。
在步骤S101,获取包含公式的待识别图像。
在一些实施例中,可以将包含公式的待识别图像输入解码器网络,该公式中任一个待识别字符作为父节点情况下,针对包含公式的待识别图像进行特征提取后输入该解码器网络的信息包括:针对该父节点的第一状态信息(如父节点隐状态信息)、针对该父节点的编码信息(如父节点字符的编码表示)、由编码器提取的图像特征及历史注意力信息。
在步骤S102,基于解码器网络,对公式的树结构进行识别,得到公式包括的字符。
在一些实施例中,树结构包括的节点与公式包括的字符相对应。示例性地,字符可以为公式中的字母、数字、运算符等。可以基于解码器网络的字符分支中将经由全连接层得到的运算结果进行归一化处理,比如基于归一化指数函数进行运算,将运算得到的概率最大的字符作为从该公式中识别出的各个字符。
在步骤S103,基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。
在一些实施例中,可以基于解码器网络的关系分支中将经由全连接层运算得到的运算结果进行逻辑回归处理,比如基于逻辑回归函数进行运算,根据大于阈值的运算结果从该公式中识别出各目标字符之间的空间位置关系。
在一些实施例中,还可以根据通过上述字符分支从该公式中识别出的各个字符,以及通过上述关系分支从该公式中识别出的各个字符之间的空间位置关系,得到针对公式的识别结果。
采用本公开,获取到包含公式的待识别图像,可以基于解码器网络,对公式的树结构进行识别,得到公式包括的字符,树结构包括的节点与公式包括的字符相对应。基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。从而,通过解码器网络对公式的识别处理,可以得到公式中的各个字符及公式中各个字符之间的空间位置关系,以便根据公式中的各个字符及公式中各个字符之间的空间位置关系得到目标公式,由此,可以提高对公式识别的精度。
换言之,在对待识别公式图像进行公式识别的过程中,除识别公式中各个待识别节点的目标字符之外,还可以直接识别出公式中各个待识别节点间的位置关系,以对公式中各个待识别节点的所有子节点的位置关系信息进行了明确,进而获得公式中各节点之间更全面的位置关系,减少了计算复杂度,从而提高了对公式的识别速度,而且识别精度高。
在一些实施例中,解码器网络包括第一门控神经网络,方法还包括:对待识别图像进行特征提取,得到提取的图像特征;以树结构中的当前已知节点为父节点的情况下,利用第一门控神经网络,基于父节点的隐状态信息、父节点的字符信息以及提取的图像特征,确定父节点的语义信息。采用本实施方式,通过第一门控神经网络的处理,可以将提取的图像特征作为新的状态信息(即:有别于第一状态信息的第二状态信息)输出,最终输出针对该父节点的第二状态信息,以便基于该第二状态信息的运算来提高识别精度。
在一些实施例中,解码器网络包括注意力网络,方法还包括:利用注意力网络,基于父节点的语义信息以及提取的图像特征,确定注意力热图,其中,注意力热图用于表征提取的图像特征对父节点的语义信息的响应。采用本实施方式,通过注意力网络的处理,可以输出注意力热图,以便基于该注意力热图的运算来提高识别精度。
在一些实施例中,解码器网络包括第二门控神经网络,方法还包括:对注意力热图以及提取的图像特征进行加权处理,得到加权的视觉特征;以及利用第二门控神经网络,基于父节点的语义信息以及加权的视觉特征,得到下一节点的隐状态信息,其中,下一节点为父节点的子节点。采用本实施方式,可以将注意力热图与该提取的图像特征相乘,得到加权的视觉特征,以便基于该加权的视觉特征进行运算,可以提高识别精度。
在一些实施例中,还包括:基于加权的视觉特征、下一节点的隐状态信息以及父节点的字符信息,确定下一节点的状态信息;以及基于下一节点的状态信息,确定下一节点的字符。采用本实施方式,通过第二门控神经网络的处理,可以基于该加权的视觉特征、下一节点的隐状态信息以及该父节点的字符信息,确定下一节点的状态信息,进而基于该下一节点的状态信息确定下一节点的字符,可以提高识别精度。
在一些实施例中,基于下一节点的状态信息,确定下一节点的字符,包括:基于下一节点的状态信息,利用解码器网络的第一全连接层,确定公式包括的字符的概率值;将具有最大概率的字符确定为下一节点的字符。采用本实施方式,将具有最大概率的字符确定为下一节点的字符,识别精度更高。
在一些实施例中,还包括:基于下一节点的状态信息,预测下一节点与其子节点空间位置关系。采用本实施方式,通过预测下一节点与其子节点空间位置关系,可以得到树结构中各个节点与其对应的子节点之间的位置关系,以便根据公式中的各个字符及公式中各个字符之间的空间位置关系得到目标公式,由此,可以提高对公式识别的精度。
在一些实施例中,基于下一节点的状态信息,预测下一节点与其子节点空间位置关系,包括:基于下一节点的状态信息,利用解码器网络的第二全连接层,确定多个预设空间位置关系中每个预设空间位置关系的概率值;将其概率值大于概率值阈值的预设空间位置关系,确定为下一节点与其子节点的空间位置关系。采用本实施方式,可以通过解码器网络的第二全连接层识别得到最终预测的各字符的空间位置,即从公式中识别出的目标字符间的空间位置关系,以便基于从公式中所识别出的该目标字符间的空间位置关系进行运算,可以提高识别精度。
图2为根据本公开实施例的应用示例中解码器网络的工作流程示意图,包括以下内容:
在步骤201,信息输入。
本步骤中所应用的解码器的输入信息包括:父节点隐状态信息,父节点字符信息,提取的图像特征。其中,父节点的隐状态信息包含了公式的语义信息;父节点的字符信息为父节点字符的编码表示;提取的图像特征为从待识别图像中提取的图像信息。
在步骤202、根据父节点的隐状态信息和父节点的字符信息,经门控神经网络(如本公开上述实施例中的第一门控神经网络)计算,得到新的状态信息。
本步骤中,门控神经网络根据输入的父节点的隐状态信息和父节点的字符信息,提取有效的语义信息,忽略冗余信息,并将提取的信息作为新的状态信息输出。
在步骤203,根据新的状态信息和提取的图像特征,经注意力网络计算,得到加权后的视觉特征。
本步骤中,注意力网络以步骤202中输出的新的状态信息和提取的图像特征作为输入,并计算得到注意力热图。注意力热图中像素值分布在0~1之间,代表模型关注区域的概率大小,概率值越大代表模型更关注该区域。将注意力热图与编码器提取的特征相乘,得到加权后的视觉特征。
在步骤204,新的状态信息与加权后的视觉特征经另一个门控神经网络(如本公开上述实施例中的第二门控神经网络)计算,得到最终的隐状态信息。
本步骤中,步骤202和步骤203的输出作为输入,输入到另一个门控神经网络中。根据步骤202输出的语义信息和步骤203输出的图像信息,提取得到最终的隐状态信息并返回。
在步骤205,根据父节点字符信息、加权后的视觉特征和最终的隐状态信息分别经过全连接层计算后进行加和处理。
本步骤中,步骤202、203和204输出的结果,分别与全连接层计算,并将三者计算后的结果进行加和处理。
在步骤206,分别通过字符分支和关系分支来分别预测响应的预测结果。
本步骤中,字符分支由全连接层和归一化指数函数(softmax)函数组成,关系分支由全连接层和逻辑回归函数(sigmoid)函数组成。字符分支和关系分支的输入相同,均为步骤205输出的结果。
本步骤中,步骤205输出的结果在字符分支中,首先经过全连接层网络计算,计算后的结果经softmax函数计算,以概率最大的字符作为最后预测的字符。
本步骤中,步骤205输出的结果在关系分支中,首先经过全连接层网络计算,计算后的结果经sigmoid函数计算,对于计算结果大于0.5的保存,小于0.5的则忽略。
在步骤207,返回预测结果。
本步骤中,执行完上述步骤201-步骤206后,返回预测的字符(如本公开上述示例的公式中的各个字符)和空间位置关系(如本公开上述示例的公式中各个字符之间的空间位置关系)。
图3为根据本公开实施例的应用示例中解码器网络的结构图,如图3所示,解码器包括:第一门控神经网络、注意力网络、第二门控神经网络、多个全连接层、softmax模块以及sigmoid模块;其中,由第二全连接层及softmax模块构成字符分支,由第一全连接层及sigmoid模块构成关系分支。将父节点隐状态信息及父节点字符信息输入该第一门控神经网络并进行信息提取处理,输出得到父节点新的状态信息。将该父节点新的状态信息以及历史注意力信息输入该注意力网络并进行注意机制处理,得到注意力热图。将该注意力热图及提取的图像特征(即对待识别图像提取特征所得到的该图像特征)进行加权处理,得到加权后的视觉特征。将该父节点新的状态信息、该加权后的视觉特征输入该第二门控神经网络并进行信息提取处理,输出得到最终的隐状态信息。将该加权后的视觉特征输入一全连接层并运算,得到第一运算结果,将该最终的隐状态信息输入另一全连接层并运算,得到第二运算结果,将该父节点字符向量输入又一全连接层并运算,得到第三运算结果,根据该第一运算结果、该第二运算结果及该第三运算结果进行求和处理,得到第四运算结果。在该字符分支中将该第四运算结果通过该第二全连接层运算,并经softmax模块的归一化运算,将得到的概率最大的字符为从公式中识别出来,并作为最终的各个目标字符。在该关系分支中将该第四运算结果通过该第一全连接层运算后经sigmoid模块进行逻辑回归运算,根据大于阈值“0.5”的运算结果,从公式中识别出该各目标字符之间的空间位置关系。
采用上述应用示例的解码器,该解码器可以为权值共享解码器,具体的,卷积处理中采用“卷积的权值共享”,即:提取同一输入不同位置的特征时采用同一权值的卷积核,从而大大降低了网络参数量,使得解码器迭代速度更快,有效降低了解码器设计的计算复杂度,从而提高了识别速度,而且,识别出公式中的各个目标字符,以及该各目标字符之间的空间位置关系后,既锁定了各个目标字符,又锁定了各目标字符之间的空间位置关系,可以提高识别精度。
根据本公开的实施例,提供了一种公式识别装置,图4是根据本公开实施例的公式识别装置的组成结构示意图,如图4所示,装置包括:获取模块401,配置为获取包含公式的待识别图像;识别模块402,配置为基于解码器网络,对公式的树结构进行识别,得到公式包括的字符,其中,树结构包括的节点与公式包括的字符相对应;确定模块403,配置为基于解码器网络的关系分支,确定树结构中的节点之间的空间位置关系,其中,空间位置关系包括,以树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。
在一些实施例中,识别模块402,配置为基于解码器网络所包括的第一门控神经网络,对待识别图像进行特征提取,得到提取的图像特征;以树结构中的当前已知节点为父节点的情况下,利用第一门控神经网络,基于父节点的隐状态信息、父节点的字符信息以及提取的图像特征,确定父节点的语义信息。
在一些实施例中,识别模块402配置为基于解码器网络所包括的注意力网络,基于父节点的语义信息以及提取的图像特征,确定注意力热图,其中,注意力热图用于表征提取的图像特征对父节点的语义信息的响应。
在一些实施例中,识别模块402配置为基于解码器网络所包括的第二门控神经网络,对注意力热图以及提取的图像特征进行加权处理,得到加权的视觉特征;以及利用第二门控神经网络,基于父节点的语义信息以及加权的视觉特征,得到下一节点的隐状态信息,其中,下一节点为父节点的子节点。
在一些实施例中,识别模块402配置为基于加权的视觉特征、下一节点的隐状态信息以及父节点的字符信息,确定下一节点的状态信息;以及基于下一节点的状态信息,确定下一节点的字符。
在一些实施例中,识别模块402配置为基于下一节点的状态信息,利用解码器网络的第一全连接层,确定公式包括的字符的概率值;将具有最大概率的字符确定为下一节点的字符。
在一些实施例中,确定模块403,配置为基于下一节点的状态信息,预测下一节点与其子节点空间位置关系。
在一些实施例中,确定模块403,配置为基于下一节点的状态信息,利用解码器网络的第二全连接层,确定多个预设空间位置关系中每个预设空间位置关系的概率值;将其概率值大于概率值阈值的预设空间位置关系,确定为下一节点与其子节点的空间位置关系。
本公开实施例各装置中的各模块的功能可以参见上述方法中的对应描述,在此不再赘述。
本公开示例性实施例还提供一种电子设备,包括:至少一个处理器;以及与至少一个处理器通信连接的存储器。所述存储器存储有能够被所述至少一个处理器执行的计算机程序,所述计算机程序在被所述至少一个处理器执行时用于使所述电子设备执行根据本公开实施例的方法。
本公开示例性实施例还提供一种存储有计算机程序的非瞬时计算机可读存储介质,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
本公开示例性实施例还提供一种计算机程序产品,包括计算机程序,其中,所述计算机程序在被计算机的处理器执行时用于使所述计算机执行根据本公开实施例的方法。
参考图5,现将描述可以作为本公开的服务器或客户端的电子设备500的结构框图,其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图5所示,电子设备500包括计算单元501,其可以根据存储在只读存储器(ROM)502中的计算机程序或者从存储单元508加载到随机访问存储器(RAM)503中的计算机程序,来执行各种适当的动作和处理。在RAM 503中,还可存储设备800操作所需的各种程序和数据。计算单元501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
电子设备500中的多个部件连接至I/O接口505,包括:输入单元506、输出单元507、存储单元508以及通信单元509。输入单元506可以是能向电子设备500输入信息的任何类型的设备,输入单元506可以接收输入的数字或字符信息,以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元507可以是能呈现信息的任何类型的设备,并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元504可以包括但不限于磁盘、光盘。通信单元509允许电子设备500通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据,并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组,例如蓝牙TM设备、WiFi设备、WiMax设备、蜂窝通信设备和/或类似物。
计算单元501可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元501的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元501执行上文所描述的各个方法和处理。例如,在一些实施例中,本公开实施例的方法可被实现为计算机软件程序,其被有形地包含于机器可读介质,例如存储单元508。在一些实施例中,计算机程序的部分或者全部可以经由ROM 502和/或通信单元509而被载入和/或安装到电子设备500上。在一些实施例中,计算单元501可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行本公开实施例的方法。
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器,使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
如本公开使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
Claims (11)
1.一种公式识别方法,包括:
获取包含公式的待识别图像;
基于解码器网络,对所述公式的树结构进行识别,得到所述公式包括的字符,其中,所述树结构包括的节点与所述公式包括的字符相对应;
基于所述解码器网络的关系分支,确定所述树结构中的节点之间的空间位置关系,其中,所述空间位置关系包括,以所述树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。
2.根据权利要求1所述的方法,其中,所述解码器网络包括第一门控神经网络,
并且其中,所述方法还包括:对所述待识别图像进行特征提取,得到提取的图像特征;
以所述树结构中的当前已知节点为父节点的情况下,利用所述第一门控神经网络,基于所述父节点的隐状态信息、所述父节点的字符信息以及所述提取的图像特征,确定所述父节点的语义信息。
3.根据权利要求1或2所述的方法,其中,所述解码器网络包括注意力网络,
并且其中,所述方法还包括:
利用所述注意力网络,基于所述父节点的语义信息以及所述提取的图像特征,确定注意力热图,其中,所述注意力热图用于表征所述提取的图像特征对所述父节点的语义信息的响应。
4.根据权利要求3所述的方法,其中,所述解码器网络包括第二门控神经网络,
并且其中,所述方法还包括:
对所述注意力热图以及所述提取的图像特征进行加权处理,得到加权的视觉特征;以及
利用所述第二门控神经网络,基于所述父节点的语义信息以及所述加权的视觉特征,得到下一节点的隐状态信息,其中,所述下一节点为所述父节点的子节点。
5.根据权利要求4所述的方法,还包括:
基于所述加权的视觉特征、所述下一节点的隐状态信息以及所述父节点的字符信息,确定所述下一节点的状态信息;以及
基于所述下一节点的状态信息,确定所述下一节点的字符。
6.根据权利要求5所述的方法,其中,所述基于所述下一节点的状态信息,确定所述下一节点的字符,包括:
基于所述下一节点的状态信息,利用所述解码器网络的第一全连接层,确定所述公式包括的字符的概率值;
将具有最大概率的字符确定为所述下一节点的字符。
7.根据权利要求5或6所述的方法,还包括:
基于所述下一节点的状态信息,预测所述下一节点与其子节点空间位置关系。
8.根据权利要求7所述的方法,其中,所述基于所述下一节点的状态信息,预测所述下一节点与其子节点空间位置关系,包括:
基于所述下一节点的状态信息,利用所述解码器网络的第二全连接层,确定多个预设空间位置关系中每个预设空间位置关系的概率值;
将其概率值大于概率值阈值的预设空间位置关系,确定为所述下一节点与其子节点的空间位置关系。
9.一种公式识别装置,包括:
获取模块,配置为获取包含公式的待识别图像;
识别模块,配置为基于解码器网络,对所述公式的树结构进行识别,得到所述公式包括的字符,其中,所述树结构包括的节点与所述公式包括的字符相对应;
确定模块,配置为基于所述解码器网络的关系分支,确定所述树结构中的节点之间的空间位置关系,其中,所述空间位置关系包括,以所述树结构中的当前已知节点为父节点的情况下,该父节点与其对应的子节点之间的位置关系。
10.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-8中任一项所述的方法。
11.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行权利要求1-8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212601.5A CN113657353B (zh) | 2021-10-19 | 2021-10-19 | 公式识别方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111212601.5A CN113657353B (zh) | 2021-10-19 | 2021-10-19 | 公式识别方法、装置、电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113657353A true CN113657353A (zh) | 2021-11-16 |
CN113657353B CN113657353B (zh) | 2022-03-11 |
Family
ID=78494599
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111212601.5A Active CN113657353B (zh) | 2021-10-19 | 2021-10-19 | 公式识别方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113657353B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
US20170337423A1 (en) * | 2015-08-26 | 2017-11-23 | Beijing Lejent Technology Co., Ltd | Method for Structural Analysis and Recongnigiton of Handwritten Mathematical Formula in Natural Scene Image |
CN111160343A (zh) * | 2019-12-31 | 2020-05-15 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
CN111401353A (zh) * | 2020-03-17 | 2020-07-10 | 重庆邮电大学 | 一种数学公式的识别方法、装置及设备 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
-
2021
- 2021-10-19 CN CN202111212601.5A patent/CN113657353B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101329731A (zh) * | 2008-06-06 | 2008-12-24 | 南开大学 | 图像中数学公式的自动识别方法 |
US20170337423A1 (en) * | 2015-08-26 | 2017-11-23 | Beijing Lejent Technology Co., Ltd | Method for Structural Analysis and Recongnigiton of Handwritten Mathematical Formula in Natural Scene Image |
CN111160343A (zh) * | 2019-12-31 | 2020-05-15 | 华南理工大学 | 一种基于Self-Attention的离线数学公式符号识别方法 |
CN111401353A (zh) * | 2020-03-17 | 2020-07-10 | 重庆邮电大学 | 一种数学公式的识别方法、装置及设备 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN113657353B (zh) | 2022-03-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113657390B (zh) | 文本检测模型的训练方法和检测文本方法、装置和设备 | |
CN113222916B (zh) | 采用目标检测模型检测图像的方法、装置、设备和介质 | |
CN113792526B (zh) | 字符生成模型的训练方法、字符生成方法、装置和设备和介质 | |
CN113901909B (zh) | 基于视频的目标检测方法、装置、电子设备和存储介质 | |
CN114863437B (zh) | 文本识别方法、装置、电子设备和存储介质 | |
CN114187459A (zh) | 目标检测模型的训练方法、装置、电子设备以及存储介质 | |
CN114724168A (zh) | 深度学习模型的训练方法、文本识别方法、装置和设备 | |
CN113887615A (zh) | 图像处理方法、装置、设备和介质 | |
CN114022887B (zh) | 文本识别模型训练及文本识别方法、装置、电子设备 | |
CN112966140B (zh) | 字段识别方法、装置、电子设备、存储介质和程序产品 | |
CN114495101A (zh) | 文本检测方法、文本检测网络的训练方法及装置 | |
CN113627298A (zh) | 目标检测模型的训练方法及检测目标对象的方法、装置 | |
CN113360683A (zh) | 训练跨模态检索模型的方法以及跨模态检索方法和装置 | |
CN114973333B (zh) | 人物交互检测方法、装置、设备以及存储介质 | |
CN113657353B (zh) | 公式识别方法、装置、电子设备及存储介质 | |
CN116611491A (zh) | 目标检测模型的训练方法、装置、电子设备和存储介质 | |
CN113887535B (zh) | 模型训练方法、文本识别方法、装置、设备和介质 | |
CN113361621B (zh) | 用于训练模型的方法和装置 | |
CN115273148A (zh) | 行人重识别模型训练方法、装置、电子设备及存储介质 | |
CN112784967B (zh) | 信息处理方法、装置以及电子设备 | |
CN114707017A (zh) | 视觉问答方法、装置、电子设备和存储介质 | |
CN114399998A (zh) | 语音处理方法、装置、设备、存储介质及程序产品 | |
CN114330576A (zh) | 模型处理方法、装置、图像识别方法及装置 | |
CN113947195A (zh) | 模型确定方法、装置、电子设备和存储器 | |
CN113989845A (zh) | 姿态分类方法和姿态分类模型的训练方法、装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |