CN109614944A - 一种数学公式识别方法、装置、设备及可读存储介质 - Google Patents
一种数学公式识别方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN109614944A CN109614944A CN201811542193.8A CN201811542193A CN109614944A CN 109614944 A CN109614944 A CN 109614944A CN 201811542193 A CN201811542193 A CN 201811542193A CN 109614944 A CN109614944 A CN 109614944A
- Authority
- CN
- China
- Prior art keywords
- character
- stroke
- identified
- row
- line
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Discrimination (AREA)
Abstract
本申请提供了一种数学公式识别方法、装置、设备及存储介质,方法包括:获取目标对象,目标对象包括多行文本,目标公式为多行文本中的一行;将目标对象基于输入轨迹进行分行处理,将目标公式所在行作为待识别对象;从待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;基于识别出的每个字符以及每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果。本申请提供的数学公式识别方法不但可以对用户书写的数学公式进行识别,而且具有较高的识别准确率,用户体验较好。
Description
技术领域
本申请涉及光学字符识别技术领域,尤其涉及一种数学公式识别方法、装置、设备及可读存储介质。
背景技术
随着互联网技术和电子科学技术的发展,手机、平板电脑等移动设备在人们生活占据着越来越重要的地位。移动设备根据其自身特点,主要依靠触摸屏来完成人机交互任务。
对于移动设备而言,基于触摸屏的人机交互方式相比于电脑的键盘和鼠标交互方式,省去了外接设备的不便,同时也使得手写输入成为移动设备最为重要的输入方式。然而,目前缺乏对于数学公式输入的有效解决方案,对于数学公式的输入,最重要的就是识别出用户书写的数学公式,然而,目前尚不存在有效的识别方法。
发明内容
有鉴于此,本申请提供了一种数学公式识别方法、装置、设备及可读存储介质,用以对用户基于输入单元书写的数学公式进行有效识别,其技术方案如下:
一种数学公式识别方法,包括:
获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行;
将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象;
从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;
基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
可选的,所述将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象,包括:
基于所述输入轨迹将所述目标对象分割为笔画,并对分割的笔画进行分行,获得多个笔画行;
将所述目标公式对应的笔画行合成为字符,合成后的该行字符作为所述待识别对象。
可选的,所述对分割的笔画进行分行,包括:
对于分割得到的每个笔画:
若该笔画为新一行的笔画,则创建一行,并将该笔画加入该行,该行的当前外接矩形为该笔画的外接矩形,该行的当前中心线为该笔画的外接矩形的中心线;
若该笔画不是新一行的笔画,则基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行,将该笔画加入其所属行,该笔画所属行的当前外接矩形为该笔画所属行当前所有笔画的外接矩形,该笔画所属的行的中心线为该笔画所属行当前所有笔画的外接矩形的中心线。
可选的,所述基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行,包括:
对于每一行,若该笔画的外接矩形完全位于该行的外接矩形内,或者,该行的中心线穿过该笔画的外接矩形,则确定该行为该笔画所属行;
若该笔画的外接矩形未完全位于该行的外接矩形内,并且,该行的中心线未穿过该笔画的外接矩形,则确定预设个目标笔画,基于各个所述目标笔画所属行确定该笔画所属行,其中,各个所述目标笔画与该笔画的距离均小于其它笔画与该笔画的距离。
可选的,确定该笔画是否为新一行的笔画,包括:
当该笔画相对上一笔画未向预设方向偏移时,确定该笔画不是新一行的笔画;
当该笔画相对上一笔画向所述预设方向偏移时,若该笔画为分式线,则确定该笔画不是新一行的笔画;若该笔画不为分式线,且该笔画的上一笔画为分式线,则确定该笔画不是新一行的笔画;若该笔画不为分式线,该笔画的上一笔画也不为分式线,且该笔画不在上一行的外接矩形内,且该笔画与上一行的各个字符和上一行的外接矩形的中心线均没有重叠,则确定该笔画为新一行的笔画。
可选的,所述从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息,包括:
获取所述待识别对象中每个字符对应的相对位置信息,一个字符对应的相对位置信息为该字符与第一个字符的相对位置信息;
通过预先建立的公式识别模型提取每个字符对应的字符特征;
基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息。
可选的,所述通过预先建立的公式识别模型提取每个字符对应的字符特征,包括:
通过所述公式识别模型中的特征提取模块,提取所述每个字符对应的字符特征;
所述基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息,包括:
通过所述公式识别模型中的编码模块,对所述每个字符对应的字符特征和相对位置信息进行编码,获得每个字符对应的、具有上下文信息的编码结果;
通过所述公式识别模型中的解码模块,对每个字符对应的编码结果进行解码,获得每个字符对应的解码结果,其中,一个字符对应的解码结果包括该字符的识别结果和该字符与上一字符的相对位置信息。
可选的,所述基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息,还包括:
通过所述公式识别模型的注意力模块,为所述编码模块输出的编码结果赋予权重,其中,所述权重的大小与编码结果的重要程度有关;
则通过所述公式识别模型中的解码模块,对每个字符对应的编码结果进行解码,包括:
通过所述公式识别模型中的解码模块,基于整个所述待识别对象的编码结果对每个字符对应的、赋予权重的编码结果进行解码。
可选的,所述基于所述识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果,包括:
基于所述识别出的每个字符和每个字符与上一字符的相对位置信息,以及设定的上下文无关语法,构建所述待识别对象对应的上下文无关数学公式语法树;
通过所述待识别对象对应的上下文无关数学公式语法树,确定所述待识别对象对应的识别结果。
一种数学公式识别装置,包括:获取模块、分行处理模块、识别模块、识别结果确定模块;
所述获取模块,用于获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行;
所述分行处理模块,用于将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象;
所述识别模块,用于从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;
所述识别结果确定模块,用于基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
可选的,所述分行处理模块,具体用于基于所述输入轨迹将所述目标对象分割为笔画,并对分割的笔画进行分行,获得多个笔画行,将所述目标公式对应的笔画行合成为字符,合成后的该行字符作为所述待识别对象。
可选的,所述识别模块包括:信息获取子模块和识别子模块;
所述信息获取子模块,用于获取所述待识别对象中每个字符对应的相对位置信息,一个字符对应的相对位置信息为该字符与第一个字符的相对位置信息;
所述识别子模块,用于通过预先建立的公式识别模型提取每个字符对应的字符特征,并基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息。
可选的,所述识别结果确定模块包括:语法树构建子模块和识别结果确定子模块;
所述语法树构建子模块,用于基于所述识别出的每个字符和每个字符与上一字符的相对位置信息,以及设定的上下文无关语法,构建所述待识别对象对应的上下文无关数学公式语法树;
所述识别结果确定子模块,用于通过所述待识别对象对应的上下文无关数学公式语法树,确定该所述待识别对象对应的识别结果。
一种数学公式识别设备,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现所述数学公式识别方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现所述数学公式识别方法的各个步骤。
考虑到某一公式可能为多行文本中的一行(其它行可能为公式行,也可能为非公式行),同一行内上下文语义关系比较紧密,而不同行之间上下文语义关系会比较松散,本申请提供的数学公式识别方案将包含目标公式的目标对象基于输入轨迹进行分行,将目标公式所在行作为待识别对象进行识别,在识别时,从待识别对象中识别出每个字符,并获取识别出的每个字符与上一字符的相对位置信息,基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果。本申请提供的数学公式识别方法不但可以对书写者书写的公式进行识别,而且具有较高的识别准确率,用户体验较好。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的数学公式识别方法的流程示意图;
图2为本申请实施例提供的数学公式识别方法中,针对每一笔画进行分行处理的流程示意图;
图3为本申请实施例提供的数学公式识别方法中,判断一笔画是否为新一行的笔画的流程示意图;
图4为本申请实施例提供的数学公式识别方法中,从待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息的示意图;
图5为本申请实施例提供的卷积神经网络的卷积操作示意图;
图6为本申请实施例提供的数学公式识别方法中,通过公式识别模型从待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息的示意图;
图7为本申请实施例提供的数学公式识别方法中,基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果的流程示意图;
图8为本申请实施例构建的待识别对象对应的上下文无关数学公式语法树的一示例的示意图;
图9为本申请实施例提供的数学公式识别装置的结构示意图;
图10为本申请实施例提供的数学公式识别设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为了实现数学公式的识别,本案发明人进行深入研究:
起初的思路是:首先识别多行公式中的字符,然后根据每个字符的识别结果和每个字符的位置,通过预先设置的语法规则来确定待识别公式的最终识别结果。其中,在识别公式中的符号时,主要是通过笔迹点的抬笔、落笔信息和连通域进行字符分割,然后进行字符识别,在通过语法规则来确定公式的最终识别结果时,主要通过人工设定的规则,根据字符识别结果和字符的位置来完成公式识别。
然而,上述思路存在如下问题:
其一,对多行公式一起进行识别,没有考虑不同行公式内容上下文语义关系没有同行的公式内容上下文语义关系强,全部放在一起识别,不利于语义关系的利用,识别效果不佳;其二,公式中的每个字符单独识别,不利于一些易混淆字符的识别,比如大写字母“C”和小写字母“c”、数字“5”和英文字母“S”等很难区分开,影响公式的识别正确率;其三,单独的依靠字符的空间位置,通过设置规则来建模不同字符之间的关系很不鲁棒,因为不同的人的书写方式差异比较大,特别是上下角标的书写,通过规则来处理这种情况很容易出现误判;其四,数学公式结构空间很大,又有各种递归嵌套等结构,而基于规则的结构解析很难覆盖所有可能的数学公式结构,导致公式识别正确率降低。
鉴于上述问题,发明人继续进行深入研究,最终提出了一种解决方案,完美解决了上述研发过程中各个问题。接下来通过下述实施例对本申请提供的数学公式识别方法进行介绍。
请参阅图1,示出了本申请实施例提供的数学公式识别方法的流程示意图,该方法可以包括:
步骤S101:获取目标对象。
其中,目标对象包括多行文本,其中一行文本为目标公式,即目标公式为多行文本中的一行,其它行文本可以为公式文本,也可以为非公式文本。需要说明的是,若目标对象为多行公式,则目标公式可以为多行公式中的任一行公式。
步骤S102:将目标对象基于输入轨迹进行分行,将目标公式所在行作为待识别对象。
可以理解的是,目标对象的同一行内,上下文语义关系比较紧密,而不同行之间,上下文语义关系会比较松散,基于此,本实施例对目标对象进行分行,以目标公式所在行作为待识别对象进行识别。
若要对待识别对象进行识别,首先应对目标对象进行分行,以得到待识别对象,本实施例通过电子设备记录输入单元(如电子设备的触摸屏)在书写者书写目标对象时采集的轨迹点数据,基于轨迹点数据对目标对象进行分行,该轨迹点数据包括了书写者书写的每一笔画的起始位置、结束位置以及中间过程中的轨迹点位置。
步骤S103:从待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息。
步骤S104:基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果。
需要说明的是,若目标对象包含多行公式,如需获得整个目标对象的识别结果,则在分行处理后,可分别将每行作为一待识别对象进行识别,从而获得各行的识别结果,进而可组合各行的识别结果,以获得整个目标对象的识别结果。
考虑到某个公式可能为用户书写的多行文本中的一行,且,多行文本中同一行内上下文语义关系比较紧密,本申请提供的数学公式识别方法将包含多行文本的目标对象基于输入轨迹进行分行,将目标公式所在行作为待识别对象,基于一行内容的上下文语义信息对待识别对象进行识别,从而获得待识别对象中每个字符的识别结果和每个字符与上一字符的相对位置信息,进而基于待识别对象中每个字符的识别结果和每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果。采用分行策略获得待识别对象,基于一行的上下文语义信息对待识别对象进行识别,使得本申请实施例提供的数学公式识别方法不但可以对书写者书写的公式进行识别,而且具有较高的识别准确率,用户体验较好。
在本申请的另一实施例中,对上述实施例中的“步骤S102:将目标对象基于输入轨迹进行分行,将目标公式所在行作为待识别对象”的实现过程进行介绍。
将目标对象基于输入轨迹进行分行,将目标公式所在行作为待识别对象的过程可以包括:基于输入轨迹将目标对象分割为笔画,并对分割的笔画进行分行,获得多个笔画行;将目标公式对应的笔画行合成为字符,合成后的该行字符作为待识别对象。由于输入轨迹中包括了每个笔画的起始位置和结束位置,因此,基于该数据可对待识别公式的各个笔画进行分割。
对分割的笔画进行分行的过程包括:依次对分割得到的每个笔画执行分行处理过程,请参阅图2,示出了针对每一笔画所执行的分行处理过程的流程示意图,可以包括:
步骤S201:判断该笔画是否为新一行的笔画,若该笔画为新一行的笔画,则执行步骤S202a,若该笔画不为新一行的笔画,则执行步骤S202b。
判断该笔画是否为新一行笔画的过程参见后续实施例的说明。
步骤S202a:创建一行,并将该笔画加入该行。
其中,该行的当前外接矩形为该笔画的外接矩形,该行的当前中心线为该笔画的当前外接矩形的中心线。
步骤S202b:基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行,将该笔画加入其所属行。
其中,基于该笔画的外接矩形和每行的外接矩形确定该笔画所属行的过程可以包括:对于任一行,若该笔画的外接矩形完全位于该行的外接矩形内,或者,该行的中心线穿过该笔画的外接矩形,则确定该行为该笔画所属行;若该笔画的外接矩形未完全位于该行的外接矩形内,并且,该行的中心线未穿过该笔画的外接矩形,则确定预设个目标笔画,基于各个目标笔画所属行确定该笔画所属行,其中,各个目标笔画与该笔画的距离均小于其它笔画与该笔画的距离。
进一步的,基于各个目标笔画所属行确定该笔画所属行的过程包括:若各个目标笔画所属行中存在目标行,则确定该笔画属于所述目标行,其中,目标行满足预设个笔画中属于该行的笔画数最多;若各个目标笔画分别属于不同行,则将与该笔画距离最近的目标笔画所属行确定为该笔画所属行。示例性的,针对一笔画确定三个目标笔画,这三个目标笔画与该笔画的距离均小于其它笔画与该笔画的距离,假设三个目标笔画中有一个目标笔画属于第一行,有两个目标笔画属于第二行,则确定该笔画属于第二行,假设三个目标笔画分别属于不同行,比如,第一个目标笔画属于第一行,第二个目标笔画属于第二行,第三个目标笔画属于第三行,则将三个目标笔画中,与该笔画距离最近的笔画所属的行确定为该笔画所属的行,比如,第二个目标笔画与该笔画的距离最近,则确定该笔画属于第二行。
需要说明的是,对于已创建行,每增加一个笔画,更新一次该行的外接矩形和中心线,任一行的当前外接矩形为该行当前所有笔画的外接矩形,该行的中心线为该行当前所有笔画的外接矩形的中心线。
依次对目标对象的每个笔画执行上述过程后,可获得多个笔画行。在获得多个笔画行后,可对目标公式对应的笔画行中各个笔画的轨迹点进行重采样,以避免因为设备的差异导致轨迹点采样不同,从而提升识别方法的鲁棒性,然后将轨迹点连接成线,并进行平滑处理,以使得笔画更接近书写者的真实书写情况。在完成对目标公式对应的笔画行的处理后,根据处理后的笔画行中笔画的轨迹点区域和连通域,将处理后的笔画行中的笔画合并成字符,合并后得到的字符行作为待识别对象。
以下对上述实施例中的“步骤S201:判断该笔画是否为新一行的笔画”进行介绍。
请参阅图3,示出了判断该笔画是否为新一行的笔画的流程示意图,可以包括:
步骤S301:获取该笔画相对上一笔画的偏移方向。
步骤S302:基于该笔画相对上一笔画的偏移方向,判断该笔画相对上一笔画是否向预设方向偏移,若是,则执行步骤S303a,若否,则执行步骤S303b。
可以理解的是,当书写者书写完一行后,通常会向左下方移动,在上一行最后一笔的左下方书写另一行的第一笔,基于此,可初步通过该笔画相对上一笔画的偏移方向判别该笔画是否为新一行的笔画。其中,预设方向可以但不限定为左下方。
步骤S303a:确定该笔画不为新一行的笔画。
若该笔画相对上一笔画并未向预设方向偏移,则可确定该笔画依然为当前行的笔画,而不是新一行的笔画。
步骤S303b:判断该笔画是否为分式线,若是,则执行步骤S303a,若否,则执行步骤S304。
判断该笔画是否为分式线的过程可以包括:对该笔画进行直线检测;若该笔画为水平直线,并且该笔画的起始位置相对上一笔画的结束位置向预设方向偏移,并且该笔画的外接矩形与上一行的中心线没有交点,则确定该笔画为分式线。
需要说明的是,若该笔画相对上一笔画向预设方向偏移,不能说明该笔画一定为新一行的笔画,而只能说明该笔画可能为新一行的笔画,因为,对于分式结构的表达式而言,书写者在书写完分子,进行分式线的书写时,分式线相对上一笔画也是向左下方偏移,而其并不是新一行的笔画,因此,在确定出该笔画相对上一笔画向预设方向偏移后,还需进一步判断该笔画是否为分式线,若该笔画为分式线,则可判定该笔画不为新一行的笔画。
步骤S304:判断上一笔画是否为分式线,若是,则执行步骤S303a,若否,则执行步骤S305。
需要说明的是,若该笔画相对上一笔画向预设方向偏移,并且该笔画不为分式线,依然无法确定该笔画就为新一行的笔画,因为对于分式结构的表达式而言,书写者书写完分式线,进行分母的书写时,分母的第一个笔画相对分式线也是向预设方向偏移的,但分母的第一个笔画并不是新一行的笔画,基于此,在确定出该笔画相对上一笔画向预设方向偏移,并且该笔画不为分式线后,还需要进一步判断该笔画的上一笔画是否为分式线,若该笔画的上一笔画为分式线,则确定该笔画不为新一行的笔画。
步骤S305:判断该笔画是否满足预设条件,若是,则执行步骤S306,若否,则执行步骤S303a。
具体的,判断该笔画是否满足预设条件包括:判断该笔画是否处于上一行的外接矩形内,并且,与上一行的各个字符和上一行的外接矩形的中心线均没有重叠。
步骤S306:确定该笔画为新一行的笔画。
具体的,若该笔画未处于上一行的外接矩形内,并且,该笔画与上一行的各个字符和上一行的外接矩形的中心线均没有重叠,则确定该笔画为新一行的笔画。
以下对上述实施例中的“步骤S103:从待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息”进行介绍。
请参阅图4,示出了从待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息的流程示意图,可以包括:
步骤S401:获取待识别对象中每个字符对应的相对位置信息。
其中,一个字符对应的相对位置信息为该字符与第一个字符的相对位置信息。
需要说明的是,数学公式识别为典型的二维识别问题,不只要考虑字符识别结果,还要考虑到字符的位置,因为同一个字符在不同的位置,会表达不同的含义,比如“2x”,“x^2”,“x_2”,同样的都是字符“2”,但却表达了三个不同的含义。有鉴于此,本实施例需要获取每个字符与其所在行的第一个字符的相对位置信息。
具体地,按预设规则对该待识别对象中的各个字符进行排序,并基于排序结果确定每个字符与第一个字符的相对位置信息。在一种可能的实现方式中,可根据该待识别对象的外接矩形的中心点的位置,按照从左到右、从上到下的顺序对字符进行排序。
步骤S402:通过预先建立的公式识别模型提取每个字符对应的字符特征,并基于每个字符对应的字符特征和相对位置信息,通过公式识别模型确定每个字符的识别结果以及每个字符与上一字符的相对位置信息。
在一种可能的实现方式中,预先建立的公式识别模型可以包括:特征提取模块、编码模块和解码模块。
可通过公式识别模型中的特征提取模块提取每个字符对应的字符特征。具体地,将待识别对象中的每个字符的图像输入公式识别模型中的特征提取模块,通过特征提取模块从输入图像提取特征,获得待识别对象中每个字符对应的字符特征。
其中,特征提取模块可以但不限为卷积神经网络。卷积神经网络的卷积操作如图5所示,假设输入卷积神经网络的源图像为[fi,j]w,h,图像的大小为w×h,卷积核为[θi,j]k,k,卷积核的大小为k×k,一般卷积核的宽高取相同的值,则特征图g为源图像和卷积核卷积后的结果,即:
对于特征图上任一点gi,j,其可通过下式计算得到:
通过不断的滑动卷积核遍历源图像,利用上式(2)可得到特征图上每一点的值,进而得到特征图,一个字符对应的字符特征通过该字符对应的特征图表征。
在训练阶段,通过使用大量已标注数据,利用随机梯度下降法和反向传播等优化算法,可以学习得到一系列满足需求的卷积核,在识别过程中,只需要按照既定规则进行计算,就可以得到每个字符的特征表达。
请参阅图6,在获得每个字符对应的字符特征和相对位置信息后,通过公式识别模型中的编码模块601对每个字符对应的字符特征和相对位置信息进行编码,获得待识别对象中每个字符对应的、具有上下文语义信息的编码结果。
需要说明的是,通过公式识别模型中的特征提取模块可获得待识别对象中每个字符对应的字符特征,通过每个字符对应的字符特征可以很好的对每个字符进行识别,但考虑到对于数学公式识别而言,由于一行公式内容具有很强的上下文关系,若不能充分利用一行公式内容的上下文关系,孤立的来进行单个字符的识别,对于一些易混淆的字符,如大写的“C”和小写的“c”等很难准确识别,有鉴于此,本实施例预先建立基于上下文语义信息的编码模块,通过该编码模块对待识别对象中每个字符对应的字符特征和相对位置信息进行编码,从而获得具有上下文语义信息的编码结果。可选的,编码模块为多层双向递归神经网络。
在获得待识别对象中每个字符对应的、具有上下文语义信息的编码结果后,可通过公式识别模型中的解码模块602,对每个字符对应的编码结果进行解码,获得每个字符对应的解码结果,其中,一个字符对应的解码结果包括该字符的识别结果和该字符与上一字符的相对位置信息。
在一种可能的实现方式中,解码模块可以为长短时记忆神经网络,解码网络输出的识别结果中,两个字符的相对位置可以包括8种,具体为:上、下、左、右、右上、右下、左上、左下。
示例性地,中的“5”相对于“∑”是上,“i”相对于“∑”是下,“=”相对于“i”是右,“=”相对于“1”是左,“4”相对于“A”是右上,“5”相对于“A”是右下,“3”相对于是左上,“A”相对于“4”是左下。
需要说明的是,两个字符之间的相对位置是解码模块如长短时记忆神经网络经过大量数据训练以后识别得到的结果,而不是传统的基于相对位置关系通过设置规则实现的,这种方法可以减小不同书写者的书写习惯对识别结果造成的影响,能够提高整个识别方法的鲁棒性。
优选地,本实施例中的公式识别模型还可以包括注意力模块603。在完成对待识别对象的编码以后,利用解码模块进行解码时,可同时使用注意力模块603通过学习的方式,得到每个解码字符所关注的编码输入。注意力模块以整个待识别对象的编码结果和上一时刻解码模块的输出为输入,来生成编码模块每一帧的权重,之后利用权重和编码结果算出加权平均值,并将该值与上一时刻解码模块的输出拼接起来,作为下一时刻的解码输入。最终解码得到待识别对象中每个字符的识别结果和每个字符与上一个字符的相对位置信息。由于引入注意力模块,在每一时刻解码的时候,会获取整个待识别对象的编码结果,这样获取的信息更加全面,同时注意力模块计算得到的权重会使得解码网络关注到更有价值的编码结果。
以下对上述实施例中的“步骤S104:基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果”进行介绍。
请参阅图7,示出了基于识别出的每个字符以及每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果的流程示意图,包括:
步骤S701:基于识别出的每个字符和每个字符与上一字符的相对位置,以及设定的上下文无关语法,构建待识别对象对应的上下文无关数学公式语法树。
本实施例采用结构分析方法获得待识别对象的完整性表达,具体地,基于上下文无关语法这种语法受限机制进行结构分析,一个具有很强表达能力的语法能获得更可信的结果,上下文无关语法G由如下四个部分组成:
G=(T,N,P,S)
其中,T是终结符集合,N是非终结符集合,P是一组产生式规则,S是唯一的开始符号。
示例性的,定义上下文无关文法G=(T,N,P,S),其中:
终结符号:T=(0,1,2,3,4,5,6,7,8,9,+,-,×,÷)
非终结符号:N=(N,V)
产生式规则集合:
N=(N,V)
N→N+V
N→N-V
N→N×V
N→N÷V
N→V
V→0
V→0
V→9
给定文法G,从G的开始符号S开始,用产生式的右部替换左侧的非终结符,此过程不断重复,直到不出现非终结符为止,最终生成上下文无关数学公式语法树。
示例性的:
N→N+V
经过上述过程获得的如图8所示的上下文无关数学公式语法树。
步骤S702:通过待识别对象对应的上下文无关数学公式语法树,确定该待识别对象的识别结果。
本申请实施例提供的数学公式识别方法,采用分行策略,首先对目标对象进行分行,将目标公式所在行作为待识别对象,然后利用公式识别模型中的特征提取模块(如卷积神经网络)提取待识别对象中每个字符对应的字符特征,接着将待识别对象中每个字符对应的字符特征和与第一个字符的相对位置信息输入编码模块(如递归神经网络)进行编码,之后使用解码模块(如长短时记忆网络)基于整个待识别对象的编码结果和注意力模块对于编码结果的关注信息进行解码,最后基于待识别对象对应的解码结果构建上下文无关数学公式语法树,进而利用该语法树解析得到待识别对象的识别结果。通过分行策略获得目标公式所在行,进而基于同一行的上下文语义信息进行识别使得识别结果更准确,由于解码模块(如长短时记忆网络)经过大量训练数据训练得到,因此,通过其确定每个字符与前一字符的相对位置信息,使得后续的识别结果不易受不同书写者书写习惯的影响,解码时基于整个待识别对象的赋予注意力权重的编码结果进行解码,使得解码时能够获取更多的信息,从而使解码结果更准确,综上,本申请实施例提供的数学公式识别方法的识别准确率较高,识别效果较好。
本申请实施例还提供了一种数学公式识别装置,下面对本申请实施例提供的数学公式识别装置进行描述,下文描述的数学公式识别装置与上文描述的数学公式识别方法可相互对应参照。
请参阅图9,示出了本申请实施例提供的一种数学公式识别装置的结构示意图,如图9所示,该装置可以包括:获取模块901、分行处理模块902、识别模块903和识别结果确定模块904。
获取模901,用于获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行。
分行处理模块902,用于将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象。
识别模块903,用于从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息。
识别结果确定模块904,用于基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
考虑到某个公式可能为用户书写的多行文本中的一行,且,多行文本中同一行内上下文语义关系比较紧密,本申请提供的数学公式识别装置将包含多行文本的目标对象基于输入轨迹进行分行,将目标公式所在行作为待识别对象,基于一行内容的上下文语义信息对待识别对象进行识别,从而获得待识别对象中每个字符的识别结果和每个字符与上一字符的相对位置信息,进而基于待识别对象中每个字符的识别结果和每个字符与上一字符的相对位置信息,确定待识别对象对应的识别结果。采用分行策略获得待识别对象,基于一行的上下文语义信息对待识别对象进行识别,使得本申请实施例提供的数学公式识别方法不但可以对书写者书写的公式进行识别,而且具有较高的识别准确率,用户体验较好。
在一种可能的实现方式中,上述实施例提供的数学公式识别装置中的分行处理模块902,具体用于基于所述输入轨迹将所述目标对象分割为笔画,并对分割的笔画进行分行,获得多个笔画行,将所述目标公式对应的笔画行合成为字符,合成后的该行字符作为所述待识别对象。
在一种可能的实现方式中,分行处理模块902在对分割的笔画进行分行时,具体用于对于分割得到的每个笔画:
若该笔画为新一行的笔画,则创建一行,并将该笔画加入该行,该行的当前外接矩形为该笔画的外接矩形,该行的当前中心线为该笔画的外接矩形的中心线;若该笔画不是新一行的笔画,则基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行,将该笔画加入其所属行,该笔画所属行的当前外接矩形为该笔画所属行当前所有笔画的外接矩形,该笔画所属的行的中心线为该笔画所属行当前所有笔画的外接矩形的中心线。
在一种可能的实现方式中,分行处理模块902在基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行时,具体用于对于每一行,若该笔画的外接矩形完全位于该行的外接矩形内,或者,该行的中心线穿过该笔画的外接矩形,则确定该行为该笔画所属行;若该笔画的外接矩形未完全位于该行的外接矩形内,并且,该行的中心线未穿过该笔画的外接矩形,则确定预设个目标笔画,基于各个所述目标笔画所属行确定该笔画所属行,其中,各个所述目标笔画与该笔画的距离均小于其它笔画与该笔画的距离。
在一种可能的实现方式中,分行处理模块902基于各个所述目标笔画所属行确定该笔画所属行时,具体用于若各个所述目标笔画所属行中存在目标行,则确定该笔画属于所述目标行,其中,所述目标行满足预设个笔画中属于该行的笔画数最多;若各个所述目标笔画分别属于不同行,则将与该笔画距离最近的目标笔画所属行确定为该笔画所属行。
在一种可能的实现方式中,上述实施例提供的数学公式识别装置还包括:笔画确定模块。
笔画确定模块,用于确定一笔画是否为新一行的笔画。
在一种可能的实现方式中,笔画确定模块确定一笔画是否为新一行的笔画时,具体用于当该笔画相对上一笔画未向预设方向偏移时,确定该笔画不是新一行的笔画;当该笔画相对上一笔画向所述预设方向偏移时,若该笔画为分式线,则确定该笔画不是新一行的笔画;若该笔画不为分式线,且该笔画的上一笔画为分式线,则确定该笔画不是新一行的笔画;若该笔画不为分式线,该笔画的上一笔画也不为分式线,且该笔画不在上一行的外接矩形内,且该笔画与上一行的各个字符和上一行的外接矩形的中心线均没有重叠,则确定该笔画为新一行的笔画。
在一种可能的实现方式中,上述实施例提供的数学公式识别装置还包括:分式线确定模块。
分式线确定模块,用于确定一笔画是否为分式线。
可选的,分式线确定模块在确定一笔画是否为分式线时,具体用于对该笔画进行直线检测;若该笔画为水平直线,且该笔画的起始位置相对上一笔画的结束位置向所述预设方向偏移,且该笔画的外接矩形与上一行的中心线没有交点,则确定该笔画为分式线。
在一种可能的实现方式中,上述实施例提供的数学公式识别装置中的识别模块903可以包括:信息获取子模块和识别子模块。
所述信息获取子模块,用于获取所述待识别对象中每个字符对应的相对位置信息,一个字符对应的相对位置信息为该字符与第一个字符的相对位置信息。
所述识别子模块,用于通过预先建立的公式识别模型提取每个字符对应的字符特征,并基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息。
在一种可能的实现方式中,所述识别子模块,具体用于通过所述公式识别模型中的特征提取模块,提取所述每个字符对应的字符特征;通过所述公式识别模型中的编码模块,对所述每个字符对应的字符特征和相对位置信息进行编码,获得每个字符对应的、具有上下文信息的编码结果;通过所述公式识别模型中的解码模块,对每个字符对应的编码结果进行解码,获得每个字符对应的解码结果,其中,一个字符对应的解码结果包括该字符的识别结果和该字符与上一字符的相对位置信息。
在一种可能的实现方式中,所述识别子模块,还用于通过所述公式识别模型的注意力模块,为所述编码模块输出的编码结果赋予权重,其中,所述权重的大小与编码结果的重要程度有关;通过所述公式识别模型中的解码模块,基于整个所述待识别对象的编码结果对每个字符对应的、赋予权重的编码结果进行解码。
在一种可能的实现方式中,上述实施例提供的数学公式识别装置中的识别结果确定模块904可以包括:语法树构建子模块和识别结果确定子模块。
所述语法树构建子模块,用于基于所述识别出的每个字符和每个字符与上一字符的相对位置信息,以及设定的上下文无关语法,构建所述待识别对象对应的上下文无关数学公式语法树。
所述识别结果确定子模块,用于通过所述待识别对象对应的上下文无关数学公式语法树,确定该所述待识别对象对应的识别结果。
本申请实施例还提供了一种数学公式识别设备,请参阅图10,示出了该设备的结构示意图,该设备可以包括:至少一个处理器1001,至少一个通信接口1002,至少一个存储器1003和至少一个通信总线1004。
在本申请实施例中,处理器1001、通信接口1002、存储器1003、通信总线604的数量为至少一个,且处理器1001、通信接口1002、存储器1003通过通信总线1004完成相互间的通信。
处理器601可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等。
存储器603可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器。
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行;
将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象;
从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;
基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:
获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行;
将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象;
从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;
基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (15)
1.一种数学公式识别方法,其特征在于,包括:
获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行;
将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象;
从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;
基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
2.根据权利要求1所述的数学公式识别方法,其特征在于,所述将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象,包括:
基于所述输入轨迹将所述目标对象分割为笔画,并对分割的笔画进行分行,获得多个笔画行;
将所述目标公式对应的笔画行合成为字符,合成后的该行字符作为所述待识别对象。
3.根据权利要求2所述的数学公式识别方法,其特征在于,所述对分割的笔画进行分行,包括:
对于分割得到的每个笔画:
若该笔画为新一行的笔画,则创建一行,并将该笔画加入该行,该行的当前外接矩形为该笔画的外接矩形,该行的当前中心线为该笔画的外接矩形的中心线;
若该笔画不是新一行的笔画,则基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行,将该笔画加入其所属行,该笔画所属行的当前外接矩形为该笔画所属行当前所有笔画的外接矩形,该笔画所属的行的中心线为该笔画所属行当前所有笔画的外接矩形的中心线。
4.根据权利要求3所述的数学公式识别方法,其特征在于,所述基于该笔画的外接矩形以及每行的外接矩形或中心线确定该笔画所属行,包括:
对于每一行,若该笔画的外接矩形完全位于该行的外接矩形内,或者,该行的中心线穿过该笔画的外接矩形,则确定该行为该笔画所属行;
若该笔画的外接矩形未完全位于该行的外接矩形内,并且,该行的中心线未穿过该笔画的外接矩形,则确定预设个目标笔画,基于各个所述目标笔画所属行确定该笔画所属行,其中,各个所述目标笔画与该笔画的距离均小于其它笔画与该笔画的距离。
5.根据权利要求3所述的数学公式识别方法,其特征在于,确定该笔画是否为新一行的笔画,包括:
当该笔画相对上一笔画未向预设方向偏移时,确定该笔画不是新一行的笔画;
当该笔画相对上一笔画向所述预设方向偏移时,若该笔画为分式线,则确定该笔画不是新一行的笔画;若该笔画不为分式线,且该笔画的上一笔画为分式线,则确定该笔画不是新一行的笔画;若该笔画不为分式线,该笔画的上一笔画也不为分式线,且该笔画不在上一行的外接矩形内,且该笔画与上一行的各个字符和上一行的外接矩形的中心线均没有重叠,则确定该笔画为新一行的笔画。
6.根据权利要求1~5中任意一项所述的数学公式识别方法,其特征在于,所述从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息,包括:
获取所述待识别对象中每个字符对应的相对位置信息,一个字符对应的相对位置信息为该字符与第一个字符的相对位置信息;
通过预先建立的公式识别模型提取每个字符对应的字符特征;
基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息。
7.根据权利要求6所述的数学公式识别方法,其特征在于,所述通过预先建立的公式识别模型提取每个字符对应的字符特征,包括:
通过所述公式识别模型中的特征提取模块,提取所述每个字符对应的字符特征;
所述基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息,包括:
通过所述公式识别模型中的编码模块,对所述每个字符对应的字符特征和相对位置信息进行编码,获得每个字符对应的、具有上下文信息的编码结果;
通过所述公式识别模型中的解码模块,对每个字符对应的编码结果进行解码,获得每个字符对应的解码结果,其中,一个字符对应的解码结果包括该字符的识别结果和该字符与上一字符的相对位置信息。
8.根据权利要求7所述的数学公式识别方法,其特征在于,所述基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息,还包括:
通过所述公式识别模型的注意力模块,为所述编码模块输出的编码结果赋予权重,其中,所述权重的大小与编码结果的重要程度有关;
则通过所述公式识别模型中的解码模块,对每个字符对应的编码结果进行解码,包括:
通过所述公式识别模型中的解码模块,基于整个所述待识别对象的编码结果对每个字符对应的、赋予权重的编码结果进行解码。
9.根据权利要求1所述的数学公式识别方法,其特征在于,所述基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果,包括:
基于识别出的每个字符和每个字符与上一字符的相对位置信息,以及设定的上下文无关语法,构建所述待识别对象对应的上下文无关数学公式语法树;
通过所述待识别对象对应的上下文无关数学公式语法树,确定所述待识别对象对应的识别结果。
10.一种数学公式识别装置,其特征在于,包括:获取模块、分行处理模块、识别模块、识别结果确定模块;
所述获取模块,用于获取目标对象,所述目标对象包括多行文本,目标公式为所述多行文本中的一行;
所述分行处理模块,用于将所述目标对象基于输入轨迹进行分行处理,将所述目标公式所在行作为待识别对象;
所述识别模块,用于从所述待识别对象中识别出每个字符以及每个字符与上一字符的相对位置信息;
所述识别结果确定模块,用于基于识别出的每个字符和每个字符与上一字符的相对位置信息,确定所述待识别对象对应的识别结果。
11.根据权利要求10所述的数学公式识别装置,其特征在于,所述分行处理模块,具体用于基于所述输入轨迹将所述目标对象分割为笔画,并对分割的笔画进行分行,获得多个笔画行,将所述目标公式对应的笔画行合成为字符,合成后的该行字符作为所述待识别对象。
12.根据权利要求10所述的数学公式识别装置,其特征在于,所述识别模块包括:信息获取子模块和识别子模块;
所述信息获取子模块,用于获取所述待识别对象中每个字符对应的相对位置信息,一个字符对应的相对位置信息为该字符与第一个字符的相对位置信息;
所述识别子模块,用于通过预先建立的公式识别模型提取每个字符对应的字符特征,并基于每个字符对应的字符特征和相对位置信息,通过所述公式识别模型确定所述每个字符的识别结果以及每个字符与上一字符的相对位置信息。
13.根据权利要求10所述的数学公式识别装置,其特征在于,所述识别结果确定模块包括:语法树构建子模块和识别结果确定子模块;
所述语法树构建子模块,用于基于所述识别出的每个字符和每个字符与上一字符的相对位置信息,以及设定的上下文无关语法,构建所述待识别对象对应的上下文无关数学公式语法树;
所述识别结果确定子模块,用于通过所述待识别对象对应的上下文无关数学公式语法树,确定该所述待识别对象对应的识别结果。
14.一种数学公式识别设备,其特征在于,包括:存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1~9中任一项所述的数学公式识别方法的各个步骤。
15.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1~9中任一项所述的数学公式识别方法的各个步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542193.8A CN109614944B (zh) | 2018-12-17 | 2018-12-17 | 一种数学公式识别方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811542193.8A CN109614944B (zh) | 2018-12-17 | 2018-12-17 | 一种数学公式识别方法、装置、设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109614944A true CN109614944A (zh) | 2019-04-12 |
CN109614944B CN109614944B (zh) | 2021-05-04 |
Family
ID=66009534
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811542193.8A Active CN109614944B (zh) | 2018-12-17 | 2018-12-17 | 一种数学公式识别方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109614944B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210467A (zh) * | 2019-05-28 | 2019-09-06 | 广州华多网络科技有限公司 | 一种文本图像的公式定位方法、图像处理装置、存储介质 |
CN110473551A (zh) * | 2019-09-10 | 2019-11-19 | 北京百度网讯科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110690992A (zh) * | 2019-09-16 | 2020-01-14 | 中盈优创资讯科技有限公司 | 网络割接异常识别方法及装置 |
CN111027561A (zh) * | 2019-11-22 | 2020-04-17 | 广州寄锦教育科技有限公司 | 数学公式定位方法、系统、可读存储介质和计算机设备 |
CN111079745A (zh) * | 2019-12-11 | 2020-04-28 | 中国建设银行股份有限公司 | 公式识别方法、装置、设备及存储介质 |
CN111340020A (zh) * | 2019-12-12 | 2020-06-26 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、设备及存储介质 |
CN111539383A (zh) * | 2020-05-22 | 2020-08-14 | 浙江蓝鸽科技有限公司 | 公式知识点识别方法及装置 |
CN111738198A (zh) * | 2020-06-30 | 2020-10-02 | 上海松鼠课堂人工智能科技有限公司 | 智能速算系统及方法 |
CN112215236A (zh) * | 2020-10-21 | 2021-01-12 | 科大讯飞股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN112712075A (zh) * | 2020-12-30 | 2021-04-27 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN112926567A (zh) * | 2021-03-01 | 2021-06-08 | 中国科学院软件研究所 | 一种基于用户反馈信息的在线手写公式识别方法及装置 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
CN113537201A (zh) * | 2021-09-16 | 2021-10-22 | 江西风向标教育科技有限公司 | 多维度混合ocr识别方法、装置、设备及存储介质 |
CN113807295A (zh) * | 2021-09-24 | 2021-12-17 | 科大讯飞股份有限公司 | 手写识别方法、装置、电子设备和存储介质 |
CN113920523A (zh) * | 2021-10-14 | 2022-01-11 | 北京中科凡语科技有限公司 | 文档中提取公式的方法、装置及电子设备 |
CN114064959A (zh) * | 2021-09-29 | 2022-02-18 | 北京搜狗科技发展有限公司 | 信息提取方法、装置及介质 |
CN117173719A (zh) * | 2023-11-01 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及存储介质 |
WO2024027349A1 (zh) * | 2022-08-05 | 2024-02-08 | 中南大学 | 一种印刷体数学公式识别方法、装置及存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452368A (zh) * | 2008-12-29 | 2009-06-10 | 北京文通科技有限公司 | 一种手写文字输入方法 |
CN106980856A (zh) * | 2016-01-15 | 2017-07-25 | 上海谦问万答吧云计算科技有限公司 | 公式识别方法及系统和符号推理计算方法及系统 |
CN107301164A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 数学公式的语义解析方法及装置 |
CN107527059A (zh) * | 2017-08-07 | 2017-12-29 | 北京小米移动软件有限公司 | 文字识别方法、装置及终端 |
-
2018
- 2018-12-17 CN CN201811542193.8A patent/CN109614944B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101452368A (zh) * | 2008-12-29 | 2009-06-10 | 北京文通科技有限公司 | 一种手写文字输入方法 |
CN106980856A (zh) * | 2016-01-15 | 2017-07-25 | 上海谦问万答吧云计算科技有限公司 | 公式识别方法及系统和符号推理计算方法及系统 |
CN107301164A (zh) * | 2016-04-14 | 2017-10-27 | 科大讯飞股份有限公司 | 数学公式的语义解析方法及装置 |
CN107527059A (zh) * | 2017-08-07 | 2017-12-29 | 北京小米移动软件有限公司 | 文字识别方法、装置及终端 |
Cited By (27)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110210467B (zh) * | 2019-05-28 | 2021-07-30 | 广州华多网络科技有限公司 | 一种文本图像的公式定位方法、图像处理装置、存储介质 |
CN110210467A (zh) * | 2019-05-28 | 2019-09-06 | 广州华多网络科技有限公司 | 一种文本图像的公式定位方法、图像处理装置、存储介质 |
CN110473551B (zh) * | 2019-09-10 | 2022-07-08 | 北京百度网讯科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110473551A (zh) * | 2019-09-10 | 2019-11-19 | 北京百度网讯科技有限公司 | 一种语音识别方法、装置、电子设备及存储介质 |
CN110690992A (zh) * | 2019-09-16 | 2020-01-14 | 中盈优创资讯科技有限公司 | 网络割接异常识别方法及装置 |
CN110690992B (zh) * | 2019-09-16 | 2022-03-29 | 中盈优创资讯科技有限公司 | 网络割接异常识别方法及装置 |
CN111027561A (zh) * | 2019-11-22 | 2020-04-17 | 广州寄锦教育科技有限公司 | 数学公式定位方法、系统、可读存储介质和计算机设备 |
CN111079745A (zh) * | 2019-12-11 | 2020-04-28 | 中国建设银行股份有限公司 | 公式识别方法、装置、设备及存储介质 |
CN111340020B (zh) * | 2019-12-12 | 2024-04-19 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、设备及存储介质 |
CN111340020A (zh) * | 2019-12-12 | 2020-06-26 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、设备及存储介质 |
CN111539383A (zh) * | 2020-05-22 | 2020-08-14 | 浙江蓝鸽科技有限公司 | 公式知识点识别方法及装置 |
CN111539383B (zh) * | 2020-05-22 | 2023-05-05 | 浙江蓝鸽科技有限公司 | 公式知识点识别方法及装置 |
CN111738198A (zh) * | 2020-06-30 | 2020-10-02 | 上海松鼠课堂人工智能科技有限公司 | 智能速算系统及方法 |
CN112215236B (zh) * | 2020-10-21 | 2024-04-16 | 科大讯飞股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN112215236A (zh) * | 2020-10-21 | 2021-01-12 | 科大讯飞股份有限公司 | 文本识别方法、装置、电子设备及存储介质 |
CN112712075B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN112712075A (zh) * | 2020-12-30 | 2021-04-27 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN112926567A (zh) * | 2021-03-01 | 2021-06-08 | 中国科学院软件研究所 | 一种基于用户反馈信息的在线手写公式识别方法及装置 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
CN113537201A (zh) * | 2021-09-16 | 2021-10-22 | 江西风向标教育科技有限公司 | 多维度混合ocr识别方法、装置、设备及存储介质 |
CN113807295B (zh) * | 2021-09-24 | 2023-10-27 | 科大讯飞股份有限公司 | 手写识别方法、装置、电子设备和存储介质 |
CN113807295A (zh) * | 2021-09-24 | 2021-12-17 | 科大讯飞股份有限公司 | 手写识别方法、装置、电子设备和存储介质 |
CN114064959A (zh) * | 2021-09-29 | 2022-02-18 | 北京搜狗科技发展有限公司 | 信息提取方法、装置及介质 |
CN113920523A (zh) * | 2021-10-14 | 2022-01-11 | 北京中科凡语科技有限公司 | 文档中提取公式的方法、装置及电子设备 |
WO2024027349A1 (zh) * | 2022-08-05 | 2024-02-08 | 中南大学 | 一种印刷体数学公式识别方法、装置及存储介质 |
CN117173719A (zh) * | 2023-11-01 | 2023-12-05 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及存储介质 |
CN117173719B (zh) * | 2023-11-01 | 2024-02-23 | 腾讯科技(深圳)有限公司 | 文本识别方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN109614944B (zh) | 2021-05-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109614944A (zh) | 一种数学公式识别方法、装置、设备及可读存储介质 | |
Mahdavi et al. | ICDAR 2019 CROHME+ TFD: Competition on recognition of handwritten mathematical expressions and typeset formula detection | |
CN110750959B (zh) | 文本信息处理的方法、模型训练的方法以及相关装置 | |
US20210397266A1 (en) | Systems and methods for language driven gesture understanding | |
CN104268603B (zh) | 用于文字性客观题的智能阅卷方法及系统 | |
Lian et al. | EasyFont: a style learning-based system to easily build your large-scale handwriting fonts | |
US7428516B2 (en) | Handwriting recognition using neural networks | |
CN103093196B (zh) | 一种基于手势的汉字交互输入与识别方法 | |
Biadsy et al. | Segmentation-free online arabic handwriting recognition | |
CN108280112A (zh) | 摘要生成方法、装置及计算机设备 | |
EP3535689A1 (en) | Method and system for transforming handwritten text to digital ink | |
CN108647205A (zh) | 细粒度情感分析模型构建方法、设备及可读存储介质 | |
CN110414498A (zh) | 一种基于交叉注意力机制的自然场景文本识别方法 | |
JP2008532176A (ja) | 認識グラフ | |
CN110490081A (zh) | 一种基于聚焦权重矩阵与变尺度语义分割神经网络的遥感对象解译方法 | |
CN110276023A (zh) | Poi变迁事件发现方法、装置、计算设备和介质 | |
CN109343920A (zh) | 一种图像处理方法及其装置、设备和存储介质 | |
CN113449801B (zh) | 一种基于多级图像上下文编解码的图像人物行为描述生成方法 | |
CN110610180A (zh) | 错别字词识别集的生成方法、装置、设备及存储介质 | |
CN113673432A (zh) | 手写识别方法、触摸显示设备、计算机设备及存储介质 | |
CN114730241B (zh) | 触摸式用户界面输入中的手势笔画识别 | |
KR20220132536A (ko) | 필기에서의 수학 검출 | |
Manandhar et al. | Magic layouts: Structural prior for component detection in user interface designs | |
CN106339726A (zh) | 用于手写识别的方法及装置 | |
CN116704508A (zh) | 信息处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |