CN106611148B - 基于图像的离线公式识别方法和装置 - Google Patents
基于图像的离线公式识别方法和装置 Download PDFInfo
- Publication number
- CN106611148B CN106611148B CN201510685983.1A CN201510685983A CN106611148B CN 106611148 B CN106611148 B CN 106611148B CN 201510685983 A CN201510685983 A CN 201510685983A CN 106611148 B CN106611148 B CN 106611148B
- Authority
- CN
- China
- Prior art keywords
- symbol
- formula
- image
- analyzed
- segmentation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Graphics (AREA)
- Geometry (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本申请公开了一种基于图像的离线公式识别方法和装置。其中,基于图像的离线公式识别方法包括:将图像与多个预定卷积核进行卷积,生成多个图像的特征图;对各特征图反卷积,生成图像的多个分割图,其中,各分割图与图像中的各公式符号一一对应;确定各公式符号之间的关联关系;以及基于所述公式符号和关联关系输出公式识别结果。按照本申请的方案,能够准确识别出图像中包含的公式,且识别效率高。
Description
技术领域
本公开一般涉及计算机领域,具体涉及图像识别领域,尤其涉及基于图像的离线公式识别方法和装置。
背景技术
OCR(Optical Character Recognition,光学字符识别)技术,是通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。OCR技术可广泛地应用于银行票据、大量文字资料、档案卷宗、文案的录入、处理以及检索等领域。
公式作为一种符号化的信息表达方式,也可以看做成一种文字。公式图像识别分为离线识别与在线识别两种,离线识别可以对已经完成输入的公式图像进行识别,而在线识别还可以获取输入(例如,手写输入)公式过程中的笔画信息,并基于这些笔画信息实时地识别出输入的符号。
公式图像识别对于含有公式的图像的处理起着重要的作用。比如现在的“拍照搜题”软件中,有许多图像是含有公式的,甚至是只有公式没有文字,如果能够很好地识别这些公式,对于题目检索会起到很大的帮助。
现有技术中,离线公式识别技术可以分为两大步骤:第一,识别并定位公式中的每个符号;第二,结合每个符号的位置关系最终确定公式的形式。在第一步的符号识别中,通常需要以下几个步骤:连通部件提取、连通部件的切分和连通部件识别。
然而,采用如上所述的现有的离线公式识别技术,存在以下的问题:
1)连笔部分的切分方式会严重地影响识别结果。假如切分位置有误,可能会造成误识别。
2)对于包含超过一个连通部件的符号,用连通部件的思路很难将多个连通部处理成一个符号。
3)符号分类器的分类精度有限,不能充分利用上下文信息。
发明内容
鉴于现有技术中的上述缺陷或不足,期望提供一种基于图像的离线公式识别方法和装置,以解决现有技术中存在的至少一个技术问题。
第一方面,本申请实施例提供了一种基于图像的离线公式识别方法,包括:将图像与多个预定卷积核进行卷积,生成多个图像的特征图;对各特征图反卷积,生成图像的多个分割图,其中,各分割图与图像中的各公式符号一一对应;确定各公式符号之间的关联关系;以及基于公式符号和关联关系输出公式识别结果。
在一些实施例中,确定各公式符号之间的关联关系进一步包括:确定各分割图中的公式符号在图像中的位置;基于各分割图中的公式符号在图像中的位置,确定图像中的公式区域;以及在公式区域解析公式结构。
在一些实施例中,确定各分割图中的公式符号在图像中的位置进一步包括:在各分割图中生成包围框,每个包围框分别包围与之对应的分割图中的各公式符号;以及基于各包围框的位置确定各分割图中的公式符号在图像中的位置。
在一些实施例中,在公式区域解析公式结构进一步包括:确定待分析符号集合,其中,待分析符号集合包括公式区域中的全部公式符号;选取中心符号的步骤,选取中心符号的步骤包括,在待分析符号集合中选取中心符号;判断的步骤,判断的步骤包括,判断中心符号是否与待分析符号集合中的其它公式符号具有公式结构关系;移除的步骤,移除的步骤包括,若中心符号与待分析符号集合中的其它公式符号具有公式结构关系,则将中心符号和第一符号移出待分析符号集合,其中,第一符号为待分析符号集合中与中心符号具有公式结构关系的符号;否则,将中心符号移出待分析符号集合;以及重新选取中心符号,并重复执行选取中心符号的步骤、判断的步骤和移除的步骤,直至待分析符号集合为空集。
在一些实施例中,在待分析符号集合中选取中心符号进一步包括:基于待分析符号集合中的各公式符号的水平位置,选取中心符号。
在一些实施例中,基于公式符号和关联关系输出识别结果包括:将公式识别结果作为结构化字符串输出;其中,结构化字符串的结构为latex结构或mathML结构。
第二方面,本申请实施例还提供了一种基于图像的离线公式识别装置,包括:卷积模块,配置用于将图像与多个预定卷积核进行卷积,生成多个图像的特征图;分割图生成模块,配置用于对各特征图反卷积,生成图像的多个分割图,其中,各分割图与图像中的各公式符号一一对应;关联关系确定模块,配置用于确定各公式符号之间的关联关系;以及输出模块,配置用于基于公式符号和关联关系输出公式识别结果。
在一些实施例中,关联关系确定模块进一步包括:位置确定单元,配置用于确定各分割图中的公式符号在图像中的位置;公式区域确定单元,配置用于基于各分割图中的公式符号在图像中的位置,确定图像中的公式区域;以及解析单元,配置用于在公式区域解析公式结构。
在一些实施例中,位置确定单元进一步配置用于:在各分割图中生成包围框,每个包围框分别包围与之对应的分割图中的各公式符号;以及基于各包围框的位置确定各分割图中的公式符号在图像中的位置。
在一些实施例中,解析单元进一步配置用于执行:确定待分析符号集合的步骤,其中,待分析符号集合包括公式区域中的全部公式符号;选取中心符号的步骤,选取中心符号的步骤包括,在待分析符号集合中选取中心符号;判断的步骤,判断的步骤包括:判断中心符号是否与待分析符号集合中的其它公式符号具有公式结构关系;移除的步骤,移除的步骤包括,若中心符号与待分析符号集合中的其它公式符号具有公式结构关系,则将中心符号和第一符号移出待分析符号集合,其中,第一符号为待分析符号集合中与中心符号具有公式结构关系的符号;否则,将中心符号移出待分析符号集合;以及重新选取中心符号,并重复执行选取中心符号的步骤、判断的步骤和移除的步骤,直至待分析符号集合为空集。
在一些实施例中,解析单元在执行在待分析符号集合中选取中心符号时,进一步配置用于:基于待分析符号集合中的各公式符号的水平位置,选取中心符号。
在一些实施例中,输出模块进一步配置用于:将公式识别结果作为结构化字符串输出;其中,结构化字符串的结构为latex结构(拉泰赫结构)或mathML结构(数学标记语言结构)。
本申请实施例提供的的方案,通过将包含公式的图像与预定的卷积核进行卷积,以用卷积后图像的一个像素点来反映原图像中某一区域的特征,基于卷积后图像各个像素点的灰度值来确定对应的原图像某一区域所包含的公式符号,避免了现有技术中基于连通部来进行识别时,连通部切分错误导致的误识别。
此外,本申请实施例的方案在识别出各个公式符号之后,还可以进一步判断各公式符号之间是否存在相应的公式结构关系,这样一来,不仅可以识别出公式符号,还可以保证识别出的各公式符号之间的运算关系的准确。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请实施例的基于图像的离线公式识别方法的示意性流程图;
图3是包含公式的图像的示意图;
图4是基于图3的图像生成的各分割图的示意图;
图5是本申请的基于图像的离线公式识别方法中,确定各公式符号之间的关联关系的一个实现方式的示意性流程图;
图6是图5的确定各公式符号之间的关联关系中,确定各分割图中的公式符号在图像中的位置的示意图;
图7是图5的确定各公式符号之间的关联关系中,在公式区域解析公式结构的一个实现方式的示意性流程图;
图8是本申请实施例的基于图像的离线公式识别装置的示意性结构图;
图9是适于用来实现本申请实施例的终端设备或服务器的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的基于图像的离线公式识别方法或基于图像的离线公式识别装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持与其它电子设备进行有线和/或无线的数据通信的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上输入的文字和/或图像提供搜索服务的搜索服务器。搜索网页服务器可以对接收到的图像进行文字识别,基于文字识别的识别结果在指定的数据库中进行搜索,并将搜索结果(例如包含识别结果的网页、文档等)反馈给终端设备101、102、103。
需要说明的是,本申请实施例所提供的基于图像的离线公式识别方法可以由服务器105执行,也可以由终端设备101、102、103执行。相应地,基于图像的离线公式识别装置可以设置于服务器105中,也可以设置于终端设备101、102、103中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
参见图2所示,为本申请一个实施例的基于图像的离线公式识别方法的示意性流程图。
具体而言,在步骤210中,将图像与多个预定卷积核进行卷积,生成多个图像的特征图。
自然图像有其固有特性,也即是说,图像其中一部分的统计特性与其他部分可能是相同的。基于该特性,在对图像的这一部分进行学习的特征也能用在图像的其它部分上。因此,对于图像上的所有位置,均可以使用同样的学习特征。
具体而言,当从一个大尺寸图像中随机选取一小块作为样本,并且从这个小块样本中学习到了一些特征,那么,可以把从该样本中学习到的特征作为探测器,应用到这个图像的任意地方中去。在一些应用场景中,例如,可以用从该样本中所学习到的特征(即卷积核)与原图像作卷积,从而对原图像上的任一位置获得一个不同特征的激活值。
假设原图像为P=[pij]n×m,也即是说,原图像具有n×m个像素点,卷积核为C=[cij]k×k,也即是说,卷积核阶数为k,且n、m、k满足:k≤n,且k≤m。则将原图像P与卷积核C卷积后,得到的特征图F=P*C=[fij](n-k+1)×(m-k+1),且F中的各元素fij可以通过以下的公式(1)来进行计算:
对比P与F的阶数可知,卷积运算后,特征图F中包含的像素数比原图P包含的像素数减少。此外,从上述公式(1)可以看出,卷积运算之后,F中的每一个元素fij,均包含了原图像P中的一个k×k的区域中每个像素的灰度值信息。这样一来,fij的值便可体现出原图像P中对应区域的特征。
在这里,需要说明的是,通过选取不同的卷积核的阶数k,可以通过特征图F中的一个元素反映原图像P中不大小区域的特征。此外,通过选取卷积核C中各元素的值,可以反映原图像P的对应区域中不同的特征。
在一些可选的实现方式中,可以通过学习,来得到适于提取图像中所包含的公式特征的卷积核的阶数和卷积核中各元素的值。此外,由于公式中通常包含有多种不同的字符(例如英语字母、希腊字母、数字等)和运算符(例如,加减乘除、积分、分数线、根式运算、对数运算等),可以通过学习得到的不同的卷积核,来提取这些公式中的字符和/或运算符。
如图3所示,假设图像中包含如下所示的公式(2)对应的图像300:
babac-1>aa/2 (2)
在一些可选的实现方式中,可以通过不同的卷积核,来对应提取公式(2)中的字符“a”、字符“b”、字符“c”、数字“1”、数字“2”、运算符“-”、运算符“>”以及运算符“/”。
在一些应用场景中,原图像P所包含的像素较多(例如,m>>k,且m>>k),这样一来,经与卷积核C进行卷积运算后,得到的特征图仍然包含较多的像素,如果直接将该特征图进行后续的处理,可能会导致运算代价(例如,运算量等)过大的问题。
为了解决如上所述的可能导致的运算代价过大的问题,在一些可选的实现方式中,例如,可以对得到的特征图与卷积核进行预定次数的卷积迭代,例如,F=F*C,从而进一步地降低特征图所包含的像素数量。在另一些可选的实现方式中,还可以通过对经F=P*C得到的特征图进行池化(Pooling),从而降低特征图F中所包含的像素数量。池化后的特征图中的每一个元素,可以对应池化前的特征图中某一预定区域的特征。例如,将池化前的特征图中某一预定区域的各元素取平均值或者取其中的最大值,来作为池化后的特征图的其中一个元素的数值。
接着,在步骤220中,对各特征图反卷积,生成图像的多个分割图,其中,各分割图与图像中的各公式符号一一对应。
在步骤210中,已经可以通过与卷积核的卷积运算得到原图像的多个特征图。在本步骤中,可以进一步地基于这些特征图来确定出与每个特征图对应的公式符号是什么。
在这里,“公式符号”一词的含义应包含所有可能在公式中出现的符号,包括但不限于所有可能出现的字符(例如,英语字母、希腊字母、数字等)和运算符(例如,加减乘除、积分、分数线、根式运算、对数运算、幂运算等)等。
同样以图像中包含与公式(2)对应的图像为例,参见图4中的附图标记410~480所示,为通过步骤220,得到的分别与公式(2)中的各公式符号对应的分割图。
由于分割图是对特征图反卷积得到的,而特征图中的各元素为图像与预定卷积核卷积得到的数值。因而,在一些可选的实现方式中,在得到分割图的同时,也可以得到分割图中所包含的公式符号的性质。例如,若分割图中包含的图像为那么对应该图像的性质则可以为“根号”。
根据上面对步骤210的描述可知,从原始的包含公式的图像经卷积运算得到的特征图中的每个元素fij均包含了原始的包含公式的图像中的某一特定区域的信息(例如,灰度值信息)。通过本步骤220的反卷积运算,可以利用特征图中各元素的数值,还原得出各分割图的图像。在一些可选的实现方式中,各分割图的分辨率高于特征图的分辨率,例如,可以与原始的图像的分辨率相同。
接着,在步骤230中,确定各公式符号之间的关联关系。在公式中,各字符由于与之对应的各运算符的“优先级”关系的不同,各字符之间也可能具有不同的“等级关系”。
例如,同样以如上所述的公式(2)为例,左起的ba作为幂运算的底数,而bac则是该幂运算的指数。为了准确地识别图像中的公式,就需要确定公式中的各公式符号之间的“等级关系”,例如,公式(2)的幂运算中的底数与指数之间的关系。
接着,在步骤240中,基于公式符号和关联关系输出公式识别结果。
在一些可选的实现方式中,步骤230中的确定各公式符号之间的关联关系可以采用如图5所示的流程500来实现。
具体而言,在步骤510中,确定各分割图中的公式符号在图像中的位置。
具体而言,在一些可选的实现方式中,可以首先在各分割图中生成包围框,每个包围框分别包围与之对应的分割图中的各公式符号。
例如,如图6所示,对该分割图中的每一个字符“a”,均生成一包围框610~640。
在对各分割图中的每个公式符号生成包围框之后,便可基于各包围框的位置确定各分割图中的公式符号在图像中的位置。例如,在一些可选的实现方式中,可以将图像中处于包围框的横坐标的最小值和最大值之间的区域且处于包围框的纵坐标的最小值和最大值之间的区域作为该公式符号在图像中的位置。在这里,例如,可以将图像中的任意一像素点作为坐标原点,将公式延伸的方向(例如,图3中的水平方向)作为横坐标的延伸方向,将垂直于公式延伸的方向(例如,图3中的竖直方向)作为纵坐标的延伸方向。
接着,在步骤520中,基于各分割图中的公式符号在图像中的位置,确定图像中的公式区域。
例如,假设各分割图中共包含n各包围框,那么在一些可选的实现方式中,可以将处于这些分割图中的各包围框中最小横坐标至最大横坐标之间、且处于这些分割图中的各包围框中最小纵坐标至最大纵坐标之间的区域,确定为图像中的公式区域。
接着,在步骤530中,在公式区域解析公式结构。
由于图像中除了公式之外,还可能包含其它的非公式区域,通过识别图像中的公式区域,并仅在识别出来的公式区域进行公式结构的解析,可以一定程度地减小后续运算的运算代价,提高公式识别的效率。
如图7所示,为步骤530的在公式区域解析公式结构的一种实现方式的流程图700。
具体而言,在步骤710中,确定待分析符号集合,其中,待分析符号集合包括公式区域中的全部公式符号。
接着,在步骤720中,在待分析符号集合中选取中心符号。
接着,在步骤730中,判断中心符号是否与待分析符号集合中的其它公式符号具有公式结构关系。
接着,在步骤740中,若中心符号与待分析符号集合中的其它公式符号具有公式结构关系,则将中心符号和第一符号移出待分析符号集合,在这里,第一符号为待分析符号集合中与中心符号具有公式结构关系的符号。
否则,在步骤750中,将中心符号移出待分析符号集合。
接着,在步骤760中,判断待分析符号集合是否为空集,若否,则重新执行步骤710的选取中心符号,并重复执行步骤720和730(或740),直至待分析符号集合为空集。
在一些可选的实现方式中,在步骤730的判断中心符号是否与待分析符号集合中的其它公式符号具有公式结构关系时,可以采用如下的规则来进行判断。
具体而言,若中心符号为字符,若该字符和与该字符直接相邻的一个或多个字符处于不同的纵坐标区间范围,则该字符和与该字符直接相邻的一个或多个字符具有公式结构关系。以上述公式(2)中以(ba)为底数,以(abc)为指数的幂运算为例。同为底数的b与a直接相邻,但b与a处于相同的纵坐标区间范围,因此,可认为底数中的b与底数中的a不具有公式结构关系。同时,底数中的a与指数中的abc不处于同样的纵坐标区间范围,则可认为底数a与指数abc具有公式结构关系。在这里,“相同的纵坐标区间范围”并不一定指比较的双方的纵坐标的最小值完全相等且纵坐标的最大值完全相等,而是,比较的双方的纵坐标区间范围处于“大致”相同的位置,例如,二者的最小纵坐标之差的绝对值小于一预设值,和/或,二者的最大纵坐标之差的绝对值小于一预设值。
若中心符号为运算符,那么可以直接基于该运算符的性质,来判断待分析符号集合中是否存在与之具有公式结构关系的公式符号。假设中心符号为根号,那么基于该中心符号的性质,可以确定,处于该中心符号的水平坐标最小值和最大值,且与该中心符号处于相同的纵坐标区间内的公式符号,为与该中心符号具有公式结构关系的公式符号。
在一些可选的实现方式中,步骤720中,还可以进一步基于待分析符号集合中的各公式符号的水平位置来选取中心符号。例如,将待分析符号集合中,与具有最小横坐标的包围框对应的公式符号作为当前中心符号。
在一些实施例中,基于公式符号和关联关系输出识别结果包括:将公式识别结果作为结构化字符串输出;其中,结构化字符串的结构例如可以为latex结构(拉泰赫结构)或mathML结构(数学标记语言结构)。
参见图8所示,为本申请实施例的基于图像的离线公式识别装置的示意性结构图800。
本申请实施例的基于图像的离线公式识别装置包括卷积模块810、分割图生成模块820、关联关系确定模块830和输出模块840。
其中,卷积模块810可配置用于将图像与多个预定卷积核进行卷积,生成多个图像的特征图。
分割图生成模块820可配置对各特征图反卷积,生成图像的多个分割图,其中,各分割图与图像中的各公式符号一一对应。
关联关系确定模块830可配置用于确定各公式符号之间的关联关系。
输出模块840可配置用于基于公式符号和关联关系输出公式识别结果。
在一些可选的实现方式中,关联关系确定模块830可进一步包括位置确定单元831、公式区域确定单元832以及解析单元833。
其中,位置确定单元831可配置用于确定各分割图中的公式符号在图像中的位置。
公式区域确定单元832可配置用于基于各分割图中的公式符号在图像中的位置,确定图像中的公式区域。
解析单元833可配置用于在公式区域解析公式结构。
在一些可选的实现方式中,位置确定单元831可进一步配置用于:在各分割图中生成包围框,每个包围框分别包围与之对应的分割图中的各公式符号;以及基于各包围框的位置确定各分割图中的公式符号在图像中的位置。
在一些可选的实现方式中,解析单元833可进一步配置用于执行:
确定待分析符号集合的步骤,其中,待分析符号集合包括公式区域中的全部公式符号;选取中心符号的步骤,选取中心符号的步骤包括,在待分析符号集合中选取中心符号;判断的步骤,判断的步骤包括,判断中心符号是否与待分析符号集合中的其它公式符号具有公式结构关系;移除的步骤,移除的步骤包括,若中心符号与待分析符号集合中的其它公式符号具有公式结构关系,则将中心符号和第一符号移出待分析符号集合,其中,第一符号为待分析符号集合中与中心符号具有公式结构关系的符号;否则,将中心符号移出待分析符号集合;以及重新选取中心符号,并重复执行选取中心符号的步骤、判断的步骤和移除的步骤,直至待分析符号集合为空集。
在一些可选的实现方式中,解析单元833在执行在待分析符号集合中选取中心符号时,可进一步配置用于:基于与待分析符号集合中的各公式符号的水平位置,选取中心符号。
在一些可选的实现方式中,输出模块840可进一步配置用于:将公式识别结果作为结构化字符串输出;其中,结构化字符串的结构例如可以为latex结构或mathML结构。
下面参考图9,其示出了适于用来实现本申请实施例的终端设备或服务器的计算机系统900的结构示意图。
如图9所示,计算机系统900包括中央处理单元(CPU)901,其可以根据存储在只读存储器(ROM)902中的程序或者从存储部分908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有系统900操作所需的各种程序和数据。CPU 901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
以下部件连接至I/O接口905:包括键盘、鼠标等的输入部分906;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分907;包括硬盘等的存储部分908;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分909。通信部分909经由诸如因特网的网络执行通信处理。驱动器910也根据需要连接至I/O接口905。可拆卸介质911,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器910上,以便于从其上读出的计算机程序根据需要被安装入存储部分908。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括有形地包含在机器可读介质上的计算机程序,所述计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分909从网络上被下载和安装,和/或从可拆卸介质911被安装。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,所述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括卷及模块、分割图生成模块、关联关系确定模块和输出模块。其中,这些模块的名称在某种情况下并不构成对该单元本身的限定,例如,卷积模块还可以被描述为“将图像与多个预定卷积核进行卷积的模块”。
作为另一方面,本申请还提供了一种非易失性计算机存储介质,该非易失性计算机存储介质可以是上述实施例中所述装置中所包含的非易失性计算机存储介质;也可以是单独存在,未装配入终端中的非易失性计算机存储介质。上述非易失性计算机存储介质存储有一个或者多个程序,当所述一个或者多个程序被一个设备执行时,使得所述设备:将图像与多个预定卷积核进行卷积,生成多个图像的特征图;对各特征图反卷积,生成图像的多个分割图,其中,各分割图与图像中的各公式符号一一对应;确定各公式符号之间的关联关系;以及基于公式符号和关联关系输出公式识别结果。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离所述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (12)
1.一种基于图像的离线公式识别方法,其特征在于,包括:
将所述图像与多个预定卷积核进行卷积,生成多个所述图像的特征图,其中,所生成的特征图的数量与待识别公式中所包含的公式符号的种类的数量相对应;
对各所述特征图反卷积,生成所述图像的多个分割图,其中,各所述分割图与所述图像中的各公式符号一一对应;
确定各所述公式符号之间的关联关系;以及
基于所述公式符号和所述关联关系输出公式识别结果。
2.根据权利要求1所述的方法,其特征在于,所述确定各所述公式符号之间的关联关系进一步包括:
确定各所述分割图中的所述公式符号在所述图像中的位置;
基于各所述分割图中的所述公式符号在所述图像中的位置,确定所述图像中的公式区域;以及
在所述公式区域解析公式结构。
3.根据权利要求2所述的方法,其特征在于,所述确定各所述分割图中的所述公式符号在所述图像中的位置进一步包括:
在各所述分割图中生成包围框,每个包围框分别包围与之对应的所述分割图中的各公式符号;以及
基于各所述包围框的位置确定各所述分割图中的公式符号在所述图像中的位置。
4.根据权利要求2或3所述的方法,其特征在于,所述在所述公式区域解析公式结构进一步包括:
确定待分析符号集合,其中,所述待分析符号集合包括所述公式区域中的全部公式符号;
选取中心符号的步骤,所述选取中心符号的步骤包括,在所述待分析符号集合中选取中心符号;
判断的步骤,所述判断的步骤包括,判断所述中心符号是否与所述待分析符号集合中的其它公式符号具有公式结构关系;
移除的步骤,所述移除的步骤包括,若所述中心符号与所述待分析符号集合中的其它公式符号具有公式结构关系,则将所述中心符号和第一符号移出所述待分析符号集合,其中,所述第一符号为所述待分析符号集合中与所述中心符号具有公式结构关系的符号;否则,将所述中心符号移出所述待分析符号集合;以及
重新选取中心符号,并重复执行所述选取中心符号的步骤、所述判断的步骤和所述移除的步骤,直至所述待分析符号集合为空集。
5.根据权利要求4所述的方法,其特征在于,所述在所述待分析符号集合中选取中心符号进一步包括:
基于所述待分析符号集合中的各所述公式符号的水平位置,选取所述中心符号。
6.根据权利要求1所述的方法,其特征在于,所述基于所述公式符号和所述关联关系输出识别结果包括:
将所述公式识别结果作为结构化字符串输出;
其中,所述结构化字符串的结构为latex结构或mathML结构。
7.一种基于图像的离线公式识别装置,其特征在于,包括:
卷积模块,配置用于将所述图像与多个预定卷积核进行卷积,生成多个所述图像的特征图,其中,所生成的特征图的数量与待识别公式中所包含的公式符号的种类的数量相对应;
分割图生成模块,配置用于对各所述特征图反卷积,生成所述图像的多个分割图,其中,各所述分割图与所述图像中的各公式符号一一对应;
关联关系确定模块,配置用于确定各所述公式符号之间的关联关系;以及
输出模块,配置用于基于所述公式符号和所述关联关系输出公式识别结果。
8.根据权利要求7所述的装置,其特征在于,所述关联关系确定模块进一步包括:
位置确定单元,配置用于确定各所述分割图中的所述公式符号在所述图像中的位置;
公式区域确定单元,配置用于基于各所述分割图中的所述公式符号在所述图像中的位置,确定所述图像中的公式区域;以及
解析单元,配置用于在所述公式区域解析公式结构。
9.根据权利要求8所述的装置,其特征在于,所述位置确定单元进一步配置用于:
在各所述分割图中生成包围框,每个包围框分别包围与之对应的所述分割图中的各公式符号;以及
基于各所述包围框的位置确定各所述分割图中的公式符号在所述图像中的位置。
10.根据权利要求8或9所述的装置,其特征在于,所述解析单元进一步配置用于执行:
确定待分析符号集合的步骤,其中,所述待分析符号集合包括所述公式区域中的全部公式符号;
选取中心符号的步骤,所述选取中心符号的步骤包括,在所述待分析符号集合中选取中心符号;
判断的步骤,所述判断的步骤包括,判断所述中心符号是否与所述待分析符号集合中的其它公式符号具有公式结构关系;
移除的步骤,所述移除的步骤包括,若所述中心符号与所述待分析符号集合中的其它公式符号具有公式结构关系,则将所述中心符号和第一符号移出所述待分析符号集合,其中,所述第一符号为所述待分析符号集合中与所述中心符号具有公式结构关系的符号;否则,将所述中心符号移出所述待分析符号集合;以及
重新选取中心符号,并重复执行所述选取中心符号的步骤、所述判断的步骤和所述移除的步骤,直至所述待分析符号集合为空集。
11.根据权利要求10所述的装置,其特征在于,所述解析单元在执行所述在所述待分析符号集合中选取中心符号时,进一步配置用于:
基于所述待分析符号集合中的各所述公式符号的水平位置,选取所述中心符号。
12.根据权利要求7所述的装置,其特征在于,所述输出模块进一步配置用于:
将所述公式识别结果作为结构化字符串输出;
其中,所述结构化字符串的结构为latex结构或mathML结构。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510685983.1A CN106611148B (zh) | 2015-10-21 | 2015-10-21 | 基于图像的离线公式识别方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510685983.1A CN106611148B (zh) | 2015-10-21 | 2015-10-21 | 基于图像的离线公式识别方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106611148A CN106611148A (zh) | 2017-05-03 |
CN106611148B true CN106611148B (zh) | 2020-04-24 |
Family
ID=58611388
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510685983.1A Active CN106611148B (zh) | 2015-10-21 | 2015-10-21 | 基于图像的离线公式识别方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106611148B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578054A (zh) * | 2017-09-27 | 2018-01-12 | 北京小米移动软件有限公司 | 图像处理方法及装置 |
CN109657522A (zh) * | 2017-10-10 | 2019-04-19 | 北京京东尚科信息技术有限公司 | 检测可行驶区域的方法和装置 |
CN111079745A (zh) * | 2019-12-11 | 2020-04-28 | 中国建设银行股份有限公司 | 公式识别方法、装置、设备及存储介质 |
WO2021226282A1 (en) * | 2020-05-06 | 2021-11-11 | Magic Leap, Inc. | Convolution-based camera and display calibration |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388068A (zh) * | 2007-09-12 | 2009-03-18 | 汉王科技股份有限公司 | 数学公式识别编码方法 |
CN102446267A (zh) * | 2010-09-30 | 2012-05-09 | 汉王科技股份有限公司 | 公式符号识别方法及其装置 |
CN102663138A (zh) * | 2012-05-03 | 2012-09-12 | 北京大学 | 一种公式查询条件的输入方法与装置 |
CN104063063A (zh) * | 2014-06-05 | 2014-09-24 | 北京搜狗科技发展有限公司 | 输入法的数学计算输入方法和输入法系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8285049B2 (en) * | 2008-06-06 | 2012-10-09 | Microsoft Corporation | Corrections for recognizers |
-
2015
- 2015-10-21 CN CN201510685983.1A patent/CN106611148B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101388068A (zh) * | 2007-09-12 | 2009-03-18 | 汉王科技股份有限公司 | 数学公式识别编码方法 |
CN102446267A (zh) * | 2010-09-30 | 2012-05-09 | 汉王科技股份有限公司 | 公式符号识别方法及其装置 |
CN102663138A (zh) * | 2012-05-03 | 2012-09-12 | 北京大学 | 一种公式查询条件的输入方法与装置 |
CN104063063A (zh) * | 2014-06-05 | 2014-09-24 | 北京搜狗科技发展有限公司 | 输入法的数学计算输入方法和输入法系统 |
Non-Patent Citations (2)
Title |
---|
Embedding gravitational search algorithms in convolutional neural networks for OCR applications;L.O. Fedorovici等;《2012 7th IEEE International Symposium on Applied Computational Intelligence and Informatics (SACI)》;20120730;第125-130页 * |
印刷体数学公式识别的研究与实现;喻志强;《中国优秀硕士学位论文全文数据库 信息科技辑》;20120715(第7期);第3-4,15-43页 * |
Also Published As
Publication number | Publication date |
---|---|
CN106611148A (zh) | 2017-05-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3117369B1 (en) | Detecting and extracting image document components to create flow document | |
CN108108342B (zh) | 结构化文本的生成方法、检索方法及装置 | |
US20170039193A1 (en) | Language generation from flow diagrams | |
CN111209827B (zh) | 一种基于特征检测的ocr识别票据问题的方法及系统 | |
CN109934229B (zh) | 图像处理方法、装置、介质和计算设备 | |
CN106611148B (zh) | 基于图像的离线公式识别方法和装置 | |
US20170039192A1 (en) | Language generation from flow diagrams | |
CN108182457B (zh) | 用于生成信息的方法和装置 | |
CN113627439A (zh) | 文本结构化处理方法、处理装置、电子设备以及存储介质 | |
CN114724133B (zh) | 文字检测和模型训练方法、装置、设备及存储介质 | |
CN111881943A (zh) | 图像分类的方法、装置、设备和计算机可读介质 | |
US10963690B2 (en) | Method for identifying main picture in web page | |
CN112651399A (zh) | 检测倾斜图像中同行文字的方法及其相关设备 | |
CN112287734A (zh) | 碎屏检测及用于碎屏检测的卷积神经网络的训练方法 | |
CN112287653B (zh) | 产生电子合同的方法、计算设备和计算机存储介质 | |
CN113780294B (zh) | 文本字符分割的方法和装置 | |
CN115756461A (zh) | 标注模板生成方法、图像识别方法、装置和电子设备 | |
US11080545B2 (en) | Optical character recognition support system | |
CN115937875A (zh) | 文本识别方法及装置、存储介质、终端 | |
CN113627124A (zh) | 一种针对字体迁移模型的处理方法、装置、电子设备 | |
CN111783572A (zh) | 一种文本检测方法和装置 | |
CN111178352A (zh) | 一种验证码字符识别的方法和装置 | |
CN111881778B (zh) | 文本检测的方法、装置、设备和计算机可读介质 | |
CN111626283B (zh) | 文字提取方法、装置和电子设备 | |
CN113761849A (zh) | 一种填写文档的提示方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |