CN111652145A - 一种公式检测的方法、装置、电子设备和存储介质 - Google Patents
一种公式检测的方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN111652145A CN111652145A CN202010496715.6A CN202010496715A CN111652145A CN 111652145 A CN111652145 A CN 111652145A CN 202010496715 A CN202010496715 A CN 202010496715A CN 111652145 A CN111652145 A CN 111652145A
- Authority
- CN
- China
- Prior art keywords
- formula
- initial
- image
- trained
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 65
- 238000000034 method Methods 0.000 claims abstract description 35
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 19
- 238000013135 deep learning Methods 0.000 claims abstract description 19
- 238000012549 training Methods 0.000 claims description 31
- 238000001914 filtration Methods 0.000 claims description 27
- 238000005457 optimization Methods 0.000 claims description 21
- 238000004590 computer program Methods 0.000 claims description 13
- 230000001629 suppression Effects 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 3
- 238000007635 classification algorithm Methods 0.000 abstract description 8
- 238000012937 correction Methods 0.000 abstract description 8
- 238000005286 illumination Methods 0.000 abstract description 7
- 238000010586 diagram Methods 0.000 description 7
- 238000013527 convolutional neural network Methods 0.000 description 4
- 230000000717 retained effect Effects 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000002775 capsule Substances 0.000 description 2
- 238000009795 derivation Methods 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007797 corrosion Effects 0.000 description 1
- 238000005260 corrosion Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000003708 edge detection Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明实施例涉及智能设备技术领域,公开了一种公式检测的方法、装置、电子设备和存储介质。该方法包括:获取目标图片,将目标图片输入预先训练的公式识别模型,确定初始公式框坐标;利用初始公式框坐标,在目标图片中分割得到初始公式框坐标内的图像,记为初始公式图像;将初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。实施本发明实施例,通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫。
Description
技术领域
本发明涉及智能设备技术领域,具体涉及一种公式检测的方法、装置、电子设备和存储介质。
背景技术
目前针对作业本的文本检测方案有很多种,但单独检测作业本内的公式方案较少,然而公式检测是必不可少的一步,对于后续作业本的文字公式识别,作业本的自动批阅,版面分析等具有重大意义,现有的公式检测大多使用传统视觉的方案,如采用边缘检测、腐蚀膨胀、连通域处理等操作得到公式检测框,这些方案可靠性较差,且对于含有空间结构的公式而言,鲁棒性较差,并且受作业本的拍照环境影响大。
发明内容
针对所述缺陷,本发明实施例公开了一种公式检测的方法、装置、电子设备和存储介质,其可以自动检测图像中的公式文本,并能精确定位出公式框的坐标。
本发明实施例第一方面公开一种公式检测的方法,所述方法包括:
获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;
利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;
将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
作为一种可选的实施方式,在本发明实施例第一方面中,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标,包括:
基于深度学习的方式创建公式识别初始模型,并以第一样本集对所述公式识别初始模型进行训练,得到预先训练的公式识别模型,所述第一样本集包括多张页面样本图像,训练时的标签为每张页面样本图像中公式的掩码;
将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标。
作为一种可选的实施方式,在本发明实施例第一方面中,将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标,之后,还包括:
通过非极大值抑制算法对所述初始公式框进行过滤,得到优化公式框。
作为一种可选的实施方式,在本发明实施例第一方面中,将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标,之后,还包括:
获取公式识别模型得到的所述初始公式框对应的识别概率;
过滤所述识别概率中小于第一预设阈值的初始公式框,得到初步优化公式框;
通过非极大值抑制算法对所述初步优化公式框进行过滤,得到优化公式框。
作为一种可选的实施方式,在本发明实施例第一方面中,将所述初始公式图像输入预先训练的目标分类识别模型,确定最终公式图像,包括:
基于深度学习的方式创建目标分类识别初始模型,并以第二样本集对所述目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型,所述第二样本集包括多张公式图像和多张英文图像;
将所述初始公式图像输入所述预先训练的目标分类识别模型,得到所述初始公式图像为公式和英文的概率,所述初始公式图像为公式的概率和英文的概率之和为1;
在所述初始公式图像为公式的概率值大于或等于第二预设阈值时,将所述初始公式图像判定为最终公式图像。
本发明实施例第二方面公开一种公式检测的装置,所述装置包括:
第一识别单元,用于获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;
分割单元,用于利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;
第二识别单元,用于将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第一识别单元,包括:
第一训练子单元,用于基于深度学习的方式创建公式识别初始模型,并以第一样本集对所述公式识别初始模型进行训练,得到预先训练的公式识别模型,所述第一样本集包括多张页面样本图像,训练时的标签为每张页面样本图像中公式的掩码;
第一获取子单元,用于将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括:过滤单元,用于通过非极大值抑制算法对所述初始公式框进行过滤,得到优化公式框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述装置还包括过滤单元;所述过滤单元包括:
第一概率确定子单元,用于获取公式识别模型得到的所述初始公式框对应的识别概率;
第一过滤子单元,用于过滤所述识别概率中小于第一预设阈值的初始公式框,得到初步优化公式框;
第二过滤子单元,用于通过非极大值抑制算法对所述初步优化公式框进行过滤,得到优化公式框。
作为一种可选的实施方式,在本发明实施例第二方面中,所述第二识别单元,包括:
第二训练子单元,用于基于深度学习的方式创建目标分类识别初始模型,并以第二样本集对所述目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型,所述第二样本集包括多张公式图像和多张英文图像;
第二概率确定子单元,用于将所述初始公式图像输入所述预先训练的目标分类识别模型,得到所述初始公式图像为公式和英文的概率,所述初始公式图像为公式的概率和英文的概率之和为1;
第二获取子单元,用于在所述初始公式图像为公式的概率值大于或等于第二预设阈值时,将所述初始公式图像判定为最终公式图像。
本发明实施例第三方面公开一种电子设备,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行本发明实施例第一方面公开的一种公式检测的方法的部分或全部步骤。
本发明实施例第四方面公开一种计算机可读存储介质,其存储计算机程序,其中,所述计算机程序使得计算机执行本发明实施例第一方面公开的一种公式检测的方法的部分或全部步骤。
本发明实施例第五方面公开一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种公式检测的方法的部分或全部步骤。
本发明实施例第六方面公开一种应用发布平台,所述应用发布平台用于发布计算机程序产品,其中,当所述计算机程序产品在计算机上运行时,使得所述计算机执行本发明实施例第一方面公开的一种公式检测的方法的部分或全部步骤。
与现有技术相比,本发明实施例具有以下有益效果:
本发明实施例中,获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。可见,实施本发明实施例,通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例公开的一种公式检测的方法的流程示意图;
图2是本发明实施例公开的另一种公式检测的方法的流程示意图;
图3是本发明实施例公开的一种公式检测的装置的结构示意图;
图4是本发明实施例公开的另一种公式检测的装置的结构示意图;
图5是本发明实施例公开的一种电子设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书中的术语“第一”、“第二”、“第三”、“第四”等是用于区别不同的对象,而不是用于描述特定顺序。本发明实施例的术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,示例性地,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明实施例公开了一种公式检测的方法、装置、电子设备和存储介质,其通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫,以下结合附图进行详细描述。
实施例一
请参阅图1,图1是本发明实施例公开的一种公式检测方法的流程示意图。如图1所示,该公式检测方法包括以下步骤:
110、获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标。
目标图片可以通过图像采集装置例如摄像头等对承载体例如书本、作业本、练习册以及试卷等进行拍照得到,图像采集装置可以集成于智能设备中,例如将承载体放置于点读机或家教机的前方,通过智能设备的前置摄像头对承载体进行拍照,或者图像采集装置为分立器件,其具有与智能设备通讯的能力。目标图片也可以是从网上下载得到,这里不对其来源进行限定。
目标图片中包括一个或多个公式,目标页面可以是完成在承载体页面,也可以是承载体的部分页面。
将所述目标图片输入预先训练的公式识别模型,进行前向推导操作,完成对公式目标的检测,确定初始公式框坐标。示例性地,公式识别模型可以通过深度学习方式搭建,例如通过卷积神经网络、全卷积神经网络、胶囊神经网络以及金字塔网络等。
先通过深度学习的方式建立公式识别初始模型,采用第一样本集对该公式识别初始模型进行训练,得到预先训练的公式识别模型。第一样本集包括多张页面样本图像,这多张页面样本图像可以是整个页面图像,也可以是整个页面的部分图像。页面样本图像中包括一个或多个公式,通过人工标注的方式确定每一张页面样本图像中公式的掩码(mask)作为训练时的标签;通过设置识别概率对公式识别初始模型的参数不断调整,得到最终的公式识别模型。
将目标图片输入到预先训练的公式识别模型,进行前向推导操作,就可以得到初始公式框以及初始公式框的坐标,完成对公式目标的检测。
120、利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像。
由于公式和英文(或字母)在形态上相似,例如公式a2和英文字母a,公式0和英文字母o等,存在少量把英文当公式的误检,这样的结果对作业批改的影响较大。因此,在本发明较佳的实施例中,通过分类算法区分公式和英文。
在此之前,首先确定初始公式图像,基于初始公式图像进行目标分类。根据步骤110确定的初始公式框坐标,得到相应的框选区域,将框选区域内的图像从目标图片中分割出来,可以得到初始公式图像。
130、将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
目标分类识别模型也可以采用任意深度学习的方式搭建,例如通过卷积神经网络、全卷积神经网络、胶囊神经网络以及金字塔网络等。
先通过深度学习方式建立目标分类识别初始模型,采用第二样本集对该目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型。第二样本集包括多张公式图像和英文图像,其可以是预先进行分割得到。公式图像中仅包括公式文本,英文图像中仅包括英文文本。预先采用人工标注的方法对公式文本和英文文本设置标签,例如公式文本的标签为正类,英文文本的标签为负类。
通过设置准确率和召回率对目标分类识别初始模型的参数不断调整,得到最终的目标分类识别模型。
准确率(P)为针对预测结果,目标分类识别模型把正类预测为正类的数量(TP),把负类预测为正类的数量(FP):
P=TP/(TP+FP)
召回率(R)为针对训练样本,目标分类识别模型把正类预测为正类的数量(TP),把正类预测为负类的数量(FN):
R=TP/(TP+FN)
将所述初始公式图像输入所述预先训练的目标分类识别模型,预测所述初始公式图像为正类或负类,其中,预测所述初始公式图像为正类或负类的方法是得到初始公式图像为公式和英文的概率,每一张初始公式图像为公式的概率和英文的概率之和为1。当所述初始公式图像为公式的概率值大于或等于第二预设阈值时,则预测结果为正类,初始公式图像为公式图像,反之,当所述初始公式图像为英文的概率值大于或等于第三预设阈值时,则预测结果为负类,初始公式图像为英文图像。
将初始公式图像预测结果为公式图像的部分保留,为英文图像的部分舍弃,即得到最终的公式图像,完成对公式的检测。
实施本发明实施例,可以通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫。
实施例二
请参阅图2,图2是本发明实施例公开的另一种公式检测方法的流程示意图。如图2所示,该公式检测方法包括以下步骤:
210、获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标。
220、对初始公式框进行过滤,得到优化公式框和优化公式框坐标。
实施例一中的步骤110直接选取预测概率值最大的mask作为初始公式框坐标。而由于公式的空间结构影响,有些公式具有复杂的上下左右拓扑关系,例如:竖式计算、分式、四则运算等,这些位置关系会带来公式框不全和公式框重叠等问题。在本发明实施例中,过滤掉不合理的公式框,得到优化公式框。
示例性地,得到优化公式框的方法可以是以下的任一种:
其一、直接通过非极大值抑制算法对初始公式框坐标进行过滤。即确定初始公式框坐标中预测概率值最大的mask作为假定的真实框,判断其他预测的框与该真实框的重叠度IOU(交并比)是否大于某个设定阈值,如果某些预测框与其IOU超过设定阈值,则舍弃这些预测框,并标记该真实框暂时保留;然后从剩下的未被保留和舍弃的预测框(称为剩余框)中选取预测概率值最大的mask作为假定的真实框,判断其他剩余框与该真实框的重叠度IOU是否大于设定阈值,IOU大于设定阈值的舍弃,保留该真实框。重复上述过程,确定所有保留的真实框作为最后的优化公式框,确定这些优化公式框的坐标。
其二、先通过预测概率值筛选掉一部分的初始公式框坐标,将初始公式框中预测概率值小于第一预设阈值的部分舍弃,保留的初始公式框坐标记为初步优化公式框。然后通过与上述类似的方法(非极大值抑制算法)对所述初步优化公式框进行过滤,得到优化公式框,确定这些优化公式框的坐标。
步骤230正是基于该优化公式框坐标进行分割得到初始公式图像。
230、利用所述优化公式框坐标,在所述目标图片中分割得到所述优化公式框坐标内的图像,记为初始公式图像。
240、将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
步骤230和步骤240可以与实施例一步骤120和步骤130类似,这里不再赘述。
实施本发明实施例,可以通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫。
实施例三
请参阅图3,图3是本发明实施例公开的一种公式检测装置的结构示意图。如图3所示,该公式检测装置可以包括:
第一识别单元310,用于获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;
分割单元330,用于利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;
第二识别单元340,用于将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
作为一种可选的实施方式,所述第一识别单元310,可以包括:
第一训练子单元311,用于创建公式识别初始模型,并以第一样本集对所述公式识别初始模型进行训练,得到预先训练的公式识别模型,所述第一样本集包括多张页面样本图像,训练时的标签为每张页面样本图像中公式的掩码;
第一获取子单元312,用于将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标。
作为一种可选的实施方式,所述装置还可以包括过滤单元320,用于通过非极大值抑制算法对所述初始公式框进行过滤,得到优化公式框。
作为一种可选的实施方式,所述第二识别单元340,可以包括:
第二训练子单元341,用于创建目标分类识别初始模型,并以第二样本集对所述目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型,所述第二样本集包括多张公式图像和多张英文图像;
第二概率确定子单元342,用于将所述初始公式图像输入所述预先训练的目标分类识别模型,得到所述初始公式图像为公式和英文的概率,所述初始公式图像为公式的概率和英文的概率之和为1;
第二获取子单元343,用于在所述初始公式图像为公式的概率值大于或等于第二预设阈值时,将所述初始公式图像判定为最终公式图像。
图3所示的公式检测装置,可以通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫。
实施例四
请参阅图4,图4是本发明实施例公开的另一种公式检测装置的结构示意图。如图4所示,该公式检测装置可以包括:
第一识别单元410,用于获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;
分割单元430,用于利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;
第二识别单元440,用于将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
作为一种可选的实施方式,所述第一识别单元410,可以包括:
第一训练子单元411,用于创建公式识别初始模型,并以第一样本集对所述公式识别初始模型进行训练,得到预先训练的公式识别模型,所述第一样本集包括多张页面样本图像,训练时的标签为每张页面样本图像中公式的掩码;
第一获取子单元412,用于将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标。
作为一种可选的实施方式,所述装置还可以包括过滤单元420;所述过滤单元420可以包括:
第一概率确定子单元421,用于获取公式识别模型得到的所述初始公式框对应的识别概率;
第一过滤子单元422,用于过滤所述识别概率中小于第一预设阈值的初始公式框,得到初步优化公式框;
第二过滤子单元423,用于通过非极大值抑制算法对所述初步优化公式框进行过滤,得到优化公式框。
作为一种可选的实施方式,所述第二识别单元440,可以包括:
第二训练子单元441,用于创建目标分类识别初始模型,并以第二样本集对所述目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型,所述第二样本集包括多张公式图像和多张英文图像;
第二概率确定子单元442,用于将所述初始公式图像输入所述预先训练的目标分类识别模型,得到所述初始公式图像为公式和英文的概率,所述初始公式图像为公式的概率和英文的概率之和为1;
第二获取子单元443,用于在所述初始公式图像为公式的概率值大于或等于第二预设阈值时,将所述初始公式图像判定为最终公式图像。
图4所示的公式检测装置,可以通过结合深度学习的目标检测与分类算法,得到检测页面中公式的位置框,不仅解决了传统算法对于具有空间结构、复杂光照的公式鲁棒性较差的问题,而且公式被误检为英文的问题也得到了改善,提高了公式检测的准确率和召回率,为后续完成自动批改等做好了铺垫。
实施例五
请参阅图5,图5是本发明实施例公开的一种电子设备的结构示意图。如图5所示,该电子设备可以包括:
存储有可执行程序代码的存储器510;
与存储器510耦合的处理器520;
其中,处理器520调用存储器510中存储的可执行程序代码,执行实施例一至实施例二任意一种公式检测的方法中的部分或全部步骤。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行实施例一至实施例二任意一种公式检测的方法中的部分或全部步骤。
本发明实施例还公开一种计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一至实施例二任意一种公式检测的方法中的部分或全部步骤。
本发明实施例还公开一种应用发布平台,其中,应用发布平台用于发布计算机程序产品,其中,当计算机程序产品在计算机上运行时,使得计算机执行实施例一至实施例二任意一种公式检测的方法中的部分或全部步骤。
在本发明的各种实施例中,应理解,所述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物单元,即可位于一个地方,或者也可以分布到多个网络单元上。可根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。所述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例所述方法的部分或全部步骤。
在本发明所提供的实施例中,应理解,“与A对应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
本领域普通技术人员可以理解所述实施例的各种方法中的部分或全部步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种公式检测的方法、装置、电子设备和存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (12)
1.一种公式检测的方法,其特征在于,包括:
获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;
利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;
将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
2.根据权利要求1所述的方法,其特征在于,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标,包括:
基于深度学习的方式创建公式识别初始模型,并以第一样本集对所述公式识别初始模型进行训练,得到预先训练的公式识别模型,所述第一样本集包括多张页面样本图像,训练时的标签为每张页面样本图像中公式的掩码;
将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标。
3.根据权利要求2所述的方法,其特征在于,将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标,之后,还包括:
通过非极大值抑制算法对所述初始公式框进行过滤,得到优化公式框。
4.根据权利要求2所述的方法,其特征在于,将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标,之后,还包括:
获取公式识别模型得到的所述初始公式框对应的识别概率;
过滤所述识别概率中小于第一预设阈值的初始公式框,得到初步优化公式框;
通过非极大值抑制算法对所述初步优化公式框进行过滤,得到优化公式框。
5.根据权利要求1-4任一项所述的方法,其特征在于,将所述初始公式图像输入预先训练的目标分类识别模型,确定最终公式图像,包括:
基于深度学习的方式创建目标分类识别初始模型,并以第二样本集对所述目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型,所述第二样本集包括多张公式图像和多张英文图像;
将所述初始公式图像输入所述预先训练的目标分类识别模型,得到所述初始公式图像为公式和英文的概率,所述初始公式图像为公式的概率和英文的概率之和为1;
在所述初始公式图像为公式的概率值大于或等于第二预设阈值时,将所述初始公式图像判定为最终公式图像。
6.一种公式检测的装置,其特征在于,包括:
第一识别单元,用于获取目标图片,将所述目标图片输入预先训练的公式识别模型,确定初始公式框坐标;
分割单元,用于利用所述初始公式框坐标,在所述目标图片中分割得到所述初始公式框坐标内的图像,记为初始公式图像;
第二识别单元,用于将所述初始公式图像输入预先训练的目标分类识别模型,确定最终的公式图像。
7.根据权利要求6所述的装置,其特征在于,所述第一识别单元,包括:
第一训练子单元,用于基于深度学习的方式创建公式识别初始模型,并以第一样本集对所述公式识别初始模型进行训练,得到预先训练的公式识别模型,所述第一样本集包括多张页面样本图像,训练时的标签为每张页面样本图像中公式的掩码;
第一获取子单元,用于将所述目标图片输入所述预先训练的公式识别模型,得到初始公式框坐标。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括:过滤单元,用于通过非极大值抑制算法对所述初始公式框进行过滤,得到优化公式框。
9.根据权利要求7所述的装置,其特征在于,所述装置还包括过滤单元;所述过滤单元包括:
第一概率确定子单元,用于获取公式识别模型得到的所述初始公式框对应的识别概率;
第一过滤子单元,用于过滤所述识别概率中小于第一预设阈值的初始公式框,得到初步优化公式框;
第二过滤子单元,用于通过非极大值抑制算法对所述初步优化公式框进行过滤,得到优化公式框。
10.根据权利要求6-9任一项所述的装置,其特征在于,所述第二识别单元,包括:
第二训练子单元,用于基于深度学习的方式创建目标分类识别初始模型,并以第二样本集对所述目标分类识别初始模型进行训练,得到预先训练的目标分类识别模型,所述第二样本集包括多张公式图像和多张英文图像;
第二概率确定子单元,用于将所述初始公式图像输入所述预先训练的目标分类识别模型,得到所述初始公式图像为公式和英文的概率,所述初始公式图像为公式的概率和英文的概率之和为1;
第二获取子单元,用于在所述初始公式图像为公式的概率值大于或等于第二预设阈值时,将所述初始公式图像判定为最终公式图像。
11.一种电子设备,其特征在于,包括:存储有可执行程序代码的存储器;与所述存储器耦合的处理器;所述处理器调用所述存储器中存储的所述可执行程序代码,用于执行权利要求1至5任一项所述的一种公式检测的方法。
12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储计算机程序,其中,所述计算机程序使得计算机执行权利要求1至5任一项所述的一种公式检测的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010496715.6A CN111652145B (zh) | 2020-06-03 | 2020-06-03 | 一种公式检测的方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010496715.6A CN111652145B (zh) | 2020-06-03 | 2020-06-03 | 一种公式检测的方法、装置、电子设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652145A true CN111652145A (zh) | 2020-09-11 |
CN111652145B CN111652145B (zh) | 2023-09-26 |
Family
ID=72344592
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010496715.6A Active CN111652145B (zh) | 2020-06-03 | 2020-06-03 | 一种公式检测的方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652145B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699881A (zh) * | 2020-12-31 | 2021-04-23 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
CN113095210A (zh) * | 2021-04-08 | 2021-07-09 | 北京一起教育科技有限责任公司 | 一种练习册页面检测的方法、装置及电子设备 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256770A (ja) * | 2002-03-06 | 2003-09-12 | Toshiba Corp | 数式認識装置および数式認識方法 |
CN107886082A (zh) * | 2017-11-24 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 图像中数学公式检测方法、装置、计算机设备及存储介质 |
CN109726661A (zh) * | 2018-12-21 | 2019-05-07 | 网易有道信息技术(北京)有限公司 | 图像处理方法及装置、介质和计算设备 |
CN109886093A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种公式检测方法、设备及计算机可读存储介质 |
CN110705459A (zh) * | 2019-09-29 | 2020-01-17 | 北京爱学习博乐教育科技有限公司 | 数理化公式自动识别方法及装置、模型训练方法及装置 |
-
2020
- 2020-06-03 CN CN202010496715.6A patent/CN111652145B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003256770A (ja) * | 2002-03-06 | 2003-09-12 | Toshiba Corp | 数式認識装置および数式認識方法 |
CN107886082A (zh) * | 2017-11-24 | 2018-04-06 | 腾讯科技(深圳)有限公司 | 图像中数学公式检测方法、装置、计算机设备及存储介质 |
CN109726661A (zh) * | 2018-12-21 | 2019-05-07 | 网易有道信息技术(北京)有限公司 | 图像处理方法及装置、介质和计算设备 |
CN109886093A (zh) * | 2019-01-08 | 2019-06-14 | 深圳禾思众成科技有限公司 | 一种公式检测方法、设备及计算机可读存储介质 |
CN110705459A (zh) * | 2019-09-29 | 2020-01-17 | 北京爱学习博乐教育科技有限公司 | 数理化公式自动识别方法及装置、模型训练方法及装置 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112699881A (zh) * | 2020-12-31 | 2021-04-23 | 北京一起教育科技有限责任公司 | 一种图像识别方法、装置及电子设备 |
CN113095314A (zh) * | 2021-04-07 | 2021-07-09 | 科大讯飞股份有限公司 | 一种公式识别方法、装置、存储介质及设备 |
CN113095210A (zh) * | 2021-04-08 | 2021-07-09 | 北京一起教育科技有限责任公司 | 一种练习册页面检测的方法、装置及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111652145B (zh) | 2023-09-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111652145A (zh) | 一种公式检测的方法、装置、电子设备和存储介质 | |
CN111753767A (zh) | 一种作业自动批改的方法、装置、电子设备和存储介质 | |
CN112435215A (zh) | 一种基于图像的车辆定损方法、移动终端、服务器 | |
WO2020139743A1 (en) | Computer-executed method and apparatus for assessing vehicle damage | |
TWI716012B (zh) | 樣本標註方法、裝置、儲存媒體和計算設備、損傷類別的識別方法及裝置 | |
CN105956059A (zh) | 基于情绪识别的信息推荐方法和装置 | |
CN111144215B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN111078083A (zh) | 一种点读内容的确定方法及电子设备 | |
CN111914665A (zh) | 一种人脸遮挡检测方法、装置、设备及存储介质 | |
CN110737785B (zh) | 一种图片标注的方法及装置 | |
CN111126393A (zh) | 车辆外观改装判断方法、装置、计算机设备及存储介质 | |
CN113762274B (zh) | 一种答题卡目标区域检测方法、系统、存储介质及设备 | |
CN111680635B (zh) | 一种文本识别的方法、装置、电子设备和存储介质 | |
CN115984859B (zh) | 一种图像文字识别的方法、装置及存储介质 | |
CN111652141B (zh) | 基于题号和文本行的题目分割方法、装置、设备和介质 | |
CN113763348A (zh) | 图像质量确定方法、装置、电子设备及存储介质 | |
CN110991357A (zh) | 一种答案匹配方法、装置和电子设备 | |
CN111753168A (zh) | 一种搜题的方法、装置、电子设备及存储介质 | |
CN111026924A (zh) | 一种待搜索内容的获取方法及电子设备 | |
CN113869364A (zh) | 图像处理方法、装置、电子设备及介质 | |
CN112446850B (zh) | 适配测试方法、装置及电子设备 | |
CN111753625B (zh) | 一种行人检测方法、装置、设备及介质 | |
CN114399699A (zh) | 目标推荐对象确定方法、装置、电子设备及存储介质 | |
CN110659384B (zh) | 视频结构化分析方法及装置 | |
CN113449728B (zh) | 一种文字识别方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |