CN110569853B - 一种基于目标定位的独立公式的分割方法 - Google Patents
一种基于目标定位的独立公式的分割方法 Download PDFInfo
- Publication number
- CN110569853B CN110569853B CN201910864395.2A CN201910864395A CN110569853B CN 110569853 B CN110569853 B CN 110569853B CN 201910864395 A CN201910864395 A CN 201910864395A CN 110569853 B CN110569853 B CN 110569853B
- Authority
- CN
- China
- Prior art keywords
- character
- characters
- corner point
- axis coordinate
- formula
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V2201/00—Indexing scheme relating to image or video recognition or understanding
- G06V2201/07—Target detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于目标定位的独立公式的分割方法,包括以下步骤:(1)字符检测定位:通过目标检测算法对公式中的每个字符进行定位检测,输出字符的定位坐标和内容;(2)字符按序排列:将定位的每行的所述字符按照所述定位坐标进行排序,得到有序序列;(3)按行筛选字符:每次选取第一个字符作为参考字符,从剩下的字符中筛选出与该第一个字符处于同一行的其他字符组成序列,将有序序列减去该一行字符序列得到新的待排序序列,再次递归排序直到待排序序列为空;(4)独立公式裁剪:计算每个字符之间的前后间隔的比率大小,进行筛选排序,再通过排序后的字符推算出每个独立公式所对应的首尾字符,从而实现独立公式的定位。
Description
技术领域
本发明属于图像分割技术领域,尤其是涉及一种基于目标定位的独立公式的分割方法。
背景技术
随着人工智能的发展,自动批阅系统渐趋成熟,众多针对图像处理的研究技术层出不穷,其中独立公式分割技术成为了自动批阅系统的首要核心技术。当前大量研究表明,对图像中公式的检测,主要是通过图像的像素信息分析字符的轮廓来获取独立公式的结构特征,并根据获取到的结构特征对独立公式做出检测和分割。而通常依赖图像做像素级检测的方法不仅较为繁琐,而且检测效果往往并不理想,这些方法对图片的质量提出了较高要求,任何含有对公式结构特征带来干扰的信息图像,都将使学习到这类特征的准确性受到影响,检测变得十分困难。因此,本申请采用深度学习方法结合坐标计算原理对独立公式分割技术做出相关研究。
因此,有必要开发一种基于目标定位的独立公式的分割方法,对同时含有印刷体和手写体图片中的手写体部分做出精确定位,提高文本识别系统的精确度。
发明内容
本发明要解决的技术问题是,提供一种基于目标定位的独立公式的分割方法,能够对同时含有手写体和印刷体的图像做独立公式检测和分割。
为解决上述技术问题,本发明采用的技术方案是:该基于目标定位的独立公式的分割方法,具体包括以下步骤:
(1)字符检测定位:通过目标检测算法对公式中的每个字符进行定位检测,根据检测和定位的结果输出字符的定位坐标和所述字符的内容;
(2)字符按序排列:将所述定位坐标作为参考,将定位的每行的所述字符按照所述定位坐标进行排序,得到有序序列X;
(3)按行筛选字符:每次选取第一个字符作为一行的参考字符,从剩下的字符中筛选出与该第一个字符处于同一行的其他字符组成序列,将有序序列X 减去该一行字符序列得到新的待排序序列,再次递归排序直到待排序序列为空,即完成所有行字符的筛选;
(4)独立公式裁剪:根据一行中每个字符的坐标计算所述每个字符之间的间隔距离,再计算每个字符之间的前后间隔的比率大小,根据间隔的比率大小进行筛选排序,再通过排序后的字符推算出每个独立公式所对应的首尾字符,再根据首尾字符的坐标实现独立公式的定位。
采用上述技术方案,通过字符检测定位,得到字符的坐标,再根据字符的坐标进行排序和筛选,从而获得字符的定位并裁剪出独立的公式;当提供含有口算公式的图片时,不需要借助复杂的图像处理技术和考虑字符干扰的情况下,该技术能够对含有多个公式的图片实现独立公式的分割。
作为本发明的优选技术方案,所述步骤(1)中采用的目标检测算法为YOLO v3算法,所述YOLO v3算法对文本做检测的计算过程为:
S1:对公式图片中的每个字符进行标注;
S2:通过DarkNet53网络对每个字符进行特征提取;并采用不同尺度的特征图对提取的特征进行目标检测;
S3:将DarkNet53网络产出的不同尺度的所述特征图作为输入,以FPN(featurepyramid networks)算法作为参考,通过卷积层和上采样对不同尺度的特征图进行融合,从而实现快速的对图片公式中的每个字符进行定位和检测。YOLO v3算法首先采用人工标注的方式对公式图片中的每个字符进行标注,其次通过 DarkNet53网络对文本中的每个字符进行特征提取;同时为了能够更好的检测出大、中、小三种目标,YOLO v3还分别采用了13*13,26*26,52*52三种不同尺度的特征图来做目标检测;而在特征融合层,YOLO v3则选取DarkNet53产出的三种尺度特征图作为输入,并借鉴了FPN(feature pyramid networks)的思想,通过一系列的卷积层和上采样对各尺度的特征图进行融合,最终能够快速的达到对图片公式中的每个字符进行定位和检测的目的。
作为本发明的优选技术方案,所述步骤(1)中根据检测和定位的结果,分别输出每个字符定位框的左上角点坐标(left_x,left_y)和右下角点坐标(right_x, right_y)以及该字符的内容。
作为本发明的优选技术方案,所述步骤(2)中所述有序序列X,记作 X={x0,x1,x2,…,xn},n表示所有行字符的总个数。
作为本发明的优选技术方案,所述步骤(3)具体为:为了从有序序列X中筛选出每行字符,每次选取第一个字符X0作为某一行的参考字符,从剩下的n-1 个字符中筛选出与该字符X0处于同一行的其他字符组成序列,记作Xl;将所述有序序列X减去l行字符序列Xl得到新的待排序序列;再次递归排序直到待排序序列为空,直至完成所有行字符的筛选。
作为本发明的优选技术方案,所述步骤(3)中采用字符共线概念进行字符的筛选,具体为:每种字符的实际可能位置都作为筛选的条件之一;其中,第一种字符表示它的左上角点y轴坐标大于参考字符左上角点y轴坐标且它的右下角点y轴坐标小于参考字符右下角点y轴坐标;第二种字符表示它的左上角点y 轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标;第三种字符表示它的左上角点y轴坐标小于参考字符左上角点 y轴坐标且它的右下角点y轴坐标大于参考字符左上角点y轴坐标;第四种字符表示它的左上角点y轴坐标小于参考字符右下角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标;第五种字符称为理想型共线字符,它表示字符的左上角点y轴坐标小于等于参考字符的中轴线y轴坐标且字符的右下角点y轴坐标大于等于中轴线y轴坐标。
作为本发明的优选技术方案,所述步骤(4)具体为:根据一行中每个字符的坐标计算所述每个字符之间的间隔距离,记作Di(i=1,2…n);再计算每个字符之间的前后间隔的比率大小,记作Ri(i=1,2,…,n),将Ri的值作为筛选条件,根据Ri的值进行筛选排序,通过由Ri排序后的i的值推算出每个独立公式所对应的首尾字符,再根据首尾字符的坐标实现独立公式的区域内所有字符的确定,接着寻找这些字符在y轴方向上的最大值和最小值,并换算出公式首尾字符的新坐标,以达到完整定位独立公式的目的。
作为本发明的优选技术方案,所述步骤(4)还包括定位框选的坐标作为公式的裁剪结果。
作为本发明的优选技术方案,所述步骤(4)中计算每个字符之间的前后间隔的比率大小的计算公式为:
作为本发明的优选技术方案,所述步骤(4)中通过由Ri排序后的i的值推算出每个独立公式所对应的首尾字符,再根据首尾字符换算后对应的左上角点和右下角点坐标实现独立公式的定位。
相比现有技术,该技术方案具有的有益效果是:当提供含有口算公式的图片时,不需要借助复杂的图像处理技术和考虑字符干扰的情况下,该技术能够对含有多个公式的图片实现独立公式的分割。
附图说明
下面结合附图和本发明的实施方式进一步详细说明:
图1是本发明的基于目标定位的独立公式的分割方法的流程图;
图2是本发明的基于目标定位的独立公式的分割方法的步骤(1)的字符定位检测效果图;
图3是本发明的基于目标定位的独立公式的分割方法的字符共线概念图;
图4是本发明的基于目标定位的独立公式分割方法的独立公式裁剪原理图;
图5是本发明的基于目标定位的独立公式分割方法的独立公式检测结果图;
图6是本发明的基于目标定位的独立公式分割方法的独立公式裁剪效果图。
具体实施方式
实施例:如图1~6所示,该基于目标定位的独立公式的分割方法,具体包括以下步骤:
(1)字符检测定位:通过目标检测算法对公式中的每个字符进行定位检测,根据检测和定位的结果,分别输出每个字符定位框的左上角点坐标(left_x, left_y)和右下角点坐标(right_x,right_y)以及该字符的内容;所采用的目标检测算法为YoLo v3;其定位后的效果如图2所示;
所述YOLO v3算法对文本做检测的计算过程为:
S1:对公式图片中的每个字符进行标注;
S2:通过DarkNet53网络对每个字符进行特征提取;并采用不同尺度的特征图对提取的特征进行目标检测;
S3:将DarkNet53网络产出的不同尺度的所述特征图作为输入,以 FPN(featurepyramid networks)算法作为参考,通过卷积层和上采样对不同尺度的特征图进行融合,从而实现快速的对图片公式中的每个字符进行定位和检测;
(2)字符按序排列:将所述定位坐标作为参考,将定位的每行的所述字符按照所述定位坐标进行排序,得到一个有序序列X,记作X={x0,x1,x2,…,xn},n 表示所有行字符的总个数;
(3)按行筛选字符:为了从有序序列X中筛选出每行字符,每次选取第一个字符X0作为某一行的参考字符,从剩下的n-1个字符中筛选出与该字符X0处于同一行(如:l行)的其他字符组成序列,记作Xl;将所述有序序列X减去l 行字符序列Xl得到新的待排序序列;再次递归排序直到待排序序列为空,直至完成所有行字符的筛选;如图3所示,所述步骤(3)中采用字符共线概念进行字符的筛选,具体为:每种字符的实际可能位置都作为筛选的条件之一;其中,第一种字符表示它的左上角点y轴坐标大于参考字符左上角点y轴坐标且它的右下角点y轴坐标小于参考字符右下角点y轴坐标;第二种字符表示它的左上角点 y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标;第三种字符表示它的左上角点y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符左上角点y轴坐标;第四种字符表示它的左上角点y轴坐标小于参考字符右下角点y轴坐标且它的右下角点y 轴坐标大于参考字符右下角点y轴坐标;第五种字符称为理想型共线字符,它表示字符的左上角点y轴坐标小于等于参考字符的中轴线y轴坐标且字符的右下角点y轴坐标大于等于中轴线y轴坐标;
(4)独立公式裁剪:根据一行中每个字符的坐标计算所述每个字符之间的间隔距离,记作Di(i=1,2…n);再计算每个字符之间的前后间隔的比率大小,记作Ri(i=1,2,…,n),将Ri的值作为筛选条件,如原理图4所示,图中的R6、R13、 R19分别代表前后独立公式间隔处的间隔比值,根据Ri的值进行筛选排序,通过由Ri排序后的i的值推算出每个独立公式所对应的首尾字符,再根据首尾字符的坐标实现独立公式的区域内所有字符的确定,接着寻找这些字符在y轴方向上的最大值和最小值,并换算出公式首尾字符的新坐标,以达到完整定位独立公式的目的,如图5所示;所述步骤(4)还包括定位框选的坐标作为公式的裁剪结果,如图6所示;所述步骤(4)中计算每个字符之间的前后间隔的比率大小的计算公式为:其中Di为每个字符之间的间隔距离,Ri为每个字符之间的前后间隔的比率大小;所述步骤(4)中通过由Ri排序后的i的值推算出每个独立公式所对应的首尾字符,再根据首尾字符换算后对应的左上角点和右下角点坐标实现独立公式的定位。
上面结合附图对本发明的实施方式作了详细的说明,但是本发明不限于上述实施方式,在所属技术领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。
Claims (10)
1.一种基于目标定位的独立公式的分割方法,其特征在于,具体包括以下步骤:
(1)字符检测定位:通过目标检测算法对公式中的每个字符进行定位检测,根据检测和定位的结果输出字符的定位坐标和所述字符的内容;
(2)字符按序排列:将所述定位坐标作为参考,将定位的每行的所述字符按照所述定位坐标进行排序,得到有序序列X;
(3)按行筛选字符:每次选取第一个字符作为一行的参考字符,从剩下的字符中筛选出与该第一个字符处于同一行的其他字符组成序列,将有序序列X减去该一行字符序列得到新的待排序序列,再次递归排序直到待排序序列为空,即完成所有行字符的筛选;
(4)独立公式裁剪:根据一行中每个字符的坐标计算所述每个字符之间的间隔距离,再计算每个字符之间的前后间隔的比率大小,根据间隔的比率大小进行筛选排序,再通过排序后的字符推算出每个独立公式所对应的首尾字符,再根据首尾字符的坐标实现独立公式的定位。
2.根据权利要求1所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(1)中采用的目标检测算法为YOLO v3算法,所述YOLO v3算法对文本做检测的计算过程为:
S1:对公式图片中的每个字符进行标注;
S2:通过DarkNet53网络对每个字符进行特征提取;并采用不同尺度的特征图对提取的特征进行目标检测;
S3:将DarkNet53网络产出的不同尺度的所述特征图作为输入,以FPN(featurepyramid networks)算法作为参考,通过卷积层和上采样对不同尺度的特征图进行融合,从而实现快速的对图片公式中的每个字符进行定位和检测。
3.根据权利要求2所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(1)中根据检测和定位的结果,分别输出每个字符定位框的左上角点坐标(left_x,left_y)和右下角点坐标(right_x,right_y)以及该字符的内容。
4.根据权利要求2所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(2)中所述有序序列X,记作X={x0,x1,x2,…,xn},n表示所有行字符的总个数。
5.根据权利要求2所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(3)具体为:为了从有序序列X中筛选出每行字符,每次选取第一个字符X0作为某一行的参考字符,从剩下的n-1个字符中筛选出与该字符X0处于同一行的其他字符组成序列,记作Xl;将所述有序序列X减去l行字符序列Xl得到新的待排序序列;再次递归排序直到待排序序列为空,直至完成所有行字符的筛选。
6.根据权利要求5所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(3)中采用字符共线概念进行字符的筛选,具体为:每种字符的实际可能位置都作为筛选的条件之一;其中,第一种字符表示它的左上角点y轴坐标大于参考字符左上角点y轴坐标且它的右下角点y轴坐标小于参考字符右下角点y轴坐标;第二种字符表示它的左上角点y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标;第三种字符表示它的左上角点y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符左上角点y轴坐标;第四种字符表示它的左上角点y轴坐标小于参考字符右下角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标;第五种字符称为理想型共线字符,它表示字符的左上角点y轴坐标小于等于参考字符的中轴线y轴坐标且字符的右下角点y轴坐标大于等于中轴线y轴坐标。
7.根据权利要求5所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(4)具体为:根据一行中每个字符的坐标计算所述每个字符之间的间隔距离,记作Di(i=1,2…n);再计算每个字符之间的前后间隔的比率大小,记作Ri(i=1,2,…,n),将Ri的值作为筛选条件,根据Ri的值进行筛选排序,通过由Ri排序后的i的值推算出每个独立公式所对应的首尾字符,再根据首尾字符的坐标实现独立公式的区域内所有字符的确定,接着寻找这些字符在y轴方向上的最大值和最小值,并换算出公式首尾字符的新坐标,以达到完整定位独立公式的目的。
8.根据权利要求7所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(4)还包括定位框选的坐标作为公式的裁剪结果。
10.根据权利要求7所述的基于目标定位的独立公式的分割方法,其特征在于,所述步骤(4)中通过由Ri排序后的i的值推算出每个独立公式所对应的首尾字符,再根据首尾字符换算后对应的左上角点和右下角点坐标实现独立公式的定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864395.2A CN110569853B (zh) | 2019-09-12 | 2019-09-12 | 一种基于目标定位的独立公式的分割方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910864395.2A CN110569853B (zh) | 2019-09-12 | 2019-09-12 | 一种基于目标定位的独立公式的分割方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110569853A CN110569853A (zh) | 2019-12-13 |
CN110569853B true CN110569853B (zh) | 2022-11-29 |
Family
ID=68779553
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910864395.2A Active CN110569853B (zh) | 2019-09-12 | 2019-09-12 | 一种基于目标定位的独立公式的分割方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569853B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113920286A (zh) * | 2020-06-22 | 2022-01-11 | 北京字节跳动网络技术有限公司 | 字符定位方法和装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149790A (zh) * | 2007-11-14 | 2008-03-26 | 哈尔滨工程大学 | 中文印刷体公式识别方法 |
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
CN106446896A (zh) * | 2015-08-04 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种字符分割方法、装置及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108304835B (zh) * | 2018-01-30 | 2019-12-06 | 百度在线网络技术(北京)有限公司 | 文字检测方法和装置 |
-
2019
- 2019-09-12 CN CN201910864395.2A patent/CN110569853B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101149790A (zh) * | 2007-11-14 | 2008-03-26 | 哈尔滨工程大学 | 中文印刷体公式识别方法 |
CN106446896A (zh) * | 2015-08-04 | 2017-02-22 | 阿里巴巴集团控股有限公司 | 一种字符分割方法、装置及电子设备 |
CN105184292A (zh) * | 2015-08-26 | 2015-12-23 | 北京云江科技有限公司 | 自然场景图像中手写体数学公式结构分析与识别方法 |
Non-Patent Citations (2)
Title |
---|
An Embedded Automatic License Plate Recognition System Using Deep Learning;Diogo M. F. Izidio, etc.;《2018 VIII Brazilian Symposium on Computing Systems Engineering》;20190418;全文 * |
文本行字符基线的精确测定算法;卢达等;《小型微型计算机系统》;20000708(第07期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN110569853A (zh) | 2019-12-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109635666B (zh) | 一种基于深度学习的图像目标快速检测方法 | |
CN104077777B (zh) | 一种海面舰船目标检测方法 | |
CN107844683B (zh) | 一种数字pcr液滴浓度的计算方法 | |
CN111967313B (zh) | 一种深度学习目标检测算法辅助的无人机图像标注方法 | |
CN109886978B (zh) | 一种基于深度学习的端到端告警信息识别方法 | |
CN110458791B (zh) | 质量缺陷检测方法和检测设备 | |
CN110659634A (zh) | 一种基于颜色定位和字符分割的集装箱箱号定位方法 | |
CN110310305B (zh) | 一种基于bssd检测与卡尔曼滤波的目标跟踪方法与装置 | |
CN110321769A (zh) | 一种多尺寸货架商品检测方法 | |
CN110263794B (zh) | 基于数据增强的目标识别模型的训练方法 | |
CN110210428B (zh) | 一种基于mser的远距离复杂环境下的烟雾根节点检测方法 | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112906794A (zh) | 一种目标检测方法、装置、存储介质及终端 | |
CN114781514A (zh) | 一种融合注意力机制的漂浮物目标检测方法及系统 | |
CN110910401A (zh) | 半自动化图像分割数据标注方法、电子装置及存储介质 | |
CN110569853B (zh) | 一种基于目标定位的独立公式的分割方法 | |
CN115147745A (zh) | 一种基于城市无人机图像的小目标检测方法 | |
CN114022837A (zh) | 车站遗留物品检测方法、装置、电子设备及存储介质 | |
CN106156691A (zh) | 复杂背景图像的处理方法及其装置 | |
CN110728269B (zh) | 一种基于c2检测数据的高铁接触网支柱杆号牌识别方法 | |
CN111626145A (zh) | 一种简捷有效的残缺表格识别及跨页拼接方法 | |
CN111738310B (zh) | 物料分类方法、装置、电子设备和存储介质 | |
CN103871089A (zh) | 一种基于融合的图像超像素网格化方法 | |
CN112053769B (zh) | 一种三维医学影像标注方法、装置及相关产品 | |
CN111612802B (zh) | 一种基于现有图像语义分割模型的再优化训练方法及应用 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |