CN110569853B

CN110569853B - 一种基于目标定位的独立公式的分割方法

Info

Publication number: CN110569853B
Application number: CN201910864395.2A
Authority: CN
Inventors: 田博帆
Original assignee: Nanjing Hongsong Information Technology Co ltd
Current assignee: Nanjing Hongsong Information Technology Co ltd
Priority date: 2019-09-12
Filing date: 2019-09-12
Publication date: 2022-11-29
Anticipated expiration: 2039-09-12
Also published as: CN110569853A

Abstract

本发明公开了一种基于目标定位的独立公式的分割方法，包括以下步骤：(1)字符检测定位：通过目标检测算法对公式中的每个字符进行定位检测，输出字符的定位坐标和内容；(2)字符按序排列：将定位的每行的所述字符按照所述定位坐标进行排序，得到有序序列；(3)按行筛选字符：每次选取第一个字符作为参考字符，从剩下的字符中筛选出与该第一个字符处于同一行的其他字符组成序列，将有序序列减去该一行字符序列得到新的待排序序列，再次递归排序直到待排序序列为空；(4)独立公式裁剪：计算每个字符之间的前后间隔的比率大小，进行筛选排序，再通过排序后的字符推算出每个独立公式所对应的首尾字符，从而实现独立公式的定位。

Description

一种基于目标定位的独立公式的分割方法

技术领域

本发明属于图像分割技术领域，尤其是涉及一种基于目标定位的独立公式的分割方法。

背景技术

随着人工智能的发展，自动批阅系统渐趋成熟，众多针对图像处理的研究技术层出不穷，其中独立公式分割技术成为了自动批阅系统的首要核心技术。当前大量研究表明，对图像中公式的检测，主要是通过图像的像素信息分析字符的轮廓来获取独立公式的结构特征，并根据获取到的结构特征对独立公式做出检测和分割。而通常依赖图像做像素级检测的方法不仅较为繁琐，而且检测效果往往并不理想，这些方法对图片的质量提出了较高要求，任何含有对公式结构特征带来干扰的信息图像，都将使学习到这类特征的准确性受到影响，检测变得十分困难。因此，本申请采用深度学习方法结合坐标计算原理对独立公式分割技术做出相关研究。

因此，有必要开发一种基于目标定位的独立公式的分割方法，对同时含有印刷体和手写体图片中的手写体部分做出精确定位，提高文本识别系统的精确度。

发明内容

本发明要解决的技术问题是，提供一种基于目标定位的独立公式的分割方法，能够对同时含有手写体和印刷体的图像做独立公式检测和分割。

为解决上述技术问题，本发明采用的技术方案是：该基于目标定位的独立公式的分割方法，具体包括以下步骤：

(1)字符检测定位：通过目标检测算法对公式中的每个字符进行定位检测，根据检测和定位的结果输出字符的定位坐标和所述字符的内容；

(2)字符按序排列：将所述定位坐标作为参考，将定位的每行的所述字符按照所述定位坐标进行排序，得到有序序列X；

(3)按行筛选字符：每次选取第一个字符作为一行的参考字符，从剩下的字符中筛选出与该第一个字符处于同一行的其他字符组成序列，将有序序列X 减去该一行字符序列得到新的待排序序列，再次递归排序直到待排序序列为空，即完成所有行字符的筛选；

(4)独立公式裁剪：根据一行中每个字符的坐标计算所述每个字符之间的间隔距离，再计算每个字符之间的前后间隔的比率大小，根据间隔的比率大小进行筛选排序，再通过排序后的字符推算出每个独立公式所对应的首尾字符，再根据首尾字符的坐标实现独立公式的定位。

采用上述技术方案，通过字符检测定位，得到字符的坐标，再根据字符的坐标进行排序和筛选，从而获得字符的定位并裁剪出独立的公式；当提供含有口算公式的图片时，不需要借助复杂的图像处理技术和考虑字符干扰的情况下，该技术能够对含有多个公式的图片实现独立公式的分割。

作为本发明的优选技术方案，所述步骤(1)中采用的目标检测算法为YOLO v3算法，所述YOLO v3算法对文本做检测的计算过程为：

S1：对公式图片中的每个字符进行标注；

S2：通过DarkNet53网络对每个字符进行特征提取；并采用不同尺度的特征图对提取的特征进行目标检测；

S3：将DarkNet53网络产出的不同尺度的所述特征图作为输入，以FPN(featurepyramid networks)算法作为参考，通过卷积层和上采样对不同尺度的特征图进行融合，从而实现快速的对图片公式中的每个字符进行定位和检测。YOLO v3算法首先采用人工标注的方式对公式图片中的每个字符进行标注，其次通过 DarkNet53网络对文本中的每个字符进行特征提取；同时为了能够更好的检测出大、中、小三种目标，YOLO v3还分别采用了13*13，26*26，52*52三种不同尺度的特征图来做目标检测；而在特征融合层，YOLO v3则选取DarkNet53产出的三种尺度特征图作为输入，并借鉴了FPN(feature pyramid networks)的思想，通过一系列的卷积层和上采样对各尺度的特征图进行融合,最终能够快速的达到对图片公式中的每个字符进行定位和检测的目的。

作为本发明的优选技术方案，所述步骤(1)中根据检测和定位的结果，分别输出每个字符定位框的左上角点坐标(left_x,left_y)和右下角点坐标(right_x, right_y)以及该字符的内容。

作为本发明的优选技术方案，所述步骤(2)中所述有序序列X，记作 X＝{x₀,x₁,x₂,…,x_n}，n表示所有行字符的总个数。

作为本发明的优选技术方案，所述步骤(3)具体为：为了从有序序列X中筛选出每行字符，每次选取第一个字符X₀作为某一行的参考字符，从剩下的n-1 个字符中筛选出与该字符X₀处于同一行的其他字符组成序列，记作X_l；将所述有序序列X减去l行字符序列X_l得到新的待排序序列；再次递归排序直到待排序序列为空，直至完成所有行字符的筛选。

作为本发明的优选技术方案，所述步骤(3)中采用字符共线概念进行字符的筛选，具体为：每种字符的实际可能位置都作为筛选的条件之一；其中，第一种字符表示它的左上角点y轴坐标大于参考字符左上角点y轴坐标且它的右下角点y轴坐标小于参考字符右下角点y轴坐标；第二种字符表示它的左上角点y 轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标；第三种字符表示它的左上角点y轴坐标小于参考字符左上角点 y轴坐标且它的右下角点y轴坐标大于参考字符左上角点y轴坐标；第四种字符表示它的左上角点y轴坐标小于参考字符右下角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标；第五种字符称为理想型共线字符，它表示字符的左上角点y轴坐标小于等于参考字符的中轴线y轴坐标且字符的右下角点y轴坐标大于等于中轴线y轴坐标。

作为本发明的优选技术方案，所述步骤(4)具体为：根据一行中每个字符的坐标计算所述每个字符之间的间隔距离，记作D_i(i＝1,2…n)；再计算每个字符之间的前后间隔的比率大小，记作R_i(i＝1,2,…,n)，将R_i的值作为筛选条件，根据R_i的值进行筛选排序，通过由R_i排序后的i的值推算出每个独立公式所对应的首尾字符，再根据首尾字符的坐标实现独立公式的区域内所有字符的确定，接着寻找这些字符在y轴方向上的最大值和最小值，并换算出公式首尾字符的新坐标，以达到完整定位独立公式的目的。

作为本发明的优选技术方案，所述步骤(4)还包括定位框选的坐标作为公式的裁剪结果。

作为本发明的优选技术方案，所述步骤(4)中计算每个字符之间的前后间隔的比率大小的计算公式为：

其中D_i为每个字符之间的间隔距离，R_i为每个字符之间的前后间隔的比率大小。

作为本发明的优选技术方案，所述步骤(4)中通过由R_i排序后的i的值推算出每个独立公式所对应的首尾字符，再根据首尾字符换算后对应的左上角点和右下角点坐标实现独立公式的定位。

相比现有技术，该技术方案具有的有益效果是：当提供含有口算公式的图片时，不需要借助复杂的图像处理技术和考虑字符干扰的情况下，该技术能够对含有多个公式的图片实现独立公式的分割。

附图说明

下面结合附图和本发明的实施方式进一步详细说明：

图1是本发明的基于目标定位的独立公式的分割方法的流程图；

图2是本发明的基于目标定位的独立公式的分割方法的步骤(1)的字符定位检测效果图；

图3是本发明的基于目标定位的独立公式的分割方法的字符共线概念图；

图4是本发明的基于目标定位的独立公式分割方法的独立公式裁剪原理图；

图5是本发明的基于目标定位的独立公式分割方法的独立公式检测结果图；

图6是本发明的基于目标定位的独立公式分割方法的独立公式裁剪效果图。

具体实施方式

实施例：如图1～6所示，该基于目标定位的独立公式的分割方法，具体包括以下步骤：

(1)字符检测定位：通过目标检测算法对公式中的每个字符进行定位检测，根据检测和定位的结果，分别输出每个字符定位框的左上角点坐标(left_x, left_y)和右下角点坐标(right_x,right_y)以及该字符的内容；所采用的目标检测算法为YoLo v3；其定位后的效果如图2所示；

所述YOLO v3算法对文本做检测的计算过程为：

S1：对公式图片中的每个字符进行标注；

S3：将DarkNet53网络产出的不同尺度的所述特征图作为输入，以 FPN(featurepyramid networks)算法作为参考，通过卷积层和上采样对不同尺度的特征图进行融合，从而实现快速的对图片公式中的每个字符进行定位和检测；

(2)字符按序排列：将所述定位坐标作为参考，将定位的每行的所述字符按照所述定位坐标进行排序，得到一个有序序列X，记作X＝{x₀,x₁,x₂,…,x_n}，n 表示所有行字符的总个数；

(3)按行筛选字符：为了从有序序列X中筛选出每行字符，每次选取第一个字符X₀作为某一行的参考字符，从剩下的n-1个字符中筛选出与该字符X₀处于同一行(如：l行)的其他字符组成序列，记作X_l；将所述有序序列X减去l 行字符序列X_l得到新的待排序序列；再次递归排序直到待排序序列为空，直至完成所有行字符的筛选；如图3所示，所述步骤(3)中采用字符共线概念进行字符的筛选，具体为：每种字符的实际可能位置都作为筛选的条件之一；其中，第一种字符表示它的左上角点y轴坐标大于参考字符左上角点y轴坐标且它的右下角点y轴坐标小于参考字符右下角点y轴坐标；第二种字符表示它的左上角点 y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标；第三种字符表示它的左上角点y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符左上角点y轴坐标；第四种字符表示它的左上角点y轴坐标小于参考字符右下角点y轴坐标且它的右下角点y 轴坐标大于参考字符右下角点y轴坐标；第五种字符称为理想型共线字符，它表示字符的左上角点y轴坐标小于等于参考字符的中轴线y轴坐标且字符的右下角点y轴坐标大于等于中轴线y轴坐标；

(4)独立公式裁剪：根据一行中每个字符的坐标计算所述每个字符之间的间隔距离，记作D_i(i＝1,2…n)；再计算每个字符之间的前后间隔的比率大小，记作R_i(i＝1,2,…,n)，将R_i的值作为筛选条件，如原理图4所示，图中的R₆、R₁₃、 R₁₉分别代表前后独立公式间隔处的间隔比值，根据R_i的值进行筛选排序，通过由R_i排序后的i的值推算出每个独立公式所对应的首尾字符，再根据首尾字符的坐标实现独立公式的区域内所有字符的确定，接着寻找这些字符在y轴方向上的最大值和最小值，并换算出公式首尾字符的新坐标，以达到完整定位独立公式的目的，如图5所示；所述步骤(4)还包括定位框选的坐标作为公式的裁剪结果，如图6所示；所述步骤(4)中计算每个字符之间的前后间隔的比率大小的计算公式为：

其中D_i为每个字符之间的间隔距离，R_i为每个字符之间的前后间隔的比率大小；所述步骤(4)中通过由R_i排序后的i的值推算出每个独立公式所对应的首尾字符，再根据首尾字符换算后对应的左上角点和右下角点坐标实现独立公式的定位。

上面结合附图对本发明的实施方式作了详细的说明，但是本发明不限于上述实施方式，在所属技术领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.一种基于目标定位的独立公式的分割方法，其特征在于，具体包括以下步骤：

(3)按行筛选字符：每次选取第一个字符作为一行的参考字符，从剩下的字符中筛选出与该第一个字符处于同一行的其他字符组成序列，将有序序列X减去该一行字符序列得到新的待排序序列，再次递归排序直到待排序序列为空，即完成所有行字符的筛选；

2.根据权利要求1所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(1)中采用的目标检测算法为YOLO v3算法，所述YOLO v3算法对文本做检测的计算过程为：

S1：对公式图片中的每个字符进行标注；

S3：将DarkNet53网络产出的不同尺度的所述特征图作为输入，以FPN(featurepyramid networks)算法作为参考，通过卷积层和上采样对不同尺度的特征图进行融合，从而实现快速的对图片公式中的每个字符进行定位和检测。

3.根据权利要求2所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(1)中根据检测和定位的结果，分别输出每个字符定位框的左上角点坐标(left_x,left_y)和右下角点坐标(right_x,right_y)以及该字符的内容。

4.根据权利要求2所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(2)中所述有序序列X，记作X＝{x₀,x₁,x₂,…,x_n}，n表示所有行字符的总个数。

5.根据权利要求2所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(3)具体为：为了从有序序列X中筛选出每行字符，每次选取第一个字符X₀作为某一行的参考字符，从剩下的n-1个字符中筛选出与该字符X₀处于同一行的其他字符组成序列，记作X_l；将所述有序序列X减去l行字符序列X_l得到新的待排序序列；再次递归排序直到待排序序列为空，直至完成所有行字符的筛选。

6.根据权利要求5所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(3)中采用字符共线概念进行字符的筛选，具体为：每种字符的实际可能位置都作为筛选的条件之一；其中，第一种字符表示它的左上角点y轴坐标大于参考字符左上角点y轴坐标且它的右下角点y轴坐标小于参考字符右下角点y轴坐标；第二种字符表示它的左上角点y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标；第三种字符表示它的左上角点y轴坐标小于参考字符左上角点y轴坐标且它的右下角点y轴坐标大于参考字符左上角点y轴坐标；第四种字符表示它的左上角点y轴坐标小于参考字符右下角点y轴坐标且它的右下角点y轴坐标大于参考字符右下角点y轴坐标；第五种字符称为理想型共线字符，它表示字符的左上角点y轴坐标小于等于参考字符的中轴线y轴坐标且字符的右下角点y轴坐标大于等于中轴线y轴坐标。

7.根据权利要求5所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(4)具体为：根据一行中每个字符的坐标计算所述每个字符之间的间隔距离，记作D_i(i＝1,2…n)；再计算每个字符之间的前后间隔的比率大小，记作R_i(i＝1,2,…,n)，将R_i的值作为筛选条件，根据R_i的值进行筛选排序，通过由R_i排序后的i的值推算出每个独立公式所对应的首尾字符，再根据首尾字符的坐标实现独立公式的区域内所有字符的确定，接着寻找这些字符在y轴方向上的最大值和最小值，并换算出公式首尾字符的新坐标，以达到完整定位独立公式的目的。

8.根据权利要求7所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(4)还包括定位框选的坐标作为公式的裁剪结果。

9.根据权利要求7所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(4)中计算每个字符之间的前后间隔的比率大小的计算公式为：

10.根据权利要求7所述的基于目标定位的独立公式的分割方法，其特征在于，所述步骤(4)中通过由R_i排序后的i的值推算出每个独立公式所对应的首尾字符，再根据首尾字符换算后对应的左上角点和右下角点坐标实现独立公式的定位。