CN105913057A

CN105913057A - 一种结合投影和结构特征进行图像中数学公式检测方法

Info

Publication number: CN105913057A
Application number: CN201610223354.1A
Authority: CN
Inventors: 黄祥林; 宋格格; 杨丽芳; 陶竹林; 刘守训
Original assignee: Communication University of China
Current assignee: Communication University of China
Priority date: 2016-04-12
Filing date: 2016-04-12
Publication date: 2016-08-31
Anticipated expiration: 2036-04-12
Also published as: CN105913057B

Abstract

本发明是一种结合投影和结构特征进行图像中数学公式检测的方法。本方法是对任意文本图像进行灰度化、二值化、分割，获取分割字符的投影特征与字符间的结构特征，并与给定字符的投影和结构特征进行对比，进而检测出数学公式文本图像。给定的字符包括：分式/矩阵/大于等于号/小于等于号、乘号、含根号字符/未完全分割的分式、数学向量、含有上标或者下标的字符，以及数学公式中的特殊字符。本发明主要通过投影和结构特征来进行检测，与常见的模式识别等检测方式相比，无需大量样本进行训练，检测方法简单，计算量少，便于实现，且对图像的清晰度、矫正度等要求不严格，识别率高。

Description

一种结合投影和结构特征进行图像中数学公式检测方法

技术领域

本发明是一种结合投影和结构特征进行图像中数学公式检测方法，属于图像处理和图像识别领域。

背景技术

结合投影和结构特征进行数学公式图像检测并不是数学公式检测方法中常见的方法。在对图像进行数学公式检测时，首先要对图像进行预处理，预处理一般包括二值化、倾斜校正、图像细化等等。然后对图像进行字符分割，对分割出的字符进行水平投影与垂直投影获取字符的投影特征，同时通过分割出的字符的位置获取字符间的结构特征，将分割出的字符投影特征与给定字符的投影特征进行对比，字符间的结构特征与给定的结构特征进行对比来进行判断是否为数学公式图像。

在计算机中存储的各种数字图像，由于在扫描或传输过程引入噪声（例如扫描得到的电子图书）会造成图像倾斜、图像模糊、图像出现断点等问题。此外，数学公式图像的排版结构多种多样，因此，在检测的过程中，用户希望系统能具有很好的鲁棒性，能够解决这些问题而将数学公式图像快速检测出来。现有的数学公式检测方法主要是模式识别、OCR技术等等，此类技术虽然能够检测出数学公式图像，但是方法较复杂，实现起来较困难，且对图像要求比较高。

发明内容

本发明提出了一种结合投影和结构特征进行图像中数学公式检测方法，该方法与模式识别等方法相比，方法复杂度低，实现起来简单且对图像质量的要求低。通过将分割出的字符与给定字符的投影特征进行对比，将字符间的结构特征与给定的结构特征进行对比，判断是否为数学公式图像，方法实现简单，执行速度快。

本发明的总体思想如下：本发明是对任意文本图像进行二值化、字符分割，对分割出的字符进行投影，通过将分割出的字符与给定字符的投影特征进行对比，将字符间的结构特征与给定的结构特征进行对比，判断是否为数学公式图像。数学检测方法主要由大于等于号/小于等于号/分式/矩阵检测、乘号检测、分割大模块中的根号检测/分式检测（主要用于检测根号及未分割开的分式）、数学向量/分式检测、上标/下标检测以及特殊字符模板匹配六个模块组成。将检测的文本图像进行二值化，对图像进行分割，对分割出的字符进行水平投影与垂直投影获取分割字符的投影特征，通过分割出的字符的位置获取字符间的结构特征，并与检测方法的六个模块进行匹配对比。若符合某一模块的检测，则判定为数学公式图像，结束对图像的检测判断。否则进行下一模块检测。大于等于号/小于等于号/分式/矩阵检测主要对简单的数学分式、数学矩阵以及图像中含有大于等于号/小于等于号的图像进行检测；乘号检测主要检测图像中是否含有乘号；分割大模块中的根号检测/分式检测主要用于检测图像中是否含有根号或者因图像倾斜未分割开的分式的图像，其中未分割开的分式图像包括仅含有分式线与分子的图像、仅含有分式线与分母的图像、含有分式线与分子分母的图像；数学向量/分式检测模块主要对数学中的向量及复杂的数学分式进行检测；上标/下标检测主要是检测数学公式中的上标与下标；特殊字符模板匹配主要是检测数学中特有的一些字符，如。

具体创新点：本发明提出了结合投影和结构特征进行图像中数学公式检测方法。该方法的核心是提取字符的数量特征，即通过对字符进行水平投影与垂直投影，获取其水平投影特征与垂直投影特征。该方法通过结合数学公式中特有字符的投影特征以及数学公式中特有的排版结构来检测数学公式图像。

本发明的技术方案如图1所示。用于该数学公式检测系统的检测图像可以是bmp格式（或其他格式）的图像，首先由用户输入检测的文本图像，再对图像进行分割，对分割出的字符进行水平投影与垂直投影同时对分割出的字符位置进行计算，获取分割字符的投影特征与字符间的结构特征并进行判断。其主要过程为：待检测的文本图像先进行灰度化与二值化，然后对图像进行分割，对分割出的字符依次进行大于等于号（）/小于等于号（）/分式/矩阵检测、乘号检测、分割大模块中的根号检测/分式检测、数学向量/分式检测、上标/下标检测以及特殊字符模板匹配六个模块的检测。若符合某一检测模块则判定为数学公式图像，同时结束对图像的检测，否则进行下一模块的检测。

具体方法步骤为：

待检测的文本图像先进行灰度化与二值化，然后对图像进行初次分割，初次分割是先进行一次垂直投影分割，再进行一次水平投影分割。对分割出的字符进行数学小于等于号（）/大于等于号（）检测、分式检测、矩阵检测。之后再对图像进行再分割，再分割是指对图像进行垂直投影分割与水平投影分割，直到图像无法进行分割为止。对再次分割出的字符依次进行乘号检测、分割大模块中的根号检测/分式检测、数学向量/分式检测、上标/下标检测以及特殊字符模板匹配。若符合某一检测模块则判定为数学公式图像，同时结束对图像的检测，否则进行下一模块的检测。

所述的大于等于号/小于等于号/分式/矩阵检测、乘号检测、分割大模块中的根号检测/分式检测、数学向量/分式检测、上标/下标检测以及特殊字符模板匹配的具体方法如下：

现有待检测文本图像初次分割所得的分割字符的位置链表S1、再次分割所得的分割字符的位置链表S2。

1、采用本发明提出的大于等于号/小于等于号/分式/矩阵检测方法，通过数学公式中分式、矩阵的结构特点以及小于等于号/大于等于号的投影特点来检测是否为数学公式图像。

根据分式、小于等于号、大于等于号、矩阵符号（[…]）的投影特点对初次分割的字符进行检测。分式的特点是：中间的分式线为一条水平直线，在垂直方向上的投影为一条直线，在水平方向上的投影为一个点；分式线的上下都含有字符，且所有字符均位于分式线左右边界之内。小于等于号（）、大于等于号（）的投影特点：下方为一条水平直线，直线下方无字符存在，直线上方区域的水平投影与垂直投影均近似为一条直线。矩阵符号（[…]）的判断，若一个字符的水平投影的像素点含有一个拐点，将字符分为上、中、下三部分，中部部分为一条竖直直线，则判定该字符为矩阵符号。

该检测方法的步骤如下：

（1）对S1中的字符进行水平直线或者矩阵的矩阵符号（[…]）检测，通过字符的垂直投影与水平投影判断字符是否为水平直线或者矩阵的矩阵符号（[…]）；若检测的字符为水平直线，则跳转到第（2）步进行检测，若为矩阵的矩阵符号（[…]），则直接跳转到第（3）步的检测，若未检测到含有水平直线或者矩阵的矩阵符号（[…]），则对S1中的字符进行再次分割（再次分割是指对字符进行水平投影分割和垂直投影分割，直到无法再进行分割为止）得到分割字符的位置链表S2，对S2中的字符进行下一模块检测——乘号检测；

（2）若字符为水平直线，检测在直线下方是否含有字符存在，若直线下方含有字符，则进行分式的检测，若判定为数学分式，则判定图像为数学公式图像，结束对图像的检测；否则停止分式的检测，接着对S1中的字符进行第（1）步检测；若直线下方没有字符，则进行小于等于号/大于等于号检测，若判断含有小于等于号/大于等于号，判定图像为数学公式图像，结束对图像的检测；否则停止小于等于号/大于等于号的检测，接着对S1中的字符进行第1步检测

（3）若字符为矩阵符号，判断矩阵符号之间的字串行、字串列是否排列整齐，即位于同一行的字符下边界是否近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），同一列的字符左边界是否近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），若排列整齐则判定为数学矩阵，判定图像为数学公式图像，结束对图像的检测；否则停止矩阵的检测，接着对S1中的字符进行第（1）步检测。

2、采用本发明提出的乘号检测方法，针对图像中是否含有乘号来进行判定是否为数学公式图像。根据乘号的投影特点：字符的宽度与长度基本相同，呈正方形；水平、垂直投影均为中间值为最小值，最小值两边呈直线分布。同时对乘号进行检测时要避免与C、O相混淆。通过检测字符区域最左侧的中间区域是否含有像素点，来区分乘号与C、O。如果最左侧的中间区域含有像素点，则不为乘号。该方法检测的步骤如下：

（1）对S2中的字符进行字符的宽度高度对比，乘号字符呈正方形，若宽度与高度近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），则进行第（2）步判断，否则接着对S2中的字符进行宽度高度检测，若未检测到符合条件的字符，则进行下一模块检测——分割大模块中的根号检测/分式检测；

（2）对字符进行水平投影、垂直投影，获得水平投影直方图X1与垂直投影直方图X2；

（3）寻找X1、X2中最小值的位置local1、local2；

（4）判断local1、local2是否位于字符的中心位置，若两位置中有一个位置位于非中心位置则停止进行字符的乘号检测，接着对S2中的字符进行第（1）步检测；若两位置均位于中心位置，接着判断local1两侧水平投影是否为两条垂直直线以及判断local2两侧垂直投影是否为两条水平直线，若均为直线则进行第（5）步检测，否则停止乘号检测，接着对S2中的字符进行第（1）步检测；

（5）检测字符最左侧中间的位置是否存在像素点，若不存在像素点则判定字符为乘号，判定图像为数学公式图像，结束对图像的检测；否则停止乘号检测，接着对S2中的字符进行第（1）步检测。

3、采用本发明提出的分割大模块中的根号检测/分式检测方法，主要用于检测图像中是否含有根号以及因图像采集过程中受噪声影响而未分割开的分式。数学公式中的分式特点：分式线比分子、分母的长度长，即在一个数学分式中最右侧与最左侧的第一个像素点应属于分式线上；分子分母位于直线的中间位置；分式线两侧超过分子分母中较长的一方的两侧的部分均应小于一个字符的宽度。根号的特点：字符顶部含有一条直线、字符的像素点较集中，密度大、字符左侧区域的像素点位于字符的下半部分。该方法的步骤如下：

（1）对S2中的字符进行大的分割模块的选取，选取的标准为：宽度大于w_z (90<w_z<110)，高度大于h_z (90< h_z <110)，且分割字符某一范围内的像素数的宽度与字符总宽度之比rat大于r_z (0.35< r_z <0.4)，对选取的字符进行第（2）步处理，若没有符合条件的字符，则进行下一模块检测——数学向量/分式检测；

（2）判断分割模块的顶部是否含有直线，如果有则假定是在根号下的图像，进行第（3）步检测，没有则假定是未分割开的分式图像，进行第（4）步检测；

（3）对于根号图像，判断字符左侧区域的像素点是否位于字符的下半部分，若字符左侧区域的像素点位于字符的下半部分，则图像判定为含有根号的数学公式图像，结束对图像的检测；否则进行第（5）步检测，进行分式检测；

（4）对未分割开的分式图像查找直线位置，为了防止图像倾斜，在查找直线位置时，先获取右侧从上到下、从下到上两个方向查找的第一个像素点的两个位置A、B。通过A、B两位置获取左侧从上到下、从下到上两个方向查找的第一个像素点的位置A1、B1，判断四个位置所形成的区域内的字符是否为直线；如果是直线则对直线下方区域重新进行检测，获取下方区域新的左边界与右边界，进行第（5）步分式检测，否则停止检测，接着对S2中的字符进行第（1）步检测；

（5）检测直线上下两侧的字符是否位于直线的中心位置区域，同时判断直线两侧超过上下两侧字符中字符长度较长的字符的左右两侧的长度均小于一个字符的宽度，如果满足条件，则判定为分式，是数学公式图像，停止对图像的检测；否则停止该部分的检测，接着对S2中的字符进行第（1）步检测。

4、采用本发明提出的数学向量/分式检测方法，该部分的方法主要检测数学公式中的向量以及通过再次分割之后分割开来的分式，该方法的步骤如下：

（1）对S2中的字符进行水平直线检测、水平箭头检测，若字符为水平直线或者水平箭头，进行第（2）步检测；若未检测到水平直线或者水平箭头，则进行下一模块检测——上标/下标检测；

（2）若图像检测出字符e为水平直线或者水平箭头，检测e下方是否含有字符，若不含字符，则停止该部分的检测，接着对S2中的字符进行第（1）步检测；若下方含有字符，则判断e与下方字符之间的距离，若距离大于e1（10<e1<20），则停止该部分的检测，接着对S2中的字符进行第（1）步检测；若小于e1，判断e上方是否含有字符，若不含字符则进行第（4）步的向量检测；若含有字符且e为直线，则进行第（3）步的分式检测；若含有字符且e为箭头，则停止该部分的检测，接着对S2中的字符进行第（1）步检测；

（3）判断直线与上方字符之间的距离，若距离大于e1，则停止该部分的检测，接着对S2中的字符进行第（1）步检测；若小于e1，进行直线上下两侧相邻字符区域合并，判断上下两侧合并后的字符是否均位于水平直线的中间位置，且直线左右两侧超过上下字符中长度较长的字符的左右两侧的长度均不超过一个字符的宽度，若上下字符符合条件，则判定为数学公式，停止对图像的检测；否则停止该部分的检测，接着对S2中的字符进行第（1）步检测；

（4）对字符e下方相邻字符区域进行合并，判断下方合并后的字符是否均位于字符e的中间位置，且字符e的左右两侧超过下方字符左右两侧的长度均不超过一个字符的宽度，若下方字符符合条件，则判定为数学公式，停止对图像的检测；否则停止该部分的检测，接着对S2中的字符进行第（1）步检测；其中，e1为两字符可以进行组合的最小垂直距离值。

5、采用本发明提出的上标/下标检测方法，数学中经常为了进行区分字符或者进行运算来设定上下标，常见的上下标很少位于字符的左侧，主要位于字符的右侧，形成带有右侧上标或者带有右侧下标的字符。本检测方法主要是针对数学中的带有右侧上标、右侧下标的字符进行检测。其具体的步骤为：

（1）通过S2中分割出的字符的位置判断字符间的位置关系，若字符a位于字符b的右侧，则接着进行检测，否则接着对S2中的字符进行位置检测，若未检测到符合条件的字符，则进行下一模块检测——特殊字符模板匹配；

（2)判断字符a的高度、宽度、上边界值、下边界值，字符a的高度、宽度位于(s₀, s₁)范围内(7< s₀<12,35< s₁<45)，a的高度小于b的高度，两字符间的距离应小于T₁（12< T₁<17），a的上边界位于字符b上边界的上方且a的下边界应位于字符b的处的上方s₂（s₂位于字符b的0.4-0.55高度处）或者a的下边界位于字符b下边界的下方且a的上边界应位于字符b的处的下方区域s₃（s₃的取值范围为字符b的高度的0.25-0.4之间）；

（3）判断字符b的上方有无其他字符存在,若不含字符，则判定图像为数学公式图像，停止对图像的检测；若含有字符，则对S2中的字符接着进行第1步的检测，直到字符检测完为止；

其中s₀为上标/下标高度、宽度的最小阈值，s₁为上标/下标高度、宽度的最大阈值，s₂为字符a若为右侧上标时的最大下边界阈值，s₃为字符a若为右侧上标时的最小上边界阈值，T₁为两字符可进行组合成含有上标或者下标的最大距离值。

6、采用本发明提出的特殊字符模板匹配方法，对数学中的特殊字符进行模板匹配识别，如等特殊字符。其方法检测步骤如下：

（1）选取一定数量的宽度高度均小于T_w (90< T_w <120)的字符进行归一化处理；

（2）通过欧式距离计算待检测字符与二值化的模板的相似距离d₁、二值化的模板与待检测字符的相似距离d₂；

（3）对d₁、d₂中的最大值与阈值T_d（90< T_d<160）进行对比，若小于T_d，则判定两字符匹配，图像判定为数学公式图像，否则判定两字符不相匹配，图像判定为非数学公式图像；其中，T_d为两字符匹配的最大相似距离。

本发明提出了结合投影和结构特征进行图像中数学公式检测的方法，该方法主要通过对字符进行分解，获取字符每一部分的数量特征，通过投影方法获取字符的水平投影特征与垂直投影特征进行字符检测。同时通过分解出的字符位置获得字符间的结构特征，通过与特定的字符结构对比进行数学公式的检测。该数学公式检测方法简单，便于实现，对图像质量要求低，识别率高。

附图说明

图1 数学公式检测系统整体流程框图。

图2大于等于号/小于等于号/分式/矩阵检测方法流程图。

图3乘号检测方法流程图。

图4分割大模块中的根号检测/分式检测方法流程图。

图5数学向量/分式检测方法流程图。

图6上标/下标检测方法流程图。

图7特殊字符模板匹配方法流程图。

具体实施方式

下面结合附图对本发明作进一步说明：

本实施例的技术方案如图1所示：

本实施实例中采用的图像数据库是由扫描仪扫描得到的文档图像数据库，待检测的文本图像可以是bmp格式（或其他格式）的图像，保存于本地磁盘上。本实施实例中的表格图像检测方法采用VS2012编程实现。

1、首先，用户输入检测的文本图像，对输入的检测文本图像先进行灰度变换和全局二值化，全局二值化的阈值设定为220，对二值化后的图像进行初次分割，先进行一次垂直投影分割，对分割出的字符进行一次水平投影分割，得到待检测文本图像的初次分割的字符链表S1，对分割出的字符进行水平投影与垂直投影，获取字符的投影特征，进行数学中小于等于号（）/大于等于号（）检测、分式检测、矩阵检测，若该模块检测的图像不为数学公式图像，则进行下一模块检测。该模块检测方法流程图如图2所示，该检测方法的步骤如下：

（1）对S1中的字符依次通过字符的垂直投影与水平投影检测字符是否为水平直线或者矩阵的矩阵符号（[…]），直到将S1中的字符检测完为止；若检测的字符为水平直线，则跳转到第（2）步进行检测，若为矩阵的矩阵符号（[…]），则直接跳转到第（3）步的检测，若S1中的字符没有水平直线或者矩阵的矩阵符号（[…]），则停止该模块的检测，对S1中的字符进行再次分割（再次分割是指对字符进行水平投影分割和垂直投影分割，直到无法再进行分割为止）得到分割字符的位置链表S2，对S2中的字符进行下一模块检测——乘号检测；

（2）若字符为水平直线，检测直线下方是否含有字符存在，若直线下方含有字符，则进行分式的检测：

1）判断直线与下方字符间的距离l_b，若l_b小于阈值y_b（y_b取值为40），则进行第2）步检测，否则停止分式的检测，接着对S1中的字符进行第（1）步检测，

2）判断直线的上方是否存在字符，且上方字符与直线之间的距离小于阈值y_b，如含有符合条件的字符则进行第3）步检测，否则停止分式的检测，接着对S1中的字符进行第（1）步检测；

3）判断上下字符是否均位于水平直线的中间位置，且直线左右两侧超过上下字符中长度较长的字符的左右两侧的长度均不超过一个字符的宽度，若上下字符符合条件，则判定为数学分式，图像为数学公式图像，否则停止分式的检测，接着对S1中的字符进行第（1）步检测；其中，y_b为字符间可以进行组合的最小距离值；

若水平直线下方没有字符，则进行小于等于号（）/大于等于号（）检测：

1）判断水平直线的上方是否存在字符且上方字符与水平直线之间的距离小于T_eq（T_eq取值为10），直线上方字符的水平投影为一条垂直直线且垂直投影为一条水平直线，如含有符合条件的字符则进行第2）步检测，否则停止小于等于号/大于等于号的检测，接着对S1中的字符进行第（1）步检测，

2）判断水平直线上方字符的左右边界值是否与水平直线的左右边界近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），且字符宽度小于w₂(w₂取值为50)，若有字符符合条件，则判定为数学公式中的大于等于号或者是小于等于号，停止对图像进行检测，将图像判定为数学公式图像，否则停止小于等于号/大于等于号的检测，接着对S1中的字符进行第（1）步检测；

（3）字符为矩阵的矩阵符号（[…]），若一个字符满足：

1）字符宽度位于(T_w1，T_w2)范围内（T_w1取值17，T_w2取值50），

2）字符水平投影的像素点含有一个拐点，

3）将字符等分为上、中、下三部分，中部部分为一条竖直直线；则判定该字符为矩阵符号，其中，T_w1为矩阵符号宽度的最小阈值，T_w2为矩阵符号宽度的最大阈值；

若含有矩阵符号，判断矩阵符号之间的位于同一行的字符下边界是否近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），同一列的字符左边界是否近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），若同一行字符的下边界近似相等且同一列的字符左边界近似相等，则判定为数学矩阵，判定图像为数学公式图像，否则停止矩阵的检测，接着对S1中的字符进行第（1）步检测。

2、对S2中的字符进行乘号检测方法，该模块的检测是针对图像中是否含有乘号来进行判定是否为数学公式图像，若判断不为数学公式图像，则进行下一模块的检测——分割大模块中的根号检测/分式检测。乘号检测方法流程图如图3所示，该检测方法的步骤如下：

（1）对S2中的字符依次进行字符的宽度高度进行对比，乘号字符呈正方形，若宽度与高度近似相等（本发明中两数值相差m(4<m<8)以内则判定两数值近似相等），则进行第（2）步判断，否则接着对S2中的字符进行宽度高度检测，若未检测到符合条件的字符，则进行下一模块检测——分割大模块中的根号检测/分式检测；

（3）寻找X1、X2中最小值的位置local1、local2；

（4）判断local1、local2是否位于字符的中心位置，若两位置中有一个位置位于非中心位置则停止进行字符的乘号检测，若两位置均位于中心位置，接着判断local1两侧的水平投影是否为垂直直线以及判断local2两侧的垂直投影是否为水平直线，若均为直线则进行第（5）步检测，否则停止乘号检测，接着对S2中的字符进行第（1）步检测；

（5）检测字符最左侧中间的位置是否存在像素点，若不存在像素点则判定字符为乘号，否则停止乘号检测，接着对S2中的字符进行第（1）步检测。

3、对分割出的字符进行分割大模块中的根号检测/分式检测，该模块主要用于检测图像中是否含有根号以及因图像采集过程中受噪声影响而未分割开的分式，若判断不为数学公式图像，则进行下一模块的检测——数学向量/分式检测。分割大模块中的根号检测/分式检测方法流程图如图4所示，该检测方法的步骤如下：

（1）对S2中的字符进行选取，选取分割字符较大的字符进行处理。本发明中选取的大模块的标准为宽度大于100，高度大于100，并且分割字符某一范围内（该范围设定为平均像素数上下10个，且最低像素数不能少于5）的像素数的宽度与字符总宽度之比rat要大于0.36。若未检测到符合条件的字符，则进行下一模块检测——数学向量/分式检测。

分割字符某一范围内的像素数的宽度与字符总宽度之比rat的具体计算方法如下：

1）对字符进行垂直投影，获得垂直投影直方图J，

2）计算直方图J中像素值大于b_m（b_m取值4）的总的像素值b_num，

3）用总的像素值b_num除以字符的宽度，得到每列像素的平均值b_aw，判断b_aw的值是否大于b_math(b_math取值为8)，若大于，则进行4）步计算，否则停止计算，将rat赋值为0，

4）计算直方图J中像素值位于(b_aw-10，b_aw+10)之间的列数和S_row，其中b_aw-10取b_aw-10与b_m两者的最大值，

5）通过列数和S_row除以字符宽度得到像素数的宽度与字符总宽度之比rat。

（3）对于根号图像，判断字符左侧区域的像素点是否位于字符的下半部分，若字符左侧区域的像素点位于字符的下半部分，则图像为含有根号的数学公式图像，否则进行第（5）步分式检测；

（4）对未分割开的分式图像查找直线位置，为了防止图像倾斜，在查找直线位置时，先检测右侧从上到下第一个像素点的位置A和从下到上第一个像素点的位置B，在查找到A、B位置之后，还需要查找区域Q2内（Q2上边界为字符上边界，下边界为A-30）从上到下最左侧第一个像素点的位置A1，区域Q3内（Q3上边界为B+10，下边界为字符下边界）从下到上找到最左侧第一个像素点的位置B1。获取直线区域Q4，区域Q4的上边界为A、A1的最小值，直线的下边界为B、B1之间的最大值，判断区域内的字符是否为直线。如果是直线则对直线下方区域重新进行检测，获取下方区域新的左边界与右边界，进行第（5）步分式检测，否则停止检测，接着对S2中的字符进行第（1）步检测；

（5）检测直线上下两侧的字符是否位于直线的中心位置区域，同时判断直线两侧超过上下两侧字符中字符长度较长的字符的长度均小于一个字符的宽度，如果满足条件，则判定为分式，是数学公式图像，否否则停止检测，接着对S2中的字符进行第（1）步检测。

4、对分割出的字符进行数学向量/分式检测，该模块主要检测数学公式中的向量以及通过再次分割之后分割开来的分式，若该模块判断文本图像不为数学公式图像，则进行下一模块的检测——上标/下标检测。数学向量/分式检测方法流程图如图5所示，具体步骤如下：

（1）对S2中的字符进行水平直线或者水平箭头检测，通过字符的投影特征判断字符是否为水平直线或者水平箭头。若含有水平直线或者水平箭头，则进行第（2）步检测，若未检测到水平直线或者水平箭头，则进行下一模块的检测——上标/下标检测。

水平箭头检测方法如下：

1）利用投影方法，检测一个字符是否为水平直线，若是水平直线，则将该字符分为两部分，

2）对两部分重新进行水平方向上的投影分割，对比重新分割后的两字符的高度变化，若两字符的高度差大于5，则判定该字符为箭头；

（2）检测出字符e为水平直线或者水平箭头，检测e下方是否含有字符，若不含字符，则停止该部分的检测，接着对S2中的字符进行第（1）步检测，若含有字符判断字符e与下方字符之间的距离，若距离大于15，则停止该部分的检测，接着对S2中的字符进行第（1）步检测；若距离小于15，判断e上方是否含有字符，若不含字符则进行第（4）步的向量检测；若含有字符且e为直线，则进行第（3）步的分式检测；若含有字符且e为箭头，则停止该部分的检测，接着对S2中的字符进行第（1）步检测；

（3）判断字符e与上方字符之间的距离，若距离大于15，则停止该部分的检测，接着对S2中的字符进行第（1）步检测；若距离小于15，直线上方与下方相邻区域字符进行合并，判断上下两侧合并后的字符是否均位于水平直线的中间位置，且直线左右两侧超过上下字符中长度较长的字符的左右两侧的长度均不超过一个字符的宽度，若上下字符符合条件，则判定为数学公式，否则停止该部分的检测，接着对S2中的字符进行第（1）步检测；

（4）对字符e下方相邻区域的字符进行合并，判断下方合并后的字符是否位于字符e的中间位置，且字符e的左右两侧超过下方字符左右两侧的长度不超过一个字符的宽度，若下方字符符合条件，则判定为数学公式，否则停止该部分的检测，接着对S2中的字符进行第（1）步检测。

5、对分割后的字符进行上标/下标检测，主要对数学中的右侧上标、右侧下标进行检测，若不含右侧上标、右侧下标，进行下一模块的检测——特殊字符模板匹配。数学上标/下标检测方法流程图如图6所示，具体步骤如下：

（2)判断字符a的宽度小于20或者宽度大于20且宽度大于b宽度的0.3，a的高度小于b的高度，a的右侧边界值应该小于b右边界值与b宽度之和，字符a的下边界值位于字符b的上边界与b高度的1/2处之间或者a的上边界位于b高度的1/2处与b下边界值加10个像素点之间。若符合则进行第（3）步检测；

（3）判断字符b的上方有无其他字符存在。若不含字符，则判定为数学公式图像，若含有字符，则对S2中的字符接着进行第（1）步的检测，直到字符检测完为止。

6、对分割出的字符进行特殊字符模板匹配检测，该模块对数学中的特殊字符进行模板匹配识别。若该模块判断文本图像不为数学公式图像，则该文本图像为非数学公式图像。特殊字符模板匹配方法流程图如图7所示，具体步骤如下：

1）对S2中的字符进行归一化，本专利选取40个宽度高度均小于100的待识别字符进行匹配识别，归一化后的字符大小为20*40；

2）通过欧式距离计算待检测字符与二值化的模板的相似距离d₁、二值化的模板与待检测字符的相似距离d₂；

3）判断d₁、d₂的最大值是否小于120，小于则判定为两个字符相同，则判定图像为数学公式图像，否则判定图像为非数学公式图像。

本发明提出了结合投影和结构特征进行图像中数学公式检测的方法，该方法主要通过投影方法来进行检测，对图像进行分割，对分割出的字符进行投影获取字符的投影特点，同时通过字符的位置获得字符间的结构特征。通过与给定字符给定的结构进行对比进行数学公式的检测。该数学公式检测方法简单，便于实现，对图像质量要求低，识别率高。

表1给出了数学公式图像检测方法的检测结果。

测试样本数（张）	误识别数（张）	误识别率（%）
			2640	82	3.106

本发明中的分类检测库来自于专利申请材料中的数学、化学、表格、纯文本四类文本图像。在验证方法的有效性时，选择的内容主要为传真和文件扫描所获得的图像。测试的图像库中共有文本图像2640张，其中含有数学公式图像1474张，非数学公式图像1166张，检测结果如表1所示。

实验结果表明，本发明所提出的方法，可以很好的实现数学公式图像与非数学公式图像的分类。

Claims

1.一种结合投影和结构特征进行图像中数学公式检测的方法，具体步骤为：本发明是对任意文本图像进行二值化、字符分割，对分割出的字符进行水平投影与垂直投影，获取字符的投影特征，通过分割出的字符位置获取字符间的结构特征，将分割出的字符与给定字符进行投影特征的对比，分割出的字符间的结构特征与给定结构进行对比，判断是否为数学公式图像；其特征在于：所述的将分割出的字符与给定字符进行投影特征的对比，分割出的字符间的结构特征与给定结构进行对比，判断是否为数学公式图像的具体方法如下：

步骤1，对需要进行检测的图像进行灰度化、二值化预处理，并对图像先进行一次垂直投影分割，对分割出的图像在进行一次水平投影分割，得到分割字符的位置链表为S1；

步骤2，对S1中的字符依次进行小于等于号（）/大于等于号（）检测、分式检测、矩阵检测：

步骤2.1，对S1中的字符进行水平直线或者矩阵的矩阵符号（[…]）检测，通过字符的垂直投影与水平投影特征判断字符是否为水平直线或者矩阵的矩阵符号，若检测的字符为水平直线，则跳转到步骤2.2进行检测，若为矩阵的矩阵符号，则直接跳转到步骤2.4检测，若未检测到水平直线或者矩阵的矩阵符号，对S1中的字符进行再次分割（再次分割是指对字符进行水平投影分割和垂直投影分割，直到无法再进行分割为止）得到分割字符的位置链表S2，对S2中的字符进行步骤3检测；

步骤2.2，若字符为水平直线，检测在水平直线下方是否含有字符存在，如果水平直线下方没有字符，则进行步骤2.3检测，若水平直线下方含有字符，则进行分式的检测：

步骤2.2.1，判断水平直线与下方字符间的距离l_b，若l_b小于设定的第一阈值，则进行步骤2.2.2检测，否则停止分式的检测，接着对S1中的字符进行步骤2.1检测，

步骤2.2.2，判断水平直线的上方是否存在字符，且字符与水平直线之间的距离小于设定的第一阈值，如含有符合条件的字符则进行步骤2.2.3检测，否则停止分式的检测，接着对S1中的字符进行步骤2.1检测，

步骤2.2.3，判断水平直线上下字符是否均位于水平直线的中间位置，且水平直线左右两侧超过上下字符中长度较长的字符的左右两侧的长度均不超过一个字符的宽度，若上下字符符合条件，则判定为数学分式，停止对图像进行检测，将图像判定为数学公式图像，否则停止分式的检测，接着对S1中的字符进行步骤2.1检测；

步骤2.3，若水平直线下方没有字符，则进行小于等于号/大于等于号检测：

步骤2.3.1，判断水平直线的上方是否存在字符，且字符与水平直线之间的距离小于设定的第二阈值，字符的水平投影为一条垂直直线且垂直投影为一条水平直线，如含有符合条件的字符则进行步骤2.3.2检测，否则停止小于等于号/大于等于号的检测，接着对S1中的字符进行步骤2.1检测，

步骤2.3.2，判断水平直线上方字符的左右边界值是否与水平直线的左右边界近似相等，且字符宽度小于设定的第三阈值，若有字符符合条件，则判定为数学公式中的大于等于号或者是小于等于号，停止对图像进行检测，将图像判定为数学公式图像，否则停止小于等于号/大于等于号的检测，接着对S1中的字符进行步骤2.1检测；

步骤2.4，若检测的字符为矩阵的矩阵符号（[…]），则进行数学中的矩阵检测：

判断矩阵符号之间的字串行、字串列是否排列整齐，即判断位于同一行的字符下边界是否近似相等，同一列的字符左边界是否近似相等，若排列整齐则判定为数学中的矩阵，停止对图像进行检测，将图像判定为数学公式图像，否则停止矩阵的检测，接着对S1中的字符进行2.1检测；

步骤3，对S2中的字符进行乘号检测：

步骤3.1，对S2中的字符进行字符宽度高度的对比，乘号字符呈正方形，若宽度与高度近似相等，则进行步骤3.2判断，否则接着对S2中的字符进行宽度高度检测；若未检测到符合条件的字符，则进行步骤4检测，

步骤3.2，对字符进行水平投影、垂直投影，获得水平投影直方图X1与垂直投影直方图X2；

步骤3.3，寻找X1、X2中最小值的位置local1、local2；

步骤3.4，判断local1、local2是否位于字符的中心位置，若两位置中有一个位置位于非中心位置则停止进行字符的乘号检测，接着对S2中的字符进行步骤3.1检测；若两位置均位于中心位置，接着判断local1两侧水平投影是否为两条垂直直线以及判断local2两侧垂直投影是否为两条水平直线，若均符合条件则进行步骤3.5检测，否则停止乘号检测，接着对S2中的字符进行步骤3.1检测；

步骤3.5，检测字符最左侧中间的位置是否存在像素点，若不存在像素点则判定字符为乘号，停止对图像进行检测，将图像判定为数学公式图像；否则停止乘号检测，接着对S2中的字符进行步骤3.1检测；

步骤4，对S2中大的分割模块依次进行根号检测与分式检测：

步骤4.1，对S2中的字符进行大的分割模块的选取，选取的标准为：宽度大于设定的第四阈值，高度大于设定的第四阈值，且分割字符某一范围内的像素数的宽度与字符总宽度之比rat大于设定的第五阈值；若不含规定范围内的大模块，则进行步骤5检测；

步骤4.2，判断分割模块的顶部是否含有直线，如果有则假定是在根号下的图像，进行步骤4.3检测，没有则假定是未分割开的分式图像，进行步骤4.4检测；

步骤4.3，对于根号图像，判断字符左侧区域的像素点是否位于字符的下半部分，若字符左侧区域的像素点位于字符的下半部分，则图像为含有根号的数学公式图像，否则进行步骤4.5检测，进行分式检测；

步骤4.4，对未分割开的分式图像查找直线位置，为了防止图像倾斜，在查找直线位置时，先获取右侧从上到下、从下到上两个方向查找的第一个像素点的两个位置A、B；

通过A、B两位置获取左侧从上到下、从下到上两个方向查找的第一个像素点的位置A1、B1，判断四个位置所形成的区域内的字符是否为直线；如果是直线则对直线下方区域重新进行检测，获取下方区域新的左边界与右边界，进行步骤4.5检测，进行分式检测，否则停止检测，接着对S2中的字符进行步骤4.1检测；

步骤4.5，检测直线上下两侧的字符是否位于直线的中心位置区域，同时判断直线两侧超过上下两侧字符中字符长度较长的字符的左右两侧的长度均小于一个字符的宽度，如果满足条件，则判定为数学公式中的分式，停止对图像的检测，将图像判定为数学公式图像；否则接着对S2中的字符进行步骤4.1检测；

步骤5，对S2中的字符进行数学向量、分式的检测：

步骤5.1，对S2中的字符进行水平直线检测、水平箭头检测，若字符为水平直线或者水平箭头，进行步骤5.2检测；若未检测到水平直线或者水平箭头，则进行步骤6检测；

步骤5.2，若图像检测出字符e为水平直线或者水平箭头，检测e下方是否含有字符，若不含字符，则停止该部分的检测，接着对S2中的字符进行步骤5.1检测；若下方含有字符，判断字符e与下方字符之间的距离，若距离大于设定的第六阈值，则停止该部分的检测，接着对S2中的字符进行步骤5.1检测；若距离小于设定的第六阈值，判断e上方是否含有字符，若e上方不含字符则进行步骤5.4的向量检测；若e上方含有字符且e为直线，则进行步骤5.3分式检测；若e上方含有字符且e为箭头，则接着对S2中的字符进行步骤5.1检测；

步骤5.3，判断水平直线与上方字符之间的距离，若距离大于设定的第六阈值，则停止该部分的检测，接着对S2中的字符进行步骤5.1检测；若距离小于设定的第六阈值，直线上下两侧相邻区域字符进行合并，判断上下两侧合并后的字符是否均位于水平直线的中间位置，且直线左右两侧超过上下字符中长度较长的字符的左右两侧的长度均不超过一个字符的宽度，若上下字符符合条件，则判定为数学公式中的分式，停止对图像进行检测，将图像判定为数学公式图像，否则接着对S2中的字符进行步骤5.1检测；

步骤5.4，对字符e下方相邻区域的字符进行合并，判断下方合并后的字符是否位于字符e的中间位置，且字符e的左右两侧超过下方字符左右两侧的长度不超过一个字符的宽度，若下方字符符合条件，则判定为数学中的向量，停止对图像进行检测，将图像判定为数学公式图像，否则接着对S2中的字符进行步骤5.1检测；

步骤6，对S2中的字符进行右侧上标与右侧下标检测：

步骤6.1，通过S2中分割出的字符的位置判断字符间的位置关系，若字符a位于字符b的右侧，进行步骤6.2检测，否则接着对S2中的字符进行位置检测, 若没有字符a位于字符b的右侧，则停止检测，进行步骤7检测；

步骤6.2，判断字符a的高度、宽度、上边界值、下边界值，字符a的高度、宽度位于设定的第七阈值与设定的第八阈值范围内，a的高度小于b的高度，两字符间的距离应小于设定的第九阈值，a的上边界位于字符b上边界的上方且a的下边界应高于字符b设定的第十阈值处或者a的下边界位于字符b下边界的下方且字符a的上边界应低于字符b设定的第十一阈值处；

步骤6.3，判断字符b的上方有无其他字符存在,若不含字符，则判定为数学公式中含有上标或者下标的字符，停止对图像进行检测，将图像判定为数学公式图像，若含有字符，则对S2中的字符接着进行步骤6.1检测，直到字符检测完为止；

步骤7，对S2中的字符进行特殊字符模板匹配检测：

步骤7.1，选取一定数量的宽度高度均小于第十二阈值的字符进行归一化处理；

步骤7.2，通过欧式距离计算待检测字符与二值化的模板的相似距离d₁、二值化的模板与待检测字符的相似距离d₂；

步骤7.3，对d₁、d₂中的最大值与设定的第十三阈值进行对比，若小于设定的第十三阈值，则判定两字符匹配，否则判定两字符不相匹配；

若含有数学中的特殊的字符则判定图像为数学公式图像，否则为非数学公式图像。

2.根据权利要求1所述的方法，其特征在于：该步骤2.1中所述的对S1中的字符进行水平直线或者矩阵的矩阵符号（[…]）的检测中的矩阵符号的检测方法如下：若一个字符满足：

1）字符宽度位于设定的第十四阈值与第十五阈值之间的范围内，

2）字符水平投影的像素点呈中间低，两头高，且中间为一条直线；字符的垂直投影的像素点呈“L”型，含有一个拐点，

3）将字符等分为上、中、下三部分，中部部分为一条竖直直线，上下两部分的宽度近似相等，则判定该字符为矩阵符号。

3.根据权利要求1所述的方法，其特征在于：该步骤4.1中所述的分割字符某一范围内的像素数的宽度与字符总宽度之比rat的求解的具体方法如下：

步骤3.1，对字符进行垂直投影，获得垂直投影直方图J，

步骤3.2，计算直方图J中像素值大于设定的第十六阈值的其他像素总的像素值b_num，

步骤3.3，用总的像素值b_num除以字符的宽度，得到每列像素的平均值b_aw，判断b_aw的值是否大于设定的第十七阈值，若大于，则进行下一步计算，否则停止计算，将rat赋值为0，

步骤3.4，计算直方图J中像素值位于(b_aw-a, b_aw+a)（a为设定的第十八阈值）之间的列数和s_row，其中b_aw-a取b_aw-a与b_aw两者的最大值，

步骤3.5，通过列数和s_row除以字符宽度得到像素数的宽度与字符总宽度之比rat。

4.如权利要求1-4任一项所述的方法，其特征在于：所述近似相等是指两数值相差7以内。

5.如权利要求1所述的方法，其特征在于，所述的一个字符的宽度chw，chw的具体计算方法如下：通过垂直分割，获得字符的左右边界值，得到分割出的字符的宽度，计算所有字符的宽度的总和，求得字符宽度的平均值chw_a，计算字符宽度小于chw_a的字符的宽度的总和，求得该范围内字符宽度的平均值即得到宽度chw。

6.如权利要求1所述的方法，其特征在于，所述步骤3，对S2中的字符进行模板匹配检测的字符为下方所示字符。

。

7.如权利要求1所述的方法，其特征在于，所述第一阈值的范围为30到45之间，第二阈值的范围为8到15之间，第三阈值的范围为45到60之间，第四阈值的范围为90到110之间，第五阈值的范围为0.35到0.4之间，第六阈值的范围为10到20之间，第七阈值的范围为7到12之间，第八阈值的范围为35到45之间，第九阈值的范围为12到17之间，第十阈值的范围为字符的0.4-0.55高度之间，第十一阈值的范围为字符的0.25-0.4高度之间，第十二阈值的范围为90到120之间，第十三阈值的范围为90到160之间。

8.如权利要求2所述的方法，其特征在于，所述第十四阈值的范围为15到20之间，第十五阈值的范围为45到55之间。

9.如权利要求3所述的方法，其特征在于，所述第十六阈值的范围为3到7之间，第十七阈值的范围为7到10之间，第十八阈值的范围为8到15之间。