CN109325415A

CN109325415A - 一种基于图像列对齐特征预测所有目标区域的方法

Info

Publication number: CN109325415A
Application number: CN201810963888.7A
Authority: CN
Inventors: 吴昌议
Original assignee: Individual
Current assignee: Individual
Priority date: 2018-08-22
Filing date: 2018-08-22
Publication date: 2019-02-12

Abstract

本发明公开了一种基于图像列对齐特征预测所有目标区域的方法。其特征在于，通过色谱仪检测报告打印件图像所包含的目标数据列对齐特征，建立包含所有目标区域的坐标系，基于坐标系预测所有目标区域。即，先从色谱仪检测报告的图像提取所有可识别的字符区域子图像，再依据子图像列对齐特征，将所有能列对齐的子图像归类到同一个坐标系，再从所有坐标系中挑选目标坐标系，最后基于目标坐标系确定所有目标区域。该方法基于图像提供的高可识别信息，完整预测所有目标区域，有效解决了某些目标区域由于图片质量不高而漏识别或识别不完整的问题、并且有效解决了神经网络概率性漏识别目标区域或识别不完整的问题。

Description

一种基于图像列对齐特征预测所有目标区域的方法

技术领域

本发明属于图像文字识别技术的文本区域识别领域，尤其涉及包含列表结构图像的文本区域识别算法，该算法为自创算法。

背景技术

色谱仪广泛应用与食品、药品、化工品等领域的成分检验，检验结果通常打印为纸件，打印件样例参见附图1。该打印件多个数据均为目标数据，目标数据样例参见附图2。该打印件从图像识别领域看具备3个特征导致难以准确、完整识别所有目标数据所在区域：

特征1、版面复杂，包含图、表、文字等结构，且各结构在图像的位置、大小不固定，导致应用深度学习方法做识别时，训练难度大，识别效果不理想；

特征2、字符间隔小、单个字符面积小，相邻字符图像区域容易粘结，导致误识别；

特征3、由于打印机缺墨、溅墨等原因，以及纸张本身可能包含噪点，导致某些字符难以识别，从而导致某些目标区域漏识别。

目前常见的开源图像文本区域识别算法，比如开源的深度学习神经网络CTPN、开源的图像文字识别软件tesseract，均属于通用图片文字识别算法，在识别色谱仪检验结果打印件时，存在较大的目标区域漏识别概率。通过开源软件CTPN识别目标数据效果参见附图3，其中蓝色边框包围区域为确认目标区域，绿色框包围区域为可能误判的目标区域，可以看出较多目标区域没有识别出来。

发明内容

本发明结合色谱仪检验结果打印件的图像特征，提出一种创新算法，确保准确、完整识别所有目标区域。

本发明的目的通过以下技术方案来实现：一种基于图像列对齐特征，自动建立坐标系，预测所有目标区域的算法，包括如下步骤：

(1)图像倾斜矫正，将图像所有文字旋转到水平位置，以便后续文字区域切分时，不会由于区域粘结而无法分离。

(2)基于倾斜矫正的图片，做二值化，然后基于二值化图像，得到所有可能包含目标文字的区域，也称为得到感兴趣区域。

(3)根据感兴趣区域列对齐特征，建立所有可能的坐标系。

(4)依据目标区域图像特征，挑选目标坐标系。

(5)从目标坐标系提取所有目标区域。

本发明具有的有益效果是：

(1)针对色谱仪检验结果打印件的图像特征设定算法，相比基于深度学习的图像区域识别算法而言，无需大量样本做训练。

(2)基于多行数据建立坐标系之后，只要能识别出某一行在水平方向某个位置[X1，X2]存在属于目标区域，则可推理其余行在水平方向相同的位置[X1，X2]也属于目标区域，因此，本方法基于图像提供的高可识别信息，完整预测所有目标区域，有效解决了某些目标区域由于图片质量不高而漏识别或识别不完整的问题、并且有效解决了神经网络概率性漏识别目标区域或识别不完整的问题。比如附图8为根据本发明的识别结果，明显比附图3基于常见开源CTPN识别更完整。

附图说明

图1是色谱仪检验结果打印件样例；

图2是色谱仪检验结果打印件目标数据样例；

图3是通过开源软件CTPN识别色谱仪打印件目标数据区效果样例，其中蓝色边框包围区域为确认目标区域，绿色框包围区域为可能误判的目标区域；

图4是长行分离效果，其中白色区域为分离出的可能包含文字的长行；

图5是针对长行做块分离效果，其中(a)为原始图片，(b)为针对(a)做块分离效果图，(b)中白色区域为可能包含目标数据的区域；

图6是针对块做感兴趣区域分离效果；

图7是归属同一坐标系的感兴趣区域样例。其中(a)和(b)为基于同一张图片，提取的2个坐标系的感兴趣区域样例，灰色边框包围区域为归属同一坐标系的感兴趣区域，可以看出归属同一坐标系的感兴趣区域具备列对齐特征；

图8是1个坐标系预测目标区域的样例。其中灰色粗边框包围区域为感兴趣区域，纵向分离的蓝色细框为根据所有感兴趣区域Y坐标建立的Y轴方向目标区域，横向分离的蓝色细框为根据所有感兴趣区域X坐标建立的X轴方向目标区域。蓝色底色图像为纵向分离的蓝色细框和横向分离的蓝色细框重叠区域，蓝色底色区域为本坐标系预测的目标区域。

具体实施方式

本发明基于图像列对齐特征，自动建立坐标系，预测所有目标区域。下面结合实例详细描述本发明，包括如下步骤：

(1)图像倾斜矫正，将图像所有文字旋转到水平位置，以便后续文字区域切分时，不会出现由于区域粘结而无法分离。实施步骤：

1)通过霍夫变换从图像提取其包含的所有长直线，并计算每条直线相对于水平方向的倾斜角度，所有直线的倾斜角度构成集合。

2)对该集合实施K聚类算法，建议分离为2～4个集合，推荐为3个集合。选择成员数量最多的集合为目标集合。

3)将目标集合所有成员的倾斜角度取平均值，该平均值C即是图像的倾斜角度。

4)将图像往反方向旋转C度，即可完成图像倾斜矫正。

(2)感兴趣区域提取：基于倾斜矫正的图片，做二值化，然后基于二值化图像作如下处理，得到所有可能包含目标文字的区域坐标：

1)第一次区域分离，也称为长行分离，目的是把图像分割为若干个包含一行文字的图像区域：

A、通过水平方向较大幅度膨胀，比如腐蚀率为图像宽度的1/7～1/12，让归属同一行、且距离较近的文字区域连在一起，得到连接成一片的图像的区域，即长行。

B、可选。将该长行沿着垂直方向做较小幅度腐蚀，比如腐蚀率为3～5个像素，使行间间隔加大，从而更有效的分离出长行。

C、可选。丢弃宽度小于高度10～15倍的长行，不但可以过滤部分噪音，也可过滤无效区域，从而可以减小后续的计算量。

附图4为长行分离效果，其中白色区域为分离出的可能包含目标数据的长行。

2)第二次区域分离，也称为块分离，目的是得到长行内的词组区域：

A、在原图上，截取长行所在区域的图像并作二值化，然后水平方向和垂直方向均较大幅度膨胀，以便让长行内相邻字符区域连接在一起，得到块区域坐标。膨胀率可以略微大一点，比如0.6～0.8个字符宽度，须确保小数点前后的字符能连接在一起。该膨胀率可能导致2个词组粘结在一起，下面的第三次分离可以完成粘结修正。

B、可选丢弃面积过小、宽度过窄的块，从而过滤离散噪音。

附图5为针对长行做块分离效果，其中图(a)为原始图片，图(b)为图(a)做块分离效果图，图(b)中白色区域为可能包含目标的区域。

3)第三次区域分离，也称为感兴趣区域分离，目的是消除目标区域间的粘结，得到分离的词组：

A、在原图上，截取块所在区域的图像并作二值化，然后水平方向和垂直方向均小幅度膨胀，比如水平方向膨胀率为0.5倍行高，纵向方向膨胀率为3个像素，以便消除单个字符因为打印、纸张噪音导致的线条断裂，从而让单个字符的区域连接在一起。

B、依次计算块区域内所有相邻字符的间距，当2个相邻字符间距小于0.8～0.9倍行高时，属于1个感兴趣区域，否则属于2个感兴趣区域。

C、同属一个感兴趣区域的字符区域合并，得到1个感兴趣区域

D、可选丢弃宽度小于字符平均宽度0.9～1.2的感兴趣区域，从而进一步过滤噪音。

附图6为针对块做感兴趣区域分离效果。

(3)根据感兴趣区域列对齐特征，建立所有可能的坐标系：

1)感兴趣区域归属同一坐标系的定义：水平方向为X轴，垂直方向为Y轴，如果两个长行的行间距小于1.5～2倍行距、且2个长行内所有感兴趣在X轴方向的坐标不交叉，则属于同一个坐标系。所谓感兴趣区域坐标不交叉，是指感兴趣区域符合表结构列对齐特征，即任何1行的某个感兴趣区域在X轴的投影，不会和其它任何1行内超过1个感兴趣区域在X轴的投影存在重叠部分。

附图7为归属同一坐标系的感兴趣区域样例。其中(a)和(b)为基于同一张图片，提取的2个坐标系的感兴趣区域样例，灰色边框包围区域为归属同一坐标系的感兴趣区域，可以看出归属同一坐标系的感兴趣区域具备列对齐特征。

2)提取1个坐标系包含的感兴趣区域坐标：

A、在原图像选择1个长行，作为X轴，沿着Y轴向上、向下，逐次判断其相邻的长行是否符合坐标系的定义，如果符合则归属一个坐标系，否则过程结束。

B、将归属1个坐标系的所有感兴趣区域的X轴方向坐标取合集，成为本坐标系X轴方向感兴趣区域坐标集合{{x_左，x_右}}，将归属1个坐标系的所有感兴趣区域的Y轴方向坐标取合集，成为本坐标系Y轴方向感兴趣区域坐标集合{{y_上，y_下}}。

3)为每个坐标系提取其包含的感兴趣区域坐标：在原图逐次以每一行为X轴，执行提取1个坐标系包含的感兴趣区域坐标的过程，完成所有坐标系包含的感兴趣区域坐标的提取。

(4)确定目标坐标系：如下特征，可作为挑选目标坐标系的依据

1)特征1：X轴方向感兴趣区域数量和目标区域数量相等坐标系，更可能是目标坐标系

2)特征2：包含感兴趣区域数量更多坐标系，更可能是目标坐标系。假设感兴趣区域最多坐标系为A，包含N_a个感兴趣区域，权重为1；坐标系B包含感兴趣区域个数N_b，B的权重W_n＝N_b÷N_a

3)特征3：X轴方向所有感兴趣区域覆盖广度：逐次计算每个感兴趣区域中心位置的X坐标，相对0的欧式距离，欧式距离求和更大坐标系，更可能是目标坐标系。假设欧式距离求和最大坐标系为A，欧式距离求和为S_a，权重为1；坐标系B欧式距离求和为S_b，B的权重W_s＝S_b÷S_a

4)特征4：X轴方向感兴趣区域规整度。逐次计算每个感兴趣区域中心位置的X坐标，相对0的欧式距离，欧式距离均方差更小坐标系，更可能是目标坐标系。假设方差最小坐标系为A，方差为R_a，权重为1；坐标系B方差为R_b，B的权重W_r＝1/(R_b÷R_a)

5)特征5：X轴在原图像的位置更靠近图像底部坐标系，更可能是目标坐标系。假设距离图底部距离最小坐标系为A，于图像底部距离为D_a，权重为1；坐标系B于图像底部距离为D_b，B的权重W_d＝1/(D_b÷D_a)

如果只有1个坐标系符合特征1，则该坐标系就是目标坐标系。如果超过1个坐标系符合特征1，则对符合1的所有坐标系，利用特征2～5做加权运算，得分最高者为目标坐标系。单个坐标系得分算法为W＝λ_n×W_n+λ_s×W_s+λ_r×W_r+λ_d×W_d。

不同色谱仪厂家的图像在排版细节上存在差异，可以针对某个厂家的某种色谱仪，输入若干图像，利用机器学习算法，比如梯度下降算法，或决策树算法，或朴素贝叶斯算法，或主成分分析算法等算法得到具体的λ值。

(5)从目标坐标系提取所有目标区域：将目标坐标系所有感兴趣区域X轴方向坐标{{x_左，x_右}}和Y轴方向坐标{{y_上，y_下}}组合，得到所有目标区域坐标。单个目标区域坐标为{左上角坐标(x_左，y_上)，右上角坐标(x_右，y_上)，右下角坐标(x_左，y_下)，左下角坐标(x_右，y_下)}

基于1个坐标系预测目标区域的样例参见附图8。其中灰色粗边框包围区域为感兴趣区域，纵向分离的蓝色细框为根据所有感兴趣区域Y坐标建立的Y轴方向目标区域，横向分离的蓝色细框为根据所有感兴趣区域X坐标建立的X轴方向目标区域。蓝色底色图像为纵向分离的蓝色细框和横向分离的蓝色细框重叠区域，蓝色底色区域为本坐标系预测的目标区域。

Claims

1.一种基于图像列对齐特征预测所有目标区域的方法，其特征在于，结合色谱仪检验结果打印件的图像特征，提出一种创新算法，确保准确、完整识别色谱仪检验结果打印件包含的所有目标区域，包括如下步骤：

(1)图像倾斜矫正，将图像所有文字旋转到水平位置，以便后续文字区域切分时，不会由于区域粘结而无法分离；

(2)基于倾斜矫正的图片，做二值化，然后基于二值化图像，得到所有可能包含目标文字的区域，也称为得到感兴趣区域；

(3)根据感兴趣区域列对齐特征，建立所有可能的坐标系；

(4)依据目标区域图像特征，挑选目标坐标系；

(5)从目标坐标系提取所有目标区域。

2.根据权利要求1所述基于图像列对齐特征预测所有目标区域的方法，其特征在于，感兴趣区域归属同一坐标系的定义：水平方向为X轴，垂直方向为Y轴，如果两个长行的行间距小于1.5～2倍行距、且2个长行内所有感兴趣在X轴方向的坐标不交叉，则属于同一个坐标系，所谓感兴趣区域坐标不交叉，是指感兴趣区域符合表结构列对齐特征，即任何1行的某个感兴趣区域在X轴的投影，不会和其它任何1行内超过1个感兴趣区域在X轴的投影存在重叠部分。

3.根据权利要求1所述基于图像列对齐特征预测所有目标区域的方法，其特征在于，通过分析坐标系如下特征，挑选目标坐标系：

(1)特征1：X轴方向感兴趣区域数量和目标区域数量相等坐标系，更可能是目标坐标系；

(2)特征2：包含感兴趣区域数量更多坐标系，更可能是目标坐标系，假设感兴趣区域最多坐标系为A，包含N_a个感兴趣区域，权重为1；坐标系B包含感兴趣区域个数N_b，B的权重W_n＝N_b÷N_a；

(3)特征3：X轴方向所有感兴趣区域覆盖广度：逐次计算每个感兴趣区域中心位置的X坐标，相对0的欧式距离，欧式距离求和更大坐标系，更可能是目标坐标系，假设欧式距离求和最大坐标系为A，欧式距离求和为S_a，权重为1；坐标系B欧式距离求和为S_b，B的权重W_s＝S_b÷S_a；

(4)特征4：X轴方向感兴趣区域规整度，逐次计算每个感兴趣区域中心位置的X坐标，相对0的欧式距离，欧式距离均方差更小坐标系，更可能是目标坐标系，假设方差最小坐标系为A，方差为R_a，权重为1；坐标系B方差为R_b，B的权重W_r＝1/(R_b÷R_a)；

(5)特征5：X轴在原图像的位置更靠近图像底部坐标系，更可能是目标坐标系，假设距离图底部距离最小坐标系为A，于图像底部距离为D_a，权重为1；坐标系B于图像底部距离为D_b，B的权重W_d＝1/(D_b÷D_a)；

如果只有1个坐标系符合特征1，则该坐标系就是目标坐标系，如果超过1个坐标系符合特征1，则对符合1的所有坐标系，利用特征2～5做加权运算，得分最高者为目标坐标系，单个坐标系得分算法为W＝λ_n×W_n+λ_s×W_s+λ_r×W_r+λ_d×W_d，可以针对若干图像，利用机器学习算法，比如梯度下降算法，或决策树算法，或朴素贝叶斯算法，或主成分分析算法等算法得到具体的λ值。

4.根据权利要求1所述基于图像列对齐特征预测所有目标区域的方法，其特征在于，基于1个坐标系预测目标区域的方法：将目标坐标系所有感兴趣区域X轴方向坐标{{x_左，x_右}}和Y轴方向坐标{{y_上，y_下}}组合，得到所有目标区域坐标，单个目标区域坐标为{左上角坐标(x_左，y_上)，右上角坐标(x_右，y_上)，右下角坐标(x_左，y_下)，左下角坐标(x_右，y_下)}。