CN112016565B

CN112016565B - 一种金融票据的账号处模糊数字的分割方法

Info

Publication number: CN112016565B
Application number: CN202011159519.6A
Authority: CN
Inventors: 张振彬; 刘贯伟; 王伟; 张云峰; 安增花; 武艳红
Original assignee: Cashway Technology Co Ltd
Current assignee: Cashway Technology Co Ltd
Priority date: 2020-10-27
Filing date: 2020-10-27
Publication date: 2021-06-04
Anticipated expiration: 2040-10-27
Also published as: CN112016565A

Abstract

本发明公开了一种金融票据的账号处模糊数字的分割方法，其特征在于，包括以下步骤：第一步，截取整体图像中的账号区域图像，计算账号区域图像的灰度均值，利用均值对账号区域图像二值化；第二步，对账号区域二值化图像进行垂直投影；垂直投影后得到宽度像素点列，依次对账号区域图像每个像素宽度上垂直方向的像素数，进行零值判定，得到初步分割字符边界序列；第三步，依次以上个步骤得到的每个边界点为中心，分别对距离其相邻位置的前、后边界所占像素数进行累加计算，以对初步分割字符边界序列进行判断，判定是字符边界，还是发生断裂，去除断裂处的边界点，获得有效边界序列，利用有效边界序列进行账号区域图像的数字分割。

Description

一种金融票据的账号处模糊数字的分割方法

技术领域

本发明涉及薄片类纸质介质字符处理技术领域，特别是涉及一种金融票据的账号处模糊数字的分割方法。

背景技术

在目前的字符处理技术中，打印体数字的分割与识别技术已经十分成熟，一般情况下，数字字符在二值化后，进行水平、垂直投影，就能获得较好的分割效果，经神经网络算法训练、识别后，得到较高的准确率。但是对金融票据账号特定场景处的数字分割很不理想。

由于票据在长时间保存后，票据账号处的数字墨迹变得十分模糊，二值化处理后，一些字符中间常常出现像素断裂、缺失的情况，使得投影分割的方法难以奏效，分割的失败直接影响后续的识别准确率。

发明内容

本发明的目的是针对现有技术中存在的技术缺陷，而提供一种金融票据的账号处模糊数字的分割方法。

为实现本发明的目的所采用的技术方案是：

一种金融票据的账号处模糊数字的分割方法，其特征在于，包括以下步骤：

第一步，截取整体图像中的账号区域图像，对账号区域图像二值化；

第二步，得到账号区域二值化图像后，对其进行垂直投影，得到宽度像素点列，依次对投影后的宽度像素点列进行边界判定，求得初步分割字符边界序列；

第三步，依次以第二步得到的每个初步分割字符边界点为中心，分别对距离其相邻位置的前、后边界所占像素数进行累加计算，以对初步分割字符边界序列进行判断，判定是字符边界或发生断裂中的任意一种，去除发生断裂处的边界点，获得有效边界序列，利用有效边界序列进行账号区域图像的数字分割。

作为优选的，第一步中，截取整体图像中的账号区域图像，计算账号区域图像的灰度均值，利用灰度均值对账号区域图像二值化。

作为优选的，账号区域图像的灰度均值通过以下公式计算：

公式1

其中：G_h为账号区域图像的第h个灰度值，M为账号区域图像的宽，N为账号区域图像的高，G_av为灰度均值，以灰度均值作为二值化的阈值，故G_av即为二值化的阈值。

作为优选的，第一步中，采用物理坐标截取到整体图像中的账号区域图像。

作为优选的，第三步中，每个边界点相邻位置的前、后边界所占像素数的累加计算公式如下：

公式2

公式3

其中：A_Fr为边界点r处前n个像素宽度的总像素数，A_Br为边界点r处后n个像素宽度的总像素数，N_k为账号区域图像k点处垂直方向的像素个数。

作为优选的，当A_Fr>X且A_Br<X，此处的初步分割字符边界点为字符右边界；

当A_Fr<X且A_Br>X，此处的初步分割字符边界点为字符左边界；

当A_Fr>X且A_Br>X，此处的初步分割字符边界点为字符断裂点；

其中，X为断裂面积比较阈值。

作为优选的，初步分割字符边界序列分为左边界数组和右边界数组，两边界数组相减取绝对值，得到账号处字符的宽度值数组，对宽度值数组求和，计算平均值，得到平均宽度W，以W的五分之一作为判别半径，n取值为W/5。

作为优选的，计算账号区域二值化图像所有有效像素点数，求得总像素点数S，已知账号处字符个数为m，S/m为每个字符的平均像素数Ap，取Ap/10为断裂面积比较阈值X。

作为优选的，所述有效像素点数是指黑色像素点点数。

作为优选的，第二步中，垂直投影后得到宽度像素点列，依次对账号区域图像每个像素宽度上垂直方向的像素数，进行零值判定，若该宽度点垂直方向的像素数为0，认定为边界，得到初步分割字符边界序列。

本发明的有益效果在于：

本发明设计的分割方法，在常规分割的基础上新增了边界点的判断方法，能够进一步区分是真正边界点还是仅是字符断裂处，增加了分割的准确性，更进一步地为下一步的识别提高了准确率。

附图说明

图1是票据整体视图中的部分截图。

图2是账号区域图像视图。

图3是账号区域图像二值化后的视图。

图4是账号区域图像完成分割后的视图。

具体实施方式

以下以具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

一种金融票据的账号处模糊数字的分割方法，包括以下步骤：

第一步，截取整体图像中的账号区域图像，方法为采用物理坐标截取到整体图像中的账号区域图像，计算账号区域图像的灰度均值，利用灰度均值对账号区域图像二值化，得到二值化后的图像，如图3所示，本方案中的图像二值化方法为：让账号区域图像中的每一个像素点与灰度均值一一比较，小于等于灰度均值的像素点置为0（黑色），大于灰度均值的像素点置为255（白色）。

账号区域图像的灰度均值通过以下公式计算，遍历并累加，再除以图像总像素数，得到灰度均值，以灰度均值作为二值化的阈值，故G_av即为二值化的阈值。

公式1

其中：G_h为账号区域图像的第h个灰度值，M为账号区域图像的宽（图像宽为像素值），N为账号区域图像的高（图像高为像素值），G_av为灰度均值。

一般票据的账号存在于图像某个固定位置，使用图像物理坐标即可截取到其账号区域图像。

第二步，得到账号区域二值化图像后，对账号区域二值化图像进行垂直投影，也叫纵向投影，指二维图象按行向y轴方向投影，投影的结果看成是一维图像，本方案中采用matlab对1行若干个字符进行垂直投影，垂直投影图显示了若干个起伏不一的波峰，波峰的上升点和下降点即为字符宽度像素点列，也是后续进行初步分割字符边界序列判定的基础数据。

垂直投影后得到宽度像素点列，依次对账号区域图像每个像素宽度上垂直方向的像素数，进行零值判定，若该宽度点垂直方向的像素数为0，可认定为边界，得到初步分割字符边界序列；

由于图像较模糊，二值化后一些数字中间发生断裂，初步分割字符边界序列内的字符边界值和断裂边界值混在一起，如果直接用来识别，那么一个发生断裂的字符会被识别成两个独立的字符。因此，需要进行进一步判定，排除断裂边界，筛选出有效边界值。

第三步，依次以上个步骤得到的每个边界点为中心，分别对距离其相邻位置的前、后边界所占像素数进行累加计算，以对初步分割字符边界序列进行判断，判定是字符边界，还是发生断裂，去除断裂处的边界点，获得有效边界序列，利用有效边界序列进行账号区域图像的数字分割。

每个边界点相邻位置的前、后边界所占像素数的累加计算公式如下：

公式2

公式3

其中：A_Fr为边界点r处前n个像素宽度的总像素数，A_Br为边界点r处后n个像素宽度的总像素数，N_k为账号区域图像k点处垂直像素个数。

当边界点为字符右边界时，A_Fr>X且A_Br<X；

当边界点为字符左边界时，A_Fr<X且A_Br>X；

当边界点为字符断裂点时，A_Fr>X且A_Br>X；

其中，X为断裂面积比较阈值；

一般每个字符之间都有一定的间隔，两个字符之间有效像素点数几乎为零；

当边界点为字符右边界时，往后n个像素宽度上是间隔，那么连续n个点的累加像素总数肯定小于X；

当边界点为字符左边界，往前n个像素宽度上也是间隔，那么连续n个点的累加像素总数肯定也小于X；

当边界点为字符的断裂处时，往前n个像素宽度是字符有效区域，往后n个像素宽度也是字符有效区域，那么两者各自累加的像素总数都大于X；以此来判定其有效间隔。

需要进一步说明的是，n的计算方式为：初步分割字符边界序列分为左边界数组和右边界数组，两边界数组相减取绝对值，得到账号处字符的宽度值数组，对宽度值数组求和，计算平均值，得到平均宽度W，以W的五分之一作为判别半径，n取值为W/5。

X的计算方式为：计算账号区域二值化图像所有有效像素点数，所述有效像素点数是指黑色像素点点数，求得总像素点数S，已知账号处字符个数为m，S/m为每个字符的平均像素数Ap，取Ap/10为断裂面积比较阈值。

通过此方法有效地排除断裂点字符边界序列的影响，可最终获得有效边界序列，显著地提升对模糊数字分割的成功率。

算法对比结果：

阈值计算方法	样本总数	分割准确数	分割错误数	分割准确率
					本发明计算方法	10000	9467	533	94.67%
投影分割法	10000	7255	2745	72.55%

对同一票据，采用本方法和投影分割法分别进行分割，在样本数量是10000的情况下，本方法的准确率达到94.67%，远优于投影分割法的72.55%。

以上所述仅是本发明的优选实施方式，应当指出的是，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种金融票据的账号处模糊数字的分割方法，其特征在于，包括以下步骤：

第三步，依次以第二步得到的每个初步分割字符边界点为中心，分别对距离其相邻位置的前、后边界所占像素数进行累加计算，以对初步分割字符边界序列进行判断，判定是字符边界或发生断裂中的任意一种，去除发生断裂处的边界点，获得有效边界序列，利用有效边界序列进行账号区域图像的数字分割；

其中，当A_Fr>X且A_Br<X，此处的初步分割字符边界点为字符右边界；

当A_Fr<X且A_Br>X，此处的初步分割字符边界点为字符左边界；

当A_Fr>X且A_Br>X，此处的初步分割字符边界点为字符断裂点；

其中，A_Fr为边界点r处前n个像素宽度的总像素数，A_Br为边界点r处后n个像素宽度的总像素数，X为断裂面积比较阈值；计算账号区域二值化图像所有有效像素点数，求得总像素点数S，已知账号处字符个数为m，S/m为每个字符的平均像素数Ap，取Ap/10为断裂面积比较阈值X。

2.根据权利要求1所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，第一步中，截取整体图像中的账号区域图像，计算账号区域图像的灰度均值，利用灰度均值对账号区域图像二值化。

3.根据权利要求2所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，账号区域图像的灰度均值通过以下公式计算：

公式1

4.根据权利要求1所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，第一步中，采用物理坐标截取到整体图像中的账号区域图像。

5.根据权利要求1所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，第三步中，每个边界点相邻位置的前、后边界所占像素数的累加计算公式如下：

公式2

公式3

6.根据权利要求5所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，初步分割字符边界序列分为左边界数组和右边界数组，两边界数组相减取绝对值，得到账号处字符的宽度值数组，对宽度值数组求和，计算平均值，得到平均宽度W，以W的五分之一作为判别半径，n取值为W/5。

7.根据权利要求1所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，所述有效像素点数是指黑色像素点点数。

8.根据权利要求1所述的一种金融票据的账号处模糊数字的分割方法，其特征在于，第二步中，垂直投影后得到宽度像素点列，依次对账号区域图像每个像素宽度上垂直方向的像素数，进行零值判定，若该宽度点垂直方向的像素数为0，认定为边界，得到初步分割字符边界序列。