CN114004962A

CN114004962A - 一种电力营业厅发票ocr识别方法

Info

Publication number: CN114004962A
Application number: CN202111289075.2A
Authority: CN
Inventors: 常洁; 白少锋; 陈洵; 刘振扬; 王俊秀; 申远; 王平; 施爱军; 刘宇; 张华政; 孙悦
Original assignee: State Grid Jiangsu Electric Power Co Ltd; Taizhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Current assignee: State Grid Jiangsu Electric Power Co Ltd; Taizhou Power Supply Co of State Grid Jiangsu Electric Power Co Ltd
Priority date: 2021-11-02
Filing date: 2021-11-02
Publication date: 2022-02-01

Abstract

本申请属于专用文本识别技术领域，尤其涉及一种电力营业厅发票OCR识别方法。包括灰度处理：基于加权值法对图像进行灰度变换处理，利用灰度值分段线性拉伸算法对灰度图像进行灰度值处理，利用二值化函数处理图像；通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度；根据营业厅发票设计标准设定参数，确定图像中若干关键区的边界线条尺寸、位置及其夹角，利用投影法进行文字提取；本申请提供了一种便于实现，能够有效实现电力营业厅发票OCR识别，准确率高，且能够有效甄别区分关键信息并进行相应识别的电力营业厅发票OCR识别方法。

Description

一种电力营业厅发票OCR识别方法

技术领域

本申请属于专用文本识别技术领域，尤其涉及一种电力营业厅发票OCR识别方法。

背景技术

光学文字识别的概念是在上个世纪二十年代末期由德国科学家Tausheck最先进行分析的，美国科学家Handel也提出了相似的理论学说。能够大规模实际使用的技术是在上个世纪六十年代中期到后期出现的，1986年之后我国就推出了中文OCR产品。由于识别率、产品化、硬件设备成本高、运行速度慢等原因使得OCR技术未能达到实用化的地步。只有少数如信息、新闻出版等单位使用OCR软件。1986年以后我国在OCR技术研究上取得了长足进展，在汉字建模和识别的方法上有了创新性地研究，在开发应用和系统研制方面取得了丰硕的理论、实际成果，许多应用、研究单位推出了中文OCR产品。到了上个世纪九十年代，随着我国扫描设备以及信息自动化和办公自动化的普及，很大程度上推进了我国OCR技术的研究，使得OCR技术识别率、运行速度等等制约着OCR技术实用化的瓶颈得到解决。其中以OCR为科技核心的云脉技术不断创新进取，研发了一系列OCR软件产品，并且运用在医院，学校，企业等各大市场。

发明内容

本申请的目的在于，提供一种便于实现，能够有效实现电力营业厅发票OCR识别，准确率高，且能够有效甄别区分关键信息并进行相应识别的电力营业厅发票OCR识别方法。

为实现上述目的，本申请采用如下技术方案。

一种电力营业厅发票OCR识别方法，包括如下步骤：

步骤一、图像预处理，具体包括：

A1、灰度处理：基于加权值法对图像进行灰度变换处理，其中绿色、红色、蓝色权值分别为0.30、0.59、0.11；

利用灰度值分段线性拉伸算法对灰度图像进行灰度值处理，其中灰度分段线性拉伸函数如下式所示：

其中x₁＝90y₁＝60；x₂＝180y₂＝210；

A2、二值化处理：利用二值化函数

处理图像，其中e_x,y为处理后图像中坐标(x,y)处的像素值，f_x,y为图像图像中坐标(x,y)处的原始像素值；T为二值化阈值；

A3、变形校正：通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度；具体是指：对于二值图像矩阵I(k_y,j_x)的矩阵坐标(k_y,j_x)，将(N,1)作为原点坐标，建立笛卡尔坐标轴，矩阵坐标变换为笛卡尔坐标X＝j_x；Y＝N-k_y相对于X轴θ建立(k_y,j_x)坐标轴，图像的笛卡尔坐标在(X',Y')的X'轴上进行投影，统计投影值，θ从0～90°度变换，寻找最大投影值对应的角度θ,90-θ便是矩阵图像矩阵I(k_y,j_x)需要逆时针转动的倾斜角度；

A4、关键区定位截取：根据营业厅发票设计标准设定参数，确定图像中若干关键区的边界线条尺寸、位置及其夹角，基于前述步骤获取的灰度图像，提取图像中长度超过最短的边界线条的直线，对于所提取的直线，以其直接连接的若干直线进行组合后与前述尺寸、位置及其夹角进行匹配；

A5、文字提取，利用投影法进行文字提取；

确定文字行投影，选取阈值，确定行边界之后提取每个文字行，再对每行文字进行列投，选取阈值，获取得到文字边界之后再提取出文字；

首先，提取出行文字，对处理后的文字行垂直列扫描，记录每文字行中像素值为1)的个数，考察各列的扫描值：若扫描中该列白像素个数的和为零或者是小于间隙阈值，则可认为此处是字符的间隙；若相邻间隙之间黑色区域的宽度大于设定的字间阈值，小于间隙阈值或者低于其前面分割得到的字符宽度的50％，则认为该部分是文字中的偏旁部首，将其于与下一个相邻部首区域合并；若相邻间隙区域的宽度小于字间阈值，高度小于其前面分割字符的高度的50％，则可认为此区域为噪声块，将其做删除处理；若切割宽度大于字间阈值,则在该区域内重新调整阈值，并结合前后的切分区域进行二次切分和/或区域合并处理。

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，对于步骤A4的改进：基于前述截取的关键区图像，根据相应区域编号或组合标记的分布位置或形状，提取关键区图像中对应位置或方向的像素数据进行类比，将相互匹配的角度信息录入识别结果。

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，对于步骤A2的改进：基于当前识别周期内对应印刷设备的状态，指定增补阈值，在执行前述A4步骤过程中，当检索到多条共线的线段时，当相邻的两条线段相互接近的端点之间的像素数量低于增补阈值，则以两个端点为终点填充像素点使两条线段形成直线，并将原图像和增补后形成的直线均作为关键区匹配的元素。

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，对于图像中的若干相邻像素点，基于如下步骤确定线段：对于前述像素点集合N，使用目标函数f(n)＝α·n+β_n对所有像素点进行拟合，其中β_n是与像素点n相关的偏差值，且|β_n-β|≤k₀；α、β、实数，k₀为阈值；若存在相应的实数α、β，使所有像素点可以得到拟合，则认为该像素点集合N代表某条线段；阈值k₀根据营业厅发票中线条的最大宽度确定，取值为线条宽度对应像素值得一半。

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，所述步骤A2中二值化阈值采用如下方式确定：

基于历史发票图像数据，选择画面完整且图像内信息数据完全保留的若干图像，统计所有图像的像素点及其像素值，以某一像素值为划分阈值将所有像素点分成两个类F₁、F₂，调整划分阈值使F₁、F₂方差最大，统计此时F₁、F₂类中像素的总像素数S₁、S₂；计算F₁类像素点的概率

F₂类像素

F₁、F₂类像素点平均灰度值μ₁、μ₂以及全部像素的平均像素值μ＝ω₁μ₁+ω₂μ₂；使用不同二值化阈值处理全部像素点，选择使类间方差δ＝ω₁(μ₁-μ)²+ω₂(μ₂-μ)²取值最大的二值化阈值作为最优二值化阈值。

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，所述步骤A1中还包括，利用转换函数y＝T(x)对原图像每个像素点的灰度值进行变换；T(x)函数通过以下方式确定：

P_y(y)为通过T(x)变换后的灰度值像素点统计值函数，灰度值y∈[y_min,y_max],P_x(x)为原图像灰度值像素点数量统计函数，x∈[x_min,x_max]；y∈[0,255]；x∈[0,255]；

由于变换前后灰度直方图相应区间面积具有对应相等关系，得到：

F(x)为p_x(x)的某个原函数；令p_y(y)为常数，

M为图像像素点的总个数；

将公式②带入①，左边积分，右端近似离散得到：

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，所述A3中倾斜校正前还包括扭曲校正：具体是指利用高次函数进行拟合校正，其中拟合函数为：

x(u,v)＝u×(1+k₁×u²+k₂×v²)y(u,v)＝v×(1+k₁×u²+k₂×v²)

其中k1,k2分别是控制水平方向、竖直方向上的扭曲矫正参数。

对前述电力营业厅发票OCR识别方法的进一步改进或优选方案，所述步骤A2还包括图像去噪：通过将原图像进行分区处理根据各区内明暗度与灰度信息进行去噪处理，具体而言，使用特定的横向矩阵

竖向矩阵

对原图像进行卷积操作。

其有益效果在于：

本申请的电力营业厅发票OCR识别方法识别准确率高，便于实现，其能够基于电力营业厅发票自身的分区特性进行关键取得截取和对应处理，有效识关键要素并进行对应的分析识别处理。有利于电力营业厅发票的快速OCR识别。

附图说明

图1是利用投影法进行文字提取的流程示意图。

具体实施方式

以下结合具体实施例对本申请作详细说明。

根据国家电网公司总体建纲要，建设智能营业厅，利用信息化手段，实现交互式、人性化、自助式的服务，提高工作效率和监管的有效性，建设具有智慧服务的综合营业厅。电力营业厅是供电企业以客户为导向的服务窗口，承担着形象展示、业务管理、信息咨询等职责。在前述业务办理过程中，都需要生成、使用大量的纸质文档材料，由于传真、复印等环节导致获取的文本质量的急剧下降，所以在办公自动化处理中低质量的文本占很大部分，前述文本由于识别率低，因此不管是人工处置还是使用各类自动化识别方法进行处理都非常耗时耗力，并导致业务处理时长增加，处理效率下降。为此本申请提出一种电力营业厅发票OCR识别方法，通过该方法提供一种快速高效识别，并基于人机交互提供给用户使用，减少用户办事事件，化繁为简，同时可以节省人力成本。

电力营业厅发票OCR识别方法包括如下步骤：

步骤一、图像预处理，具体包括：

A1、灰度变换：经由光学设备采集到的图像或者在计算机中存储的图像为RGB彩色图像，RGB是红、绿、蓝的简称，每个像素中每种颜色占一个字节。彩色图像包含了大量的色彩信息，占用大量内存且大大降低了处理速度，将彩色图像转化为可以基本识别图像信息的灰度值图像可以大大地简化处理速度，因为人眼对绿色敏感度最高，红色次之，蓝色最低，因此权值法中的加权值法可以得到最适合的灰度图像，其中绿色、红色、蓝色权值分别为0.30、0.59、0.11；

其中x₁＝90y₁＝60；x₂＝180y₂＝210；

A2、二值化处理：利用二值化函数

处理图像，其中e_x,y为处理后图像中坐标(x,y)处的像素值，f_x,y为图像图像中坐标(x,y)处的原始像素值；T为二值化阈值；其中二值化阈值可以根据经验公式或者实际测试选定，为减少工作量，同时便于时间自动化处理，本实施例中提供一种二值化阈值的优选方案，具体如下：

基于历史发票图像数据，选择画面完整且图像内信息数据完全保留的若干图像，统计所有图像的像素点及其像素值，以某一像素值为划分阈值将所有像素点分成两个类F₁、F₂，调整划分阈值使F₁、F₂方差最大，统计此时F₁、F₂类中像素的总像素数S₁、S₂；

计算F₁类像素点的概率

F₂类像素

F₁、F₂类像素点平均灰度值μ₁、μ₂以及全部像素的平均像素值μ＝ω₁μ₁+ω₂μ₂；

使用不同二值化阈值处理全部像素点，选择使类间方差d＝ω₁(μ₁-μ)²+ω₂(μ₂-μ)²取值最大的二值化阈值作为最优二值化阈值；

还包括图像去噪：通过将原图像进行分区处理根据各区内明暗度与灰度信息进行去噪处理，具体而言，使用特定的横向矩阵

竖向矩阵

对原图像进行卷积操作；

A3、变形校正，包括：

扭曲校正：利用高次函数进行拟合校正；其中拟合函数为：

x(u,v)＝u×(1+k₁×u²+k₂×v²)

y(u,v)＝v×(1+k₁×u²+k₂×v²)

其中k1,k2分别是控制水平方向、竖直方向上的扭曲矫正参数；

倾斜校正：通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度；

通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度具体是指：对于二值图像矩阵I(k_y,j_x)的矩阵坐标(k_y,j_x)，将(N,1)作为原点坐标，建立笛卡尔坐标轴，矩阵坐标变换为笛卡尔坐标X＝j_x；Y＝N-k_y相对于X轴θ建立(k_y,j_x)坐标轴，图像的笛卡尔坐标在(X',Y')的X'轴上进行投影，统计投影值，θ从0～90°度变换，寻找最大投影值对应的角度θ,90-θ便是矩阵图像矩阵I(k_y,j_x)需要逆时针转动的倾斜角度；

A4、关键区定位截取：营业厅发票作为规范文件，除了少量手签字体等鉴证文字或图像之外，大部分都是位置和类型相对固定的固定格式文字图像，通过进行对这些区域(即关键区)的识别分割，可以更高效的进行针对性识别处理，提高发票信息获取的效率，具体而言：根据营业厅发票设计标准设定参数，确定图像中若干关键区的边界线条尺寸、位置及其夹角，基于前述步骤获取的灰度图像提取图像中长度超过最短的边界线条的直线，对于所提取的直线，以其直接连接的若干直线进行组合后与前述尺寸、位置及其夹角进行匹配；

特别的，对于部分特定数据，例如特定编号、签证数字或图形等，除了含有不同的编号或者示意图形编码之外，在特定位置均保留有特定的标志数据，例如编号前端或者后端的标注或类型编号、图形的方向组合标记等，上述特定信息可以作为整体图像以及局部文字或图像信息方向、位置和数据类型识别判断的重要标志；具体而言：基于前述截取的关键区图像，根据相应区域编号或组合标记的分布位置或形状，提取关键区图像中可能得对应位置或方向的像素数据进行类比，将相互匹配的角度信息录入识别结果；

特别的，对于前述关键区图像，在发票印刷过程中，关键区边缘线条或图形有可能遇到缺失或模糊问题，且在同一时期内，同一印刷设备打印的发票中个存在的缺失或模糊程度基本一致，针对此问题，本申请还提供了了一种基于特定周期以及特定设备状态的识别优化方案，具体而言：基于当前识别周期内对应印刷设备的状态，指定增补阈值，在执行前述A3步骤过程中，当检索到多条共线的线段时，当相邻的两条线段相互接近的端点之间的像素数量低于增补阈值，则以两个端点为终点填充像素点使两条线段形成直线，并将原图像和增补后形成的直线均作为关键区匹配的元素；

A5、文字提取，利用投影法进行文字提取；

如图1所示，首先，提取出行文字，对处理后的文字行垂直列扫描，记录每文字行中像素值为1)的个数，考察各列的扫描值：若扫描中该列白像素个数的和为零或者是小于间隙阈值，则可认为此处是字符的间隙；若相邻间隙之间黑色区域的宽度大于设定的字间阈值，小于间隙阈值或者低于其前面分割得到的字符宽度的50％，则认为该部分是文字中的偏旁部首，将其于与下一个相邻部首区域合并；若相邻间隙区域的宽度小于字间阈值，高度小于其前面分割字符的高度的50％，则可认为此区域为噪声块，将其做删除处理；若切割宽度大于字间阈值,则在该区域内重新调整阈值，并结合前后的切分区域进行二次切分和/或区域合并处理。

最后应当说明的是，以上实施例仅用以说明本申请的技术方案，而非对本申请保护范围的限制，尽管参照较佳实施例对本申请作了详细地说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或者等同替换，而不脱离本申请技术方案的实质和范围。

Claims

1.一种电力营业厅发票OCR识别方法，其特征在于，包括如下步骤：

步骤一、图像预处理，具体包括：

A1、灰度处理：基于加权值法对图像进行灰度变换处理，其中绿色、红色、蓝色权值分别为0.30、0.59、0.11；利用灰度值分段线性拉伸算法对灰度图像进行灰度值处理，其中灰度分段线性拉伸函数如下：

其中x₁＝90y₁＝60；x₂＝180y₂＝210；

A2、二值化处理：利用二值化函数

A3、变形校正：通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度；

A5、文字提取，利用投影法进行文字提取；

2.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，对于步骤A4的改进：基于前述截取的关键区图像，根据相应区域编号或组合标记的分布位置或形状，提取关键区图像中对应位置或方向的像素数据进行类比，将相互匹配的角度信息录入识别结果。

3.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，对于步骤A2的改进：基于当前识别周期内对应印刷设备的状态，指定增补阈值，在执行前述A4步骤过程中，当检索到多条共线的线段时，当相邻的两条线段相互接近的端点之间的像素数量低于增补阈值，则以两个端点为终点填充像素点使两条线段形成直线，并将原图像和增补后形成的直线均作为关键区匹配的元素。

4.根据权利要求3所述的一种电力营业厅发票OCR识别方法，其特征在于，对于图像中的若干相邻像素点，基于如下步骤确定线段：对于前述像素点集合N，使用目标函数f(n)＝α·n+β_n对所有像素点进行拟合，其中β_n是与像素点n相关的偏差值，且|β_n-β|≤k₀；α、β、实数，k₀为阈值；若存在相应的实数α、β，使所有像素点可以得到拟合，则认为该像素点集合N代表某条线段；阈值k₀根据营业厅发票中线条的最大宽度确定，取值为线条宽度对应像素值得一半。

5.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，所述步骤A2中二值化阈值采用如下方式确定：

F₂类像素

6.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，所述步骤A1中还包括，利用转换函数y＝T(x)对原图像每个像素点的灰度值进行变换；T(x)函数通过以下方式确定：

F(x)为p_x(x)的某个原函数；令p_y(y)为常数，

M为图像像素点的总个数；

将公式②带入①，左边积分，右端近似离散得到：

7.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，所述A3中倾斜校正前还包括扭曲校正：具体是指利用高次函数进行拟合校正，其中拟合函数为：

x(u,v)＝u×(1+k₁×u²+k₂×v²)y(u,v)＝v×(1+k₁×u²+k₂×v²)

8.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，所述步骤A2还包括图像去噪：通过将原图像进行分区处理根据各区内明暗度与灰度信息进行去噪处理，具体而言，使用特定的横向矩阵

竖向矩阵

对原图像进行卷积操作。

9.根据权利要求1所述的一种电力营业厅发票OCR识别方法，其特征在于，通过定方向投影叠加找到最大投影值时角度确定图像倾斜角度，具体是指：对于二值图像矩阵I(k_y,j_x)的矩阵坐标(k_y,j_x)，将(N,1)作为原点坐标，建立笛卡尔坐标轴，矩阵坐标变换为笛卡尔坐标X＝j_x；Y＝N-k_y，相对于X轴以θ角度建立(k_y,j_x)坐标轴，图像的笛卡尔坐标在(X',Y')的X'轴上进行投影，统计投影值，θ从0～90度变换，寻找最大投影值对应的角度θ,90-θ便是矩阵图像矩阵I(k_y,j_x)需要逆时针转动的倾斜角度。