建筑工程物料管理系统表单数据自动录入方法
技术领域
本发明涉及一种建筑工程中的表单数据录入方法,特别涉及一种建筑工程物料管理系统表单数据自动录入方法。
背景技术
目前在中国,建筑业是支柱产业,作为建筑业的流程管理是我国建筑管理中的一个难点,而且在建筑行业,所需要的建筑工程资金要求高,建筑周期长资金回收慢,建筑材料商参与度高,而在整个工程实际中,垫资是一个普遍存在的现象。资方对建筑单位进行垫资,往往对建筑单位资质、建筑工序、建筑能力、资金状况等多个项目有所要求,需要处理极为庞大的表单数量,如果同一时间对多个项目提供资金支持的话,需要对多种表单进行跟踪处理,对表单进行分析处理的工作极为繁琐,但是需要的往往是表单中的某一些数据,因此,如果专一配置人员对表单进行分析处理,会对人力资源造成极大的浪费,因此在开发一种建筑工程物料管理系统中可用的自动化程度高、分辨准确的系统表单数据自动录入方法势在必行。
发明内容
本发明的目的在于解决上述现有技术存在如果同一时间对多个项目提供资金支持的话,需要对多种表单进行跟踪处理,对表单进行分析处理的工作纪委繁琐,但是需要的往往是表单中的某一些数据,因此,如果专一配置人员对表单进行分析处理,会对人力资源造成极大的浪费的问题,提供了一种建筑工程物料管理系统中可用的自动化程度高、分辨准确的系统表单数据自动录入方法。
本发明解决其技术问题所采用的技术方案是:一种建筑工程物料管理系统表单数据自动录入方法,包括以下步骤:
步骤一:访问建筑工程物料管理系统,并将扫描好的表格图片上传至建筑工程物料管理系统;
步骤二:对表格图片依次进行灰化子步骤、二值化子步骤和自动倾斜校正处理子步骤;
步骤三:表格处理模块进一步对表格的单元格内字符进行定位和提取;
步骤四:OCR模块对字符进行分割、特征提取和模式分类;
步骤五:对分类完成的信息录入至建筑工程物料管理系统中。
本发明针对的建筑工程物料管理系统可以是本申请人现在已经使用的建筑工程物料管理系统,也可以是市场上常见的其他建筑工程物料管理系统,并无局限。采用本发明的方法能进行良好的图片处理和表格处理能为后续的特征提取及特征分类提供尽可能完整、可靠、无噪声干扰的字符信息,这些信息通过计算机的处理后,能快速处理极为庞大数量的表单,可以达成对多种表单进行跟踪处理,自动对表单进行分析处理的工作,提取表单中的某一些关键数据,监控建筑单位资质、建筑工序、建筑能力、资金状况等多个项目,实现同一时间对多个项目提供资金支持。
作为优选,在所述步骤二中执行灰化子步骤和二值化子步骤时:先把彩色图片中的彩色信息转化为灰度值,生成单一色调的灰度图片,然后计算得到表格图片面积数值,其次遍历表格图片中所有的像素,然后以这些像素为中心点,计算表格图片大小的矩形的平均颜色,用来和当前像素比较,如当前像素值大于平均,设置为背景点,如当前像素值小于平均,设置为前景点,使得前景字符与背景分割开。
在各种文档分析及自动识别系统中,对扫描后的文档图像进行进一步分析和识别之前通畅都会对其进行灰化及二值化处理,即先把彩色图片中的彩色信息转化为灰度值,生成单一色调的灰度图片,将灰度图片中的每个像素点按照某种规则标记为前景点(通常为黑色)或背景点(通常为白色),以使得前景字符与背景分割开来。二值化过程将直接影响提取出来的前景字符图像的质量好坏,采用本发明来处理相关图片,对传真图片或照片等阴影处理有较好的效果。
作为优选,所述自动倾斜校正处理子步骤包括自动倾斜校正分步骤和图像旋转分步骤,
所述自动倾斜校正分步骤包括:
设定计算参数:θmax和θmin分别代表θ可取的最大和最小值,ρmax和ρmin分别代表ρ可取的最大和最小值;Δθ表示θ离散化的步长值;Accoum是一个3维数组,第1维对应θ值,第2维对应ρ值,当θ和ρ分别取定θm和ρn时,数组的第3维存放对应参数为θm、ρn的直线段累计点数、起点坐标和终点坐标;iTop、iBottom、iLeft、iRight分别代表图像中进行变换区域的上下左右边界坐标数值,然后执行计算步骤;
计算步骤1初始化:令i=iTop,j=iLeft;
计算步骤2:取图像A中的点A(i,j),如果A(i,j)是前景点,则跳到计算步骤3,否则跳到计算步骤4;
计算步骤3:令θ=0min,m=0;
计算步骤3.a:如m<((θmax-θmin)/Δθ+1),则往下执行计算步骤3.b,否则跳到计算步骤4;
计算步骤3.b:令x=i-Top,y=j-Left;
计算步骤3.c:计算ρ值:ρ=x cosθ+y sinθ;
计算步骤3.d:令n=ρ-ρmin;
计算步骤3.e:累加器+1:Accum(m,n,0)=Accum(m,n,0)+1;
计算步骤3.f:如果累加器值=1,则记录直线段的起点坐标:
Accum(m,n,1)=Accum(m,n,3)=x+Top,
Accum(m,n,2)=Accum(m,n,4)=y+Left;否则,记录直线段的终点坐标:
Accum(m,n,3)=x+Top,Accum(m,n,4)=y+Left;
计算步骤3.g:令θ=θ+Δθ,m=m+1;跳回计算步骤3.a继续执行;
计算步骤4:令j=j+1,若j<=iRight,则跳回2继续执行,否则令i=i+1,j=iLeft,若i<=iBottom,则跳回计算步骤2继续执行,否则终止计算步骤。
作为优选,所述计算步骤中:
δ=6°,θmin=-δ,θmax=δ;
Δθ=0.1°
待识别文档被扫描成图像的过程中,或多或少的出现角度的倾斜,倾斜的图像会给字符的分割造成困难,大部分OCR对倾斜及变形的字符都比较敏感,这会影响到表格字符的提取,因此采用本发明可以自动将测量图形的倾斜角度并进行快速的校正。以上参数,经过申请人的试验,有较好的图像质量。
作为优选,图像旋转分步骤包括:
将指定的任意旋转中心C(x0,y0)平移导坐标原点O,变换矩阵为Ts1;
使图像绕坐标原点逆时针旋转θ角,变化矩阵为Tr;
使得旋转中心从坐标原点平移回原来的位置C(x0,y0),变换矩阵为Ts2。
作为优选,在所述步骤三中包括依次执行的以下子步骤:
提取单元格子步骤:表格文档图像进行直线检测来提取表格线,根据每个单元格上下左右边框分别所在的表格线的位置提取出单元格;
去除单元格边线子步骤:
提取过程中已获得单元格上下左右边界位置,在上下左右边界的一定邻域范围内进行局部Hough变化,找出所有水平方向和垂直方向的直线段,以单元格的长宽的80%作为阈值,大于阈值的用背景色替换当前线段的颜色;
字符图像去噪子步骤:
检测出目标图像中所有的连通区域,然后按照连通区域大小的阈值进行过滤,把较小的区域从图像中删除;
字符图像平滑化子步骤:
针对字符边缘的突起和凹槽,采用3*3模板法对图像进行平滑化处理。表格线所构成的一个个相邻的矩形单元格古城了表格的基本输入单元,表格文档的这种特性决定了表格字符定位与提取的第一步必须时准确的定位并提取表格的所有单元格,采用本发明方法通过对去除了表格线的单元格字符图像进行去噪和平滑化得到了待识别单元格图像。
作为优选,在所述字符图像平滑化子步骤中:
当图像中的一个3*3窗口与模板a相匹配时,用前景色填充窗口中心像素点;同样的,当3*3窗口与模板b或模板b旋转90°、180°、270°生成的模板相匹配时,也用前景色填充窗口中心像素点;当图像中的一个3*3窗口与模板c或模板c旋转90°、180°、270°生成的模板相匹配时,用背景色填充窗口中心像素点;当图像中的一个3*3窗口与模板d或模板d旋转90°、180°、270°生成的模板相匹配时,用背景色填充窗口中心像素点;以x代表任意像素点,以1代表前景像素点,以0代表背景像素点,所述模板a的表述为:
x 1 x
1 0 1
x 1 x;
所述模板b的表述为:
x 1 x
1 0 1
0 0 1;
所述模板c的表述为:
0 0 x
0 1 1
0 0 1;
所述模板d的表述为:
0 0 0
0 1 1
0 0 x。
图像经过二值化处理之后,或多或少会受到噪声点的干扰,去除边框先后,噪声干扰更加明显,这是因为而之花过程中使得部分边框线出现了毛刺,而这些毛刺通常由于边框线去除模块不把它们当成边框线的一部分而被保留下来,从而形成噪声,这些噪声会影响和降低后续模块的特征提取和识别过程的性能,因此必须对图像进行有效的降噪处理。针对图像中噪声点较小的特点,检测出目标图像中所有的连通区域,然后按照连通区域大小的阈值进行过滤,把较小的区域从图像中删除,从而达到去噪的目的,这种方法的有点时无须对图像进行滤波,速度快且不会丢失图像细节。
作为优选,在步骤四中:采用ocr工具来识别图片中的文字,将上述处理好的图片,用ocr工具进行识别,完成合同表格的识别工作。
作为优选,在所述步骤五中:通过关键字提取的方式,将关键信息提取,对分类完成的信息录入至建筑工程物料管理系统中。
作为优选,在对建筑工程物料管理系统内资源的访问并录入表单时,根据访问者身份信息直接配置成一条关系数据或是一个键值对作为明文,对明文进行加密后形成密文进行传输,传输的密文被权限管理系统被拦截,权限管理系统对密文进行解密后判断当前操作的人员是否有相应的权限,若关系数据或键值对存在,则有权限并执行相应指令,否则提示无权限并结束当前访问;对建筑工程物料管理系统内资源的访问中录入的访问者的信息至少包括身份信息码和生物识别码;所述生物识别码由访问者通过连接在前台网站上的识别器进行上传,所述的识别器包括指纹识别器、木纹识别器或建筑材料的花纹识别器;建筑工程物料管理系统运营者在建筑工程物料流程开始时,根据建筑工程产品中的物流过程指定输入生物识别码和设定的身份信息码,建筑工程物料流程中访问者通过输入木纹识别器或建筑材料的花纹识别器输入生物识别码,通过键盘输入身份信息码来形成完整的访问者身份信息,并以此访问者身份信息来访问建筑工程物料管理系统内的资源。确保了各个关键节点的访问者都有自己的权限,上传表单时,不易出现数据的造假,能够使得资本市场准确合理的监管材料商,真实的物流信息和资金信息可以使得资金的安全性得到保障,从而使投资商有较好的投资信心,材料商可以得到资金帮助后加快材料流转速度,使得很多建筑工程的资金链问题得到缓解。
本发明的实质性效果是:采用本发明的方法能进行良好的图片处理和表格处理能为后续的特征提取及特征分类提供尽可能完整、可靠、无噪声干扰的字符信息,这些信息通过计算机的处理后,能快速处理极为庞大数量的表单,可以达成对多种表单进行跟踪处理,自动对表单进行分析处理的工作,提取表单中的某一些关键数据,监控建筑单位资质、建筑工序、建筑能力、资金状况等多个项目,实现同一时间对多个项目提供资金支持。
具体实施方式
下面通过具体实施例,对本发明的技术方案作进一步的具体说明。
实施例:
一种建筑工程物料管理系统表单数据自动录入方法,包括以下步骤:
步骤一:访问建筑工程物料管理系统,在对建筑工程物料管理系统内资源的访问并录入表单时,根据访问者身份信息直接配置成一条关系数据或是一个键值对作为明文,对明文进行加密后形成密文进行传输,传输的密文被权限管理系统被拦截,权限管理系统对密文进行解密后判断当前操作的人员是否有相应的权限,若关系数据或键值对存在,则有权限并执行相应指令,否则提示无权限并结束当前访问;对建筑工程物料管理系统内资源的访问中录入的访问者的信息至少包括身份信息码和生物识别码;所述生物识别码由访问者通过连接在前台网站上的识别器进行上传,所述的识别器包括指纹识别器、木纹识别器或建筑材料的花纹识别器;建筑工程物料管理系统运营者在建筑工程物料流程开始时,根据建筑工程产品中的物流过程指定输入生物识别码和设定的身份信息码,建筑工程物料流程中访问者通过输入木纹识别器或建筑材料的花纹识别器输入生物识别码,通过键盘输入身份信息码来形成完整的访问者身份信息,并以此访问者身份信息来访问建筑工程物料管理系统内的资源。并将扫描好的表格图片上传至建筑工程物料管理系统;
步骤二:对表格图片依次进行灰化子步骤、二值化子步骤和自动倾斜校正处理子步骤;在所述步骤二中执行灰化子步骤和二值化子步骤时:先把彩色图片中的彩色信息转化为灰度值,生成单一色调的灰度图片,然后计算得到表格图片面积数值,其次遍历表格图片中所有的像素,然后以这些像素为中心点,计算表格图片大小的矩形的平均颜色,用来和当前像素比较,如当前像素值大于平均,设置为背景点,如当前像素值小于平均,设置为前景点,使得前景字符与背景分割开。
所述自动倾斜校正处理子步骤包括自动倾斜校正分步骤和图像旋转分步骤,
所述自动倾斜校正分步骤包括:
设定计算参数:θmax和θmin分别代表θ可取的最大和最小值,ρmax和ρmin分别代表ρ可取的最大和最小值;Δθ表示θ离散化的步长值;Accoum是一个3维数组,第1维对应θ值,第2维对应ρ值,当θ和ρ分别取定θm和ρn时,数组的第3维存放对应参数为θm、ρn的直线段累计点数、起点坐标和终点坐标;iTop、iBottom、iLeft、iRight分别代表图像中进行变换区域的上下左右边界坐标数值,然后执行计算步骤;
计算步骤1初始化:令i=iTop,j=iLeft;
计算步骤2:取图像A中的点A(i,j),如果A(i,j)是前景点,则跳到计算步骤3,否则跳到计算步骤4;
计算步骤3:令θ=θmin,m=0;
计算步骤3.a:如m<((θmax-θmin)/Δθ+1),则往下执行计算步骤3.b,否则跳到计算步骤4;
计算步骤3.b:令x=i-Top,y=j-Left;
计算步骤3.c:计算ρ值:ρ=x cosθ+y sinθ;
计算步骤3.d:令n=ρ-ρmin;
计算步骤3.e:累加器+1:Accum(m,n,0)=Accum(m,n,0)+1;
计算步骤3.f:如果累加器值=1,则记录直线段的起点坐标:
Accum(m,n,1)=Accum(m,n,3)=x+Top,
Accum(m,n,2)=Accum(m,n,4)=y+Left;否则,记录直线段的终点坐标:
Accum(m,n,3)=x+Top,Accum(m,n,4)=y+Left;
计算步骤3.g:令θ=θ+Δθ,m=m+1;跳回计算步骤3.a继续执行;
计算步骤4:令j=j+1,若j<=iRight,则跳回2继续执行,否则令i=i+1,j=iLeft,若i<=iBottom,则跳回计算步骤2继续执行,否则终止计算步骤。
所述计算步骤中:
δ=6°,θmin=-δ,θmax=δ;
Δθ=0.1°
图像旋转分步骤包括:
将指定的任意旋转中心C(x0,y0)平移导坐标原点O,变换矩阵为Ts1;
使图像绕坐标原点逆时针旋转θ角,变化矩阵为Tr;
使得旋转中心从坐标原点平移回原来的位置C(x0,y0),变换矩阵为Ts2。
步骤三:表格处理模块进一步对表格的单元格内字符进行定位和提取;在所述步骤三中包括依次执行的以下子步骤:
提取单元格子步骤:表格文档图像进行直线检测来提取表格线,根据每个单元格上下左右边框分别所在的表格线的位置提取出单元格;
去除单元格边线子步骤:
提取过程中已获得单元格上下左右边界位置,在上下左右边界的一定邻域范围内进行局部Hough变化,找出所有水平方向和垂直方向的直线段,以单元格的长宽的80%作为阈值,大于阈值的用背景色替换当前线段的颜色;
字符图像去噪子步骤:
检测出目标图像中所有的连通区域,然后按照连通区域大小的阈值进行过滤,把较小的区域从图像中删除;
字符图像平滑化子步骤:
针对字符边缘的突起和凹槽,采用3*3模板法对图像进行平滑化处理。
在所述字符图像平滑化子步骤中:
当图像中的一个3*3窗口与模板a相匹配时,用前景色填充窗口中心像素点;同样的,当3*3窗口与模板b或模板b旋转90°、180°、270°生成的模板相匹配时,也用前景色填充窗口中心像素点;当图像中的一个3*3窗口与模板c或模板c旋转90°、180°、270°生成的模板相匹配时,用背景色填充窗口中心像素点;当图像中的一个3*3窗口与模板d或模板d旋转90°、180°、270°生成的模板相匹配时,用背景色填充窗口中心像素点;以x代表任意像素点,以1代表前景像素点,以0代表背景像素点,所述模板a的表述为:
x 1 x
1 0 1
x 1 x;
所述模板b的表述为:
x 1 x
1 0 1
0 0 1;
所述模板c的表述为:
0 0 x
0 1 1
0 0 1;
所述模板d的表述为:
0 0 0
0 1 1
0 0 x。
步骤四:OCR模块对字符进行分割、特征提取和模式分类;在步骤四中:采用ocr工具来识别图片中的文字,将上述处理好的图片,用ocr工具进行识别,完成合同表格的识别工作。
步骤五:对分类完成的信息录入至建筑工程物料管理系统中。在所述步骤五中:通过关键字提取的方式,将关键信息提取,对分类完成的信息录入至建筑工程物料管理系统中。
本实施例中建筑工程物料管理系统运营者在建筑工程物料流程开始时,根据建筑工程产品中的物流过程指定输入生物识别码和设定的身份信息码,建筑工程物料流程中访问者通过输入木纹识别器或建筑材料的花纹识别器输入生物识别码,通过键盘输入身份信息码来形成完整的访问者身份信息,并以此访问者身份信息来访问建筑工程物料管理系统内的资源。
在同一个物料在同一个建筑工程物料流程中,项目方、经销商、结算中心、厂商和物流公司中所使用的生物识别码相同。
所述的生物识别码为访问者通过指纹识别器、木纹识别器或建筑材料的花纹识别器输入的识别码中固定位数起截取的固定长度的字节。
本实施例中,身份信息码和生物识别码两种码二合一的形式提高了密码泄露的难度。特别是木纹识别器或建筑材料的花纹识别器,可以采用摄像头,摄入指定的物料的截面花纹,作为然后录入电脑之后截取其中一段进行数字化,并转换为2进制数据,再进一步转换为生物识别码,因此上只有物料真正流转之后相应的访问者才有权限进行访问,而且当物料流转走之后相应的访问者则缺少了相应访问能力,达到准确监控物料流程的目的。通过输入木纹识别器或建筑材料的花纹识别器输入生物识别码有多种形式可以是:将若干个木料编号后依次识别木料截面后得出若干个识别码,然后通过转换获得一个较长的数字段,然后从中固定位数起截取的固定长度的字节作为生物识别码。这里的固定位数包括但不仅限于1位。
本实施例确保了各个关键节点的访问者都有自己的权限,上传表单时,不易出现数据的造假,能够使得资本市场准确合理的监管材料商,真实的物流信息和资金信息可以使得资金的安全性得到保障,本发明针对的建筑工程物料管理系统可以是本申请人现在已经使用的建筑工程物料管理系统,也可以是市场上常见的其他建筑工程物料管理系统,并无局限。采用本发明的方法能进行良好的图片处理和表格处理能为后续的特征提取及特征分类提供尽可能完整、可靠、无噪声干扰的字符信息,这些信息通过计算机的处理后,能快速处理极为庞大数量的表单,可以达成对多种表单进行跟踪处理,自动对表单进行分析处理的工作,提取表单中的某一些关键数据,监控建筑单位资质、建筑工序、建筑能力、资金状况等多个项目,实现同一时间对多个项目提供资金支持。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。