CN114299516A - 表格或文本行的处理方法、票据处理方法、装置及存储介质 - Google Patents
表格或文本行的处理方法、票据处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN114299516A CN114299516A CN202111477191.7A CN202111477191A CN114299516A CN 114299516 A CN114299516 A CN 114299516A CN 202111477191 A CN202111477191 A CN 202111477191A CN 114299516 A CN114299516 A CN 114299516A
- Authority
- CN
- China
- Prior art keywords
- boundary
- points
- point set
- source control
- processed
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 72
- 238000003672 processing method Methods 0.000 title description 29
- 238000000034 method Methods 0.000 claims abstract description 98
- 230000006870 function Effects 0.000 claims abstract description 53
- 230000008859 change Effects 0.000 claims description 32
- 238000005452 bending Methods 0.000 claims description 27
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000000750 progressive effect Effects 0.000 claims description 8
- 230000001419 dependent effect Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012937 correction Methods 0.000 abstract description 17
- 230000000694 effects Effects 0.000 abstract description 8
- 238000012549 training Methods 0.000 abstract description 8
- 238000010801 machine learning Methods 0.000 abstract description 3
- 238000005516 engineering process Methods 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 80
- 238000013527 convolutional neural network Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 238000013461 design Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 2
- 230000008030 elimination Effects 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 238000003702 image correction Methods 0.000 description 2
- 230000004807 localization Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013178 mathematical model Methods 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Landscapes
- Image Processing (AREA)
Abstract
本发明属于文档识别技术领域,具体涉及一种表格或文本行的处理方法、票据处理方法、装置及存储介质。主要包括:获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合;根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点;将各个源控制点对齐,得到对应的目标控制点;根据各个源控制点、目标控制点和最小能量函数得到插值函数;应用插值函数对待处理对象对应的文本行区域进行处理。将薄板样条插值技术用于弯曲文本行或者弯曲表格的处理中,有效解决了现有技术中使用机器学习方法对弯曲文本进行矫正时,矫正效果受训练样本限制的问题。
Description
技术领域
本发明属于文档识别技术领域,具体涉及一种表格或文本行的处理方法、票据处理方法、装置及存储介质。
背景技术
过去几年来,计算机视觉研究主要集中在卷积神经网络(常简称为ConvNet或CNN)上。由于卷积神经网络能使用局部操作对表征进行分层抽象,卷积神经网络已经在广泛的分类和回归任务上具有较佳表现。卷积架构在计算机视觉领域的成功主要受到有大关键的设计思想的推动:第一,CNN利用了图像的2D结构,并且由于相邻区域内的像素通常是高度相关的,故CNN无需使用所有像素单元之间的一对一连接(大多数神经网络都会这么做),而可以使用分组的局部连接。第二,CNN架构依赖于特征共享,因此每个通道(即输出特征图)是在所有位置使用同一个过滤器进行卷积而生成的。
空间变换网络(Spatial Transformer Networks,STNs)是由Jaderberg等人提出的一种卷积神经网络架构模型,空间变换网络由三个部分组成:本地化网络(localisationnetwork)、网格生成器(grid generator)及采样器(sampler)。STNs可用于输入层,也可插入到卷积层或者其它层的后面,而不需要改变原CNN模型的内部结构。STNs对于输入的图片,先用本地化网络来预测需要进行的变换,即经过连续若干层计算(包括卷积和全连接计算),然后网格生成器和采样器对图片实施变换,变换得到的图片被放到CNN中进行分类。其中网络生成器使用了双线性插值方法来生成网络;采样器采用形式上可微的图像采样方法,让整个网络保持可以端到端反向传播BP训练,经过训练后的网络可以对弯曲的网络进行矫正。
针对现实应用场景中文本容易出现弯曲的情况,现有的基于STNs的深度学习矫正算法能在一定程度上解决弯曲矫正的问题,但是都是将CNN当作黑箱使用,这种做法虽然能得到优秀的结果,但是起效的原因却模糊不清,图像矫正不完全,扭曲失真,这严重满足不了科学研究的要求。同时如果训练好一个可用的深度学习网络,需要大量的数据,然而在现实应用场景种,文本的种类繁多,每一类弯曲的样本数量较少,非常难收集到训练好一个网络所需要的数据量,标注成本也非常高。
发明内容
本发明提出了一种表格或文本行的处理方法、票据处理方法、装置及存储介质,将薄板样条插值技术用于弯曲文本行或者弯曲表格的处理中,有效解决了现有技术中使用机器学习方法对弯曲文本进行矫正时,矫正效果受训练样本限制的问题。
本发明的第一方面,本申请提供了一种表格或文本行的处理方法,包括以下步骤:获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合;根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点;将各个源控制点对齐,得到对应的目标控制点;根据各个源控制点、目标控制点和最小能量函数得到插值函数;应用插值函数对待处理对象对应的文本行区域进行处理。
在本发明中,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,其中一种实现方式包括以下步骤:以第一预设顺序遍历待处理对象的文本行区域,所述第一预设顺序为针对各列由左至右、针对每一列由上至下;将各列中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;或者,以第二预设顺序遍历待处理对象的文本行区域,所述第二预设顺序为针对各行由上至下,针对每一行由左至右;将各行中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合。
进一步地,在本发明提供的表格或文本行的处理方法中,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,还包括:判断所述待处理对象的走向;当该待处理对象为横向时,以第一预设顺序遍历文本行区域;当该待处理对象为纵向时,以第二预设顺序遍历文本行区域。
进一步地,在本发明提供的表格或文本行的处理方法中,所述亮暗指示值为灰度值、红色分量值、蓝色分量值和绿色分量值中的其中一种;或者,当所述文本行区域为二值化的文本行区域时,所述亮暗指示值为1或0,此时,所述预设差值为1。
进一步地,在本发明提供的表格或文本行的处理方法中,在执行所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合的步骤之前,还包括:对待处理对象对应的文本行区域进行渐进式扩展网络处理,得到所述待处理对象。
进一步地,在本发明提供的表格或文本行的处理方法中,在执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线的步骤之前,还包括:用回归直线方程拟合第一边界点集合内的点,得到对应的第一回归直线方程;或者,用回归直线方程拟合第二边界点集合内的点,得到对应的第二回归直线方程;判断得到的第一回归直线方程或者第二回归直线方程的拟合优度是否符合第一优度阈值;当符合第一优度阈值时,直接输出待处理对象的文本行区域;当不符合第一优度阈值时,继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;
或者,用回归直线方程分别拟合第一边界点集合内的点和第二边界点集合内的点,得到对应的第三回归直线方程和第四回归直线方程;判断得到的第三回归直线方程和第四回归直线方程的拟合优度是否均符合第二优度阈值;当第三回归直线方程的拟合优度和第四回归直线方程的拟合优度均符合第二优度阈值时,直接输出待处理对象的文本行区域;当第三回归直线方程的拟合优度和/或第四回归直线方程的拟合优度不符合第二优度阈值时,继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线。
所述回归直线方程为:y=φ(x)=a0+a1x。
进一步地,在本发明提供的表格或文本行的处理方法中,所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线,包括:利用逐次提高多项式最高次项次数的方式,用多项式分别拟合第一边界点集合内的点和第二边界点集合内的点,得到拟合优度符合第三优度阈值的第一边界曲线和第二边界曲线,具体包括:利用多项式拟合第一边界点集合内的点,得到对应的多项式边界方程;判断得到的多项式边界方程的拟合优度是否符合第三优度阈值;当得到的多项式边界方程的拟合优度符合第三优度阈值时,确定该多项式边界方程为第一边界曲线,并用该多项式拟合第二边界点集合内的点,得到第二边界曲线;当得到的多项式边界方程的拟合优度不符合第三优度阈值时,换用更高次多项式重复上述步骤。
进一步地,在本发明提供的表格或文本行的处理方法中,第一优度阈值、第二优度阈值和第三优度阈值均为0.7-1内的任一范围;
拟合优度(G2)计算公式为:
其中,SSR为回归平方和,指自变量x的变化对因变量y取值变化的影响;SST为总平方和,指反应因变量的n个观察值与其均值的总离差;SSE为残差平方和,反映除x以外的其他因素对y取值的影响,SSR=SST+SSE;代表用公式计算出的拟合值,是指拟合点的平均值。
进一步地,在本发明提供的表格或文本行的处理方法中,利用回归直接方程或者多项式拟合第一边界点集合内的点和第二边界点集合内的点时,第一边界点集合内最边界的两个点和第二边界点集合内最边界的两个点均不参与计算。
进一步地,在本发明提供的表格或文本行的处理方法中,所述在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点,包括:从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应;其中,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点;或者,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点。
进一步地,在本发明提供的表格或文本行的处理方法中,所述从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应,包括:判断待处理对象的弯曲方向;当弯曲方向为向第二边界点集合方向弯曲时,从第二边界曲线上提取预设数量的第二源控制点;在第一边界曲线上提取与各第二源控制点对应的第一源控制点,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点;当弯曲方向为向第一边界点集合方向弯曲时,从第一边界曲线上提取预设数量的第一源控制点;在第二边界曲线上提取与各第一源控制点对应的第二源控制点,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点。
进一步地,在本发明提供的表格或文本行的处理方法中,所述判断待处理对象的弯曲方向,包括:计算第一边界点集合中第一个计入的第一边界点与文本行区域的边界间的距离,以及第二边界点集合中第一个计入的第二边界点与文本行区域的边界间的距离,并进行比较;当第一边界点与文本行区域的边界的距离更近时,确定待处理对象为向第二边界点集合方向弯曲;当第二边界点与文本行区域的边界的距离更近时,确定待处理对象为向第一边界点集合方向弯曲;
或者,比较计入第一边界点集合中的第一个第一边界点的时间与计入第二边界点集合中的第一个第二边界点的时间,当第一个第一边界点的时间早于第一个第二边界点时,确定待处理对象为向第二边界点集合方向弯曲;当第一个第二边界点的时间早于第一个第一边界点的时间时,确定待处理对象为向第一边界点集合方向弯曲;
或者,计算第一边界点集合中各个第一边界点之间的距离,提取其中的最大距离记为第一距离;计算第二边界点集合中各个第二边界点之间的距离,提取其中的最大距离记为第二距离;比较第一距离与第二距离;当第一距离大于第二距离时,确定待处理对象为向第二边界点集合方向弯曲;当第二距离大于第一距离时,确定待处理对象为向第一边界点集合方向弯曲;
或者,判断所述待处理对象的走向,当待处理对象为横向时,提取第一边界点集合以及第二边界点集合中位于最左侧的点,记为文本行边缘点;当待处理对象为纵向时,提取第一边界点集合以及第二边界点集合中位于最上侧的点,记为文本行边缘点;计算文本行边缘点与第一边界曲线和第二边界曲线间的距离并比较,当文本行边缘点与第一边界曲线间的距离大于与第二边界曲线间的距离时,确定待处理对象为向第一边界点集合方向弯曲;当文本行边缘点与第二边界曲线间的距离大于与第一边界曲线间的距离时,确定待处理对象为向第二边界点集合方向弯曲。
进一步地,在本发明提供的表格或文本行的处理方法中,所述将各个源控制点对齐,得到对应的目标控制点,包括:将各个第一源控制点的第一坐标对齐,得到与各第一源控制点对应的目标控制点的第一坐标;将各个第二源控制点的第一坐标对齐,得到与各第二源控制点对应的目标控制点的第一坐标;逐个将相对应的各组第一源控制点和第二源控制点的第二坐标对齐,得到与各组第一源控制点和第二源控制点对应的目标控制点的第二坐标。
进一步地,在本发明提供的表格或文本行的处理方法中,第一预设顺序为针对各列由左至右、针对每一列由上至下;第二预设顺序为针对各行由上至下,针对每一行由左至右;当以第一预设顺序遍历待处理对象的文本行区域得到所述第一边界点集合和所述第二边界点集合时,所述第一坐标为横坐标,所述第二坐标为纵坐标;当以第二预设顺序遍历待处理对象的文本行区域得到所述第一边界点集合和所述第二边界点集合时,所述第一坐标为纵坐标,所述第二坐标为横坐标。
进一步地,在本发明提供的表格或文本行的处理方法中,所述根据各个源控制点、目标控制点和最小能量函数得到插值函数,包括:
假设在空间区域R2内分布q个已知点集Pi,i=1,2,…,q,其坐标表示为:(xi,yi,z(xi,yi)),如果z(xi,yi)具有二次连续导数,则能量函数表示为:
对于TPS,可以通过最小化能量函数得到:
Ztps=argminE
由于插值时,数据点是以离散的表列形式表示的,公式(1)中最小化的函数表示为:
进一步地,在本发明提供的表格或文本行的处理方法中,所述应用插值函数对待处理对象对应的文本行区域进行处理,包括:基于所述插值函数确定目标图像中各个像素点与待处理对象的文本行区域的像素点间的对应关系;根据对应关系将待处理对象的文本行区域的像素点的像素值填入所述目标图像的各个像素点。
第二方面,本发明提供了一种票据处理方法,上述表格或文本行的处理方法对票据进行处理。
进一步地,本发明提供的票据处理方法还包括对处理后的文本行进行识别,得到票据的票面内容。
第三方面,本发明提供了一种表格或文本行的处理装置,该装置包括处理器和存储器,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现文本行的处理方法的步骤。
第四方面,本发明提供了一种计算机存储介质,其上存储有计算机程序,在该计算机程序被处理器执行时实现文本行的处理方法的步骤。
与现有技术相比,本发明具有以下优点:
1.本发明提供的表格或文本行的处理方法,采用获取待处理对象相对的两边界的边界曲线,再从边界曲线中选取一定数量的源控制点,并得到对应的目标控制点,然后根据源控制点、目标控制点以及薄板样条插值的最小能量函数得到插值函数,再应用插值函数对待处理对象对应的文本行区域进行处理的设计;利用文本行相对两边界处的弯曲程度最大的特点,通过一系列方法确定出待处理对象的相对两边界,再在该边界上选取控制点进而获取针对该待处理对象的插值函数。待处理对象经过该插值函数的处理,可以将弯曲的文本行矫正为不弯曲的文本行,还能保证矫正后的文本行不失真,不影响后续对文本行的识别等操作,实现了对文本行进行有效的矫正。而且,该插值函数的获取不依赖训练,有效解决了现有技术中使用机器学习的方法对弯曲文本行进行矫正前,需要使用大量的样本对矫正函数进行训练,而文本弯曲的类型多种多样,各种类型的样本不好取得,使得得到的矫正函数容易在迭代过程中陷入局部最小值,从而导致了对文本的矫正效果较差的问题。
2.本发明提供的表格或文本行的处理方法,采用所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合时,依据文本行的亮暗指示值与背景的亮暗指示值之间差距较大的特点,采取提取各列(或各行)中第一个和最后一个亮暗指示值符合文本特征的像素点作为该文本行在该列(或该行)上的两个边界点,依据该方法遍历整个文本行区域可以准确地找出待处理对象的对应边界上的点。另外,该采用根据亮暗指示值变化确定边界点的方法无需事先判断文本行与背景之间谁的亮暗指示值“大”、谁的亮暗指示值“小”,使该获取待处理对象相对两边界上的点的方法适用范围更广泛。
3.本发明提供的表格或文本行的处理方法,采用获的所述第一边界点集合和第二边界点集合时,还包括先判断所述待处理对象的走向,再根据走向选择获取第一边界点集合和第二边界点集合时采取的遍历顺序的设计。利用横向文本行上、下边界的长度大于左、右边界的长度,文本行的弯曲程度在上、下边界上的表现更明显;以及,纵向文本行的左、右边界的长度大于上、下边界的长度,文本行的弯曲程度在左、右边界上的表现更明显的特点。采取先判断待处理对象的方向,再选择获取弯曲程度表现较明显的边界点集合,使得得到的插值函数对该待处理对象的矫正效果更好。
4.本发明提供的表格或文本行的处理方法,采用所述亮暗指示值为灰度值、红色分量值、蓝色分量值和绿色分量值中的其中一种;或者,当所述文本行区域为二值化的文本行区域时,所述亮暗指示值为1或0,此时,所述预设差值为1的设计;所述亮暗指示值可以基于获取到的待处理对象图像像素点的特征进行选择,当只能得到具有灰度值、红色分量值、蓝色分量值和绿色分量值其中一个或几个元素的待处理文本图像时,可以基于该得到的亮暗指示值进行判断;不必再将该亮暗指示值转化成其他类型的亮暗指示值,当然,也可以对得到的亮暗指示值进行转化,比如将灰度值进行转化得到以1和0表示的二值化值,只要得到的亮暗指示值可以表达文本行与对应背景之间的差别即可,以使本发明的文本行处理方法具有较大的适用性。当文本为深色、背景为浅色时,二值化图像中文本对应的为1、背景为0;当文本为浅色、背景为深色时,二值化图像中文本对应的为0、背景为1;无论文本与背景之间颜色谁深谁浅,都可以选择对应的像素值确定属于第一边界点集合和第二边界点集合的像素点。而且,经过二值化处理的图像,文本行与背景间的差距更大,更有利于准确地选择出文本行的边界像素点。
5.本发明提供的表格或文本行的处理方法,采用在执行所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合的步骤之前,还包括对待处理对象对应的文本行区域进行渐进式扩展网络处理,得到所述待处理对象的设计,经过该处理的文本行变为随文本行弯曲方向弯曲的一段弧形框,该弧形框的边缘贴近文本行的边缘,获取该弧形框的边缘点的集合(第一边界点集合、第二边界点集合)即可得到原文本行的上下边缘所在边缘线的集合,无论原文本行弯曲的程度多大,该第一边界点集合和第二边界点集合都能准确全面地表示文本行的弯曲程度。
6.本发明提供的表格或文本行的处理方法,采用在执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线的步骤之前,用回归直线方程拟合第一边界点集合内的点、和/或第二边界点集合内的点,得到对应的回归直线方程;判断得到的回归直线方程的拟合优度是否符合对应的优度阈值,当拟合优度符合对应的优度阈值时,直接输出待处理对象的文本行区域的方法;即在对待处理对象进行矫正之前,判断文本行是否为直的,当待处理对象为直的则不进行矫正处理。实现了自动判断待处理对象是否为不弯曲文本行,无需人工判断待处理对象是否弯曲;对于不弯曲的文本行,则省去矫正的步骤直接输出文本行区域,提高了对待处理对象进行处理的速度,同时也节省了计算量。
7.本发明提供的表格或文本行的处理方法,采用所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线,包括利用逐次提高多项式最高次项次数的方式,用多项式分别拟合第一边界点集合内的点和第二边界点集合内的点,得到拟合优度符合第三优度阈值的第一边界曲线和第二边界曲线的设计;使得到的待处理对象边界曲线最符合文本行的边界情况,以确保对文本行的矫正效果。
8.本发明提供的表格或文本行的处理方法,采用所述在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点,包括:从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应;其中,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点;或者,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点的设计;根据文本行弯曲时,相对的两条边界线会发生弯曲的程度和边界线上各点位置的变化,选择以切线的方式确定源控制点,进一步确保对文本行的矫正效果,有效提高弯曲文本矫正的精确度。
9.本发明提供的表格或文本行的处理方法和装置在确定弯曲图像的边界后,利用基于薄板样条插值法确定源控制点和目标控制点,然后以源控制点和目标控制点得到插值函数,应用插值函数自动对文本进行矫正,获得完整的矫正图像,矫正后的图像清晰。本发明不需要进行训练,可直接矫正弯曲文本或图像,克服了弯曲文本数据库小,不易获得训练数据的缺陷,达到了简单易用的效果,图像矫正完整,并且该方法不受文本弯曲程度和弯曲方向的影响,适用范围广,尤其适用于发票行业,将文本行的处理方法用于票据行业,可以有效提高矫正后的票据的图像清晰度。
10.本发明各个步骤利用相应的数学模型(数学公式)进行描述和解释,过程清晰明了,可解释性更好,更加适用于理论研究领域,为研究弯曲文本的矫正提供了深层的理论解释。
附图说明
图1是本发明的实施例1中表格或文本行的处理方法的示例性流程图;
图2是本发明的实施例2中表格或文本行的处理方法的示例性流程图;
图3是本发明的实施例2中表格或文本行的处理方法中矫正前待处理对象的文本行区域的示意图;
图4是本发明的实施例2中表格或文本行的处理方法中经过渐进式扩展网络处理获得的待处理对象的示意图;
图5是本发明的实施例2中表格或文本行的处理方法中矫正后待处理对象的文本行区域的示意图;
图6是本发明中表格或文本行的处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非被特定定义,否则不会用理想化或过于正式的含义来解释。要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
实施例1
如图1所示,本发明实施例1提供了一种表格或文本行的处理方法,包括以下步骤:
S11:获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合;
S12:根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;
S13:在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点;
S14:将各个源控制点对齐,得到对应的目标控制点;
S15:根据各个源控制点、目标控制点和最小能量函数得到插值函数;
S16:应用插值函数对待处理对象对应的文本行区域进行处理。
本发明中,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,其中一种实现方式包括以下步骤:
以预设顺序遍历待处理对象的文本行区域;
将各列中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;或者,将各行中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合。其中,像素点的亮暗指示值的变化是指进行比较的两个像素点亮暗指示值差值的绝对值。
本发明中,所述以预设顺序遍历待处理对象的文本行区域,包括:以第一预设顺序遍历文本行区域,所述第一预设顺序为针对各列由左至右、针对每一列由上至下,遍历完一列再遍历下一列或多列同时遍历;或者,以第二预设顺序遍历文本行区域,所述第二预设顺序为针对各行由上至下,针对每一行由左至右,遍历完一行再遍历下一行或多行同时遍历。所述第一预设顺序和第二预设顺序中的任一种都可以找出对应的边界点,第一预设顺序获取到的是文本行的上、下边界点,第二预设顺序获取到的是文本行的左、右边界点。
本实施例中,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,包括:以第一预设顺序遍历待处理对象的文本行区域,所述第一预设顺序为针对各列由左至右、针对每一列由上至下;将各列中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;
或者,以第二预设顺序遍历待处理对象的文本行区域,所述第二预设顺序为针对各行由上至下,针对每一行由左至右;将各行中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合。
具体实施时,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,还包括:判断所述待处理对象的走向;当该待处理对象为横向时,以所述第一预设顺序遍历文本行区域;当该待处理对象为纵向时,以所述第二预设顺序遍历文本行区域。在具有文本行的图像中判断文本行的走向为现有技术。比如可以比较文本行的宽与高的值,当宽大于高时,文本行通常为横向,当高大于宽时,文本行的走向通常为纵向。当然该宽高是相对于文本行所在图像当前的摆放方式而言的。本领域技术人员可以根据实际需要选择判断待处理对象的走向的方法,此处不再过多赘述。
具体实施时,所述亮暗指示值为灰度值、红色分量值、蓝色分量值和绿色分量值中的其中一种;或者,当所述文本行区域为二值化的文本行区域时,所述亮暗指示值为1或0,此时,所述预设差值为1。亮暗指示值可以基于获取到的待处理对象图像像素点的特征进行选择,当获得的所述待处理对象所在的图像为彩色图像时,可以采用红色分量值、蓝色分量值和绿色分量值其中之一,不必再将该彩色图像转化成其他类型的图像,此时的预设差值可以选择10-251中的任一值;当然,也可以对得到的图像进行转化,比如将彩色图转化为灰度图,此时预设差值可以选择10-251中的任一值;或者,将灰度值进行转化得到以1和0表示的二值化图。只要得到的亮暗指示值可以表达文本行与所在背景之间的差别即可,当然,文本行与所在背景间的差距越大越好。
当文本行为深色、背景为浅色时,二值化图像中文本行对应的为1、背景为0;当文本行为浅色、背景为深色时,二值化图像中文本行对应的为0、背景为1。无论文本行与背景之间颜色谁深谁浅,都可以选择对应的像素值确定属于第一边界点集合和第二边界点集合的像素点。而且,经过二值化处理的图像,文本行与背景间的差距更大,更有利于准确地选择出文本行的边界像素点。因此,当获取到背景为白色、文本行为黑色的二值化形式的所述待处理对象区域对应的图像时,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,还可以通过以下步骤实现:对于各列由左至右,对于每一列由上至下的顺序遍历文本行区域的每一个像素点;将各列中像素值第一次由0变为1时,1所对应的像素点计入第一边界点集合;像素值最后一次由1变为0时,1所对应的像素点计入第二边界点集合。或者,当获取到背景为黑色、文本行为白色的二值化形式的所述待处理对象区域对应的图像时,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合可以采取的具体方法为:将各列中像素值第一次由1变为0时,0所对应的像素点计入第一边界点集合;像素值最后一次由0变为1时,0所对应的像素点计入第二边界点集合。
本申请中所述待处理对象可以为发票等的表格图像,也可以为文本行图像。所述待处理对应对应的文本行区域是文本行及其临近的背景区域,或者表格及其临近的背景区域;通常该待处理对象对应的文本行区域为原图,当然也可以是灰度图或RGB单通道图。本申请以图像中表示区域的最小单位,像素点作为处理对象,实现了精确找到图像的文本行的字符的边缘;当然也可以以固定的几个像素点作为一个处理单位,以减小计算量。
本发明可用于处理文本行也可以用于处理表格。当处理文本行时,若文本行的弯曲程度过大或者文本行中字符不是口字框形式的字符,那么直接采取上述遍历图像的方法获取到的文本行的边界点通常不是文本行的边界点,所以,在具体实施时,在执行所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合的步骤之前,还包括:对待处理对象对应的文本行区域进行渐进式扩展网络处理,得到所述待处理对象。渐进式扩展网络处理(英文全称:Shape Robust Text Detection with Progressive ScaleExpansion Network,英文缩写PSENet)是现有技术,该处理可以准确的定位弯曲文本,且分割出的弯曲文本贴覆文本行边缘,相当于给整个待处理对象框上了一个弧形框。在该弧形框的基础上执行上述步骤提取边界点,才能获取到的文本行的边界点。
所述待处理对象可能是弯曲的也可能是不弯曲的,弯曲的文本行不利于识别等后续处理,弯曲程度越大影响越大,而直的文本行基本不会影响识别等后续处理,所以在确定文本行的位置后最好先判断文本行为直的还是弯曲的,若是弯曲的,再提取源控制点和目标控制点并用基于薄板样条插值的插值函数对文本行区域进行处理以矫正文本行。基于待处理对象弯曲时相对的两界也是弯的的特点,可以选择判断所述第一边界点集合和/或者所述第二边界点集合内的点所在的线是直的还是弯的,下面介绍几种可行的判断所述待处理对象是否弯曲的方法。
具体实施时,在执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线的步骤之前,还包括:用回归直线方程拟合第一边界点集合内的点,得到对应的第一回归直线方程;判断得到的第一回归直线方程的拟合优度是否符合第一优度阈值;当符合第一优度阈值时,则该待处理对象不是弯曲的,可以直接输出待处理对象的文本行区域;当不符合第一优度阈值时,该待处理对象是弯曲的,需要继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线等对待处理对象进行矫正的步骤;
或者,
用回归直线方程拟合第二边界点集合内的点,得到对应的第二回归直线方程;判断得到的第二回归直线方程的拟合优度是否符合第一优度阈值;当符合第一优度阈值时,则该待处理对象不是弯曲的,可以直接输出待处理对象的文本行区域;当不符合第一优度阈值时,该待处理对象是弯曲的,需要继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线等对待处理对象进行矫正的步骤;
待处理对象的一个边界为直的时,所述待处理对象是直的的可信度较低,为了提高判断结果的准确性和可信度,可以判断采用判断待处理对象的两个相对的边界,此时,判断所述待处理对象是否弯曲的方法为:用回归直线方程分别拟合第一边界点集合内的点和第二边界点集合内的点,得到对应的第三回归直线方程和第四回归直线方程;判断得到的第三回归直线方程和第四回归直线方程的拟合优度是否均符合第二优度阈值;当第三回归直线方程的拟合优度和第四回归直线方程的拟合优度均符合第二优度阈值时,则该待处理对象不是弯曲的,可以直接输出待处理对象的文本行区域;当第三回归直线方程的拟合优度和/或第四回归直线方程的拟合优度不符合第二优度阈值时,该待处理对象是弯曲的,需要继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线。
具体实施时,所述回归直线方程为:y=φ(x)=a0+a1x。
具体操作方法为:首先选取第一边界点集合中的点用直线方程y=φ(x)=a0+a1x进行拟合,然后用高斯消元法求直线方程参数;然后确定第一边界点集合内的点pi(xi,yi)与该得到的直线方程间的偏差δi=φ(xi)-y,求得偏差最小的直线方程即为第一边界点集合对应的直线回归方程。其中,用直线方程拟合第一边界点集合中的点时,可以选取集合中的一部分点也可以选取全部点;优选地,本实施例中选择的为除了两端的两个边界点以外的全部点。“求得偏差最小的直线方程”中的“偏差”为第一边界点集合中的多个点与直线方程间的偏差(δi)的和;优选地,本实施例中为除了两端的两个边界点以外的全部点与直线方程间的偏差(δi)的和。
具体实施时,所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线,包括:利用逐次提高多项式最高次项次数的方式,用多项式分别拟合第一边界点集合内的点和第二边界点集合内的点,得到拟合优度符合第三优度阈值的第一边界曲线和第二边界曲线。
具体实施时,利用多项式拟合第一边界点集合内的点,得到对应的多项式边界方程;判断得到的多项式边界方程的拟合优度是否符合第三优度阈值;当得到的多项式边界方程的拟合优度符合第三优度阈值时,确定该多项式边界方程为第一边界曲线,并用该多项式拟合第二边界点集合内的点,得到第二边界曲线;当得到的多项式边界方程的拟合优度不符合第三优度阈值时,换用更高次多项式重复上述步骤。具体的,从二次多项式开始,拟合第一边界点集合内的点;当二次多项式拟合得到的二次多项式方程的拟合优度不符合第三优度阈值时,使用三次多项式拟合第一边界点集合内的点,在将该三次多项式拟合得到的三次多项式方程的拟合优度与第三优度阈值进行比较,直至得到的多项式方程的拟合优度符合第三优度阈值。本实施例中是先获取第一边界点集合内的点的多项式方程,当然也可以获取拟合优度符合第三优度阈值的第二边界点集合内的点对应的多项式方程。
具体实施时,所述第一优度阈值、第二优度阈值和第三优度阈值均为0.7-1内的任一范围;优选地可以选择0.7-1、0.8-1、0.85-1、或者0.9-1。
拟合优度(G2)计算公式为:
其中,SSR为回归平方和,指自变量x的变化对因变量y取值变化的影响,或者说是由于x与y之间的线性关系引起的与的取值变化,也称为可解释的平方和;SST为总平方和,指反应因变量的n个观察值与其均值的总离差;SSE为残差平方和,反映除x以外的其他因素对y取值的影响,也可成为不可解释的平方和或剩余平方和,SSR=SST+SSE;代表用公式计算出的拟合值,是指拟合点的平均值。
具体实施时,由于在弯曲文本中容易将左、右边界上的点判断为上、下边界上的点,或者将上、下边界上的点判断为左、右边界上的点,为了消除误判对所述待处理对象的影响,利用回归直接方程或者多项式拟合第一边界点集合内的点和第二边界点集合内的点时,第一边界点集合内最边界的两个点和第二边界点集合内最边界的两个点均不参与计算。
具体实施时,所述在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点,包括:从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应;其中,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点;或者,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点。
具体实施时,所述从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应,包括:判断待处理对象的弯曲方向;当弯曲方向为向第二边界点集合方向弯曲时,从第二边界曲线上提取预设数量的第二源控制点;在第一边界曲线上提取与各第二源控制点对应的第一源控制点,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点;当弯曲方向为向第一边界点集合方向弯曲时,从第一边界曲线上提取预设数量的第一源控制点;在第二边界曲线上提取与各第一源控制点对应的第二源控制点,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点。
具体实施时,可以采用以下四种方法判断待处理对象的弯曲方向,第一种方法为:计算第一边界点集合中第一个计入的第一边界点与文本行区域的边界间的距离,以及第二边界点集合中第一个计入的第二边界点与文本行区域的边界间的距离,并进行比较;当第一边界点与文本行区域的边界的距离更近时,确定待处理对象为向第二边界点集合方向弯曲;当第二边界点与文本行区域的边界的距离更近时,确定待处理对象为向第一边界点集合方向弯曲。
判断待处理对象的弯曲方向第二种方法为:比较计入第一边界点集合中的第一个第一边界点的时间,与计入第二边界点集合中的第一个第二边界点的时间,当第一个第一边界点的时间早于第一个第二边界点的时间时,确定待处理对象为向第二边界点集合方向弯曲;当第一个第二边界点的时间早于第一个第一边界点的时间时,确定待处理对象为向第一边界点集合方向弯曲。
判断待处理对象的弯曲方向第三种方法为:计算第一边界点集合中各个第一边界点之间的距离,提取其中的最大距离记为第一距离;计算第二边界点集合中各个第二边界点之间的距离,提取其中的最大距离记为第二距离;比较第一距离与第二距离;当第一距离大于第二距离时,确定待处理对象为向第二边界点集合方向弯曲;当第二距离大于第一距离时,确定待处理对象为向第一边界点集合方向弯曲。
判断待处理对象的弯曲方向第四种方法为:判断待处理对象的走向,当待处理对象为横向时,提取第一边界点集合以及第二边界点集合中位于最左侧的点,记为文本行边缘点;当待处理对象为纵向时,提取第一边界点集合以及第二边界点集合中位于最上侧的点,记为文本行边缘点;计算文本行边缘点与第一边界曲线和第二边界曲线间的距离并比较,当文本行边缘点与第一边界曲线间的距离大于与第二边界曲线间的距离时,确定待处理对象为向第一边界点集合方向弯曲;当文本行边缘点与第二边界曲线间的距离大于与第一边界曲线间的距离时,确定待处理对象为向第二边界点集合方向弯曲。
当应用上述第一种或者第二种方法判断待处理对象的弯曲方向时,若以第一预设顺序遍历文本行区域,则该第一预设顺序应当进一步限定为:从左侧第一列开始,依由上至下的顺序遍历完第一列的各个像素点后再遍历第二列,遍历完成第二列后再遍历第三列,……,即由左侧第一列开始,逐列遍历;若以第二预设顺序遍历文本行区域,则该第二预设顺序应当进一步限定为:从上侧第一行开始,依由左至右的顺序遍历完第一行的各个像素点后再遍历第二行,遍历完成第二行后再遍历第三行,……,即由上方第一行开始,逐行遍历。对于上述第三和第四中方法则不需要进一步限定第一预设顺序是逐列遍历还是多列并行遍历,应用第二预设顺序时也不需要限定遍历顺序是逐行编历还是多行并行遍历。
具体实施时,所述将各个源控制点对齐,得到对应的目标控制点,包括:将各个第一源控制点的第一坐标对齐,得到与各第一源控制点对应的目标控制点的第一坐标;将各个第二源控制点的第一坐标对齐,得到与各第二源控制点对应的目标控制点的第一坐标;逐个将相对应的各组第一源控制点和第二源控制点的第二坐标对齐,得到与各组第一源控制点和第二源控制点对应的目标控制点的第二坐标。
具体实施时,第一预设顺序为针对各列由左至右、针对每一列由上至下;第二预设顺序为针对各行由上至下,针对每一行由左至右;当以第一预设顺序遍历待处理对象的文本行区域得到所述第一边界点集合和所述第二边界点集合时,所述第一坐标为横坐标,所述第二坐标为纵坐标;当以第二预设顺序遍历待处理对象的文本行区域得到所述第一边界点集合和所述第二边界点集合时,所述第一坐标为纵坐标,所述第二坐标为横坐标。
具体实施时,所述根据各个源控制点、目标控制点和最小能量函数得到插值函数,包括:
假设在空间区域R2内分布q个已知点集Pi,i=1,2,…,q,其坐标表示为:(xi,yi,z(xi,yi)),如果z(xi,yi)具有二次连续导数,则能量函数表示为:
对于TPS,可以通过最小化能量函数得到:
Ztps=argminE
其中,由于插值时,数据点是以离散的表列形式表示的,公式(1)中最小化的函数表示为:
其中,ri=(x-xi)2+(y-yi)2 (4)
上述,公式(2)至公式(4)中,(x,y)为目标控制点,(xi,yi)为源控制点。根据薄板样条插值公式计算方法,将各目标控制点和各源控制点代入公式即可得到公式(2),得到插值函数。根据目标控制点和源控制点得到能量最小的插值函数的方法为现有技术,此处不再过多赘述。
具体实施时,所述应用插值函数对待处理对象对应的文本行区域进行处理,包括:基于所述插值函数确定目标图像中各像素点与待处理对象的文本行区域的各个像素点间的对应关系;根据对应关系将待处理对象的文本行区域的像素点的像素值填入所述目标图像的各个像素点。
本实施例中应用所述插值函数对待处理对象对应的文本行区域进行处理,是建立目标图像中各个像素点与待处理图像的文本行区域像素点之间的对应关系,基于该对应关系,找到目标图像中各个像素点对应的待处理图像文本行区域的像素点,再将该找到的像素点的像素值填入与之对应的目标图像中像素点处。
本发明实施例中还提供了一种票据处理方法,包括应用上述表格或文本行的处理方法对票据进行处理,以判断票据中的文本行或表格是否为弯曲文本行或弯曲表格,当判定为弯曲文本行或表格时,对该弯曲的文本行或表格进行矫正。
本实施例中提供的票据处理方法还包括,对矫正后的文本行进行字符识别,得到票据的票面内容。
实施例2
如图2至4所示,在本发明另一个实施例提供的表格或文本行的处理方法中,其处理的对象为如图3所示的文本行区域,该文本行为横版排布的;对该文本行进行处理的预设顺序为第一预设顺序。表格或文本行的处理方法流程图如图2所示,具体包括以下步骤:
S200:对文本行对应的文本行区域进行渐进式扩展网络处理,得到待处理对象;
S201:获取待处理对象上边界和下边界的点,分别计入第一边界点集合(上边界点集合)、第二边界点集合(下边界点集合)。
将如图3所示的待处理对象的文本行区域图像转化为二值化图像;从左到右并行遍历二值图的每一列,针对每一列中,从上到下遍历每个像素值。具体的为:将各列中像素值第一次由0变为1时,1所对应的像素点计入第一边界点集合(上边界点集合);像素值最后一次由1变为0时,1所对应的像素点计入第二边界点集合(下边界点集合)。获取到如图4所示的由第一边界点101构成的第一边界点集合、以及由第二边界点102构成的第二边界点集合。
S202:判断第一边界点集合内的点所在的线是否为直线和/或第二边界的点集合内的点坐在的线是否为直线。
用回归直线方程y=φ(x)=a0+a1x分别拟合第一边界点(上边界点)和第二边界点(下边界点),得到第一回归直线和第二回归直线,用高斯消元法求第一回归直线和第二回归直线的参数。由于在弯曲文本中,容易将左边界点和右边界点判断为上边界点和下边界点,故选取中间区域的点作为拟合对象,即第一边界点集合(上边界点集合)内最边界的两个点和第二边界点集合(下边界点集合)内最边界的两个点均不参与计算。
计算回归直线的拟合优度G2,的计算公式为:
当R2的值符合第一优度阈值(本实施例中所述第一优度阈值为0.7-1)时,则该边界为直线,返回原图,结束矫正。
当R2的值小于第一优度阈值,即拟合优度不符合第一优度阈值,判断边界为曲线,进行下一步。
S203:根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;其中,所述第一边界曲线是第一边界点集合内的第一边界点构成的曲线的参数方程;所述第二边界曲线是第二边界点集合内的第二边界点构成的曲线的参数方程。
利用多项式进行拟合第一边界点集合内的点得到第一边界点集合对应的多项式边界方程,并判断得到的多项式边界方程的拟合优度是否符合第三优度阈值(本实施例中为0.75-1),如果拟合优度R2的值符合所述第三优度阈值,则利用该次多项式获得第二边界曲线(下边界曲线)。
如果拟合优度R2的值不符合第三优度阈值,换用更高次的多项式进行拟合,直到得到的多项式方程的拟合优度R2符合第三优度阈值时,用该次多项式拟合另一边界点集合内的点,得到对应的边界曲线。
S204:在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点;
S2041:判断弯曲方向
在本实施例中,选以下方法确定弯曲方向:
提取第一边界点集合以及第二边界点集合中位于最左侧的点,记为文本行边缘点;
计算文本行边缘点与第一边界曲线和第二边界曲线间的距离并比较,当文本行边缘点与第一边界曲线间的距离大于与第二边界曲线间的距离时,确定待处理对象为向第一边界点集合方向弯曲(向上弯曲);当文本行边缘点与第二边界曲线间的距离大于与第一边界曲线间的距离时,确定待处理对象为向第二边界点集合方向弯曲(向下弯曲)。
其中,计算所述文本行边缘点与所述第一边界曲线间的距离,以及所述文本行边缘点与所述第二边界曲线间的距离时,均可以近似为点与直线间的距离。
S2042:选取源控制点。
如图3所示,该文本行为向上弯曲,则选取源控制点的具体过程为:
从第一边界曲线(上边界曲线)上提取提取m个第一源控制点;在第二边界曲线(下边界曲线)上提取与各第一源控制点对应的第二源控制点,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点。
S205:将各个源控制点对齐,得到对应的目标控制点;
具体过程为:将上边界曲线上的m个第一源控制点的横坐标对齐,将下边界曲线上的m个第二源控制点的横坐标对齐,并将相对应的各组第一源控制点与第二源控制点的纵坐标分别对齐,从而得到各个源控制点对应的目标控制点的坐标。
S206:根据各个源控制点、目标控制点和最小能量函数得到插值函数。
根据薄板样条插值函数的下列原理:假设在空间区域R2内分布q个已知点集Pi,i=1,2,…,q,其坐标表示为:(xi,yi,z(xi,yi))。如果z(xi,yi)具有二次连续导数,则能量函数表示为:
对于TPS,可以通过最小化能量函数得到:
Ztps=argminE
将源控制点和目标控制点一共4m个点的坐标输入到公式(1)中,得到插值函数,具体为:
由于插值时,数据点是以离散的表列形式表示的,公式(1)中最小化的函数表示为:
其中,ri=(x-xi)2+(y-yi)2 (4)。
上述,公式(2)至公式(4)中,(x,y)为目标控制点,(xi,yi)为源控制点。根据薄板样条插值公式计算方法,将各目标控制点和各源控制点代入公式即可得到公式(2),得到插值函数。根据目标控制点和源控制点得到能量最小的插值函数的方法为现有技术,此处不再过多赘述。
S207:应用插值函数对文本行对应的文本行区域进行处理。
提取目标图像的一个像素点作为第一像素点,找到与第一像素点对应的所述待处理对象所在文本行区域的的像素点,作为第二像素点,将第二像素点的像素值作为第一像素点的像素值;重复前述步骤,遍历目标图像的各行和各列的像素点,即可得到矫正后的文本行区域,矫正后的文本行区域如图5所示。
本发明实施例中还提供了一种票据处理方法,包括应用上述表格或文本行的处理方法对票据进行处理,以判断票据中的文本行是否为弯曲文本行,当判定为弯曲文本行时,对该弯曲的文本行进行矫正。
本实施例中提供的票据处理方法还包括,对矫正后的文本行进行字符识别,得到票据的票面内容。
如图6所示,本实施例还提供了一种表格或文本行的处理装置,包括电连接的处理器1020和存储器1010,存储器可以为实物的存储硬盘,也可以为云存储,存储器中存储有计算机指令,处理器用于执行存储器中存储的计算机指令,当计算机指令被处理器执行时该装置实现文本行的处理方法的步骤。
一种计算机存储介质,其上存储有计算机程序,在该计算机程序被处理器执行时实现文本行的处理方法的步骤。
处理器可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field-ProgrammableGate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器也可以包括主处理器和协处理器,主处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central ProcessingUnit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器可以在集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的处理。一些实施例中。
存储器可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备或云存储。在一些实施例中,存储器中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器所执行以实现本申请中方法实施例提供的文本图像处理方法。
Claims (10)
1.一种表格或文本行的处理方法,其特征在于,包括以下步骤:
获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合;
根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;
在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点;
将各个源控制点对齐,得到对应的目标控制点;
根据各个源控制点、目标控制点和最小能量函数得到插值函数;
应用插值函数对待处理对象对应的文本行区域进行处理。
2.根据权利要求1所述的方法,其特征在于,所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,包括:
以第一预设顺序遍历待处理对象的文本行区域,将各列中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;
或者,
以第二预设顺序遍历待处理对象的文本行区域;将各行中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;
或者,
所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合,还包括:
判断所述待处理对象的走向;
当该待处理对象为横向时,以第一预设顺序遍历文本行区域;将各列中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;
当该待处理对象为纵向时,以第二预设顺序遍历文本行区域;将各行中像素点的亮暗指示值的变化第一次达到预设差值后的第一个像素点计入第一边界点集合、最后一次达到预设差值前的最后一个像素点计入第二边界点集合;
其中,所述第一预设顺序为针对各列由左至右、针对每一列由上至下;所述第二预设顺序为针对各行由上至下,针对每一行由左至右。
3.根据权利要求1所述的方法,其特征在于,在执行所述获取待处理对象相对两边界上的点,分别计入第一边界点集合、第二边界点集合的步骤之前,还包括:
对待处理对象对应的文本行区域进行渐进式扩展网络处理,得到所述待处理对象。
4.根据权利要求1所述的方法,其特征在于,在执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线的步骤之前,还包括:
用回归直线方程拟合第一边界点集合内的点,得到对应的第一回归直线方程;或者,用回归直线方程拟合第二边界点集合内的点,得到对应的第二回归直线方程;
判断得到的第一回归直线方程或者第二回归直线方程的拟合优度是否符合第一优度阈值;
当符合第一优度阈值时,直接输出待处理对象的文本行区域;
当不符合第一优度阈值时,继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;
或者,
用回归直线方程分别拟合第一边界点集合内的点和第二边界点集合内的点,得到对应的第三回归直线方程和第四回归直线方程;
判断得到的第三回归直线方程和第四回归直线方程的拟合优度是否均符合第二优度阈值;
当第三回归直线方程的拟合优度和第四回归直线方程的拟合优度均符合第二优度阈值时,直接输出待处理对象的文本行区域;
当第三回归直线方程的拟合优度和/或第四回归直线方程的拟合优度不符合第二优度阈值时,继续执行所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线;
所述回归直线方程为:y=φ(x)=a0+a1x。
5.根据权利要求1所述的方法,其特征在于,所述根据第一边界点集合得到第一边界曲线,根据第二边界点集合得到第二边界曲线,包括:
利用逐次提高多项式最高次项次数的方式,用多项式分别拟合第一边界点集合内的点和第二边界点集合内的点,得到拟合优度符合第三优度阈值的第一边界曲线和第二边界曲线,具体包括:
利用多项式拟合第一边界点集合内的点,得到对应的多项式边界方程;
判断得到的多项式边界方程的拟合优度是否符合第三优度阈值;
当得到的多项式边界方程的拟合优度符合第三优度阈值时,确定该多项式边界方程为第一边界曲线,并用该多项式拟合第二边界点集合内的点,得到第二边界曲线;
当得到的多项式边界方程的拟合优度不符合第三优度阈值时,换用更高次多项式重复上述步骤。
7.根据权利要求1所述的方法,其特征在于,所述在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点,包括:
从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应;
其中,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点;或者,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点;
或者,所述在第一边界曲线和第二边界曲线上分别提取对应数量的源控制点,包括:
从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应;
其中,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点;或者,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点;
所述从第一边界曲线和第二边界曲线上分别提取预设数量的第一源控制点和第二源控制点,各第一源控制点与各第二源控制点一一对应,包括:
判断待处理对象的弯曲方向;
当弯曲方向为向第二边界点集合方向弯曲时,从第二边界曲线上提取预设数量的第二源控制点;在第一边界曲线上提取与各第二源控制点对应的第一源控制点,第一源控制点是通过第二源控制点的第一边界曲线的法线与第一边界曲线的交点;
当弯曲方向为向第一边界点集合方向弯曲时,从第一边界曲线上提取预设数量的第一源控制点;在第二边界曲线上提取与各第一源控制点对应的第二源控制点,第二源控制点是通过第一源控制点的第二边界曲线的法线与第二边界曲线的交点。
8.一种票据处理方法,其特征在于,包括应用如权利要求1至7中任一项所述表格或文本行的处理方法对票据进行处理。
9.一种表格或文本行的处理装置,该装置包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该装置实现如权利要求1至8中任一项所述的方法的步骤。
10.一种计算机存储介质,其特征在于,其上存储有计算机程序,在该计算机程序被处理器执行时实现如权利要求1至8中任一项所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111477191.7A CN114299516A (zh) | 2021-12-06 | 2021-12-06 | 表格或文本行的处理方法、票据处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111477191.7A CN114299516A (zh) | 2021-12-06 | 2021-12-06 | 表格或文本行的处理方法、票据处理方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114299516A true CN114299516A (zh) | 2022-04-08 |
Family
ID=80966469
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111477191.7A Pending CN114299516A (zh) | 2021-12-06 | 2021-12-06 | 表格或文本行的处理方法、票据处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114299516A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082939A (zh) * | 2022-05-12 | 2022-09-20 | 吉林省吉林祥云信息技术有限公司 | 一种基于弧微分的图像中畸变表格校正系统及其校正方法 |
-
2021
- 2021-12-06 CN CN202111477191.7A patent/CN114299516A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115082939A (zh) * | 2022-05-12 | 2022-09-20 | 吉林省吉林祥云信息技术有限公司 | 一种基于弧微分的图像中畸变表格校正系统及其校正方法 |
CN115082939B (zh) * | 2022-05-12 | 2023-11-17 | 吉林省吉林祥云信息技术有限公司 | 一种基于弧微分的图像中畸变表格校正系统及其校正方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111325203B (zh) | 一种基于图像校正的美式车牌识别方法及系统 | |
CN108961235B (zh) | 一种基于YOLOv3网络和粒子滤波算法的缺陷绝缘子识别方法 | |
CN110647795B (zh) | 一种表格识别方法 | |
CN108416377B (zh) | 柱状图中的信息提取方法及装置 | |
CN112528813B (zh) | 表格识别方法、装置以及计算机可读存储介质 | |
CN108764358B (zh) | 一种太赫兹图像识别方法、装置、设备及可读存储介质 | |
CN110570396A (zh) | 一种基于深度学习的工业产品缺陷检测方法 | |
CN110766708B (zh) | 基于轮廓相似度的图像比较方法 | |
CN113808180B (zh) | 一种异源图像配准方法、系统及装置 | |
CN115393861B (zh) | 一种手写体文本精准分割方法 | |
CN115880683B (zh) | 一种基于深度学习的城市内涝积水智能水位检测方法 | |
CN115909378A (zh) | 单据文本检测模型的训练方法及单据文本检测方法 | |
CN114299516A (zh) | 表格或文本行的处理方法、票据处理方法、装置及存储介质 | |
CN110298347B (zh) | 一种基于GrayWorld与PCA-CNN的汽车尾气分析仪屏幕的识别方法 | |
CN110378167B (zh) | 一种基于深度学习的条码图像补正方法 | |
CN112837329B (zh) | 一种藏文古籍文档图像二值化方法及系统 | |
CN115797327A (zh) | 一种缺陷检测方法、装置、终端设备及存储介质 | |
CN113989823B (zh) | 基于ocr坐标的图片表格还原方法及系统 | |
CN108563674B (zh) | 基于rs和gis的海域地理要素测量方法、系统及装置 | |
CN111046874A (zh) | 一种基于模板匹配的单号识别方法 | |
CN110163212A (zh) | 一种碑帖图像中的文字切割方法 | |
CN109740618A (zh) | 基于fhog特征的络试卷分数自动统计方法和装置 | |
CN116563048B (zh) | 一种财务报销方法、系统及计算机 | |
CN118115926B (zh) | 基于改进的沙漏网络的羽毛球场地区域分割与识别方法 | |
CN114742909A (zh) | 一种基于级联两阶段神经网络的图像拼接篡改痕迹检测方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |