CN115187834A - 一种票据识别的方法及装置 - Google Patents
一种票据识别的方法及装置 Download PDFInfo
- Publication number
- CN115187834A CN115187834A CN202210809696.7A CN202210809696A CN115187834A CN 115187834 A CN115187834 A CN 115187834A CN 202210809696 A CN202210809696 A CN 202210809696A CN 115187834 A CN115187834 A CN 115187834A
- Authority
- CN
- China
- Prior art keywords
- image
- corrected
- characteristic
- feature
- preset model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/7715—Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/412—Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Computing Systems (AREA)
- Image Analysis (AREA)
Abstract
本申请提供了一种票据识别的方法及装置,可应用于人工智能领域、云计算领域、大数据领域、物联网领域、移动互联领域或金融领域。该方法包括:先获取待校正图像,再基于训练后的第一预设模型提取带矫正图像的特征获取第一特征图像。对第一特征图像进行上采样,获得分辨率较低的第一修正图像。然后融合第一特征图像和第一修正图像,生成第二特征图像。最后基于训练后的第二预设模型对第二特征图像进行处理,获得分辨率较高的矫正图像,将该矫正图像作为基础图像进行票据识别。如此可以避免在识别折叠弯曲表单票据时被分割的问题,提高了识别折叠弯曲表单票据的准确度。
Description
技术领域
本申请涉及人工智能技术领域,尤其涉及一种票据识别的方法及装置。
背景技术
在面向金融业务的表单票据识别任务中,往往会遇到表单票据弯曲折叠等变形情况。表单票据弯曲折叠的变形会导致文本行不平直,从而影响文字的识别。此外,表单票据本身也存在重叠,也会对文字的识别带来负面影响。
现有技术可以采用基于图像语义分割的文本检测方法,直接用语义进行分割,并对不同分割区域的文本直接对图像中文字和背景进行区分。基于图像语义分割的文本检测方法对于文本行不平直具有很好的识别效果。但对于同一文本框内比较分散的文字块,可能无法分组到一个单元内,导致识别准确度低。
因此,如何对弯曲折叠的表单票据进行准确识别,成为本领域技术人员亟待解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种票据识别的方法及装置,旨在在识别弯曲折叠表单票据的基础上,进一步提升识别准确度。
第一方面,本申请实施例提供了一种票据识别的方法,所述方法包括:
获取待矫正图像;所述待矫正图像为待处理的票据图像;
基于训练后的第一预设模型和所述待矫正图像,生成第一特征图像;所述第一特征图像与所述待矫正图像大小相同;所述第一特征图像包括所述带矫正图像的特征;所述第一预设模型用于提取所述待矫正图像的所述特征;
上采样所述第一特征图像,生成第一修正图像;所述第一修正图像与所述第一特征图像大小相同;
融合所述第一特征图像和所述第一修正图像,生成第二特征图像;
基于训练后的第二预设模型和所述第二特征图像,生成矫正图像,进行票据识别;所述矫正图像的分辨率大于所述第一修正图像的分辨率;所述第二预设模型用于提高所述第二特征图像的分辨率。
可选的,所述基于第一预设模型和所述待矫正图像,生成第一特征图像,包括:
所述待矫正图像进行卷积处理,生成第三特征图像;
将所述第三特征图像的通道数降低至1,划分所述特征图,获取划分后的所述特征图的区域信息;
将所述区域信息融合生成所述第一特征图像。
可选的,所述生成第三特征图像之后,还包括:
将所述第三特征图像进行全局池化处理,获得第四特征图像;所述第四特征图像是1×1卷积结构;所述第四特征图像为目标特征通道的图像;
降低所述第四特征图像的所述通道数,并对通道数降低之后的所述第四特征图像处理,获取所述第四特征图像的所述目标特征通道的信息;
根据所述目标特征通道的信息和所述区域信息,生成所述第一特征图像。
可选的,所述待矫正图像包括无边框的表格,所述方法还包括:
基于第三预设模型和所述待矫正图像,定位所述待矫正图像中的所述表格;所述第三预设模型用于对所述表格的内像素分配权重和卷积特征融合;
根据定位的所述表格,进行表格提取。
可选的,所述基于第三预设模型和所述待矫正图像,定位所述待矫正图像中的所述表格,包括:
根据所述待矫正图像,获取第五特征图像和第六特征图像;所述第五特征图像为上采样译码后确定的所述特征图;所述第六特征图像为下采样译码后确定的所述特征图;
所述第五特征图像和所述第六特征图像串联处理生成二维权重矩阵;所述二维权重矩阵由所述1×1卷积结构处理,并通道数将为1生成的;
根据所述二维权重矩阵和预设权重数,获得注意力权重矩阵;
将所述注意力权重矩阵与所述第六特征图像相乘,生成带权重的所述第六特征图像;
所述带权重的所述第六特征图像与所述第五特征图像进行卷积特征融合,定位所述待矫正图像中的所述表格。
第二方面,本申请实施例提供了一种票据识别的装置,
获取单元,用于获取待矫正图像;所述待矫正图像为待处理的票据图像;
特征图像生成单元,基于训练后的第一预设模型和所述待矫正图像,生成第一特征图像;所述第一特征图像与所述待矫正图像大小相同;所述第一特征图像包括所述带矫正图像的特征;所述第一预设模型用于提取所述待矫正图像的所述特征;
修正图像生成单元,用于上采样所述第一特征图像,生成第一修正图像;所述第一修正图像与所述第一特征图像大小相同;
融合单元,用于融合所述第一特征图像和所述第一修正图像,生成第二特征图像;
矫正图像生成单元,用于基于训练后的第二预设模型和所述第二特征图像,生成矫正图像,进行票据识别;所述矫正图像的分辨率大于所述第一修正图像的分辨率;所述第二预设模型用于提高所述第二特征图像的分辨率。
可选的,所述修正图像生成单元包括:
空间处理模块,用于将所述待矫正图像进行卷积处理,生成第三特征图像;用于将将所述第三特征图像的通道数降低至1,划分所述特征图,获取划分后的所述特征图的区域信息;还用于将所述区域信息融合生成所述第一特征图像;还用于基于所述第一特征图像进行上采样,获得所述第一修正图像。
可选的,所述修正图像生成单元还包括:
信道处理模块,用于将所述第三特征图像进行全局池化处理,获得第四特征图像;所述第四特征图像为1×1卷积结构;所述第四特征图像为目标特征通道的图像;用于降低所述第四特征图像的所述通道数,并对通道数降低之后的所述第四特征图像处理,获取所述第四特征图像的所述目标特征通道的信息;根据所述目标特征通道的信息和所述区域信息,生成所述第一特征图像。
可选的,所述装置还包括:
表格定位及识别模块,用于基于第三预设模型和所述待矫正图像,定位所述待矫正图像中的所述表格;所述第三预设模型用于对所述表格的内像素分配权重和卷积特征融合;还用于根据定位的所述表格,进行表格提取。
第三方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面任一项所述的票据方法。
本申请实施例提供了一种票据识别的方法及装置。在执行所述方法时,先获取待校正图像,再基于训练后的第一预设模型提取带矫正图像的特征获取第一特征图像。对第一特征图像进行上采样,获得分辨率较低的第一修正图像。然后融合第一特征图像和第一修正图像,生成第二特征图像。最后基于训练后的第二预设模型对第二特征图像进行处理,获得分辨率较高的矫正图像,将该矫正图像作为基础图像进行票据识别。如此可以避免在识别折叠弯曲表单票据时被分割的问题,提高了识别折叠弯曲表单票据的准确度。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本申请实施例提供的方法的一种票据识别的方法流程图;
图2为本申请实施例生成第一特征图的方法流程图;
图3为本申请实施例提供的另一种票据识别的方法的流程图;
图4为本申请实施例提供的一种票据识别装置的结构示意图。
具体实施方式
正如前文所述,采用基于图像语义分割的文本检测方法,直接对用语义进行分割,并对不同分割区域的文本直接对图像中文字和背景进行区分。发明人发现:基于图像语义分割的文本检测方法对于文本行不平直具有很好的识别效果。但对于同一文本框内比较分散的文字块,可能无法分组到一个单元内,导致识别准确度低。
针对上述问题,发明人提出了基于训练后的预设模型通过提取带矫正图像的特征生成特征图像和修正图像,并融合特征图像和修正图像生成中间特征图,再对中间特征图处理,预测每个像素偏移量,获得矫正图像。这样通过训练的预设模型获取高准确度的矫正图像,以矫正后的图像作为基础图像进行票据识别。如此可以避免在识别折叠弯曲表单票据时被分割的问题,实现提高识别折叠弯曲表单票据的准确度。
本申请实施例提供的方法由服务器端和终端设备共同执行,其中服务器用于处理票据识别的方法,终端设备用于采取待矫正图像。
需要说明的是,本发明提供的票据识别的方法可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、数字孪生领域或金融领域。上述仅为示例,并不对本发明提供的票据识别的方法及装置的应用领域进行限定。
参见图1,图1为本申请实施例提供的方法的一种票据识别的方法流程图,该方法至少包括以下步骤:
S101:获取待矫正图像。
在进行票据识别时,执行主体首先需要获取待矫正图像。所谓待矫正图像是指待处理的票据图像。可以通过终端设备拍照等方式获得。在本申请实施例中,戴矫正图像包括票据弯曲折叠和无边框表格。
S102:基于训练后的第一预设模型和所述待矫正图像,生成第一特征图像。
执行主体获取待校正图像之后,接着利用训练后的第一预设模型进行处理,提取待矫正图像的特征。根据上述特征,生成第一特征图像。其中,第一预设模型用于提取待矫正图像的特征,生成第一特征图像。
在本申请实施例中,第一预设模型可以为改进的编码器-解码器结构U-Net模型。其中改进的U-Net模型是指在U-Net模型中加入空间-信道压缩激励ScSE模块。其中,scSE是通过学习的方式来自动获取到每个特征通道的重要程度,然后依照这个重要程度去提升有用的特征并抑制对当前任务用处不大的特征。scSE模块通常添加在上下采样的卷积层之后,用于对特征图信息进行提炼。关于具体U-Net模型中加入ScSE模块,下文进行论述。
在本申请实施例中,可以将待矫正图像P1输入U-Net模型,然后经过卷积、池化、上采样和特征融合等一系列操作之后得到第一特征图F1。在本申请实施例中,第一特征图F1包括原矫正图像的特征,比如颜色、纹理和形状等。
S103:上采样所述第一特征图像,生成第一修正图像。
对于第一特征图像尺寸不满足原矫正图像,还需要进行还原获得与原矫正图像尺寸大小相同的修正图像。在本申请实施例中,可以通过上采样的方式,进行第一特征图像还原,生成第一修正图像。上采样也被称为放大图像,主要目的是放大原图像。图像放大几乎都是采用内插值方法,即在原有图像像素的基础上在像素点之间采用合适的插值算法插入新的元素。
以最邻近元法做示例性说明:在待求象素的四邻象素中,将距离待求象素最近的邻象素赋给待求像素。假设(i+u,j+v)为待求象素最表,(i,j为正整数,u,v为大于零小于1的小数),待求象素灰度值为f(i+u,j+v)。如果(i+u,j+v)落在左上角,则将左上角象素的灰度值赋给待求象素,同理,落在右上角,则将右上角的象素灰度值。如此可以达到放大图像的目的。
在本申请实施例中,通过上采样第一特征图像,获得第一修正图像,在尺寸、以及分辨率方面都与第一特征图像不同。所述第一修正图像与待矫正图像在尺寸和维度均相同,但第一修正图像的分辨率较低。
S104:融合所述第一特征图像和所述第一修正图像,生成第二特征图像。
由于第一特征图像与第一修正图像大小尺寸不相同,因此在进行两图像融合时,需要对图像进行处理。在本申请实施例中,可以通过在第一修正图像中创建激活区域roi,使roi的大小类型与第一特征图像相同。如此,可以进行两图像融合,获得具有丰富上下文信息的第二特征图像。
S105:基于训练后的第二预设模型和所述第二特征图像,生成矫正图像,进行票据识别。
将生成的第二特征图像输入至第二预设模型进行处理,生成矫正图像。在本申请实施例中,具体是先对第二特征图像进行处理,获得更高精度的偏移量,再利用该偏移量对待矫正图像进行处理,生成矫正图像。
作为示例性说明:在文档图像矫正网络中,待矫正图像中坐标为(x1,y1)的像素点,经过计算后,映射到输出矫正图像中坐标为(x2,y2)的像素点。根据第二预设模型获得每个像素点两个偏移量(Δx,Δy)和坐标(x1,y1),得到输出坐标(x2,y2),也就是说(x2,y2)=(x1+Δx,y1+Δy)。由输出坐标组成矫正图像。在本申请实施例中,矫正图像的分辨率大于第一修正图像的分辨率。
在本申请实施例中,第二预设模型,可以为U-Net模型。第二特征图像输入U-Net模型,经过卷积-池化-上采样-特征融合获得更高精度对应的偏移量。
在申请实施例中,由于上述票据识别的方法是一个回归任务,因此预设了损失函数保证回归的有效性。F为网络输出,对于图像上一个像素点,损失函数分为两部分:
1)每个像素输出的预测值映射y和其对应的参考标签映射y*之间的绝对误差,采用均方误差MSE作为损失函数:
其中,n是图中所有像素点的数量,i是图中每个像素的下标,图片大小为H×W。
前景像素的损失函数可优化为:
因此前景像素的总体损失函数为:L=L1+L*
本发明将hinge loss用于背景像素,公式如下:
本申请实施例提供了一种票据识别的方法中,首先获取待校正图像,再基于训练后的第一预设模型提取带矫正图像的特征获取第一特征图像。对第一特征图像进行上采样,获得分辨率较低的第一修正图像。然后融合第一特征图像和第一修正图像,生成第二特征图像。最后基于训练后的第二预设模型对第二特征图像进行处理,获得分辨率较高的矫正图像,将该矫正图像作为基础图像进行票据识别。如此可以避免在识别折叠弯曲表单票据时被分割的问题,提高了识别折叠弯曲表单票据的准确度
在本申请实施例中,上述图1所述的步骤S102存在多种可能的实现方式,下面分别进行介绍。需要说明的是,下文介绍中给出的实现方式仅作为示例性的说明,并不代表本申请实施例的全部实现方式。
参见图2,该图为本申请实施例生成第一特征图的方法流程图。该方法至少包括以下步骤:
S201:对待矫正图像进行卷积处理,生成第三特征图像。
执行主体获取待矫正图像P1之后,将其输入第一预设模型中,首先基于第一预设模型的卷积层进行卷积处理,获得第三特征图像F3,其中F3大小为H×W×C。
S202:将所述第三特征图像的通道数降低至1,划分所述特征图,获取划分后的所述特征图的区域信息。
在获取第三特征图像之后,第一预设模型分为两支路进行操作。其中第一支路为通过将输入特征图通道数降为1变成H×W×1的大小后使用sigmoid激活的方式,为特征图划分不同特征区域。获取划分后的特征区域对应的特征信息,即所述特征图的区域信息。第二支路为步骤S303和步骤S304。
S203:将所述第三特征图像进行全局池化处理,获得第四特征图像。
先通过全局池化处理变为1×1×C的大小第四特征图像。其中,第四特征图像为是1×1卷积结构,也是目标特征通道的图像,即最能表现特征的通道。
S204:降低所述第四特征图像的所述通道数,并对通道数降低之后的所述第四特征图像处理,获取所述第四特征图像的所述目标特征通道的信息。
在本申请实施例中,将通道数减半为C/2后经过ReLU进行激活,再恢复到原来的通道数C使用sigmoid进行归一化获取掩膜。最后经过逐通道相乘将特征通道重要性信息融合。即第四特征图像的所述目标特征通道的信息。
S205:根据所述目标特征通道的信息和所述区域信息,生成所述第一特征图像。
需要说明的是,步骤S302与S303和S304的执行动作不存在先后关系,可以同时进行。步骤S303和S304之间存在动作先后关系。
上面介绍了本申请实施例提供的票据识别的方法,下面结合具体的应用场景,对该票据识别的方法做示例性的说明。
参见图3,图3为本申请实施例提供的另一种票据识别的方法的流程图,该方法应用于金融业务的表单票据中。该方法至少包括:
S301:构建扭曲文档矫正模型。
执行主体获取原扭曲图像P1,经过添加scSE模块的第一U-Net模型,生成一个中间特征图F1。前向预测输出基于F1,得到的分辨率较低的修正图像Y1。Y1与F1级联融合,得到F2,作为第二个U-Net模型的输入。通过第二个U-Net处理,可以获得矫正图像Y2。
S302:构建表格定位及识别模型。
基于第三预设模型和P1,定位P1中表格。其中,第三预设模型用于对表格的内像素分配权重和卷积特征融合。根据定位的表格,进行表格提取。
在本申请实施例中,基于第三预设模型和P1,定位P1中的表格可以通过以下方式实现:
根据P1,采样获取第五特征图像F5和第六特征图像F6;F5为上采样译码后确定的特征图;F6为下采样译码后确定的特征图;F5和F6串联处理生成二维权重矩阵;二维权重矩阵由所述1×1卷积结构处理,并将通道数降低至1生成的;根据二维权重矩阵和预设权重数,获得注意力权重矩阵;将注意力权重矩阵与F6相乘,生成带权重的F6;带权重的F6与F5进行卷积特征融合,定位P1的表格。
在本申请实施例中,具体实时方式可以为:
首先gi和ci分别经过1×1卷积后,串联到一起形成一个通道数为2N的特征图,之后通过一个1×1卷积把通道数降维成N进行特征融合,再经过一个ReLU激活函数引入非线性元素,然后通过1×1卷积把通道数降为1形成一个单通道二维权重矩阵ti。把该矩阵经过Sigmoid激活函数进行归一化,把权重数值限制在O和1之间,得到归一化注意力权重矩阵Ai。再把Ai与之前复制的下采样特征ci,进行逐元素相乘,来为特征图ci上的每一个像素分配不同的权重,形成新的带权特征图ai并输出。经过了Attention模块的带权特征图ai与上采样特征图gi串联并进行卷积特征融合,可以使每一层的高阶抽象特征指导低阶高分辨率特征,从而更好的标识出表单中的表格区域,对文字和表格达到更好的区分效果。
ti=ReLU(conv[x]([conv[x](gi);conv[x](ci)]))
Ai=σconv[x](ti)
重复上采样和送入Attention模块融合的操作直到将特征图还原到原图的尺寸,获得最后的特征图a0,再通过一个1×1卷积进行降维,使特征图的通道数等于类别数,最后使用softmax对表格区域内外的像素点进行分类。
C=softmax(conv[x](d0))
S303:构建文字识别模型。
在本申请实施例中,可以采用带有矫正网络的识别模型ASTER对文本进行识别。
S304:基于上述模型,输入票据,进行表单票据识别。
在本申请实施例中的票据识别方法既可以对存在折叠和弯曲的票据进行识别。此外,还可以针对报表中无边框表格进行定位和识别。是一种通用性票据识别方法。实现了对表格识别以及折叠或弯曲的票据识别都具有更高的识别精度和更快的响应速度较快。
以上为本申请实施例提供情绪特征提取的方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。
参见图4所示的票据识别的装置400的结构示意图,该装置400包括:
获取单元401,用于获取待矫正图像;待矫正图像为待处理的票据图像;
特征图像生成单元402,基于训练后的第一预设模型和待矫正图像,生成第一特征图像;第一特征图像与待矫正图像大小相同;第一特征图像包括带矫正图像的特征;第一预设模型用于提取待矫正图像的特征;
修正图像生成单元403,用于上采样第一特征图像,生成第一修正图像;第一修正图像与第一特征图像大小相同;
融合单元404,用于融合第一特征图像和第一修正图像,生成第二特征图像;
矫正图像生成单元405,用于基于训练后的第二预设模型和第二特征图像,生成矫正图像,进行票据识别;矫正图像的分辨率大于第一修正图像的分辨率;第二预设模型用于提高第二特征图像的分辨率。
可选的,修正图像生成单元403包括:
空间处理模块,用于将待矫正图像进行卷积处理,生成第三特征图像;用于将将第三特征图像的通道数降低至1,划分特征图,获取划分后的特征图的区域信息;还用于将区域信息融合生成第一特征图像;还用于基于第一特征图像进行上采样,获得第一修正图像。
可选的,修正图像生成单元403还包括:
信道处理模块,用于将第三特征图像进行全局池化处理,获得第四特征图像;第四特征图像为1×1卷积结构;第四特征图像为目标特征通道的图像;用于降低第四特征图像的通道数,并对通道数降低之后的第四特征图像处理,获取第四特征图像的目标特征通道的信息;根据目标特征通道的信息和区域信息,生成第一特征图像。
可选的,装置还包括:
表格定位及识别模块,用于基于第三预设模型和待矫正图像,定位待矫正图像中的表格;第三预设模型用于对表格的内像素分配权重和卷积特征融合;还用于根据定位的表格,进行表格提取。本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。
其中,设备包括存储器和处理器,存储器用于存储指令或代码,处理器用于执行指令或代码,以使设备执行本申请任一实施例的票据识别方法。
所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本申请任一实施例所述的票据识别的方法。
本申请实施例中提到的“第一”、“第二”(若存在)等名称中的“第一”、“第二”只是用来做名字标识,并不代表顺序上的第一、第二。
通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read-only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请示例性的实施方式,并非用于限定本申请的保护范围。
Claims (10)
1.一种票据识别方法,其特征在于,所述方法包括:
获取待矫正图像;所述待矫正图像为待处理的票据图像;
基于训练后的第一预设模型和所述待矫正图像,生成第一特征图像;所述第一特征图像包括所述带矫正图像的特征;所述第一预设模型用于提取所述待矫正图像的所述特征;
上采样所述第一特征图像,生成第一修正图像;所述第一修正图像与所述待矫正图像大小相同;
融合所述第一特征图像和所述第一修正图像,生成第二特征图像;
基于训练后的第二预设模型和所述第二特征图像,生成矫正图像,进行票据识别;所述矫正图像的分辨率大于所述第一修正图像的分辨率;所述第二预设模型用于提高所述第二特征图像的分辨率。
2.根据权利要求1所述方法,其特征在于,所述基于训练后的第一预设模型和所述待矫正图像,生成第一特征图像,包括:
所述待矫正图像进行卷积处理,生成第三特征图像;
将所述第三特征图像的通道数降低至1,划分所述特征图,获取划分后的所述特征图的区域信息;
将所述区域信息融合生成所述第一特征图像。
3.根据权利要求2所述方法,其特征在于,所述生成第三特征图像之后,还包括:
将所述第三特征图像进行全局池化处理,获得第四特征图像;所述第四特征图像是1×1卷积结构;所述第四特征图像为目标特征通道的图像;
降低所述第四特征图像的所述通道数,并对通道数降低之后的所述第四特征图像处理,获取所述第四特征图像的所述目标特征通道的信息;
根据所述目标特征通道的信息和所述区域信息,生成所述第一特征图像。
4.根据权利要求1所述方法,其特征在于,所述待矫正图像包括无边框的表格,所述方法还包括:
基于第三预设模型和所述待矫正图像,定位所述待矫正图像中的所述表格;所述第三预设模型用于对所述表格的内像素分配权重和卷积特征融合;
根据定位的所述表格,进行表格提取。
5.根据权利要求4所述方法,其特征在于,所述基于第三预设模型和所述待矫正图像,定位所述待矫正图像中的所述表格,包括:
根据所述待矫正图像,获取第五特征图像和第六特征图像;所述第五特征图像为上采样译码后确定的所述特征图;所述第六特征图像为下采样译码后确定的所述特征图;
所述第五特征图像和所述第六特征图像串联处理生成二维权重矩阵;所述二维权重矩阵由所述1×1卷积结构处理,并通道数将为1生成的;
根据所述二维权重矩阵和预设权重数,获得注意力权重矩阵;
将所述注意力权重矩阵与所述第六特征图像相乘,生成带权重的所述第六特征图像;
所述带权重的所述第六特征图像与所述第五特征图像进行卷积特征融合,定位所述待矫正图像中的所述表格。
6.一种票据识别的装置,其特征在于,所述装置包括:
获取单元,用于获取待矫正图像;所述待矫正图像为待处理的票据图像;
特征图像生成单元,基于训练后的第一预设模型和所述待矫正图像,生成第一特征图像;所述第一特征图像与所述待矫正图像大小相同;所述第一特征图像包括所述带矫正图像的特征;所述第一预设模型用于提取所述待矫正图像的所述特征;
修正图像生成单元,用于上采样所述第一特征图像,生成第一修正图像;所述第一修正图像与所述第一特征图像大小相同;
融合单元,用于融合所述第一特征图像和所述第一修正图像,生成第二特征图像;
矫正图像生成单元,用于基于训练后的第二预设模型和所述第二特征图像,生成矫正图像,进行票据识别;所述矫正图像的分辨率大于所述第一修正图像的分辨率;所述第二预设模型用于提高所述第二特征图像的分辨率。
7.根据权利要求6所述装置,其特征在于,所述修正图像生成单元包括:
空间处理模块,用于将所述待矫正图像进行卷积处理,生成第三特征图像;用于将将所述第三特征图像的通道数降低至1,划分所述特征图,获取划分后的所述特征图的区域信息;还用于将所述区域信息融合生成所述第一特征图像;还用于基于所述第一特征图像进行上采样,获得所述第一修正图像。
8.根据权利要求7所述装置,其特征在于,所述修正图像生成单元还包括:
信道处理模块,用于将所述第三特征图像进行全局池化处理,获得第四特征图像;所述第四特征图像为1×1卷积结构;所述第四特征图像为目标特征通道的图像;用于降低所述第四特征图像的所述通道数,并对通道数降低之后的所述第四特征图像处理,获取所述第四特征图像的所述目标特征通道的信息;根据所述目标特征通道的信息和所述区域信息,生成所述第一特征图像。
9.根据权利要求6所述装置,其特征在于,所述装置还包括:
表格定位及识别模块,用于基于第三预设模型和所述待矫正图像,定位所述待矫正图像中的所述表格;所述第三预设模型用于对所述表格的内像素分配权重和卷积特征融合;还用于根据定位的所述表格,进行表格提取。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有票据识别装置实现程序,所述票据识别装置实现程序被处理器执行时实现如权利要求1至5任一项所述票据识别装置实现方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210809696.7A CN115187834A (zh) | 2022-07-11 | 2022-07-11 | 一种票据识别的方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210809696.7A CN115187834A (zh) | 2022-07-11 | 2022-07-11 | 一种票据识别的方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115187834A true CN115187834A (zh) | 2022-10-14 |
Family
ID=83516854
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210809696.7A Pending CN115187834A (zh) | 2022-07-11 | 2022-07-11 | 一种票据识别的方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115187834A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503686A (zh) * | 2023-03-28 | 2023-07-28 | 北京百度网讯科技有限公司 | 图像矫正模型的训练方法、图像矫正方法、装置及介质 |
-
2022
- 2022-07-11 CN CN202210809696.7A patent/CN115187834A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116503686A (zh) * | 2023-03-28 | 2023-07-28 | 北京百度网讯科技有限公司 | 图像矫正模型的训练方法、图像矫正方法、装置及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112232149B (zh) | 一种文档多模信息和关系提取方法及系统 | |
RU2699687C1 (ru) | Обнаружение текстовых полей с использованием нейронных сетей | |
CN111615702B (zh) | 一种从图像中提取结构化数据的方法、装置和设备 | |
US20190304066A1 (en) | Synthesis method of chinese printed character images and device thereof | |
JP4987960B2 (ja) | レンダリングのためにトークンベースファイルへの文字列を含むディジタル画像の変換 | |
CN110427932B (zh) | 一种识别图像中多个票据区域的方法及装置 | |
CN110516541B (zh) | 文本定位方法、装置、计算机可读存储介质和计算机设备 | |
CN113343982B (zh) | 多模态特征融合的实体关系提取方法、装置和设备 | |
CN112308866B (zh) | 图像处理方法、装置、电子设备及存储介质 | |
CN112308051B (zh) | 文本框检测方法、装置、电子设备和计算机存储介质 | |
CN114429637B (zh) | 一种文档分类方法、装置、设备及存储介质 | |
CN116645592B (zh) | 一种基于图像处理的裂缝检测方法和存储介质 | |
CN113591528A (zh) | 文档矫正方法、装置、计算机设备和存储介质 | |
CN114612289A (zh) | 风格化图像生成方法、装置及图像处理设备 | |
CN114170608A (zh) | 超分辨文本图像识别方法、装置、设备及存储介质 | |
CN113158895A (zh) | 票据识别方法、装置、电子设备及存储介质 | |
CN109697442B (zh) | 一种字符识别模型的训练方法和装置 | |
CN113012075A (zh) | 一种图像矫正方法、装置、计算机设备及存储介质 | |
CN115620325A (zh) | 表格结构的还原方法、装置、电子设备及存储介质 | |
CN113592720B (zh) | 图像的缩放处理方法、装置、设备、存储介质 | |
CN115131803A (zh) | 文档字号的识别方法、装置、计算机设备和存储介质 | |
CN113643173A (zh) | 水印去除方法、装置、终端设备及可读存储介质 | |
CN113792659A (zh) | 文档识别方法、装置及电子设备 | |
CN117496518A (zh) | 基于文本检测和表格检测的电子卷宗图像智能矫正方法 | |
CN111767924A (zh) | 图像处理方法、图像处理装置、电子设备、存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |