CN107633239B - 基于深度学习和ocr的票据分类及票据字段提取方法 - Google Patents

基于深度学习和ocr的票据分类及票据字段提取方法 Download PDF

Info

Publication number
CN107633239B
CN107633239B CN201710971690.9A CN201710971690A CN107633239B CN 107633239 B CN107633239 B CN 107633239B CN 201710971690 A CN201710971690 A CN 201710971690A CN 107633239 B CN107633239 B CN 107633239B
Authority
CN
China
Prior art keywords
bill
image
identified
outline
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201710971690.9A
Other languages
English (en)
Other versions
CN107633239A (zh
Inventor
于志文
车少帅
胡笳
许翔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Clp Hongxin Information Technology Co ltd
Original Assignee
Clp Hongxin Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Clp Hongxin Information Technology Co ltd filed Critical Clp Hongxin Information Technology Co ltd
Priority to CN201710971690.9A priority Critical patent/CN107633239B/zh
Publication of CN107633239A publication Critical patent/CN107633239A/zh
Application granted granted Critical
Publication of CN107633239B publication Critical patent/CN107633239B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种基于深度学习和OCR的票据分类及票据字段提取方法,包括以下步骤:选取多张标准票据图像,截取标准票据图像中的公章图像的外接矩形轮廓,作为深度学习的训练样本,得到深度学习模型;将待识别的票据图像的公章的外接矩形轮廓通过深度学习模型进行分类,若分类成功,则输出待识别的票据图像的票据类型并判定待识别的票据图像为标准票据图像,若分类失败,则判定待识别的票据图像为非标准票据图像;本发明可以实现票据的自动分类以及票据内容的智能提取,为财务人员提供了快速检索以及快速获取票据信息的服务,提升了工作效率。

Description

基于深度学习和OCR的票据分类及票据字段提取方法
技术领域
本发明涉及图像处理领域,具体涉及一种基于深度学习和OCR的票据分类及票据字段提取方法。
背景技术
基于OCR的票据信息提取技术是指借助OCR技术,将非结构化的票据影像转换为结构化数据,实现票据信息的提取。目前,对票据OCR的处理大概有以下两类:(1)票据影像的人工录入,这种方式需要员工进行人工操作,耗时费力,人力成本较高,且由于人工录入,不可避免带来一些人为错误;(2)简单版式的票据自动识别,一般仅能够对简单的且格式固定的票据进行识别;
中国专利公开号CN204965587公开了一种金融票据识别分类存放装置,该装置通过内部翻转轮实现了金融票据的正反面图像识别装置,但该装置需要人工进行分类,且只能针对金融银行类票据,适用票据类型不够广泛。
中国专利公开号CN105528604公开了一种基于OCR的票据自动识别与处理系统,该系统包括图像采集模块、快速图像二值化模块、文本块检测与定位模块、单栏文本块的精确定位模块、多栏文本块的精确定位与分割模块、文本识别模块和票据图像检索模块。但该系统不能针对票据中套打、机打字段进行自适应区分,并分别采用不同的方式实现字段定位,导致识别准确率不高。
发明内容
本发明所要解决的技术问题是针对上述现有技术的不足提供一种基于深度学习和OCR的票据分类及票据字段提取方法,本基于深度学习和OCR的票据分类及票据字段提取方法可以实现票据的自动分类以及票据内容的智能提取,为财务人员提供了快速检索以及快速获取票据信息的服务,提升了工作效率。
为实现上述技术目的,本发明采取的技术方案为:
一种基于深度学习和OCR的票据分类及票据字段提取方法,包括以下步骤:
步骤1:选取多张标准票据图像,截取标准票据图像中的公章图像的外接矩形轮廓,作为深度学习的训练样本,得到深度学习模型;
步骤2:获取待识别的票据图像,将待识别的票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
步骤3:根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在待识别的票据图像中的位置;
步骤4:获取待识别的票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对待识别的票据图像进行倾斜校正;
步骤5:将待识别的票据图像的公章的外接矩形轮廓通过深度学习模型进行分类,若分类成功,则输出待识别的票据图像的票据类型并判定待识别的票据图像为标准票据图像,执行步骤8,若分类失败,则判定待识别的票据图像为非标准票据图像并执行步骤6;
步骤6:分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域,并分别依次对上方图像区域、左方图像区域、右方图像区域和下方图像区域进行倾斜矫正,将上方图像区域、左方图像区域、右方图像区域和下方图像区域的内容分别与自制表格凭证的票头文字进行匹配从而判断待识别的票据图像是否为自制表格凭证,若匹配成功,则执行步骤7,否则,结束;
步骤7:当待识别的票据图像为自制表格凭证时,对待识别的票据图像内的自制表格进行定位,根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域中的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤8:当待识别的票据图像为标准票据图像时,加载预先制定的与该待识别的票据图像相同类型的标准票据模板文件,根据标准票据模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域中的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤9:通过文字识别系统将局部图像OCR识别成字符串。
进一步地,所述的步骤1具体包括以下步骤:
(1)选取多张标准票据图像作为样本,将多张标准票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
(2)根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在标准票据图像中的位置;
(3)获取标准票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对标准票据图像进行倾斜校正;
(4)将标准票据图像中的公章图像的外接矩形轮廓作为深度学习的训练样本,得到深度学习模型。
进一步地,所述的步骤6具体包括以下步骤:
(1)根据待识别的票据图像中最大包围框的轮廓分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域;
(2)假设待识别的票据图像中最大包围框的轮廓的上方图像区域为票头方向,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别上方图像区域的票头内容,将上方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(3)假设待识别的票据图像中最大包围框的轮廓的左方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转90度从而保证左方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别左方图像区域的票头内容,将左方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(4)假设待识别的票据图像中最大包围框的轮廓的右方图像区域为票头方向,将待识别的票据图像按照票头方向逆时针旋转90度从而保证右方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别右方图像区域的票头内容,将右方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(5)假设待识别的票据图像中最大包围框的轮廓的下方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转180度从而保证下方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别下方图像区域的票头内容,将下方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则,结束。
进一步地,所述的步骤7中的根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:
(1)预先制定的自制表格凭证模板文件;
(2)获取待识别的票据图像中全部的字段位置坐标;
(3)通过自制表格凭证模板文件获取待识别区域中的字段在待识别的票据图像内的具体坐标位置。
进一步地,所述的步骤8中的根据标准票据模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:
(1) 预先制定的标准票据模板文件;
(2)获取待识别的票据图像中全部的字段位置坐标;
(3)通过标准票据模板文件获取待识别区域中的字段在待识别的票据图像内的具体坐标位置。
本发明可以实现票据图像的自动分类以及票据内容的智能提取,为财务人员提供了快速检索以及快速获取票据信息的服务,提升了工作效率,本发明可以对标准票据进行分类,也可以判定待识别票据图像是否为自制表格凭证,本发明能对自制表格凭证和标准发票进行判定和字段智能提取,分类准确率高,识别字段准确率高,处理速度快。
附图说明
图1为本发明的工作流程图。
具体实施方式
下面根据图1对本发明的具体实施方式作出进一步说明:
参见图1,一种基于深度学习和OCR的票据分类及票据字段提取方法,包括以下步骤:
步骤1:选取多张标准票据图像,截取标准票据图像中的公章图像的外接矩形轮廓,将标准票据图像中的公章图像的外接矩形轮廓作为深度学习的训练样本,得到深度学习模型;
步骤2:获取待识别的票据图像,将待识别的票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
步骤3:根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在待识别的票据图像中的位置;
步骤4:获取待识别的票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对待识别的票据图像进行倾斜校正;在校正的时候需要保证公章的位置位于最大包围框的轮廓的上方,同时,可以通过Hough变换检测直线的方法提取待识别的原图像中最大包围框的轮廓的所有直线,选取最大包围框的轮廓的所有直线与水平方向的最小夹角为旋转角度进行校正;
步骤5:将待识别的票据图像的公章的外接矩形轮廓通过深度学习模型进行分类,若分类成功,则输出待识别的票据图像的票据类型并判定待识别的票据图像为标准票据图像,执行步骤8,若分类失败,则判定待识别的票据图像为非标准票据图像并执行步骤6;
步骤6:分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域,并分别依次对上方图像区域、左方图像区域、右方图像区域和下方图像区域进行倾斜矫正,将上方图像区域、左方图像区域、右方图像区域和下方图像区域的内容分别与自制表格凭证的票头文字进行匹配从而判断待识别的票据图像是否为自制表格凭证,若匹配成功,则执行步骤7,否则,结束;
步骤7:当待识别的票据图像为自制表格凭证时,对待识别的票据图像内的自制表格进行定位,根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤8:当待识别的票据图像为标准票据图像时,加载预先制定的与该待识别的票据图像相同类型的标准票据模板文件,根据标准票据模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域中的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤9:通过文字识别系统将局部图像OCR识别成字符串。
所述的步骤1具体包括以下步骤:
(1)选取多张标准票据图像作为样本,将多张标准票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
(2)根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在标准票据图像中的位置;
(3)获取标准票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对标准票据图像进行倾斜校正;
(4)将标准票据图像中的公章图像的外接矩形轮廓作为深度学习的训练样本,基于TensorFlow(后简称TF)深度学习框架,对训练样本进行学习,并生成训练模型Model(即深度学习模型)。
所述的步骤6具体包括以下步骤:
(1)根据待识别的票据图像中最大包围框的轮廓分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域;
(2)假设待识别的票据图像中最大包围框的轮廓的上方图像区域为票头方向,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别上方图像区域的票头内容,将上方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(3)假设待识别的票据图像中最大包围框的轮廓的左方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转约90度从而保证左方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别左方图像区域的票头内容,将左方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(4)假设待识别的票据图像中最大包围框的轮廓的右方图像区域为票头方向,将待识别的票据图像按照票头方向逆时针旋转约90度从而保证右方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别右方图像区域的票头内容,将右方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(5)假设待识别的票据图像中最大包围框的轮廓的下方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转约180度从而保证下方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,通过文字识别系统OCR识别下方图像区域的票头内容,将下方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则,结束。
所述的步骤7中的根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:
(1)根据已知的自制表格凭证的格式规律,预先制定的自制表格凭证模板配置XML文件;
(2)加载自制表格凭证模板配置XML文件;
(3)获取待识别的票据图像中全部的字段位置坐标;
(4)通过自制表格凭证模板配置XML文件获取待识别区域中的字段(所需要识别的字段)在待识别的票据图像内的具体坐标位置并获取该字段的局部图像。
所述的步骤8中的根据标准票据模板文件确定待识别区域并获取待识别区域的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:
(1)根据标准票据(本发明中提到的标准票据即为国家标准类发票、国家统一发票或全国统一发票)的格式规律,为标准票据预先制定的标准票据模板配置XML文件;
(2)加载标准票据模板配置XML文件;
(3)获取待识别的票据图像中全部的字段位置坐标;
(4)通过标准票据模板配置XML文件获取待识别区域中的字段(所需要识别的字段)在待识别的票据图像内的具体坐标位置并获取该字段的局部图像。
本发明中的标准票据为国家标准类通用发票,包括:增值税专用发票、增值税普通发票、建筑业电子发票、建筑业代开发票、市国税通用机打发票、国税代开发票、国税机打工商业发票、企事业单位通用机打发票。
本发明能对标准票据和自制表格凭证进行分类,还能对标准票据和自制表格凭证进行字段定位,本发明借助深度学习和OCR技术对票据图像进行分析,实现票据图像中关键信息的快速准确提取。提升了财务稽核工作效率,释放了生产力,节约了人力成本。
本发明的保护范围包括但不限于以上实施方式,本发明的保护范围以权利要求书为准,任何对本技术做出的本领域的技术人员容易想到的替换、变形、改进均落入本发明的保护范围。

Claims (3)

1.一种基于深度学习和OCR的票据分类及票据字段提取方法,其特征在于,包括以下步骤:
步骤1:选取多张标准票据图像,截取标准票据图像中的公章图像的外接矩形轮廓,作为深度学习的训练样本,得到深度学习模型;
所述的步骤1具体包括以下步骤:
(1)选取多张标准票据图像作为样本,将多张标准票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
(2)根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在标准票据图像中的位置;
(3)获取标准票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对标准票据图像进行倾斜校正;
(4)将标准票据图像中的公章图像的外接矩形轮廓作为深度学习的训练样本,得到深度学习模型;
步骤2:获取待识别的票据图像,将待识别的票据图像的RGB颜色空间转换到HSV颜色空间,根据HSV颜色空间中的三个颜色分量的值判断选取的每个像素的颜色;
步骤3:根据HSV颜色空间中的三个颜色分量的值,筛选出满足公章颜色范围的像素点,获取像素点的外接矩形轮廓从而获取公章的外接矩形轮廓和公章在待识别的票据图像中的位置;
步骤4:获取待识别的票据图像中最大包围框的轮廓,根据最大包围框的轮廓和公章的位置对待识别的票据图像进行倾斜校正;
步骤5:将待识别的票据图像的公章的外接矩形轮廓通过深度学习模型进行分类,若分类成功,则输出待识别的票据图像的票据类型并判定待识别的票据图像为标准票据图像,执行步骤8,若分类失败,则判定待识别的票据图像为非标准票据图像并执行步骤6;
步骤6:分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域,并分别依次对上方图像区域、左方图像区域、右方图像区域和下方图像区域进行倾斜矫正,将上方图像区域、左方图像区域、右方图像区域和下方图像区域的内容分别与自制表格凭证的票头文字进行匹配从而判断待识别的票据图像是否为自制表格凭证,若匹配成功,则执行步骤7,否则,结束;
所述的步骤6具体包括以下步骤:
(1)根据待识别的票据图像中最大包围框的轮廓分别获取待识别的票据图像中最大包围框的轮廓的上方图像区域、左方图像区域、右方图像区域和下方图像区域;
(2)假设待识别的票据图像中最大包围框的轮廓的上方图像区域为票头方向,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别上方图像区域的票头内容,将上方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(3)假设待识别的票据图像中最大包围框的轮廓的左方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转90度从而保证左方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别左方图像区域的票头内容,将左方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(4)假设待识别的票据图像中最大包围框的轮廓的右方图像区域为票头方向,将待识别的票据图像按照票头方向逆时针旋转90度从而保证右方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别右方图像区域的票头内容,将右方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则执行下一步;
(5)假设待识别的票据图像中最大包围框的轮廓的下方图像区域为票头方向,将待识别的票据图像按照票头方向顺时针旋转180度从而保证下方图像区域位于待识别的票据图像中的最大包围框的轮廓的上方,根据待识别的票据图像中最大包围框的轮廓对待识别的票据图像进行倾斜校正,识别下方图像区域的票头内容,将下方图像区域的票头内容与自制表格凭证的票头文字进行匹配,若匹配成功,则执行步骤7,否则,结束;
步骤7:当待识别的票据图像为自制表格凭证时,对待识别的票据图像内的自制表格进行定位,根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域中的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤8:当待识别的票据图像为标准票据图像时,加载预先制定的与该待识别的票据图像相同类型的标准票据模板文件,根据标准票据模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置,截取待识别区域中的字段在待识别的票据图像内的局部图像,执行步骤9;
步骤9:通过文字识别系统将局部图像OCR识别成字符串。
2.根据权利要求1所述的基于深度学习和OCR的票据分类及票据字段提取方法,其特征在于:所述的步骤7中的根据预先制定的自制表格凭证模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:
(1)预先制定的自制表格凭证模板文件;
(2)获取待识别的票据图像中全部的字段位置坐标;
(3)通过自制表格凭证模板文件获取待识别区域中的字段在待识别的票据图像内的具体坐标位置。
3.根据权利要求1所述的基于深度学习和OCR的票据分类及票据字段提取方法,其特征在于:所述的步骤8中的根据标准票据模板文件确定待识别区域并获取待识别区域中的字段在待识别的票据图像内的具体坐标位置具体包括以下步骤:
(1)预先制定的标准票据模板文件;
(2 )通过标准票据模板文件获取待识别区域中的字段在待识别的票据图像内的具体坐标位置。
CN201710971690.9A 2017-10-18 2017-10-18 基于深度学习和ocr的票据分类及票据字段提取方法 Active CN107633239B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710971690.9A CN107633239B (zh) 2017-10-18 2017-10-18 基于深度学习和ocr的票据分类及票据字段提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710971690.9A CN107633239B (zh) 2017-10-18 2017-10-18 基于深度学习和ocr的票据分类及票据字段提取方法

Publications (2)

Publication Number Publication Date
CN107633239A CN107633239A (zh) 2018-01-26
CN107633239B true CN107633239B (zh) 2020-11-03

Family

ID=61104640

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710971690.9A Active CN107633239B (zh) 2017-10-18 2017-10-18 基于深度学习和ocr的票据分类及票据字段提取方法

Country Status (1)

Country Link
CN (1) CN107633239B (zh)

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110457973A (zh) * 2018-05-07 2019-11-15 北京中海汇银财税服务有限公司 一种票据识别的方法及系统
CN109409969A (zh) * 2018-10-24 2019-03-01 仲恺农业工程学院 一种企业税务欺诈检测方法、电子设备及存储介质
CN109376658B (zh) * 2018-10-26 2022-03-08 信雅达科技股份有限公司 一种基于深度学习的ocr方法
CN109740417B (zh) * 2018-10-29 2023-05-16 深圳壹账通智能科技有限公司 发票类型识别方法、装置、存储介质和计算机设备
CN109508941A (zh) * 2018-12-28 2019-03-22 北京爱康鼎科技有限公司 成本结转凭证生成方法
CN109784235A (zh) * 2018-12-29 2019-05-21 广东益萃网络科技有限公司 纸质表单的自动录入方法、装置、计算机设备和存储介质
CN109902737A (zh) * 2019-02-25 2019-06-18 厦门商集网络科技有限责任公司 一种票据分类方法及终端
CN110070665B (zh) * 2019-04-24 2021-05-28 武汉华创欣网科技有限公司 一种基于深度学习的保险票据分类方法
CN110001224B (zh) * 2019-05-15 2023-07-21 南京信息工程大学 一种用于大规模票据盖章及检验的自动化设备
CN110619056A (zh) * 2019-06-19 2019-12-27 深圳壹账通智能科技有限公司 发票录入方法、装置、设备及计算机存储介质
CN110399851B (zh) * 2019-07-30 2022-02-15 广东工业大学 一种图像处理装置、方法、设备及可读存储介质
CN110929580A (zh) * 2019-10-25 2020-03-27 北京译图智讯科技有限公司 一种基于ocr的财务报表信息快速提取方法及系统
CN110991456B (zh) * 2019-12-05 2023-07-07 北京百度网讯科技有限公司 票据识别方法及装置
CN111047261B (zh) * 2019-12-11 2023-06-16 青岛盈智科技有限公司 一种仓储物流委托单识别方法及系统
CN111046064B (zh) * 2019-12-23 2023-05-19 掌阅科技股份有限公司 图书版权信息的获取方法、电子设备及计算机存储介质
CN111582115B (zh) * 2020-04-29 2024-02-02 广东电力信息科技有限公司 一种财务票据处理方法、装置、设备和可读存储介质
CN111652162A (zh) * 2020-06-08 2020-09-11 成都知识视觉科技有限公司 一种医疗单证结构化知识提取的文本检测与识别方法
CN111931780A (zh) * 2020-08-10 2020-11-13 福建博思软件股份有限公司 一种会计凭证智能管理方法及设备
CN112052857A (zh) * 2020-09-02 2020-12-08 中国银行股份有限公司 一种票据图像中目标字段的检测方法及相关装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9298979B2 (en) * 2008-01-18 2016-03-29 Mitek Systems, Inc. Systems and methods for mobile image capture and content processing of driver's licenses
CN101447017B (zh) * 2008-11-27 2010-12-08 浙江工业大学 一种基于版面分析的选票快速识别统计方法及系统
CN103034848B (zh) * 2012-12-19 2016-07-06 方正国际软件有限公司 一种表单类型的识别方法
CN105787418B (zh) * 2014-12-24 2019-08-23 远光软件股份有限公司 原始凭证智能识别及识别信息自动生成单据的方法和装置
US9652690B2 (en) * 2015-02-27 2017-05-16 Lexmark International, Inc. Automatically capturing and cropping image of check from video sequence for banking or other computing application
CN105069455B (zh) * 2015-07-15 2018-04-24 广州敦和信息技术有限公司 一种发票公章过滤的方法及装置
CN105528604B (zh) * 2016-01-31 2018-12-11 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN106096667B (zh) * 2016-07-26 2017-11-10 江苏鸿信系统集成有限公司 基于svm的票据图像分类方法
CN107133571A (zh) * 2017-04-11 2017-09-05 上海众开信息科技有限公司 一种将纸质发票自动生成财务报表的系统及方法
CN107133621B (zh) * 2017-05-12 2020-09-29 中电鸿信信息科技有限公司 基于ocr的格式化传真的分类和信息提取方法
CN106980995A (zh) * 2017-05-26 2017-07-25 百望电子发票数据服务有限公司 一种电子发票版式文件的识别及查验方法及相关装置

Also Published As

Publication number Publication date
CN107633239A (zh) 2018-01-26

Similar Documents

Publication Publication Date Title
CN107633239B (zh) 基于深度学习和ocr的票据分类及票据字段提取方法
CN109800761B (zh) 基于深度学习模型创建纸质文档结构化数据的方法和终端
CN110008944B (zh) 基于模板匹配的ocr识别方法及装置、存储介质
CN109840519B (zh) 一种自适应的智能单据识别录入装置及其使用方法
CN109816118B (zh) 一种基于深度学习模型的创建结构化文档的方法及终端
CN108717545B (zh) 一种基于手机拍照的票据识别方法及系统
CN109657665B (zh) 一种基于深度学习的发票批量自动识别系统
CN109948510B (zh) 一种文档图像实例分割方法及装置
CN107133621B (zh) 基于ocr的格式化传真的分类和信息提取方法
US9396404B2 (en) Robust industrial optical character recognition
CN101295359B (zh) 图像处理装置及图像处理方法
CN107194400A (zh) 一种财务报销全票据图片识别处理方法
US8755595B1 (en) Automatic extraction of character ground truth data from images
CN105654072A (zh) 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN103455806A (zh) 文档处理装置、文档处理方法以及扫描仪
CN112818785B (zh) 一种气象纸质表格文档的快速数字化方法及系统
CN103065146A (zh) 用于电力通信机房哑设备标识牌的文字识别方法
CN103034848A (zh) 一种表单类型的识别方法
CN106446882A (zh) 一种基于8字码的智能留痕阅卷方法
CN109829458B (zh) 实时自动生成记录系统操作行为的日志文件的方法
CN102254196A (zh) 计算机鉴别手写汉字的方法
CN106980857B (zh) 一种基于碑帖的毛笔字分割识别方法
CN103699876B (zh) 一种基于线阵ccd图像识别车号的方法及装置
CN112464925A (zh) 基于机器学习的移动端开户资料银行信息自动提取方法
CN111914706B (zh) 一种文字检测输出结果质量检测和控制的方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 210005 No. 268, Hanzhoung Road, Nanjing, Jiangsu

Applicant after: CLP Hongxin Information Technology Co., Ltd

Address before: 210005 No. 268, Hanzhoung Road, Nanjing, Jiangsu

Applicant before: Jiangsu Hongxin System Integration Co., Ltd.

GR01 Patent grant
GR01 Patent grant