CN110457973A - 一种票据识别的方法及系统 - Google Patents

一种票据识别的方法及系统 Download PDF

Info

Publication number
CN110457973A
CN110457973A CN201810424250.6A CN201810424250A CN110457973A CN 110457973 A CN110457973 A CN 110457973A CN 201810424250 A CN201810424250 A CN 201810424250A CN 110457973 A CN110457973 A CN 110457973A
Authority
CN
China
Prior art keywords
bill
standard
identification
size
original image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810424250.6A
Other languages
English (en)
Inventor
夏子国
王绪胜
陈雪原
张启峰
安云生
吴俊飞
张鹏
李国权
聂广楠
刘蕾
刘宁
姚涛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhonghaihuiyin Finance And Taxation Service Co Ltd
Original Assignee
Beijing Zhonghaihuiyin Finance And Taxation Service Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhonghaihuiyin Finance And Taxation Service Co Ltd filed Critical Beijing Zhonghaihuiyin Finance And Taxation Service Co Ltd
Priority to CN201810424250.6A priority Critical patent/CN110457973A/zh
Publication of CN110457973A publication Critical patent/CN110457973A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本发明涉及一种票据识别的方法,包括:S1建立票据标准模板库;S2、预识别票据;S3、确定票据类型和票据标准模板;S4、解析预识别结果,若解析成功,则进入步骤S5,若解析失败,则输出识别失败的结果信息并结束本次操作;S5、标准化票据图像;S6、正式识别票据;S7、解析票据要素;S8、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据;S9、输出识别的各票据要素,结束本次操作。本发明还公开了一种票据识别的系统。本发明公开的一种票据识别的方法及系统,支持多类票据识别,简化了票据识别的流程,提升了票据识别的准确度;对企业信息化提供了良好的基础。

Description

一种票据识别的方法及系统
技术领域
本发明涉及模式识别领域,具体是一种票据识别的方法及系统。
背景技术
纸质票据是一种显示样式相对固定,数据项明确的纸质文件,如增值税发票、营业执照、金融票据、证照等。一般而言,同类票据具有相同的显示样式和数据项,且同一数据项的位置在不同票据中基本相同,在信息化系统中,纸质票据的输出大多是通过套打或打印模板实现。由于管理制度和机构之间信息化系统不兼容等原因,纸质票据作为业务凭证和数据传输的载体,在机构内部和机构之间广为使用。但是,由于纸质票据是面向人工阅读,缺少票据的数据项等结构化信息,导致大量纸质票据内的数据提取的工作必须依赖于人工。由于人工效率低下,无法快速处理大量的票据,对于纸质票据的接收方而言,如何通过图像识别技术将票据进行快速结构化、避免重复数据录入已经成为机构信息化的关键。
纸质票据的识别与传统文档识别的主要差别是不仅需要识别纸质票据上的文本,还需要识别出票据的各个数据项值,从而将纸质票据进行结构化。现有的票据识别方法大多是针对特定的票据类型,通过经验或机器学习等方式预先建立本类型的票据模板,票据模板包括票据的标准图像大小及各数据项在标准图像中的相对位置,然后将票据模板应用于新的票据图像,识别出图像中的各数据项位置对应的文本。该方法存在以下问题:第一,适应性不强,目前的票据识别大多针对单一的票据类型,无法支持其他的票据类型;第二,对数字化图像要求高,要求票据的图像能符合标准化的要求,大多数票据识别软件要求使用专用的扫描仪或其他专用设备;第三,基于位置定位的方式适应性较差,由于很多套打的票据模板是分地区分批印制,因此,票据模板会存在一定程度的误差,而后期打印的部分更是不可避免地存在纸张偏移、倾斜等问题;此时,现有票据识别软件的效果就大打折扣。
发明内容
本发明针对上述现有技术存在的问题做出改进,本发明的目的在于提供一种能支持多种票据、无需专用设备、对模板和打印偏差具有较强适应性的票据识别方法及系统。
为实现上述目的,本发明提供如下技术方案:
一种票据识别的方法,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、标准化票据图像,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入步骤S6;
S6、正式识别票据,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入步骤S7,其中:
正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
S7、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S8,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S8、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S9;
所述票据要素的文本特征,是指票据要素文本的特有要求,既包括票据标准模板中票据要素的语义特征,也包括其他的新特征;
所述票据要素的相互关系,是指多个票据要素之间的运算关系或票据要素的部分文本之间的关系;
S9、输出识别的各票据要素,结束本次操作。
进一步地,当识别引擎的预识别结果中图像角度不能支持任意角度时,步骤S5中进行旋转变换后根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
进一步地,步骤S7中解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
进一步地,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
进一步地,标准票据模板中使用发票标题行作为备用的参照要素,步骤S4中若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入步骤S5,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:
发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
进一步地,在完成步骤S7后,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入步骤S8,其中:
所述商品行信息包括商品名称、金额、税率及税额。
一种票据识别的方法,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、根据步骤S2和步骤S4中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将步骤S2中预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入步骤S6;
S6、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S7,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S7、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S8;
S8、输出识别的各票据要素,结束本次操作。
一种票据识别的系统,包括
票据标准模板库建立模块,建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;每类票据的分类特征库包括每类票据的分类特征;所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小;
票据预识别模块,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
票据类型和票据标准模板选择模块,确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
预识别结果解析模块,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入票据图像标准化模块,如果获取失败,则输出识别失败的结果信息并结束本次操作;
票据图像标准化模块,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入票据正式识别模块;
票据正式识别模块,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入票据要素解析模块,其中:正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
票据要素解析模块,从正式识别结果中逐个解析出票据要素的值,解析完成后进入票据要素数据校验和补充模块,其中:解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
票据要素数据校验和补充模块,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入输出模块;
输出模块,输出识别的各票据要素,结束本次操作。
进一步地,当识别引擎的预识别结果中图像角度不能支持任意角度时,执行票据图像标准化模块过程中,先进行旋转变换后,再根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
进一步地,票据要素解析模块解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
进一步地,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
进一步地,标准票据模板中使用发票标题行作为备用的参照要素,预识别结果解析模块若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入票据图像标准化模块,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
进一步地,在执行完票据要素解析模块后,接着执行商品行解析模块,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入票据要素数据校验和补充模块,其中:所述商品行信息包括商品名称、金额、税率及税额。
一种票据识别的系统,包括
票据标准模板库建立模块,建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;每类票据的分类特征库包括每类票据的分类特征;所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小;
票据预识别模块,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
票据类型和票据标准模板选择模块,确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
预识别结果解析模块,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入预识别结果转换模块,如果获取失败,则输出识别失败的结果信息并结束本次操作;
预识别结果转换模块,根据票据预识别模块和预识别结果解析模块中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将经过票据预识别模块得到的预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入票据要素解析模块;
票据要素解析模块,从正式识别结果中逐个解析出票据要素的值,解析完成后进入票据要素数据校验和补充模块,其中:解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
票据要素数据校验和补充模块,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入输出模块;
输出模块,输出识别的各票据要素,结束本次操作。
有益效果:与现有技术相比,本发明公开的一种票据识别的方法及系统,具有以下的有益效果是:
1、支持多类票据识别,简化了票据识别的流程;
2、本发明提供了一种将非标准化的票据图像按照预设的票据模板进行标准化的方法,避免了使用专业设备进行数字化的过程;
3、本发明优先采用语义分析的方式提取出票据中的要素数据,避免了打印位置的变化导致信息提取不准确的问题;
4、本发明可以扩展票据图像的采集渠道,增强了手机拍摄、通用扫描仪等方式采集图像的识别效果,提升了票据识别的准确度;对企业信息化提供了良好的基础。
附图说明
图1为本发明公开的一种票据识别的方法的流程图。
具体实施方式
下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
具体实施例1
如图1所示,一种票据识别的方法,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、标准化票据图像,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入步骤S6;
S6、正式识别票据,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入步骤S7,其中:
正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
S7、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S8,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S8、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S9;
所述票据要素的文本特征,是指票据要素文本的特有要求,既包括票据标准模板中票据要素的语义特征,也包括其他的新特征,如:
增值税发票代码是10位或12位数字;
10位增值税发票代码时1-4位为行政区划、5-6位为年度、第10位应该为0;
所述票据要素的相互关系,是指多个票据要素之间的运算关系或票据要素的部分文本之间的关系,如:
增值税发票要素中,合计金额+合计税额=价税合计;
增值税发票要素中,发票代码中的省市字段(10位票据代码中的1-2位)与销售方纳税人识别号中的省市(18位中的3-4位或15位中的1-2位)相同;
S9、输出识别的各票据要素,结束本次操作。
进一步地,当识别引擎的预识别结果中图像角度不能支持任意角度时,步骤S5中进行旋转变换后根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
进一步地,步骤S7中解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
进一步地,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
进一步地,标准票据模板中使用发票标题行作为备用的参照要素,步骤S4中若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入步骤S5,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:
发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
进一步地,在完成步骤S7后,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入步骤S8,其中:
所述商品行信息包括商品名称、金额、税率及税额。
一种票据识别的系统,包括
票据标准模板库建立模块,建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;每类票据的分类特征库包括每类票据的分类特征;所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小;
票据预识别模块,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
票据类型和票据标准模板选择模块,确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
预识别结果解析模块,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入票据图像标准化模块,如果获取失败,则输出识别失败的结果信息并结束本次操作;
票据图像标准化模块,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入票据正式识别模块;
票据正式识别模块,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入票据要素解析模块,其中:正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
票据要素解析模块,从正式识别结果中逐个解析出票据要素的值,解析完成后进入票据要素数据校验和补充模块,其中:解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
票据要素数据校验和补充模块,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入输出模块;
输出模块,输出识别的各票据要素,结束本次操作。
进一步地,当识别引擎的预识别结果中图像角度不能支持任意角度时,执行票据图像标准化模块过程中,先进行旋转变换后,再根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
进一步地,票据要素解析模块解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
进一步地,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
进一步地,标准票据模板中使用发票标题行作为备用的参照要素,预识别结果解析模块若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入票据图像标准化模块,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
进一步地,在执行完票据要素解析模块后,接着执行商品行解析模块,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入票据要素数据校验和补充模块,其中:所述商品行信息包括商品名称、金额、税率及税额。
具体实施例2
一种票据识别的方法,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、根据步骤S2和步骤S4中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将步骤S2中预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入步骤S6;
S6、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S7,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S7、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S8;
S8、输出识别的各票据要素,结束本次操作。
进一步地,步骤S6中解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
进一步地,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
进一步地,标准票据模板中使用发票标题行作为备用的参照要素,步骤S4中若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入步骤S5,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:
发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
一种票据识别的系统,包括
票据标准模板库建立模块,建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;每类票据的分类特征库包括每类票据的分类特征;所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小;
票据预识别模块,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
票据类型和票据标准模板选择模块,确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
预识别结果解析模块,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入预识别结果转换模块,如果获取失败,则输出识别失败的结果信息并结束本次操作;
预识别结果转换模块,根据票据预识别模块和预识别结果解析模块中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将经过票据预识别模块得到的预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入票据要素解析模块;
票据要素解析模块,从正式识别结果中逐个解析出票据要素的值,解析完成后进入票据要素数据校验和补充模块,其中:解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
票据要素数据校验和补充模块,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入输出模块;
输出模块,输出识别的各票据要素,结束本次操作。
进一步地,票据要素解析模块解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
进一步地,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
进一步地,标准票据模板中使用发票标题行作为备用的参照要素,预识别结果解析模块若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入票据图像标准化模块,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
进一步地,在执行完票据要素解析模块后,接着执行商品行解析模块,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入票据要素数据校验和补充模块,其中:所述商品行信息包括商品名称、金额、税率及税额。
本发明的提供了一种票据识别的方法及系统法,能将不同渠道拍摄或扫描的图像进行标准化,以满足票据模板的要求;另一方面,除位置定位外,本发明还利用增值税票据内容的特点,利用各票据要素内容自有的要求和票据要素前的先导词,通过语义分析的手段进行票据要素的识别,避免对位置定位的强依赖。通过本发明,降低了增值税票据等票据的数字化过程的要求,支持手机拍摄、通用扫描仪等常规数字化手段获取图像的识别,扩大了增值税票据识别的应用范围和场景,另一方面,通过语义分析实现对票据要素的解析,提高票据要素的识别率,票据数据的结构化更为准确和精细。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (14)

1.一种票据识别的方法,其特征在于,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、标准化票据图像,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入步骤S6;
S6、正式识别票据,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入步骤S7,其中:
正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
S7、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S8,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S8、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S9;
S9、输出识别的各票据要素,结束本次操作。
2.一种票据识别的方法,其特征在于,具体步骤如下:
S1、建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;
每类票据的分类特征库包括每类票据的分类特征,每类票据的分类特征是指本类票据区别于其他类票据的特点,包括图像特征、文本识别结果特征;
所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小,其中:
所述票据要素,是指票据中的具有独立含义、用于描述票据的数据项;
所述语义特征,是指票据要素的文本或其上下文所具有的,能与其他票据要素相区别的独有特征;
所述参照要素,是指票据要素中人为选取的、在票据标准图像中位置和大小相对固定、识别出错率低的一个或多个票据要素;
S2、预识别票据,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:
预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
S3、确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
S4、解析预识别结果,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入步骤S5,如果获取失败,则输出识别失败的结果信息并结束本次操作;
S5、根据步骤S2和步骤S4中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将步骤S2中预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入步骤S6;
S6、解析票据要素,从正式识别结果中逐个解析出票据要素的值,解析完成后进入步骤S7,其中:
解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
S7、校验和补充票据要素数据,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入步骤S8;
S8、输出识别的各票据要素,结束本次操作。
3.根据权利要求1所述的一种票据识别的方法,其特征在于,当识别引擎的预识别结果中图像角度不能支持任意角度时,步骤S5中进行旋转变换后根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
4.根据权利要求1所述的一种票据识别的方法,其特征在于,步骤S7中解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
5.根据权利要求1~4任意一项所述的一种票据识别的方法,其特征在于,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
6.根据权利要求5所述的一种票据识别的方法,其特征在于,标准票据模板中使用发票标题行作为备用的参照要素,步骤S4中若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入步骤S5,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:
发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
7.根据权利要求1或3或4所述的一种票据识别的方法,其特征在于,在完成步骤S7后,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入步骤S8,其中:
所述商品行信息包括商品名称、金额、税率及税额。
8.一种票据识别的系统,其特征在于:包括
票据标准模板库建立模块,建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;每类票据的分类特征库包括每类票据的分类特征;所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小;
票据预识别模块,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
票据类型和票据标准模板选择模块,确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
预识别结果解析模块,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入票据图像标准化模块,如果获取失败,则输出识别失败的结果信息并结束本次操作;
票据图像标准化模块,根据预识别结果中票据原始图像方向、参照要素在票据原始图像上的位置和大小及参照元素在票据标准图像中的位置和大小,将票据原始图像转换为与票据标准图像方向、大小相同,且参照元素在转换后图像中的位置、大小与其在标准票据图像的位置、大小一致的图像,完成后进入票据正式识别模块;
票据正式识别模块,将标准化后的票据图像提交给识别引擎进行正式识别得到正式识别的结果,然后进入票据要素解析模块,其中:正式识别的结果包括识别出的字符列表及各字符在标准化图像中的位置和大小;
票据要素解析模块,从正式识别结果中逐个解析出票据要素的值,解析完成后进入票据要素数据校验和补充模块,其中:解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
票据要素数据校验和补充模块,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入输出模块;
输出模块,输出识别的各票据要素,结束本次操作。
9.一种票据识别的系统,其特征在于:包括
票据标准模板库建立模块,建立票据标准模板库,所述票据标准模板库包括票据分类库、每类票据的分类特征库、每类票据的票据标准模板;每类票据的分类特征库包括每类票据的分类特征;所述票据标准模板,包括票据标准图像的方向及大小、各个票据要素在该票据标准图像中的位置、大小及语义特征、参照要素及参照要素在该标准图像中的位置和大小;
票据预识别模块,接收票据原始图像,将票据原始图像提交给识别引擎进行图像预识别得到预识别结果,其中:预识别结果包括票据原始图像的方向、识别出的字符列表及各字符在票据原始图像中的位置;
票据类型和票据标准模板选择模块,确定票据类型和票据标准模板,根据票据原始图像及其预识别结果文本,与每类票据的分类特征库进行比对,确定票据的类型,根据票据类型,从票据标准模板库提取出与之对应的票据标准模板;
预识别结果解析模块,根据票据标准模板中参照要素的语义特征,获取参照要素在票据原始图像上的位置和大小,如果获取成功,则进入预识别结果转换模块,如果获取失败,则输出识别失败的结果信息并结束本次操作;
预识别结果转换模块,根据票据预识别模块和预识别结果解析模块中预识别结果中图像方向、参照要素在票据原始图像上的位置和大小及其在票据标准图像中的位置和大小,通过各字符坐标的旋转、缩放和平移变换,将经过票据预识别模块得到的预识别结果中的各字符在当前图像中的坐标转换为标准图像中的坐标,得到正式识别的结果,然后进入票据要素解析模块;
票据要素解析模块,从正式识别结果中逐个解析出票据要素的值,解析完成后进入票据要素数据校验和补充模块,其中:解析时优先按照票据要素的语义特征进行解析,若语义解析失败,则通过票据标准模板中本票据要素的绝对位置定位识别出票据要素的值;
票据要素数据校验和补充模块,根据各票据要素的文本特征和票据要素的相互关系校验和补充数据,完成后进入输出模块;
输出模块,输出识别的各票据要素,结束本次操作。
10.根据权利要求8所述的一种票据识别的系统,其特征在于,当识别引擎的预识别结果中图像角度不能支持任意角度时,执行票据图像标准化模块过程中,先进行旋转变换后,再根据预识别结果中参照要素首个字符纵向位置和末尾字符纵向位置之差与参照要素的水平宽度之比计算出需要进行微调的角度,然后进行小角度的旋转。
11.根据权利要求8所述的一种票据识别的系统,其特征在于,票据要素解析模块解析出票据要素后,记录该票据要素的纵向坐标与其在标准票据图像中的纵向坐标偏移;然后再在通过绝对位置定位解析该票据要素后的剩余票据要素时,将剩余票据要素的绝对位置进行相应的纵向偏移。
12.根据权利要求8~11任意一项所述的一种票据识别的系统,其特征在于,所述票据是增值税发票,增值税发票的分类特征包括票据原始图像的左上角包括二维码图像、票据原始图像文本区域的宽高比符合典型增值税发票的文本宽高比范围、票据原始图像的识别文本包含增值税发票特有文本,票据标准模板中使用发票代码作为参照要素。
13.根据权利要求12所述的一种票据识别的系统,其特征在于,标准票据模板中使用发票标题行作为备用的参照要素,预识别结果解析模块若获取发票代码的位置和大小失败,则继续获取发票标题行的位置和大小,如果获取成功,则进入票据图像标准化模块,若获取失败,则输出识别失败的结果信息并结束本次操作,其中:发票标题行包括发票标题行的特征及其在标准模板中的位置和大小。
14.根据权利要求12所述的一种票据识别的系统,其特征在于,在执行完票据要素解析模块后,接着执行商品行解析模块,根据正式识别结果中商品标题行、合计金额行之间的文本逐行解析出发票的商品行信息,解析完成后进入票据要素数据校验和补充模块,其中:所述商品行信息包括商品名称、金额、税率及税额。
CN201810424250.6A 2018-05-07 2018-05-07 一种票据识别的方法及系统 Pending CN110457973A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810424250.6A CN110457973A (zh) 2018-05-07 2018-05-07 一种票据识别的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810424250.6A CN110457973A (zh) 2018-05-07 2018-05-07 一种票据识别的方法及系统

Publications (1)

Publication Number Publication Date
CN110457973A true CN110457973A (zh) 2019-11-15

Family

ID=68471648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810424250.6A Pending CN110457973A (zh) 2018-05-07 2018-05-07 一种票据识别的方法及系统

Country Status (1)

Country Link
CN (1) CN110457973A (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241974A (zh) * 2020-01-07 2020-06-05 深圳追一科技有限公司 票据信息获取方法、装置、计算机设备和存储介质
CN111275037A (zh) * 2020-01-09 2020-06-12 上海知达教育科技有限公司 票据识别方法及装置
CN111784587A (zh) * 2020-06-30 2020-10-16 杭州师范大学 一种基于深度学习网络的发票照片位置矫正方法
CN111931666A (zh) * 2020-08-13 2020-11-13 中国工商银行股份有限公司 凭证自动化处理系统及方法
CN111950380A (zh) * 2020-07-19 2020-11-17 中国建设银行股份有限公司 票据的稽核方法、装置、电子设备及计算机可读存储介质
CN112308036A (zh) * 2020-11-25 2021-02-02 杭州睿胜软件有限公司 票据识别方法、装置及可读存储介质
CN112541461A (zh) * 2020-12-21 2021-03-23 四川新网银行股份有限公司 一种针对无固定格式模板消费凭据的自动审核方法及装置
CN112800848A (zh) * 2020-12-31 2021-05-14 中电金信软件有限公司 票据识别后信息结构化提取方法、装置和设备
CN113780116A (zh) * 2021-08-26 2021-12-10 众安在线财产保险股份有限公司 发票分类方法、装置、计算机设备和存储介质
CN114240407A (zh) * 2021-11-17 2022-03-25 广东电网有限责任公司 一种基于区块链的票据风险传导量化评估系统及方法

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105279525A (zh) * 2015-11-19 2016-01-27 浪潮软件集团有限公司 一种图像处理的方法及装置
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN105701905A (zh) * 2014-11-28 2016-06-22 航天信息股份有限公司 一种发票识别方法和系统
CN106485243A (zh) * 2016-10-31 2017-03-08 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN107480681A (zh) * 2017-08-02 2017-12-15 四川长虹电器股份有限公司 基于深度学习的高并发票据识别系统与方法
CN107622255A (zh) * 2017-10-12 2018-01-23 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105701905A (zh) * 2014-11-28 2016-06-22 航天信息股份有限公司 一种发票识别方法和系统
CN105279525A (zh) * 2015-11-19 2016-01-27 浪潮软件集团有限公司 一种图像处理的方法及装置
CN105528604A (zh) * 2016-01-31 2016-04-27 华南理工大学 一种基于ocr的票据自动识别与处理系统
CN105654072A (zh) * 2016-03-24 2016-06-08 哈尔滨工业大学 一种低分辨率医疗票据图像的文字自动提取和识别系统与方法
CN106485243A (zh) * 2016-10-31 2017-03-08 用友网络科技股份有限公司 一种票据识别纠错方法及装置
CN107480681A (zh) * 2017-08-02 2017-12-15 四川长虹电器股份有限公司 基于深度学习的高并发票据识别系统与方法
CN107622255A (zh) * 2017-10-12 2018-01-23 江苏鸿信系统集成有限公司 基于位置模板与语义模板的票据图像字段定位方法及系统
CN107633239A (zh) * 2017-10-18 2018-01-26 江苏鸿信系统集成有限公司 基于深度学习和ocr的票据分类及票据字段提取方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张艳: "票据自动处理系统中若干关键技术研究", 《中国博士学位论文全文数据库_工程科技Ⅱ辑》 *

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111241974A (zh) * 2020-01-07 2020-06-05 深圳追一科技有限公司 票据信息获取方法、装置、计算机设备和存储介质
CN111241974B (zh) * 2020-01-07 2023-10-27 深圳追一科技有限公司 票据信息获取方法、装置、计算机设备和存储介质
CN111275037A (zh) * 2020-01-09 2020-06-12 上海知达教育科技有限公司 票据识别方法及装置
CN111784587B (zh) * 2020-06-30 2023-08-01 杭州师范大学 一种基于深度学习网络的发票照片位置矫正方法
CN111784587A (zh) * 2020-06-30 2020-10-16 杭州师范大学 一种基于深度学习网络的发票照片位置矫正方法
CN111950380A (zh) * 2020-07-19 2020-11-17 中国建设银行股份有限公司 票据的稽核方法、装置、电子设备及计算机可读存储介质
CN111931666A (zh) * 2020-08-13 2020-11-13 中国工商银行股份有限公司 凭证自动化处理系统及方法
CN111931666B (zh) * 2020-08-13 2024-02-13 中国工商银行股份有限公司 凭证自动化处理系统及方法
CN112308036A (zh) * 2020-11-25 2021-02-02 杭州睿胜软件有限公司 票据识别方法、装置及可读存储介质
CN112541461A (zh) * 2020-12-21 2021-03-23 四川新网银行股份有限公司 一种针对无固定格式模板消费凭据的自动审核方法及装置
CN112800848A (zh) * 2020-12-31 2021-05-14 中电金信软件有限公司 票据识别后信息结构化提取方法、装置和设备
CN113780116A (zh) * 2021-08-26 2021-12-10 众安在线财产保险股份有限公司 发票分类方法、装置、计算机设备和存储介质
CN114240407A (zh) * 2021-11-17 2022-03-25 广东电网有限责任公司 一种基于区块链的票据风险传导量化评估系统及方法

Similar Documents

Publication Publication Date Title
CN110457973A (zh) 一种票据识别的方法及系统
US7607078B2 (en) Paper and electronic recognizable forms
US20190171708A1 (en) Assistive technology for the impaired
KR100980748B1 (ko) 혼합 미디어 환경을 생성 및 사용하는 시스템 및 방법
US8233180B2 (en) Methods for automatically determining workflow for print jobs
US20170220858A1 (en) Optical recognition of tables
WO2001061517A1 (en) System and method for converting information on paper forms to electronic data
CN101140617A (zh) 电子设备及其文本录入的方法
CN108829363A (zh) 业务凭证打印方法及装置
CN102541948A (zh) 用于提取文档结构的方法和装置
CN112183036A (zh) 一种格式文档生成方法、装置、设备及存储介质
JP4897795B2 (ja) 処理装置、インデックステーブル作成方法及びコンピュータプログラム
CN108364037A (zh) 识别手写汉字的方法、系统及设备
CN106815733A (zh) 数据处理方法、装置和系统以及打印机
US8049921B2 (en) System and method for transferring invoice data output of a print job source to an automated data processing system
KR20180080408A (ko) 정형 및 비정형 데이터 추출 시스템 및 방법
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
KR100960640B1 (ko) 전자 문서에 핫스폿을 임베딩하는 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN114550189A (zh) 票据识别方法、装置、设备、计算机存储介质和程序产品
CN111210328A (zh) 凭证生成方法和装置、存储介质和电子设备
US9135517B1 (en) Image based document identification based on obtained and stored document characteristics
CN207037679U (zh) 一种快捷扫描发票信息的系统
CN111241955B (zh) 一种票据信息提取方法及系统
CN109639718A (zh) 一种基于移动终端实时记录实验数据的方法和系统
US10606928B2 (en) Assistive technology for the impaired

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191115

RJ01 Rejection of invention patent application after publication