CN113065406A - 一种基于编解码结构识别发票文本的报账智能平台 - Google Patents

一种基于编解码结构识别发票文本的报账智能平台 Download PDF

Info

Publication number
CN113065406A
CN113065406A CN202110249694.2A CN202110249694A CN113065406A CN 113065406 A CN113065406 A CN 113065406A CN 202110249694 A CN202110249694 A CN 202110249694A CN 113065406 A CN113065406 A CN 113065406A
Authority
CN
China
Prior art keywords
neural network
layer
convolution
convolutional
picture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110249694.2A
Other languages
English (en)
Other versions
CN113065406B (zh
Inventor
刘义江
姜琳琳
李云超
辛锐
陈曦
侯栋梁
魏明磊
杨青
池建昆
范辉
陈蕾
阎鹏飞
吴彦巧
姜敬
檀小亚
师孜晗
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Original Assignee
Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
State Grid Hebei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co, State Grid Hebei Electric Power Co Ltd filed Critical Xiongan New Area Power Supply Company State Grid Hebei Electric Power Co
Priority to CN202110249694.2A priority Critical patent/CN113065406B/zh
Publication of CN113065406A publication Critical patent/CN113065406A/zh
Application granted granted Critical
Publication of CN113065406B publication Critical patent/CN113065406B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于编解码结构识别发票文本的报账智能平台,涉及财务报账平台技术领域;其包括图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于第一卷积神经网络对制式图片特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于门控循环神经网络将待解码特征向量G解码并获得发票文本图片中对应的文字;其通过图片生成器和终端以及上述程序模块等,实现了财务报账平台识别发票图片中的长文本。

Description

一种基于编解码结构识别发票文本的报账智能平台
技术领域
本发明涉及财务报账平台技术领域,尤其涉及一种基于编解码结构识别发票文本的报账智能平台。
背景技术
财务票据报上审批报账对于实现财务自动化和节省人力有着重大帮助,其中尤其是发票图片复杂度较高,这主要是由于发票图片中包含了大量长文本需要识别,目前常见的基于深度学习的场景文本识别算法是将图片输入卷积神经网络做特征提取,提前设定文字字典,然后利用分类模型得到识别结果。
如申请号码为CN202011008285.5,名称为《基于深度学习的发票文本信息识别方法》的专利申请,其中发票文本识别采用的即是通用文字识别模型。对于如图3中所示发票文本效果较差,识别较差的主要原因是通常场景文本识别算法通常是针对于10字以内短文本设计,在模型结构分类模型时候直接将从图片中提取到的特征做分类,少于10字即认为是较少,在文本图片字数较少时候可以分类正确,当文字超过10字后我们发现识别效果偏差。
现有技术问题及思考:
如何解决财务报账平台对发票图片中长文本识别困难的技术问题。
发明内容
本发明所要解决的技术问题是提供一种基于编解码结构识别发票文本的报账智能平台,其通过图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块等,实现了财务报账平台识别发票图片中的长文本。
为解决上述技术问题,本发明所采取的技术方案是:一种基于编解码结构识别发票文本的报账智能平台包括图片生成器和终端,所述图片生成器与终端连接并通信,还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。
进一步的技术方案在于:还包括发票文本图片预处理模块,发票文本图片预处理模块,用于终端的处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。
进一步的技术方案在于:在文本图片特征提取模块中,将预处理图片的长、宽相应调整至160x48个像素点,三维特征向量矩阵F为40*6*512的特征矩阵,包含了制式图片的全部信息,所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接。
进一步的技术方案在于:在文本图片特征提取模块中,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。
进一步的技术方案在于:在卷积神经网络特征编码模块中,待解码特征向量G为1*1*512的特征向量,所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层。
进一步的技术方案在于:在门控循环神经网络序列解码模块中,所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。
进一步的技术方案在于:所述终端为台式电脑,所述图片生成器为扫描设备或者拍照设备,图片生成器与台式电脑有线连接并单向通信。
进一步的技术方案在于:所述扫描设备为数字扫描仪,所述拍照设备为数码照相机。
进一步的技术方案在于:所述终端为台式电脑,所述图片生成器为移动智能终端,移动智能终端通过互联网与台式电脑无线连接并通信。
进一步的技术方案在于:还包括服务器,所述终端通过互联网与服务器连接并通信。
采用上述技术方案所产生的有益效果在于:
第一,一种基于编解码结构识别发票文本的报账智能平台包括图片生成器和终端,所述图片生成器与终端连接并通信,还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。其通过图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块等,实现了财务报账平台识别发票图片中的长文本。
第二,所述终端为台式电脑,所述图片生成器为移动智能终端,移动智能终端通过互联网与台式电脑无线连接并通信。通过移动智能终可以随时随地办公,使用更方便,结构更合理。
第三,还包括服务器,所述终端通过互联网与服务器连接并通信。通过服务器,可以更好的拓展应用的范围和层级,结构更合理。
详见具体实施方式部分描述。
附图说明
图1是本发明的原理框图;
图2是本发明使用说明的流程图;
图3是长文本图片;
图4是本发明中单个门控神经网络单元的原理框图;
图5是本发明中门控循环神经网路的原理框图;
图6是本发明中转换特征向量的映射图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本申请及其应用或使用的任何限制。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本申请,但是本申请还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施例的限制。
如图1所示,本发明公开了一种基于编解码结构识别发票文本的报账智能平台包括图片生成器、终端和服务器以及发票文本图片预处理模块、文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,发票文本图片预处理模块、文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块均为程序模块,所述终端为台式电脑,所述图片生成器为数字扫描仪,数字扫描仪与台式电脑有线连接并单向通信,台式电脑通过互联网与服务器连接并通信。
发票文本图片预处理模块为程序模块,用于通过数字扫描仪获取发票文本图片并发送至台式电脑,台式电脑的处理器接收到发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。
文本图片特征提取模块为程序模块,用于台式电脑的处理器将预处理图片处理为统一尺寸的制式图片,即将预处理图片的长、宽相应调整至160x48个像素点,台式电脑的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F,三维特征向量矩阵F为40*6*512的特征矩阵,包含了制式图片的全部信息。所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。
卷积神经网络特征编码模块为程序模块,用于台式电脑的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G,待解码特征向量G为1*1*512的特征向量。所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层。
门控循环神经网络序列解码模块为程序模块,用于台式电脑的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。
其中,台式电脑、数字扫描仪和服务器本身以及相应的通信连接技术为现有技术在此不再赘述,报账平台上用于财务报账的其他程序模块均采用现有技术在此不再赘述。发票文本图片预处理模块为现有技术,文本图片特征提取模块中将预处理图片处理为统一尺寸的制式图片为现有技术,门控循环神经网络本身为现有技术,在此不再赘述。
相对于上述实施例,所述图片生成器为移动智能终端,移动智能终端通过互联网与台式电脑无线连接并通信,移动智能终端为智能手机,随时随地移动办公,使用更便利,工作效率更高。
本申请的构思:
其包括图片生成器和终端以及文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于第一卷积神经网络对制式图片特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于门控循环神经网络将待解码特征向量G解码并获得发票文本图片中对应的文字;其通过图片生成器和终端以及上述程序模块等,实现了财务报账平台识别发票图片中的长文本。
本申请要解决的是发票图片中的长文本识别困难的技术问题,在解码阶段采用变长序列的方式保证该算法不仅可以应对长文本票据识别,也可以应对短文本票据识别。本申请着重解决票据长文本图片识别困难问题,在票据识别之前通常还需要做文字区域检测和裁剪等工作,且方法目前已成熟,非本申请解决问题,不在赘述。
因此,本申请输入数据即是经过检测和裁剪得到的文字区域图片,如图3所示图片,并非原始发票整张图片。整个系统采用编码-解码的结构和门控循环神经网络解决发票识别中长文本识别困难的技术问题。
本申请的技术贡献:
如图2所示,上述实施例中的程序模块,能够有效的解决发票中长文本识别困难的问题,对应如下步骤:
S1发票文本图片预处理,发票文本图片预处理包含了对图片二值化,降噪,以及图像矫正等具体内容。图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字的轮廓。图片降噪主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰。图像矫正为了是将图片中文字摆正,方便识别。
S2文本图片特征提取,在经过预处理后的图片经过专门设计的卷积神经网络模块进行特征提取。
如表1所示,整个卷积神经网络参数,将得到三维特征向量矩阵记做F,F∈RC*H*W其中C、H、W分别表示矩阵的深度、高度和宽度,单位是单个像素,即可认为特征向量F代表了原始图片中的信息。专门设计的卷积神经网络中采用了1个窗口为1x2的最大池化,此操作保证了图片特征提取时候尽可能保证文本图片的长远大于宽的原始特性,也是该专利算法有效原理之一。卷积神经网络设计采用了ResNet中残差块的思想,保证了特征提取网络稳定性。单个残差块为两层卷积神经网络连接而成,并加入了直连分支,用于防止过拟合。
表1:特征提取模块操作参数列表
Figure BDA0002965278520000081
S3卷积神经网络特征编码
如表2所示,整个转换过程,F包含了输入图片的全部信息,无法作为序列解码的输入,因此卷积神经网络特征编码主要负责将特征向量F转换为可供门控循环神经网络序列解码输入的特征向量。该阶段采用了三层的卷积神经网络和最大池化将F转为特征向量G,G∈RC其中C分别表示矩阵的深度。
表2:特征编码操作参数列表
操作名称 参数
卷积层 卷积核:3x3,输出通道:512
最大池化层 卷积核:2x2步长:2x2
卷积层 卷积核:3x3,输出通道:512
最大池化层 卷积核:2x1步长:2x1
卷积层 卷积核:3x3,输出通道:512
最大池化层 卷积核:5x3步长5x3
S4门控循环神经网络序列解码
将G作为门控循环神经网络的初始化输入,在门控循环神经网路包含了50个门控神经网络单元。
如图4所示,每一个门控循环神经网络单元会有左侧和下方两个输入,右侧和上方两个输出。在本申请中第一个门控循环神经网络单元有两个输入,左侧输入为特征向量G,下方输入为“START”的标识符号,表示序列解码开始。第二个门控循环神经网络的左侧输入是第一个门控循环神经网络上侧输出,左侧输入为第一个门控循环神经网络右侧输出,整个门控序列解码就是由这样的50个小单元组成。同时也会记录上侧输出的结果,上侧输入不仅是下一个单元的右侧输入,也是单个字符的识别结果,比如输入的图片中文字为“我爱中国”,则第一个单元上策输出的结果是“我”,第二个单元上侧输出为“爱”,第三个第四个上侧依次会输出“中”,“国”,第五个单元上侧会输出“END”标识符号,这样就可以知道对于任意长度的文字输入图片都可以进行识别,如果输入图片中包含20个文字,那么第一个到第二十个单元上侧输出依次为这20个文字,第二十一个单元则会输出“END”标示字符。所以我们最后的识别结果即是第一个单元输出到接受到“END”字符之前的所有上侧输出。但是由于计算机并不会认识开始“START”,“END”这样的字符,我们采用常见的5000个汉字,数字及英文字符作为字典,将开始“START”和结束“END”两个特殊标识符也加入到字典中,因此字典的总共包含了常见的5002个字符,通常认为这5002个字符即包含了常见的汉字使用。如果选择全部汉字字典,会极大的扩增文字识别的资源消耗。
如图5所示,整个门控循环神经网络序列解表示,序列解码过程中每一个单元会解码出一个字符,n表示输入文字中字符个数。由于我们设定总的单元个数为50个,此处n小于等于50,通常默认单行文本识别字符个数不超过50个字符。
技术方案说明:
S1发票文本图片预处理
首先对发票文本进行二值化,降噪,以及图像矫正等具体内容。图片二值化即将图像中所有的像素的灰度值设置为0~255之间,将整张图片呈现出明显的黑白效果,这一步骤可以使得图片变得更简单,且能够突出文字的轮廓。图片降噪主要是去除图片噪声干扰,减少图像在数字化和传输过程中收到的受成像设备与外部环境噪声干扰。图像矫正为了是将图片中文字摆正,方便识别。
S2文本图片特征提取
在经过预处理后的图片将长宽调整至160x48个像素点,经过专门设计的卷积神经网络模块进行特征提取。将得到三维特征向量矩阵记做F,F∈R40*6*512其中512、6、40分别表示矩阵的深度、高度和宽度,单位是单个像素,即可认为特征向量F代表了原始图片中的信息。专门设计的卷积神经网络中采用了1个窗口为1x2的最大池化,此操作保证了图片特征提取时候尽可能保证文本图片的长远大于宽的原始特性。
S3卷积神经网络特征编码
F即40*6*512的特征矩阵,包含了输入图片的全部信息,无法作为序列解码的输入,因此卷积神经网络特征编码主要负责将特征向量F转换为可供门控循环神经网络序列解码输入的特征向量。该阶段采用了三层的卷积神经网络和最大池化将F转为特征向量G,G∈R512其中512分别表示矩阵的深度,整个转换过程是先F40*6*512经过最大池化变成F120*3*512,再变成F2 5*3*512,再变成G 1*1*512。
如图6所示,变换中尺寸缩小示意图,如从F变成F1,长宽都变为原始一半,也即原始的四个像素点变成一个像素点,往后同理。
S4门控循环神经网络序列解码
将G1*1*512作为门控循环神经网络的初始化输入,在门控循环神经网路包含了50个门控神经网络单元,第一个门控循环神经网络单元会的两个输入,左侧输入为特征向量G,下方输入为“START”的标识符号,表示序列解码开始。第二个门控循环神经网络的左侧输入是第一个门控循环神经网络上侧输出,左侧输入为第一个门控循环神经网络右侧输出,整个门控序列解码就是由这样的50个小单元组成。同时也会记录上侧输出的结果,上侧输入不仅是下一个单元的右侧输入,也是单个字符的识别结果,将解码得到“END”之前的所有结果连接拼接起来就是最终识别结果。

Claims (10)

1.一种基于编解码结构识别发票文本的报账智能平台,包括图片生成器和终端,所述图片生成器与终端连接并通信,其特征在于:还包括文本图片特征提取模块、卷积神经网络特征编码模块和门控循环神经网络序列解码模块,文本图片特征提取模块,用于终端的处理器将预处理图片处理为统一尺寸的制式图片,终端的处理器将制式图片输入至用于提取特征的第一卷积神经网络,第一卷积神经网络对制式图片进行特征提取并获得三维特征向量矩阵F;卷积神经网络特征编码模块,用于终端的处理器将三维特征向量矩阵F输入至用于转换特征向量的第二卷积神经网络,第二卷积神经网络将三维特征向量矩阵F转换为可供门控循环神经网络序列解码输入的待解码特征向量G;门控循环神经网络序列解码模块,用于终端的处理器将待解码特征向量G输入至门控循环神经网络,门控循环神经网络解码并获得发票文本图片中对应的文字。
2.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:还包括发票文本图片预处理模块,发票文本图片预处理模块,用于终端的处理器获取发票文本图片,对票文本图片进行预处理并获得预处理图片,预处理包括二值化处理、降噪处理和图像矫正处理。
3.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:在文本图片特征提取模块中,将预处理图片的长、宽相应调整至160x48个像素点,三维特征向量矩阵F为40*6*512的特征矩阵,包含了制式图片的全部信息,所述第一卷积神经网络包括用于提取特征的第一至第五卷积层、第一至第三最大池化层和第一至第三残差块,用于提取特征的第一卷积层、第二卷积层、第一最大池化层、第一残差块、第三卷积层、第二最大池化层、第二残差块、第四卷积层、第三最大池化层、第三残差块和第五卷积层依次连接。
4.根据权利要求3所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:在文本图片特征提取模块中,用于提取特征的第一卷积层为3x3卷积核且64输出通道的卷积层,用于提取特征的第二卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第三卷积层为3x3卷积核且128输出通道的卷积层,用于提取特征的第四卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第五卷积层为3x3卷积核且512输出通道的卷积层,用于提取特征的第一最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第二最大池化层为2x2卷积核且2x2步长的池化层,用于提取特征的第三最大池化层为1x2卷积核且1x2步长的池化层,用于提取特征的第一残差块为由两层3x3卷积核且256输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第二残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块,用于提取特征的第三残差块为由两层3x3卷积核且512输出通道的卷积神经网络通过直连分支连接而成的残差块。
5.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:在卷积神经网络特征编码模块中,待解码特征向量G为1*1*512的特征向量,所述第二卷积神经网络包括用于转换特征向量的第一至第三卷积层和第一至第三最大池化层,用于转换特征向量的第一卷积层、第一最大池化层、第二卷积层、第二最大池化层、第三卷积层和第三最大池化层依次连接,用于转换特征向量的第一卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第二卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第三卷积层为3x3卷积核且512输出通道的卷积层,用于转换特征向量的第一最大池化层为2x2卷积核且2x2步长的池化层,用于转换特征向量的第二最大池化层为2x1卷积核且2x1步长的池化层,用于转换特征向量的第三最大池化层为5x3卷积核且5x3步长的池化层。
6.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:在门控循环神经网络序列解码模块中,所述门控循环神经网路包含了五十个门控神经网络单元分别是第一至第五十门控神经网络单元,第一门控神经网络单元至第五十门控神经网络单元依次连接。
7.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:所述终端为台式电脑,所述图片生成器为扫描设备或者拍照设备,图片生成器与台式电脑有线连接并单向通信。
8.根据权利要求7所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:所述扫描设备为数字扫描仪,所述拍照设备为数码照相机。
9.根据权利要求1所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:所述终端为台式电脑,所述图片生成器为移动智能终端,移动智能终端通过互联网与台式电脑无线连接并通信。
10.根据权利要求1~9中任意一项所述的一种基于编解码结构识别发票文本的报账智能平台,其特征在于:还包括服务器,所述终端通过互联网与服务器连接并通信。
CN202110249694.2A 2021-03-08 2021-03-08 一种基于编解码结构识别发票文本的报账智能平台 Active CN113065406B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110249694.2A CN113065406B (zh) 2021-03-08 2021-03-08 一种基于编解码结构识别发票文本的报账智能平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110249694.2A CN113065406B (zh) 2021-03-08 2021-03-08 一种基于编解码结构识别发票文本的报账智能平台

Publications (2)

Publication Number Publication Date
CN113065406A true CN113065406A (zh) 2021-07-02
CN113065406B CN113065406B (zh) 2022-11-11

Family

ID=76559893

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110249694.2A Active CN113065406B (zh) 2021-03-08 2021-03-08 一种基于编解码结构识别发票文本的报账智能平台

Country Status (1)

Country Link
CN (1) CN113065406B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242400A (zh) * 2018-11-02 2019-01-18 南京信息工程大学 一种基于卷积门控循环神经网络的物流快递单号识别方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110070085A (zh) * 2019-04-30 2019-07-30 北京百度网讯科技有限公司 车牌识别方法和装置
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110490199A (zh) * 2019-08-26 2019-11-22 北京香侬慧语科技有限责任公司 一种文本识别的方法、装置、存储介质及电子设备
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110704668A (zh) * 2019-09-23 2020-01-17 北京影谱科技股份有限公司 基于网格的协同注意力vqa方法和装置
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN111753827A (zh) * 2020-05-15 2020-10-09 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN112001187A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种基于中文句法和图卷积神经网络的情感分类系统
CN112200638A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于注意力机制与双向gru网络的水军评论检测系统及方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109242400A (zh) * 2018-11-02 2019-01-18 南京信息工程大学 一种基于卷积门控循环神经网络的物流快递单号识别方法
CN109919174A (zh) * 2019-01-16 2019-06-21 北京大学 一种基于门控级联注意力机制的文字识别方法
CN110070085A (zh) * 2019-04-30 2019-07-30 北京百度网讯科技有限公司 车牌识别方法和装置
CN110188637A (zh) * 2019-05-17 2019-08-30 西安电子科技大学 一种基于深度学习的行为识别技术方法
CN110490199A (zh) * 2019-08-26 2019-11-22 北京香侬慧语科技有限责任公司 一种文本识别的方法、装置、存储介质及电子设备
CN110647829A (zh) * 2019-09-12 2020-01-03 全球能源互联网研究院有限公司 一种票据的文本识别方法及系统
CN110704668A (zh) * 2019-09-23 2020-01-17 北京影谱科技股份有限公司 基于网格的协同注意力vqa方法和装置
CN111144411A (zh) * 2019-12-27 2020-05-12 南京大学 一种基于显著图的不规则文本修正与识别方法及系统
CN111753827A (zh) * 2020-05-15 2020-10-09 中国科学院信息工程研究所 基于语义强化编码器解码器框架的场景文字识别方法及系统
CN112001187A (zh) * 2020-08-26 2020-11-27 重庆理工大学 一种基于中文句法和图卷积神经网络的情感分类系统
CN112200638A (zh) * 2020-10-30 2021-01-08 福州大学 一种基于注意力机制与双向gru网络的水军评论检测系统及方法

Also Published As

Publication number Publication date
CN113065406B (zh) 2022-11-11

Similar Documents

Publication Publication Date Title
JP3345350B2 (ja) 文書画像認識装置、その方法、及び記録媒体
US11887280B2 (en) Method, system, and computer-readable medium for improving quality of low-light images
CN109241861B (zh) 一种数学公式识别方法、装置、设备及存储介质
CN109635805B (zh) 图像文本定位方法及装置、图像文本识别方法及装置
RU2706891C1 (ru) Способ формирования общей функции потерь для обучения сверточной нейронной сети для преобразования изображения в изображение с прорисованными деталями и система для преобразования изображения в изображение с прорисованными деталями
US20230386002A1 (en) Shadow elimination method and apparatus for text image, and electronic device
CN110765740B (zh) 一种基于dom树的全类型文本替换方法、系统、装置及存储介质
CN113837310B (zh) 多尺度融合的证件翻拍识别方法、装置、电子设备和介质
CN110599554A (zh) 人脸肤色的识别方法和装置、存储介质及电子装置
CN115482529A (zh) 近景色水果图像识别方法、设备、存储介质及装置
CN113065406B (zh) 一种基于编解码结构识别发票文本的报账智能平台
CN113727050B (zh) 面向移动设备的视频超分辨率处理方法、装置、存储介质
CN113158776B (zh) 基于编解码结构的发票文本识别方法及装置
CN107221019B (zh) 图表转换方法及装置
CN116229098A (zh) 一种基于掩模轮廓跟踪的图像识别方法及相关产品
CN114330400B (zh) 二维码图像处理方法、系统、装置、电子设备及存储介质
WO2023273196A1 (zh) 一种文本识别方法及相关装置
CN107705339A (zh) 一种压缩方法及装置
CN115311664A (zh) 图像中文本类别的识别方法、装置、介质及设备
CN115188000A (zh) 基于ocr的文本识别方法、装置、存储介质及电子设备
CN113810717B (zh) 图像处理方法及装置
CN111382764B (zh) 人脸识别或手势识别的神经网络模型建立方法、装置及计算机可读存储介质
CN113033767A (zh) 基于知识蒸馏的神经网络的数据压缩恢复方法及系统
CN113808225B (zh) 一种图像的无损编码方法
KR101635738B1 (ko) 퍼지 에너지 매트릭스에 기반하여 문서 구조를 분석하기 위한 방법, 장치 및 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant