CN111209856A - 发票信息的识别方法、装置、电子设备及存储介质 - Google Patents

发票信息的识别方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN111209856A
CN111209856A CN202010009796.2A CN202010009796A CN111209856A CN 111209856 A CN111209856 A CN 111209856A CN 202010009796 A CN202010009796 A CN 202010009796A CN 111209856 A CN111209856 A CN 111209856A
Authority
CN
China
Prior art keywords
invoice
identification result
identification
processed
identified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010009796.2A
Other languages
English (en)
Other versions
CN111209856B (zh
Inventor
张秋晖
刘岩
韩森尧
朱兴杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Taikang Insurance Group Co Ltd
Original Assignee
Taikang Insurance Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Taikang Insurance Group Co Ltd filed Critical Taikang Insurance Group Co Ltd
Priority to CN202010009796.2A priority Critical patent/CN111209856B/zh
Publication of CN111209856A publication Critical patent/CN111209856A/zh
Application granted granted Critical
Publication of CN111209856B publication Critical patent/CN111209856B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/412Layout analysis of documents structured with printed lines or input boxes, e.g. business forms or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/30Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Character Input (AREA)

Abstract

本实施例提供的发票信息的识别方法、装置、电子设备及存储介质,通过对待处理发票的图像信息进行预处理,获得发票数据;将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,从而可以通过模型自动识别出待识别发票区域,快速提高识别效率,便于后续对于发票信息的处理。

Description

发票信息的识别方法、装置、电子设备及存储介质
技术领域
本公开实施例涉及图像识别领域,尤其涉及一种发票信息的识别方法、装置、电子设备及存储介质。
背景技术
随着深度学习算法尤其是卷积神经网络的发展,通过利用计算机自动识别报销单上所贴发票,然后自动录入到数据库成为可能,通过该技术可以极大的提高财务工作的效率。
现有技术中,其技术实现可分为三步,第一步,从图片中切割出单张的发票,第二布,采用OCR技术对单张发票进行识别,第三布,采用文本结构化的技术将OCR识别的结果进行输出。
但是,由于各种票据之间在图像特征上可能存在相似性过大,因此,在技术是线上需要利用人工以指定待选框的大小,这就降低了识别效率,提高了人工成本。
发明内容
针对上述问题,本公开提供了一种发票信息的识别方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种发票信息的识别方法,包括:
对待处理发票的图像信息进行预处理,获得发票数据;
将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;
根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
第二方面,本公开提供了一种发票信息的识别装置,包括:
预处理模块,用于对待处理发票的图像信息进行预处理,获得发票数据;
处理模块,用于将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
识别模块,用于将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;还用于根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
第三方面,本公开提供了一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如前任一项所述的发票信息的识别方法。
第四方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如前任一项所述的发票信息的识别方法。
本实施例提供的发票信息的识别方法、装置、电子设备及存储介质,通过对待处理发票的图像信息进行预处理,获得发票数据;将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,从而可以通过模型自动识别出待识别发票区域,快速提高识别效率,便于后续对于发票信息的处理。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开所基于的网络架构的示意图;
图2为本公开实施例提供的一种发票信息的识别方法的流程示意图;
图3为本公开实施例提供的发票信息的识别方法中待识别发票区域的示意图;
图4为本公开实施例提供的发票信息的识别方法中OCR识别模型进行识别的示意图;
图5为本公开提供的一种发票信息的识别装置的结构示意图;
图6为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
随着深度学习算法尤其是卷积神经网络的发展,通过利用计算机自动识别报销单上所贴发票,然后自动录入到数据库成为可能,通过该技术可以极大的提高财务工作的效率。
现有技术中,其技术实现可分为三步,第一步,从图片中切割出单张的发票,第二布,采用OCR技术对单张发票进行识别,第三布,采用文本结构化的技术将OCR识别的结果进行输出。
但是,由于各种票据之间在图像特征上可能存在相似性过大,因此,在技术是线上需要利用人工以指定待选框的大小,这就降低了识别效率,提高了人工成本。
针对上述问题,本公开提供了一种保险业务容量的管理方法、装置、电子设备及存储介质。
参考图1,图1为本公开所基于的网络架构的示意图,如图1所示的,本公开基于的一种网络架构可包括发票信息的识别装置2以及发票服务平台1。
其中,发票信息的识别装置2是可与发票服务平台1通过网络进行交互的硬件或软件,其可用于执行下述各示例中所述的发票信息的识别方法,其可通过从发票服务平台1中抓取待处理发票的图像信息,并将待处理发票的图像信息输出至发票信息的识别装置2。
当发票信息的识别装置2为硬件时,包括具备运算功能的云端服务器。当发票信息的识别装置2为软件时,其可以安装在具备运算功能的电子设备中,其中的电子设备包括但不限于膝上型便携计算机和台式计算机等等。
此外,发票服务平台1是指承载有发票报销、发票出具等发票业务的服务器或服务集群,该服务器或服务集群中存储有涉及的待处理发票的图像信息,这些待处理发票的图像信息可能为用户通过发票服务平台1的客户端口上传给发票服务平台1的,也可为发票服务平台1从互联网上或指定渠道端口获取的。而通过网络,发票服务平台1和发票信息的识别装置2可进行通信和数据交互。
第一方面,参考图2,图2为本公开实施例提供的一种发票信息的识别方法的流程示意图。本公开实施例提供的发票信息的识别方法,包括:
步骤101、对待处理发票的图像信息进行预处理,获得发票数据。
需要说明的是,本公开实施例提供的发票信息的识别方法的执行主体为发票信息的识别装置。
首先,识别装置将从发票服务平台抓取或接收,以获得待处理发票的图像信息。该图像信息具体可为用户对待处理发票进行拍照、或扫描获得并上传的。
在该步骤中,对待处理发票的图像信息进行预处理,具体可存在多个步骤,其包括但不限于锐化处理,去噪处理,旋转处理。
进一步的,锐化处理是指补偿图像的轮廓,增强图像的边缘及灰度跳变的部分,使图像变得清晰,其可分为空间域处理和频域处理两类。通过突出图像上地物的边缘、轮廓,或某些线性目标要素的特征,以提高了地物边缘与周围像元之间的反差。
去噪处理是指减少数字图像中噪声的过程,一般的,在图像信息均为数字图像,在图像进行数字化和传输过程中常受到成像设备与外部环境噪声干扰等影响,即接收获得到的图像信息中一般包括有噪声。而这些噪声将成为图像干扰的重要原因,通过对去噪处理,以使图像信息中的噪声被去除,以提高得到的图像的真实性和准确性。
旋转处理是指以图像的某一点为中心,以将图像旋转一定的角度,形成一幅新的图像的过程。
通过对于待处理发票的图像信息进行预处理,从而使得待处理发票的图像信息被缩放到合适尺寸,便于神经网络的训练与输出。
步骤102、将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域。
在本公开的识别装置中,还预先设置有训练完毕的发票位置识别模型,该识别模型可用于识别发票图像信息中的待识别发票区域。
具体来说,在训练完毕的发票位置识别模型中包括有依次连接的多个卷积池化层。也就是说,可将所述发票数据输入训练完毕的发票位置识别模型,以使所述发票数据依次通过所述训练完毕的发票位置识别模型中的各卷积池化层并输出待识别发票区域在所述待处理发票的图像信息中的角点坐标,以及所述发票区域的置信度;其中,所述发票区域的置信度用于表示所述角点坐标的可信程度。
其中,在可选实施例中,还可包括有构建发票位置识别模型和训练该发票位置识别模型的步骤:构建卷积神经网络,对输入的样本数据进行训练,获得训练完毕的发票位置识别模型。
在构建发票位置识别模型时,构建的模型可包括5个卷积池化层,4个融合特征层,1个输出层,其中,在训练过程中,模型的输入样本数据为512*512的三通道图像,以及发票外接四边形的4个点的坐标以及分类的标签。模型将提取不同尺度特征进行融合输出:随后1个卷积层和1个池化层,采用64个3×3的卷积核和1个maxpooling的池化层;2个卷积层和1个池化层,采用128个3×3的卷积核和1个maxpooling的池化层;再后,3个卷积层和1个池化层,先采用2层256个3×3的卷积核,再使用1层256个1×1的卷积层和1个maxpooling的池化层;再后,3个卷积层和1个池化层,先采用2层512个3×3的卷积核,再使用1层512个1×1的卷积层和1个maxpooling的池化层;最后,3个卷积层和1个池化层,先采用2层512个3×3的卷积核,再使用1层512个1×1的卷积层和1个maxpooling的池化层;以及4个反卷积层,每次将输入的特征进行上采样,并采用concat的方式,将2,3,4,5步中的特征与每层反卷积后的特征进行融合,通过上述训练,可获得训练完毕的发票位置识别模型。
而当将发票数据输入至训练完毕的发票位置识别模型之后,模型将输出待处理发票的图像信息中的角点坐标,以及所述发票区域的置信度;其中,待处理发票的图像信息中的角点坐标将构成待识别发票区域,而发票区域的置信度用于表示所述角点坐标的可信程度。
通过利用发票位置识别模型,可快速识别法待处理发票的待识别发票区域,解决现有技术中通过手动标注识别区域的方式对发票进行识别而导致的效率过低的问题。
步骤103、将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果。
步骤104、根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
具体来说,步骤103和步骤104提供了一种对于待处理发票进行识别的具体方式。
当然的,图3为本公开实施例提供的发票信息的识别方法中待识别发票区域的示意图。如图3所示的,在确定所述待识别发票区域中是否包括有预设字段之前,还可包括:根据所述待识别发票区域对所述图像信息进行图像分割,获得所述待识别发票区域对应的图像。
在本公开示例中,首先设置有两类识别模型以对待识别发票区域进行识别:
其一为第一识别模型,其具体可为OCR识别模型,该OCR识别模型可用于确定待识别发票区域中是否包括有预设字段。图4为本公开实施例提供的发票信息的识别方法中OCR识别模型进行识别的示意图,如图4所示的,该预设字段可例如“定值发票”等一些类型发票常用类型名称,通过利用基于OCR识别技术的识别模型对该待识别发票区域中的预设字段进行识别,可有效得到识第一识别结果。其中,当待识别发票区域中包括有预设字段,如“定值发票”时,那么该发票为第一类型发票,如“定值类发票”;反之,当待识别发票区域中不包括有预设字段,那么该发票不为第一类型发票。
其二为第二识别模型,其具体可为基于神经网络的识别模型,将所述待识别发票区域的图像输入至训练完毕的发票类型识别模型,以对所述待处理的发票类型进行识别获得所述待处理发票属于各发票类型的第一概率,将根据各第一概率确定的所述待处理发票的发票类型作为所述第二识别结果。
具体来说,基于神经网络的识别模型将对待识别发票区域的图像进行分类,以输出维度为发票类型的概率矩阵,即第一概率,例如有5类发票,则输出为(0.34,0.78,0.03,0.04,0.43),每个数字代表该发票属于对应数组下标所对应的发票类型的概率,一般的,第一概率最高的发票类型将作为第二识别结果。
最后,将结合第一识别结果和第二识别结果得到待识别发票的识别结果,具体的,当所述第一识别结果为第一类型发票时,所述待处理发票的识别结果为第一类型发票;当所述第一识别结果为非第一类型发票时,则根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
在可选的实施方式中,当确定所述待识别发票区域中不包括有预设字段时,还可统计待识别发票区域中的字段分布,并根据预设的字段分布和发票类型之间的概率对应表,确定所述待识别发票属于各发票类型的第二概率;相应的,对于根据第一识别结果和第二识别结果确定所述待处理发票的识别结果的步骤,具体可为:将所述各发票类型的第一概率和第二概率相加,以根据相加结果确定所述待识别发票的识别结果。
具体来说,在利用第一识别模型得到非第一类型发票的第一识别结果时,第一识别模型还可用于确定待识别发票区域中包括的各字段,以供识别装置对各字段进行统计,获得字段分布,利用预设的字段分布和概率之间的概率对应表确定第二概率。进一步举例来说,若在待识别发票区域中识别出“发票号码”,“发票代码”,“开票日期”等字段,其中前两个字段为定额发票的中的常见字段,而第三个字段通常只在普通增值税发票中出现,因此将“发票号码”“发票代码”字段对应的“定额发票”这一发票类型的第二概率为0.10;“开票日期”字段对应的“普通增值税发票”这一发票类型的第二概率为0.1。最后,将各发票类型的第一概率和第二概率相加,以确定最后识别结果。
本实施例提供的发票信息的识别方法,通过对待处理发票的图像信息进行预处理,获得发票数据;将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,从而可以通过模型自动识别出待识别发票区域,快速提高识别效率,便于后续对于发票信息的处理。
第二方面,图5为本公开提供的一种发票信息的识别装置的结构示意图,如图5所示的,该发票信息的识别装置,包括:
预处理模块10,用于对待处理发票的图像信息进行预处理,获得发票数据;
处理模块20,用于将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
识别模块30,用于将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;还用于根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
可选的,所述预处理包括如下处理中的一种或多种:锐化处理,去噪处理,旋转处理。
可选的,所述训练完毕的发票位置识别模型包括:依次连接的多个卷积池化层;
处理模块20具体用于:
将所述发票数据输入训练完毕的发票位置识别模型,以使所述发票数据依次通过所述训练完毕的发票位置识别模型中的各卷积池化层并输出待识别发票区域在所述待处理发票的图像信息中的角点坐标,以及所述发票区域的置信度;其中,所述发票区域的置信度用于表示所述角点坐标的可信程度。
可选的,所述处理模块20还用于:
根据所述待识别发票区域对所述图像信息进行图像分割,获得所述待识别发票区域对应的图像。
可选的,所述识别模块30具体用于:
将所述待识别发票区域的图像输入至OCR识别模型,以使确定所述待识别发票区域中是否包括有预设字段,若是,则所述第一识别结果为第一类型发票,若否,则所述第一识别结果为非第一类型发票;
将所述待识别发票区域的图像输入至训练完毕的发票类型识别模型,以对所述待处理的发票类型进行识别获得所述待处理发票属于各发票类型的第一概率,将根据各第一概率确定的所述待处理发票的发票类型作为所述第二识别结果。
可选的,所述识别模块30具体用于:
当所述第一识别结果为第一类型发票时,所述待处理发票的识别结果为第一类型发票;
当所述第一识别结果为非第一类型发票时,则根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
可选的,当确定所述待识别发票区域中不包括有预设字段时,所述识别模块30还用于:
统计待识别发票区域中的字段分布,并根据预设的字段分布和发票类型之间的概率对应表,确定所述待识别发票属于各发票类型的第二概率;
相应的,所述根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,包括:
将所述各发票类型的第一概率和第二概率相加,以根据相加结果确定所述待识别发票的识别结果。
本实施例提供的发票信息的识别装置,通过对待处理发票的图像信息进行预处理,获得发票数据;将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,从而可以通过模型自动识别出待识别发票区域,快速提高识别效率,便于后续对于发票信息的处理。
下一方面,本实施例还提供了电子设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
参考图6,其示出了适于用来实现本公开实施例的电子设备900的结构示意图,该电子设备900可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图6示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图6所示,电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901,其可以根据存储在只读存储器(Read Only Memory,简称ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory,简称RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
通常,以下装置可以连接至I/O接口905:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置907;包括例如磁带、硬盘等的存储装置908;以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图6示出了具有各种装置的电子设备900,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置909从网络上被下载和安装,或者从存储装置908被安装,或者从ROM902被安装。在该计算机程序被处理装置901执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
以下是本公开的一些实施例。
第一方面,根据本公开的一个或多个实施例,一种发票信息的识别方法,包括:
对待处理发票的图像信息进行预处理,获得发票数据;
将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;
根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
在本公开提供的可选实施例中,所述预处理包括如下处理中的一种或多种:锐化处理,去噪处理,旋转处理。
在本公开提供的可选实施例中,所述训练完毕的发票位置识别模型包括:依次连接的多个卷积池化层;
所述将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域,包括:
将所述发票数据输入训练完毕的发票位置识别模型,以使所述发票数据依次通过所述训练完毕的发票位置识别模型中的各卷积池化层并输出待识别发票区域在所述待处理发票的图像信息中的角点坐标,以及所述发票区域的置信度;其中,所述发票区域的置信度用于表示所述角点坐标的可信程度。
在本公开提供的可选实施例中,所述确定所述待识别发票区域中是否包括有预设字段之前,包括:
根据所述待识别发票区域对所述图像信息进行图像分割,获得所述待识别发票区域对应的图像。
在本公开提供的可选实施例中,将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果,包括:
将所述待识别发票区域的图像输入至OCR识别模型,以使确定所述待识别发票区域中是否包括有预设字段,若是,则所述第一识别结果为第一类型发票,若否,则所述第一识别结果为非第一类型发票;
将所述待识别发票区域的图像输入至训练完毕的发票类型识别模型,以对所述待处理的发票类型进行识别获得所述待处理发票属于各发票类型的第一概率,将根据各第一概率确定的所述待处理发票的发票类型作为所述第二识别结果。
在本公开提供的可选实施例中,所述根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,包括:
当所述第一识别结果为第一类型发票时,所述待处理发票的识别结果为第一类型发票;
当所述第一识别结果为非第一类型发票时,则根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
在本公开提供的可选实施例中,当确定所述待识别发票区域中不包括有预设字段时,所述识别方法还包括:
统计待识别发票区域中的字段分布,并根据预设的字段分布和发票类型之间的概率对应表,确定所述待识别发票属于各发票类型的第二概率;
相应的,所述根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,包括:
将所述各发票类型的第一概率和第二概率相加,以根据相加结果确定所述待识别发票的识别结果。
在本公开提供的可选实施例中,所述预处理包括如下处理中的一种或多种:锐化处理,去噪处理,旋转处理。
在本公开提供的可选实施例中,锐化处理用于补偿待处理发票的图像信息的轮廓;所述去噪处理用于去除所述补偿待处理发票的图像信息的噪声;所述旋转处理用于以待处理发票的图像信息中的某一像素点为中心,对所述待处理发票的图像信息进行旋转操作。
第二方面,根据本公开的一个或多个实施例,一种发票信息的识别装置,包括:
预处理模块,用于对待处理发票的图像信息进行预处理,获得发票数据;
处理模块,用于将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
识别模块30,用于将所述待识别发票区域分别输入至第一识别模型和第二识别模型,并获得第一识别结果和第二识别结果;还用于根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
在本公开提供的可选实施例中,所述预处理包括如下处理中的一种或多种:锐化处理,去噪处理,旋转处理。
在本公开提供的可选实施例中,所述训练完毕的发票位置识别模型包括:依次连接的多个卷积池化层;
处理模块具体用于:将所述发票数据输入训练完毕的发票位置识别模型,以使所述发票数据依次通过所述训练完毕的发票位置识别模型中的各卷积池化层并输出待识别发票区域在所述待处理发票的图像信息中的角点坐标,以及所述发票区域的置信度;其中,所述发票区域的置信度用于表示所述角点坐标的可信程度。
在本公开提供的可选实施例中,所述处理模块还用于:
根据所述待识别发票区域对所述图像信息进行图像分割,获得所述待识别发票区域对应的图像。
在本公开提供的可选实施例中,所述识别模块30具体用于:
将所述待识别发票区域的图像输入至OCR识别模型,以使确定所述待识别发票区域中是否包括有预设字段,若是,则所述第一识别结果为第一类型发票,若否,则所述第一识别结果为非第一类型发票;
将所述待识别发票区域的图像输入至训练完毕的发票类型识别模型,以对所述待处理的发票类型进行识别获得所述待处理发票属于各发票类型的第一概率,将根据各第一概率确定的所述待处理发票的发票类型作为所述第二识别结果。
在本公开提供的可选实施例中,所述识别模块30具体用于:
当所述第一识别结果为第一类型发票时,所述待处理发票的识别结果为第一类型发票;
当所述第一识别结果为非第一类型发票时,则根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
在本公开提供的可选实施例中,当确定所述待识别发票区域中不包括有预设字段时,所述识别模块30还用于:
统计待识别发票区域中的字段分布,并根据预设的字段分布和发票类型之间的概率对应表,确定所述待识别发票属于各发票类型的第二概率;
相应的,所述根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,包括:
将所述各发票类型的第一概率和第二概率相加,以根据相加结果确定所述待识别发票的识别结果。
在本公开提供的可选实施例中,所述预处理包括如下处理中的一种或多种:锐化处理,去噪处理,旋转处理。
在本公开提供的可选实施例中,锐化处理用于补偿待处理发票的图像信息的轮廓;所述去噪处理用于去除所述补偿待处理发票的图像信息的噪声;所述旋转处理用于以待处理发票的图像信息中的某一像素点为中心,对所述待处理发票的图像信息进行旋转操作。
第三方面,根据本公开的一个或多个实施例,一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如前所述方法。
第四方面,根据本公开的一个或多个实施例,一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如前所述方法。
以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本公开中所涉及的公开范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述公开构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
此外,虽然采用特定次序描绘了各操作,但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下,多任务和并行处理可能是有利的。同样地,虽然在上面论述中包含了若干具体实现细节,但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地,在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。
尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题,但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反,上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims (10)

1.一种发票信息的识别方法,其特征在于,包括:
对待处理发票的图像信息进行预处理,获得发票数据;
将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
将所述待识别发票区域的图像输入至OCR识别模型,以使确定所述待识别发票区域中是否包括有预设字段,若是,则所述第一识别结果为第一类型发票,若否,则所述第一识别结果为非第一类型发票;
将所述待识别发票区域的图像输入至训练完毕的发票类型识别模型,以对所述待处理的发票类型进行识别获得所述待处理发票属于各发票类型的第一概率,将根据各第一概率确定的所述待处理发票的发票类型作为所述第二识别结果;
根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
2.根据权利要求1所述的识别方法,其特征在于,所述训练完毕的发票位置识别模型包括:依次连接的多个卷积池化层;
所述将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域,包括:
将所述发票数据输入训练完毕的发票位置识别模型,以使所述发票数据依次通过所述训练完毕的发票位置识别模型中的各卷积池化层并输出待识别发票区域在所述待处理发票的图像信息中的角点坐标,以及所述发票区域的置信度;其中,所述发票区域的置信度用于表示所述角点坐标的可信程度。
3.根据权利要求1所述的识别方法,其特征在于,所述确定所述待识别发票区域中是否包括有预设字段之前,包括:
根据所述待识别发票区域对所述图像信息进行图像分割,获得所述待识别发票区域对应的图像。
4.根据权利要求1所述的识别方法,其特征在于,所述根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,包括:
当所述第一识别结果为第一类型发票时,所述待处理发票的识别结果为第一类型发票;
当所述第一识别结果为非第一类型发票时,则根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
5.根据权利要求1所述的识别方法,其特征在于,当确定所述待识别发票区域中不包括有预设字段时,所述识别方法还包括:
统计待识别发票区域中的字段分布,并根据预设的字段分布和发票类型之间的概率对应表,确定所述待识别发票属于各发票类型的第二概率;
相应的,所述根据第一识别结果和第二识别结果确定所述待处理发票的识别结果,包括:
将所述各发票类型的第一概率和第二概率相加,以根据相加结果确定所述待识别发票的识别结果。
6.根据权利要求1-5任一项所述的识别方法,其特征在于,所述预处理包括如下处理中的一种或多种:锐化处理,去噪处理,旋转处理。
7.根据权利要求6所述的识别方法,其特征在于,锐化处理用于补偿待处理发票的图像信息的轮廓;所述去噪处理用于去除所述补偿待处理发票的图像信息的噪声;所述旋转处理用于以待处理发票的图像信息中的某一像素点为中心,对所述待处理发票的图像信息进行旋转操作。
8.一种发票信息的识别装置,其特征在于,包括:
预处理模块,用于对待处理发票的图像信息进行预处理,获得发票数据;
处理模块,用于将所述发票数据输入训练完毕的发票位置识别模型,输出所述发票图像信息中的待识别发票区域;
识别模块,将所述待识别发票区域的图像输入至OCR识别模型,以使确定所述待识别发票区域中是否包括有预设字段,若是,则所述第一识别结果为第一类型发票,若否,则所述第一识别结果为非第一类型发票;将所述待识别发票区域的图像输入至训练完毕的发票类型识别模型,以对所述待处理的发票类型进行识别获得所述待处理发票属于各发票类型的第一概率,将根据各第一概率确定的所述待处理发票的发票类型作为所述第二识别结果;还用于根据第一识别结果和第二识别结果确定所述待处理发票的识别结果。
9.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的方法。
10.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7中任一所述的方法。
CN202010009796.2A 2020-01-06 2020-01-06 发票信息的识别方法、装置、电子设备及存储介质 Active CN111209856B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010009796.2A CN111209856B (zh) 2020-01-06 2020-01-06 发票信息的识别方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010009796.2A CN111209856B (zh) 2020-01-06 2020-01-06 发票信息的识别方法、装置、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN111209856A true CN111209856A (zh) 2020-05-29
CN111209856B CN111209856B (zh) 2023-10-17

Family

ID=70787361

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010009796.2A Active CN111209856B (zh) 2020-01-06 2020-01-06 发票信息的识别方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN111209856B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652318A (zh) * 2020-06-05 2020-09-11 中国银行股份有限公司 一种币种识别方法、识别装置、以及电子设备
CN111881187A (zh) * 2020-08-03 2020-11-03 深圳诚一信科技有限公司 一种自动建立数据处理模型的方法及相关产品
CN111931784A (zh) * 2020-09-17 2020-11-13 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171627A1 (en) * 2014-12-15 2016-06-16 Abbyy Development Llc Processing electronic documents for invoice recognition
CN107977665A (zh) * 2017-12-15 2018-05-01 北京科摩仕捷科技有限公司 一种发票中关键信息的识别方法及计算设备
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110147786A (zh) * 2019-04-11 2019-08-20 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置
CN110298376A (zh) * 2019-05-16 2019-10-01 西安电子科技大学 一种基于改进b-cnn的银行票据图像分类方法
CN110334640A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种票据审核方法及系统
CN110348441A (zh) * 2019-07-10 2019-10-18 深圳市华云中盛科技有限公司 增值税发票识别方法、装置、计算机设备及存储介质
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160171627A1 (en) * 2014-12-15 2016-06-16 Abbyy Development Llc Processing electronic documents for invoice recognition
CN107977665A (zh) * 2017-12-15 2018-05-01 北京科摩仕捷科技有限公司 一种发票中关键信息的识别方法及计算设备
CN108446621A (zh) * 2018-03-14 2018-08-24 平安科技(深圳)有限公司 票据识别方法、服务器及计算机可读存储介质
CN110147786A (zh) * 2019-04-11 2019-08-20 北京百度网讯科技有限公司 用于检测图像中的文本区域的方法、装置、设备以及介质
CN110298376A (zh) * 2019-05-16 2019-10-01 西安电子科技大学 一种基于改进b-cnn的银行票据图像分类方法
CN110263694A (zh) * 2019-06-13 2019-09-20 泰康保险集团股份有限公司 一种票据识别方法及装置
CN110334640A (zh) * 2019-06-28 2019-10-15 苏宁云计算有限公司 一种票据审核方法及系统
CN110348441A (zh) * 2019-07-10 2019-10-18 深圳市华云中盛科技有限公司 增值税发票识别方法、装置、计算机设备及存储介质
CN110378338A (zh) * 2019-07-11 2019-10-25 腾讯科技(深圳)有限公司 一种文本识别方法、装置、电子设备和存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111652318A (zh) * 2020-06-05 2020-09-11 中国银行股份有限公司 一种币种识别方法、识别装置、以及电子设备
CN111652318B (zh) * 2020-06-05 2023-09-01 中国银行股份有限公司 一种币种识别方法、识别装置、以及电子设备
CN111881187A (zh) * 2020-08-03 2020-11-03 深圳诚一信科技有限公司 一种自动建立数据处理模型的方法及相关产品
CN111931784A (zh) * 2020-09-17 2020-11-13 深圳壹账通智能科技有限公司 票据识别方法、系统、计算机设备与计算机可读存储介质

Also Published As

Publication number Publication date
CN111209856B (zh) 2023-10-17

Similar Documents

Publication Publication Date Title
CN110046600B (zh) 用于人体检测的方法和装置
CN111369427B (zh) 图像处理方法、装置、可读介质和电子设备
CN111209856B (zh) 发票信息的识别方法、装置、电子设备及存储介质
CN110826567B (zh) 光学字符识别方法、装置、设备及存储介质
CN110211195B (zh) 生成图像集合的方法、装置、电子设备和计算机可读存储介质
CN110349161B (zh) 图像分割方法、装置、电子设备、及存储介质
CN110298851B (zh) 人体分割神经网络的训练方法及设备
CN112766284B (zh) 图像识别方法和装置、存储介质和电子设备
CN111783626A (zh) 图像识别方法、装置、电子设备及存储介质
CN112668588A (zh) 车位信息生成方法、装置、设备和计算机可读介质
CN111783777B (zh) 图像处理方法、装置、电子设备和计算机可读介质
CN113239925A (zh) 一种文本检测模型训练方法、文本检测方法及装置、设备
CN114993328B (zh) 车辆定位评估方法、装置、设备和计算机可读介质
CN111967332B (zh) 用于自动驾驶的能见度信息生成方法和装置
CN110765304A (zh) 图像处理方法、装置、电子设备及计算机可读介质
CN111311609A (zh) 一种图像分割方法、装置、电子设备及存储介质
CN116434218A (zh) 适用于移动端的支票识别方法、装置、设备和介质
CN113780239B (zh) 虹膜识别方法、装置、电子设备和计算机可读介质
CN111340813B (zh) 图像实例分割方法、装置、电子设备及存储介质
CN115100536A (zh) 建筑物识别方法、装置、电子设备和计算机可读介质
CN113936271A (zh) 文本识别方法、装置、可读介质及电子设备
CN111291758B (zh) 用于识别印章文字的方法和装置
CN114429628A (zh) 图像处理方法、装置、可读存储介质及电子设备
CN112528970A (zh) 路牌检测方法、装置、设备和计算机可读介质
CN111612714A (zh) 图像修复方法、装置和电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant