CN112329814B - 一种发票数据处理方法及设备 - Google Patents
一种发票数据处理方法及设备 Download PDFInfo
- Publication number
- CN112329814B CN112329814B CN202011055166.5A CN202011055166A CN112329814B CN 112329814 B CN112329814 B CN 112329814B CN 202011055166 A CN202011055166 A CN 202011055166A CN 112329814 B CN112329814 B CN 112329814B
- Authority
- CN
- China
- Prior art keywords
- invoice
- data
- identification data
- field
- identification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003672 processing method Methods 0.000 title claims abstract description 16
- 238000004140 cleaning Methods 0.000 claims abstract description 12
- 239000011159 matrix material Substances 0.000 claims description 61
- 238000000034 method Methods 0.000 claims description 40
- 238000012545 processing Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 4
- 238000012015 optical character recognition Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 12
- 238000003860 storage Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 8
- 238000004590 computer program Methods 0.000 description 7
- 230000000694 effects Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001143 conditioned effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000002708 enhancing effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G07—CHECKING-DEVICES
- G07D—HANDLING OF COINS OR VALUABLE PAPERS, e.g. TESTING, SORTING BY DENOMINATIONS, COUNTING, DISPENSING, CHANGING OR DEPOSITING
- G07D7/00—Testing specially adapted to determine the identity or genuineness of valuable papers or for segregating those which are unacceptable, e.g. banknotes that are alien to a currency
- G07D7/20—Testing patterns thereon
- G07D7/202—Testing patterns thereon using pattern matching
- G07D7/206—Matching template patterns
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Multimedia (AREA)
- Character Input (AREA)
Abstract
本申请公开了一种发票数据处理方法及设备,通过获取各发票识别数据;其中,各发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;获取预先存储的,与各发票识别数据对应的发票真实数据;基于预设规则,对各发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据;将各规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;基于字符集合,更新预设的OCR识别模型。基于上述方案,可以高效的,有针对性的提高OCR识别模型的识别率。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种发票数据处理方法及设备。
背景技术
发票是指一切单位和个人在购销商品、提供或接受服务以及从事其他经营活动中,所开具和收取的业务凭证,是会计核算的原始依据,也是审核机关、税务机关执法检查的重要依据。人们往往需要在相应系统中录入发票的信息数据用于报销、审核、认证、存档。
随着社会经济和科技的不断发展,自动化发票识别替代了人工,从而在一定程度上节约了大量的人力资源。但是,由于发票的应用场景较为复杂,特别是使用中文字符的发票因为其形似字等原因使其发票识别的场景更为复杂,这就造成现有的自动化发票识别技术的识别率较低,用户体验较差。
基于此,如何提高发票识别的识别率成为亟需解决的技术问题。
发明内容
本说明书实施例提供一种发票数据处理方法及设备,用于解决现有技术中的如下技术问题:发票的应用场景复杂,使得自动化发票识别技术的识别率低,用户体验差。
本说明书实施例采用下述技术方案:
一种发票数据处理方法,该方法包括:
获取各发票识别数据;其中,各所述发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;
获取预先存储的,与各发票识别数据对应的发票真实数据;
基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据;其中,各所述规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致;
将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;其中,所述字符集合中包括匹配结果不一致的字符;所述字符为所述规则发票识别数据和/或发票真实数据中发票字段中的字符;
基于所述字符集合,更新所述预设的OCR识别模型。
通过上述方案,本申请实施例提供的发票数据处理方法可以得到OCR识别模型识别率低的原因,也就是说是哪些字符识别错误导致识别率低,得到导致识别率低的字符集合,从而可以对OCR识别模型进行针对应的训练,高效、快速的提高OCR识别模型的精确度、识别率。
在一种可能实现的方式中,所述基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据,具体包括:
确定发票真实数据中的各发票字段、以及各发票字段对应的发票字段信息,是否符合相应的预设条件;
将未符合相应的预设条件的发票字段、以及未符合相应预设条件的发票字段信息,按照预设条件进行相应替换,以得到相应的规则发票识别数据。
通过上述数据清洗,以发票真实数据的为准对发票识别数据中的发票字段进行数据清洗,以得到发票字段的展示形式与对应的发票真实数据中的发票字段的展示形式一致的规则发票识别数据,以避免只因展示形式不同,而造成OCR识别模型的识别率低的问题。
在一种可能实现的方式中,所述将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合,具体包括:
以发票字段的发票字段名称作为列标题,发票字段名称对应的发票字段信息作为行数据,构建各所述规则发票识别数据对应的矩阵、以及各发票真实数据对应的矩阵;
将各所述规则发票数据对应的矩阵进行合并,得到发票识别数据矩阵;以及将各发票真实数据对应的矩阵进行合并,得到发票真实数据矩阵;
将所述发票识别数据矩阵以及发票真实数据矩阵分别进行转置处理,并转置处理后的发票识别数据矩阵以及发票真实数据矩阵合并,以得到发票数据矩阵;
基于预设的正则表达式,并根据发票数据矩阵,得到相应的字符集合。
在一种可能实现的方式中,基于预设的正则表达式,并根据发票数据矩阵,得到相应的字符集合,具体包括:
根据发票矩阵数据,计算各发票字段的字段识别率;
确定字段识别率小于预设阈值的发票字段,并将所述字段识别率小于预设阈值的发票字段从所述发票数据矩阵中筛选出来,以得到相应的发票数据子矩阵;
按照预设的正则表达式,对所述发票数据子矩阵中的发票识别数据、发票真实数据进行匹配,得到所述字符集合。
在一种可能实现的方式中,所述方法还包括:
基于所述发票数据矩阵,以发票身份标识为行标题、发票字段为列标题,构建相应的发票数据表格;
将所述发票数据表格发送至相应的终端设备,以使所述终端将所述发票数据表格向所述终端对应的用户进行展示。
通过上述方案,可以将发票真实数据、发票识别数据更加调理、直观的向相应的用户进行展示。
在一种可能实现的方式中,所述方法还包括:
根据所述字符集合,计算所述字符集合中相同字符的数量;
基于所述字符集合中的字符,以及所述相同字符的数量,生成相应的词云图并展示;
其中,所述词云图的字符的大小与所述相同字符的字符数量为正相关关系。
在一种可能实现的方式中,所述基于所述字符集合,更新所述OCR识别模型,具体包括:
按照预设规则,获取所述字符集合中各字符对应的发票图像;
对各发票图像进行识别,确定所述字符对应的字符区域;
从相应的发票图像中分割出所述字符区域对应的字符图像;
将各所述字符图像作为训练样本,更新所述OCR识别模型。
通过上述方式,可以得到字符集合中各字符对应的字符图像,将各字符图像作为训练样本,可以更有针对性的更新该OCR识别模型,快速的提高OCR识别模型的识别率。
在一种可能实现的方式中,所述获取各发票识别数据,具体包括:
获取预先存储的发票识别数据集合,所述发票识别数据集合中包括多个待定发票识别数据;
分别获取各所述待定发票识别数据对应的原始发票图像,并按照预设规则计算各原始发票图像的图像清晰度;
确定各图像清晰度大于预设阈值的原始发票图像;
将所述发票识别数据集合中,图像清晰度大于预设阈值的原始发票图像对应的待定发票识别数据,作为发票识别数据。
通过上述方法,可以筛除由图像模糊造成OCR无法识别的问题图像,可以提高得到字符集合的精确度,避免不必要的工作,减少成本,更加快速高效的提高OCR识别模型的识别率。
在一种可能实现的方式中,所述方法还包括:
根据各发票字段的字段识别率,生成相应折线图并展示;以及
确定每个发票识别数据的正确发票字段数、以及相应的发票识别数据的总发票字段数;
根据所述每个发票识别数据的正确发票字段数、以及相应的发票识别数据的总发票字段数,计算单张发票识别率,并根据所述单张发票识别率生成相应的扇形图并显示。
一种发票数据处理设备,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取各发票识别数据;其中,各所述发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;
获取预先存储的,与各发票识别数据对应的发票真实数据;
基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据;其中,各所述规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致;
将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;其中,所述字符集合中包括匹配结果不一致的字符;所述字符为所述规则发票识别数据和/或发票真实数据中发票字段中的字符;
基于所述字符集合,更新所述预设的OCR识别模型。
本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果:能够分析得到OCR识别模型识别率低的原因,也就是说是哪些字符识别错误导致识别率低,能够得到导致识别率低的字符集合,从而可以对OCR识别模型进行针对应的训练,高效、快速的提高OCR识别模型的精确度、识别率。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1为本说明书实施例提供的发票数据处理方法的流程图;
图2为本说明书实施例提供的发票数据处理方法的另一种流程图;
图3为本说明书实施例提供的发票数据处理方法的另一种流程图;
图4为本说明书实施例提供的用于表示发票字段识别率的折线图;
图5为本说明书实施例提供的词云图;
图6为本说明书实施例提供的用于表示单张发票识别率的扇形图;
图7为本说明书实施例提供的用于表示发票识别时间的散点图;
图8为本说明书实施例提供的对应于图1的用于搭载上述发票数据处理方法的发票数据处理设备的一种结构示意图。
具体实施方式
为使本说明书的目的、技术方案和优点更加清楚,下面将结合本说明书具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于说明书中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
以下结合附图,详细说明本申请各实施例提供的技术方案。
发票是指在经济活动中,由出售方向购买方签发的文本,内容包括向购买者提供产品或服务的名称、质量、协议价格。发票通常作为业务凭证,人们往往需要在相应系统中录入发票的信息数据用于报销、审核、认证、存档等。这种人为录入的方式会耗费大量的时间和人力资源。为了解决上述问题,提出了自动化发票识别技术,一般使用光学字符识别(Optical Character Recognition,OCR)识别模型。但是由于发票的应用场景较为复杂,特别是对于使用中文字符的发票来说,由于中文字符体量大、形似字多等问题其中文字符的发票的识别就更为复杂,造成现有技术提供的自动化发票识别技术的发票识别率低、错误率高,用户使用体验较差等问题。
为解决上述问题,本申请实施例提供了一种发票数据处理方法及相应方案。
图1为本申请实施例提供的一种发票数据处理方法的流程图。如图1所示,该方法可以包括以下步骤:
S101,服务器获取各发票识别数据。
其中,各发票识别数据是基于预设的OCR识别模型,对来自终端设备的发票图像进行识别得到的。
具体地,终端设备对发票进行图像采集以得到发票图像,并将采集到的发票图像发送至服务器。服务器可以根据预设的OCR识别模型对发票数据进行识别,以得到与发票图像对应的发票识别数据。
由本领域技术人员可知,由于在服务器接收到发票图像后可以对发票图像进行预处理,以得到符合预设的OCR识别模型要求的预处理发票图像。
在本申请的一些实施例中,如图2所示,服务器获取各发票识别数据,具体可以包括以下步骤:
S201,服务器获取预先存储的发票识别数据集合。
该发票识别数据集合中包括多个待定发票识别数据。
在本申请实施例中,可以对预设的OCR识别模型识别出的数据进行存储,以得到上述发票识别数据集合。
S202,分别获取各待定发票识别数据对应的原始发票图像。
具体地,可以按照预先存储的原始发票图像与待定发票识别数据之间的关联关系,获取各待定发票识别数据对应的原始发票图像。
需要说明的是,上述原始发票图像可以是终端设备直接采集的、未经过预处理的图像。
S203,按照预设规则,计算各原始发票图像的清晰度。
具体地,可以将原始发票图像转化为灰度图像。通过拉普拉斯掩膜做对灰度图像做卷积运算,计算标准差,标准差所对应的值就代表了原始发票图像的清晰度。
需要说明的是,上述计算各原始发票图像的清晰度的方法为本领域技术人员所知的技术,并未详尽阐述。此外,除上述方法外,还可以使用现有技术计算原始发票图像的清晰度,在本申请实施例中不加以限制。
S204,确定各图像清晰度大于预设阈值的原始发票图像。
上述预设阈值可以是根据实际情况设定的,还可以是根据实际情况适应性的调整,在本申请实施例中不做具体限定。
S205,将上述发票识别数据集合中,图像清晰度大于预设阈值的原始发票图像对应的待定发票识别数据,作为发票识别数据。
在终端设备采集的发票图像的过程中,可能由于拍摄角度、拍摄晃动、光纤等问题导致采集的发票图像模糊,难易识别,从而导致预设的OCR识别模型所识别出的数据存在大量的错误,导致OCR识别模型的识别率第。也就是说,OCR识别模型识别出的数据存在大量的错误,导致发票识别率低是由于发票图像模糊导致的,而不是OCR识别模型本身识别的问题。通过上述步骤S201-S205,可以筛除由图像模糊造成OCR无法识别的问题图像,可以提高得到字符集合的精确度,避免不必要的工作,减少成本,更加快速高效的提高OCR识别模型的识别率。
S102,获取预先存储的,与各发票识别数据对应的发票真实数据。
上述发票真实数据可以是人为录入,并预先存储到相应的存储设备中的。
由于实际过程中,发票图像、发票识别数据、发票真实数据的数据量非常庞大,而在成千上万个样本中找到某一张发票或者某一条数据进行分析就需要耗费较长的查找时间。
为了能够缩短查找时间,准确定位,在本申请实施例中,发票图像、发票识别数据、发票真实数据均包括其分别对应的发票身份标识。发票身份标识一般可以是指定范围内具有唯一性的字符串,可以包括发票种类标识、编号标识、日期、后缀名等组成,例如:01-001-20200921.png,其中,01表示发票种类编号(比如:01表示增值税普通发票、02表示增值税专用发票等等);001表示数字编号,该数字编号为指定范围内具有唯一性的字符串;20200921表示日期、.png表示后缀名。
根据发票身份数据即可查询定位到对应的发票图像、发票识别数据、发票真实数据。也就是说,在本申请实施例中,可以通过发票身份标识快速查找到与发票识别数据对应的发票真实数据。
上述发票类型可以包括以下至少一种:增值税普通发票、增值税专用发票、增值税电子发票、打印增值税电子发票、增值税卷票、定额发票。
S103,基于预设规则,对各发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据。
其中,各规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致。
在实际使用过程中,由于OCR识别模型设计的不同,可能造成OCR识别模型识别出来的发票识别数据与发票真实数据有所不同,例如:对于同一发票,其发票真实数据中一个发票字段为增值税普通发票,而发票识别数据中相应的发票字段为普通发票,二者仅仅是展示形式不同,发票识别数据中的普通发票即为发票真实数据中的增值税普通发票。例如:对于一定额发票,其发票真实数据中发票金额字段对应的字段信息为“壹佰元整”,其对应的发票识别数据为“100.00”,二者也仅是其展示形式不同,并未识别错误。再例如:对于同一发票,其发票真实数据中的税率字段为空,其发票识别数据中的税率字段为0.00。
具体地,可以先确定发票识别数据中的各发票字段的发票字段名称、以及各发票字段名称对应的发票字段信息是否符合相应的预设条件。将为符合相应预设条件的发票字段名称、以及未符合相应预设条件的发票字段信息,按照相应的预设条件进行替换,以得到相应的规则发票识别数据。
需要说明的是,预设条件可以根据发票真实数据设定,也可以根据实际情况进行调整。
上述所提到的发票字段的发票字段名称可以包括以下至少一种:发票类型字段、金额字段、购买方信息字段、税率字段、单位字段、数量字段、税额字段、销售方信息字段、开票日期字段、货物或应税劳务、服务名称字段、发票编号字段、开票日期字段等。上述所提到的发票字段信息是指具体描述发票字段名称的信息。例如:发票字段为发票类型字段,增值税普通发票则为该发票字段的对应的发票字段信息;发票字段为税率字段,6%则为该发票字段的对应的发票字段信息。
也就是说,发票字段可以包括发票字段名称,以及与发票字段名称对应的发票字段信息。
通过上述数据清洗,以发票真实数据的为准对发票识别数据中的发票字段进行数据清洗,以得到发票字段的展示形式与对应的发票真实数据中的发票字段的展示形式一致的规则发票识别数据,以避免只因展示形式不同,而造成OCR识别模型的识别率低的问题。
S104,将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合。
其中,上述字符集合中包括匹配结果不一致的字符,该字符为规则发票识别数据和/或发票真实数据中发票字段中的字符。
在本申请实施例中,如图3所示,将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合,具体可以包括以下步骤:
S301,将发票字段的发票字段名称作为列标题,发票字段名称对应的发票字段信息作为行数据,构建各规则发票识别数据对应的矩阵、以及各发票真实数据对应的矩阵。
通过步骤S301,每个规则发票识别数据以及每个发票真实数据,均可以得到一个列为2形式的矩阵。
S302,将各规则发票数据对应的矩阵进行合并,得到发票识别数据矩阵;以及将各发票真实数据对应的矩阵进行合并,得到发票真实数据矩阵。
S303,将上述发票识别数据军阵以及发票真实数据矩阵分别进行转置处理。
S304,将转置处理后的发票识别数据矩阵以及发票真实数据矩阵合并,以得到发票数据矩阵。
此时,发票数据矩阵的行标题为发票字段名称,每一列为发票字段名称对应的发票字段信息,,每个发票图像的发票识别数据与相应的发票真实数据间隔排列设置,例如:
需要说明的是,在本申请实施例的矩阵中,发票识别数据作为前一列,发票真实数据作为后一列;也可以发票真实数据作为前一列,发票识别数据作为后一列,在本申请实施例中不加以限制。
S305,基于预设的正则表达式,并根据上述发票数据矩阵,得到相应的字符集合。
具体地,根据发票矩阵数据,计算各发票字段的字段识别率。确定字段识别率小于预设阈值的发票字段,并将所述字段识别率小于预设阈值的发票字段从所述发票数据矩阵中筛选出来,以得到相应的发票数据子矩阵。按照预设的正则表达式,对所述发票数据子矩阵中的发票识别数据、发票真实数据进行匹配,得到上述字符集合。
由于发票识别数据的体量较大,可能某些发票字段的字段识别率比较高,例如发票类型的字段识别率为99%,则对该发票字段进行进一步训练并不是特别紧迫,反而是字段识别率小于预设阈值的发票字段需要尽快的进行针对性训练,快速地、针对性的提高OCR识别模型的识别率。
上述字段识别率是指每个发票字段的字段识别率,具体可以按照一下公式计算:
字段识别率=该发票字段识别正确数目/样本总数。
上述预设阈值可以是根据实际情况进行调整设定的,例如:该预设阈值为:字段识别率的平均值减去5%。
通过上述方法,可以将按照预设的正则表达式,对所述发票数据子矩阵中的数据进行匹配,发票数据子矩阵中发票识别数据以及其对应的发票真实数据进行匹配,不匹配的字符组成上述字符集合。该字符结合中包括统计出的识别错误的字符和/或与该识别错误字符对应的正确字符,例如:识别错误的字符为“申”,其对应的正确字符为“中”,也就是说将“中”字识别为了“申”字。
通过上述方案,本申请不仅能够分析识别率,还可以分析具体是那些原因导致识别率低,也就是说哪些字符识别错误从而导致的识别率低,从而进行针对性的训练,提高增强OCR识别模型识别率的效率。
在本申请的一些实施例中,可以根据上述发票数据矩阵,以发票字段名称为行标题,以发票字段名称对应的发票字段信息为列数据,构建相应的发票数据表格并显示。如表1所示,表1为发票数据表格的示例性展示形式。
表1
在本申请的一些实施例中,如图4所示,可以根据各发票字段的字段识别率,生成相应的折线图。如图4所示,该折线图中包括:发票字段名称、发票字段的字段识别率。
在本申请的一些实施例中,还可以根据上述字符集合,计算该字符几个中相同字符的字符数量。根据该字符集合中的字符以及各字符的字符数量,生成相应的词云图并显示。其中,该词云图中的字符的大小与该字符的字符数量为正相关关系。如图5所示,“可”字符的字符数量最多,其在词云图中字符显示最大。
在本申请的一些实施例中,还可以根据上述字符集合,计算单张发票识别率,具体可以按照以下公式计算:
单张发票识别率=单张发票识别正确字段数/单张发票总字段数目。
根据单张发票识别率,可以生成相应的的扇形图,用于展示某一单张发票识别率所占扇形图的百分比,如图6所示。
除了上述方法之外,可以统计每个发票识别数据的识别时间,根据识别时间以及相应的发票图像的大小绘制散点图,如图7所示。
在本申请实施例中,通过上述的表格、折线图、散点图、扇形图、词云图可以将统计出来的数据更直观的展示给相关用户,增加用户体验。
S105,基于上述字符集合,更新上述预设的OCR识别模型。
具体地,可以按照预设规则,获取所述字符集合中各字符对应的发票图像。对各发票图像进行识别,确定字符对应的字符区域。从相应的发票图像中分割出字符区域对应的字符图像。将各所述字符图像作为训练样本,更新所述预设的OCR识别模型。
通过上述方式,可以得到字符集合中各字符对应的字符图像,将各字符图像作为训练样本,可以更有针对性的更新该OCR识别模型,快速的提高OCR识别模型的识别率。
基于上述方案,本申请实施例提供的发票数据处理方法可以得到OCR识别模型识别率低的原因,也就是说是哪些字符识别错误导致识别率低,得到导致识别率低的字符集合,从而可以对OCR识别模型进行针对应的训练,高效、快速的提高OCR识别模型的精确度、识别率。并且,在OCR识别模型识别率的过程中,无需人为参与,自动化完成,节约了对OCR识别模型训练的时间成本、提高工作效率。
基于同样的思路,本申请的一些实施例还提供了上述方法对应的设备。
图8为本申请实施例提供的对应于图1的用于搭载上述发票数据处理方法的发票数据处理设备的一种结构示意图,该设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取各发票识别数据;其中,各所述发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;
获取预先存储的,与各发票识别数据对应的发票真实数据;
基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据;其中,各所述规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致;
将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;其中,所述字符集合中包括匹配结果不一致的字符;所述字符为所述规则发票识别数据和/或发票真实数据中发票字段中的字符;
基于所述字符集合,更新所述预设的OCR识别模型。
本申请中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本申请实施例提供的设备与方法是一一对应的,因此,设备也具有与其对应的方法类似的有益技术效果,由于上面已经对方法的有益技术效果进行了详细说明,因此,这里不再赘述设备的有益技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (7)
1.一种发票数据处理方法,其特征在于,所述方法包括:
获取各发票识别数据;其中,各所述发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;
获取预先存储的,与各发票识别数据对应的发票真实数据;
基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据,具体包括:
确定发票真实数据中的各发票字段、以及各发票字段对应的发票字段信息,是否符合相应的预设条件;
将未符合相应的预设条件的发票字段、以及未符合相应预设条件的发票字段信息,按照预设条件进行相应替换,以得到相应的规则发票识别数据;其中,各所述规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致;
将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;其中,所述字符集合中包括匹配结果不一致的字符;所述字符为所述规则发票识别数据和/或发票真实数据中发票字段中的字符;
所述将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合,具体包括:
以发票字段的发票字段名称作为列标题,发票字段名称对应的发票字段信息作为行数据,构建各所述规则发票识别数据对应的矩阵、以及各发票真实数据对应的矩阵;
将各所述规则发票数据对应的矩阵进行合并,得到发票识别数据矩阵;以及将各发票真实数据对应的矩阵进行合并,得到发票真实数据矩阵;
将所述发票识别数据矩阵以及发票真实数据矩阵分别进行转置处理,并转置处理后的发票识别数据矩阵以及发票真实数据矩阵合并,以得到发票数据矩阵;
基于预设的正则表达式,并根据发票数据矩阵,得到相应的字符集合,具体包括:
根据发票矩阵数据,计算各发票字段的字段识别率;
确定字段识别率小于预设阈值的发票字段,并将所述字段识别率小于预设阈值的发票字段从所述发票数据矩阵中筛选出来,以得到相应的发票数据子矩阵;
按照预设的正则表达式,对所述发票数据子矩阵中的发票识别数据、发票真实数据进行匹配,得到所述字符集合,具体为:将发票数据子矩阵中的发票识别数据以及其对应的发票真实数据进行匹配,不匹配的字符组成所述字符集合;
基于所述字符集合,更新所述预设的OCR识别模型。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
基于所述发票数据矩阵,以发票身份标识为行标题、发票字段为列标题,构建相应的发票数据表格;
将所述发票数据表格发送至相应的终端设备,以使所述终端将所述发票数据表格向所述终端对应的用户进行展示。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述字符集合,计算所述字符集合中相同字符的数量;
基于所述字符集合中的字符,以及所述相同字符的数量,生成相应的词云图并展示;
其中,所述词云图的字符的大小与所述相同字符的字符数量为正相关关系。
4.根据权利要求1所述的方法,其特征在于,所述基于所述字符集合,更新所述OCR识别模型,具体包括:
按照预设规则,获取所述字符集合中各字符对应的发票图像;
对各发票图像进行识别,确定所述字符对应的字符区域;
从相应的发票图像中分割出所述字符区域对应的字符图像;
将各所述字符图像作为训练样本,更新所述OCR识别模型。
5.根据权利要求1所述的方法,其特征在于,所述获取各发票识别数据,具体包括:
获取预先存储的发票识别数据集合,所述发票识别数据集合中包括多个待定发票识别数据;
分别获取各所述待定发票识别数据对应的原始发票图像,并按照预设规则计算各原始发票图像的图像清晰度;
确定各图像清晰度大于预设阈值的原始发票图像;
将所述发票识别数据集合中,图像清晰度大于预设阈值的原始发票图像对应的待定发票识别数据,作为发票识别数据。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据各发票字段的字段识别率,生成相应折线图并展示;以及
确定每个发票识别数据的正确发票字段数、以及相应的发票识别数据的总发票字段数;
根据所述每个发票识别数据的正确发票字段数、以及相应的发票识别数据的总发票字段数,计算单张发票识别率,并根据所述单张发票识别率生成相应的扇形图并显示。
7.一种发票数据处理设备,其特征在于,包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够:
获取各发票识别数据;其中,各所述发票识别数据为基于预设的OCR识别模型,对来自终端设备的发票图像数据进行识别得到的;
获取预先存储的,与各发票识别数据对应的发票真实数据;
基于预设规则,对各所述发票识别数据中的发票字段进行数据清洗,以分别得到相应的规则发票识别数据,具体包括:
确定发票真实数据中的各发票字段、以及各发票字段对应的发票字段信息,是否符合相应的预设条件;
将未符合相应的预设条件的发票字段、以及未符合相应预设条件的发票字段信息,按照预设条件进行相应替换,以得到相应的规则发票识别数据;其中,各所述规则发票识别数据中的发票字段的展示形式,与对应的发票真实数据中的发票字段的展示形式一致;
将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合;其中,所述字符集合中包括匹配结果不一致的字符;所述字符为所述规则发票识别数据和/或发票真实数据中发票字段中的字符;
所述将各所述规则发票识别数据与相应的发票真实数据进行匹配,得到相应的字符集合,具体包括:
以发票字段的发票字段名称作为列标题,发票字段名称对应的发票字段信息作为行数据,构建各所述规则发票识别数据对应的矩阵、以及各发票真实数据对应的矩阵;
将各所述规则发票数据对应的矩阵进行合并,得到发票识别数据矩阵;以及将各发票真实数据对应的矩阵进行合并,得到发票真实数据矩阵;
将所述发票识别数据矩阵以及发票真实数据矩阵分别进行转置处理,并转置处理后的发票识别数据矩阵以及发票真实数据矩阵合并,以得到发票数据矩阵;
基于预设的正则表达式,并根据发票数据矩阵,得到相应的字符集合,具体包括:
根据发票矩阵数据,计算各发票字段的字段识别率;
确定字段识别率小于预设阈值的发票字段,并将所述字段识别率小于预设阈值的发票字段从所述发票数据矩阵中筛选出来,以得到相应的发票数据子矩阵;
按照预设的正则表达式,对所述发票数据子矩阵中的发票识别数据、发票真实数据进行匹配,得到所述字符集合,具体为:将发票数据子矩阵中的发票识别数据以及其对应的发票真实数据进行匹配,不匹配的字符组成所述字符集合;
基于所述字符集合,更新所述预设的OCR识别模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055166.5A CN112329814B (zh) | 2020-09-29 | 2020-09-29 | 一种发票数据处理方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011055166.5A CN112329814B (zh) | 2020-09-29 | 2020-09-29 | 一种发票数据处理方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112329814A CN112329814A (zh) | 2021-02-05 |
CN112329814B true CN112329814B (zh) | 2022-10-11 |
Family
ID=74313280
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011055166.5A Active CN112329814B (zh) | 2020-09-29 | 2020-09-29 | 一种发票数据处理方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112329814B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115410207B (zh) * | 2021-05-28 | 2023-08-29 | 国家计算机网络与信息安全管理中心天津分中心 | 一种针对竖排文本的检测方法及装置 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009546A (zh) * | 2016-10-28 | 2018-05-08 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN108717543A (zh) * | 2018-05-14 | 2018-10-30 | 北京市商汤科技开发有限公司 | 一种发票识别方法及装置、计算机存储介质 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
CN110135414A (zh) * | 2019-05-16 | 2019-08-16 | 京北方信息技术股份有限公司 | 语料库更新方法、装置、存储介质及终端 |
CN111062397A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 一种智能票据处理系统 |
-
2020
- 2020-09-29 CN CN202011055166.5A patent/CN112329814B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108009546A (zh) * | 2016-10-28 | 2018-05-08 | 北京京东尚科信息技术有限公司 | 信息识别方法和装置 |
CN108717543A (zh) * | 2018-05-14 | 2018-10-30 | 北京市商汤科技开发有限公司 | 一种发票识别方法及装置、计算机存储介质 |
CN109408807A (zh) * | 2018-09-11 | 2019-03-01 | 厦门商集网络科技有限责任公司 | Ocr识别正确率的自动化测试方法及测试设备 |
CN109871847A (zh) * | 2019-03-13 | 2019-06-11 | 厦门商集网络科技有限责任公司 | 一种ocr识别方法及终端 |
CN110135414A (zh) * | 2019-05-16 | 2019-08-16 | 京北方信息技术股份有限公司 | 语料库更新方法、装置、存储介质及终端 |
CN111062397A (zh) * | 2019-12-18 | 2020-04-24 | 厦门商集网络科技有限责任公司 | 一种智能票据处理系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112329814A (zh) | 2021-02-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110349038B (zh) | 风险评估模型训练方法和风险评估方法 | |
CN107885796B (zh) | 信息推荐方法及装置、设备 | |
US10586238B2 (en) | Automation of image validation | |
CN112184143B (zh) | 一种合规审核规则中的模型训练方法、装置和设备 | |
CN109961165B (zh) | 件量预测方法、装置、设备及其存储介质 | |
CN110659961A (zh) | 一种用于识别线下商户的方法和装置 | |
CN110019774B (zh) | 标签分配方法、装置、存储介质及电子装置 | |
CN106997350B (zh) | 一种数据处理的方法及装置 | |
CN112329814B (zh) | 一种发票数据处理方法及设备 | |
CN110796178B (zh) | 决策模型训练方法及样本特征选择方法、装置和电子设备 | |
US20210312223A1 (en) | Automated determination of textual overlap between classes for machine learning | |
CN113870007A (zh) | 一种产品推荐方法、装置、设备及介质 | |
CN114398562A (zh) | 一种店铺数据管理方法、装置、设备及存储介质 | |
CN113255806A (zh) | 样本特征确定方法、样本特征确定装置和电子设备 | |
CN109919811B (zh) | 基于大数据的保险代理人培养方案生成方法及相关设备 | |
CN115908998B (zh) | 水深数据识别模型的训练方法、水深数据识别方法及装置 | |
CN112581071B (zh) | 合同处理方法和装置、存储介质及电子设备 | |
CN114511403A (zh) | 一种监管报告的生成方法及装置、电子设备、存储介质 | |
CN116226554A (zh) | 服务推荐方法、装置、计算机设备和存储介质 | |
CN116541615A (zh) | 兴趣区域处理方法及装置、电子设备及可读存储介质 | |
JP2024120825A (ja) | 情報処理システム | |
CN111178029A (zh) | 一种通用发票模板设置方法及系统 | |
JP2024120899A (ja) | 情報処理システム | |
CN118195702A (zh) | 金融服务的推广方法、装置、存储介质及电子设备 | |
CN118051557A (zh) | 基于图像化显示技术的空间数据呈现方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220815 Address after: 250101 Inspur science and Technology Park, 1036 Inspur Road, hi tech Zone, Jinan City, Shandong Province Applicant after: Inspur Genersoft Co.,Ltd. Address before: 250101 Inspur science and Technology Park, 1036 Inspur Road, hi tech Zone, Jinan City, Shandong Province Applicant before: SHANDONG INSPUR GENESOFT INFORMATION TECHNOLOGY Co.,Ltd. |
|
TA01 | Transfer of patent application right | ||
GR01 | Patent grant | ||
GR01 | Patent grant |