CN111797772B

CN111797772B - 发票图像自动分类方法、系统、装置

Info

Publication number: CN111797772B
Application number: CN202010644912.8A
Authority: CN
Inventors: 史存召
Original assignee: Infan Technology Beijing Co ltd
Current assignee: Infan Technology Beijing Co ltd
Priority date: 2020-07-07
Filing date: 2020-07-07
Publication date: 2024-08-02
Anticipated expiration: 2040-07-07
Also published as: CN111797772A

Abstract

本发明属于图像处理、文字检测识别技术领域，具体涉及一种发票图像自动分类方法、系统、装置，旨在解决现有的发票票据分类方法无法高效准确分类的问题。本系统方法包括：获取待分类的发票图像，作为输入图像；获取输入图像中发票监制章的检测区域并进行拓宽，得到包含发票名称的图像区域；获取图像区域中的各文字的位置及识别结果并进行合并，得到发票名称识别结果，作为第一结果；计算第一结果与第一类别库中各发票名称的编辑距离，若与其的长度的比值小于设定阈值，则对其进行矫正并得到分类结果；否则将第一结果中的各关键词在第二类别库中检索并统计对应的类别，将次数最多的类别作为分类结果。本发明提高了发票票据分类的实时性、准确性。

Description

发票图像自动分类方法、系统、装置

技术领域

本发明属于图像处理、文字检测识别技术领域，具体涉及一种发票图像自动分类方法、系统、装置。

背景技术

票据图像中的文字能表达丰富的财务信息，而传统人工录入财务信息速度慢，错误率高，而且需要大量的人力物力。近年来，随着人工智能的热潮日渐高涨，相关的技术如图像处理、模式识别、计算机视觉等也得到了迅速的发展，智能报销系统逐步兴起。

在智能报销系统中，用户将发票(或发票票据)拍照上传到财务系统进行识别，但是发票图像种类繁多，每类发票所需要录入的关键信息不尽相同。因此，在进行识别时一般存在以下问题：

(1)对于非发票图像不能有效判别，容易将带有部分关键字段的非发票票据种类图像也会判别为发票票据，对后期票据识别录入造成干扰；

(2)在有效提取关键字段时，需要先对发票票据中所有的字符进行识别，然后才提取关键字段，该过程过于耗时，造成资源浪费，且当智能财务系统中巨量票据录取时，拖慢录入速度，造成拥堵；

(3)不同发票票据中关键字段也极有可能相同，单纯关键字段无法做到真正准确有效的进行票据分类；

基于上述的问题，大量的发票无法进行高效准确地分类，导致智能财务系统无法正常运行。为此，本发明提出了一种发票图像自动分类方法。

发明内容

为了解决现有技术中的上述问题，即为了解决现有的发票票据分类方法无法高效准确分类的问题，本发明第一方面，提出了一种发票图像自动分类方法，该方法包括：

步骤S100，获取待分类的发票图像，作为输入图像；

步骤S200，获取所述输入图像中发票监制章的检测区域，并对该检测区域进行设定尺寸的拓宽，得到包含发票名称的图像区域，作为第一区域；

步骤S300，获取所述第一区域中各文字的位置及识别结果，并根据位置对各文字的识别结果进行合并，得到发票名称识别结果，作为第一结果；

步骤S400，对所述第一结果，计算其与预构建的第一类别库中各发票名称的编辑距离，若所述编辑距离与其的长度的比值小于设定阈值，则通过对应的发票名称对其进行矫正，并得到所述输入图像对应的分类结果；否则执行步骤S500；所述第一类别库为基于发票名称构建的类别库；

步骤S500，将所述第一结果中的各关键词在预构建的第二类别库中检索并统计对应的类别，将次数最多的类别作为所述输入图像对应的分类结果；所述第二类别库为基于发票名称拆分的关键词构建的类别库。

在一些优选的实施方式中，步骤S200中“获取所述输入图像中发票监制章的检测区域”，其方法为：通过基于深度学习的目标检测模型获取输入图像中发票监制章的检测区域。

在一些优选的实施方式中，步骤S200中“对该检测区域进行设定尺寸的拓宽，得到包含发票名称的图像区域”，其方法为：

box2＝(x-width,y,width*M,height)

其中，box2表示包含发票名称的图像区域，x、y、width、height分别表示检测区域的中心坐标和长、宽，M表示检测区域宽度拓宽的倍数。

在一些优选的实施方式中，若所述拓宽后的检测区域超出所述输入图像的边界，则只保留边界内的区域作为包含发票名称的图像区域。

在一些优选的实施方式中，步骤S300中“获取所述第一区域中各文字的位置及识别结果”，其方法为：对所述第一区域中的各文字，通过第一模型获取其的位置，并通过第二模型对其进行识别；所述第一模型为基于深度学习的文字识别模型，其在训练过程中的训练样本为带有汉字字符位置信息标注的发票名称区域图像；所述第二模型为基于深度学习的分类模型。

在一些优选的实施例中，所述第二模型其训练方法为：

通过样本合成的方式模拟发票名称字符样本生成大量汉字图像，对第二模型进行预训练；

预训练后，利用标记的发票名称单字图像的真实样本对第二模型进行微调训练。

在一些优选的实施例中，步骤S300中“根据所述位置对各文字的识别结果进行合并，得到发票名称识别结果”，其方法为：

将各文字按照顺序从上到下进行排序，并分成不同的文本行；

根据位置将每一文本行中的字符从左到右进行排序，并从左到右合并每一文本行中的字符识别结果；

从上到下合并所有文本行识别结果，得到发票名称识别结果。

本发明的第二方面，提出了一种发票图像自动分类系统，该系统包括获取模块、检测拓宽模块、识别合并模块、矫正模块、关键词检索模块；

所述获取模块，配置为获取待分类的发票图像，作为输入图像；

所述检测拓宽模块，配置为获取所述输入图像中发票监制章的检测区域，并对该检测区域进行设定尺寸的拓宽，得到包含发票名称的图像区域，作为第一区域；

所述识别合并模块，配置为获取所述第一区域中各文字的位置及识别结果，并根据位置对各文字的识别结果进行合并，得到发票名称识别结果，作为第一结果；

所述矫正模块，配置为对所述第一结果，计算其与预构建的第一类别库中各发票名称的编辑距离，若所述编辑距离与其的长度的比值小于设定阈值，则通过对应的发票名称对其进行矫正，并得到所述输入图像对应的分类结果；否则执行关键词检索模块；所述第一类别库为基于发票名称构建的类别库；

所述关键词检索模块，配置为将所述第一结果中的各关键词在预构建的第二类别库中检索并统计对应的类别，将次数最多的类别作为所述输入图像对应的分类结果；所述第二类别库为基于发票名称拆分的关键词构建的类别库。

本发明的第三方面，提出了一种存储装置，其中存储有多条程序，所述程序应用由处理器加载并执行以实现上述的发票图像自动分类方法。

本发明的第四方面，提出了一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；所述程序适用于由处理器加载并执行以实现上述的发票图像自动分类方法。

本发明的有益效果：

本发明提高了发票票据分类的实时性、准确性。本发明通过目标检测模型获取发票图像中监制章的区域，并根据该区域获取包含发票名称的图像区域，减少了发票名称在识别时的盲目性，提高了识别的效率。基于获取的包含发票名称的图像区域，分别进行发票名称各文字位置和识别结果的获取，并根据位置信息对识别结果进行合并，进一步提高了发票识别的准确性。

同时，基于发票名称的识别结果，计算其与预构建的发票名称类别库中的发票名称的编辑距离，并判断该距离与识别结果的比值是否符合设定的阈值，若符合，则进行矫正并对得到发票图像的分类结果。若不符合，则根据发票名称的识别结果中的关键词在预构建的关键词类别库中检索关键词的类别并统计次数，将次数最多的类别作为发票图像的分类结果。本发明能够在不改变已有模型的情况下对新类型的票据快速响应，实现对用户上传的发票图像进行准确地分类，从而对发票图像分类别归档，对于后期的票据图像处理与分类别识别工作有着重要的意义。

附图说明

通过阅读参照以下附图所做的对非限制性实施例所做的详细描述，本申请的其他特征、目的和优点将会变得更明显。

图1是本发明一种实施例的发票图像自动分类方法的流程示意图；

图2是本发明一种实施例的发票图像自动分类系统的框架示意图；

图3是本发明一种实施例的发票图像自动分类方法的简略流程示意图；

图4是本发明一种实施例的发票监制章检测的流程示意图；

图5是本发明一种实施例的包含发票名称的图像区域的各文字位置识别的流程示意图；

图6是本发明一种实施例的包含发票名称的图像区域的各文字识别结果的获取的流程示意图；

图7是本发明一种实施例的基于发票名称识别结果获取发票分类结果的流程示意图；

图8是适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

本发明的发票图像自动分类方法，如图1所示，包括以下步骤：

步骤S100，获取待分类的发票图像，作为输入图像；

为了更清晰地对本发明发票图像自动分类方法进行说明，下面结合附图对本发明方法一种实施例中各步骤进行展开详述。

步骤S100，获取待分类的发票图像，作为输入图像。

在本实施例中，从智能报销系统中的财务系统读取用户拍摄上传的发票图像(即发票票据图像)，在其他实施例中，也可以通过其他途径获取发票图像。

步骤S200，获取所述输入图像中发票监制章的检测区域，并对该检测区域进行设定尺寸的拓宽，得到包含发票名称的图像区域，作为第一区域。

在本实施例中，利用带有发票监制章位置信息标注的发票图像训练基于深度学习的目标检测模型构建的发票监制章检测模型，在本发明中，基于深度学习的目标检测模型优选采用YOLO-V3。利用训练完成的发票监制章检测模型定位发票图像中的发票监制章的位置。根据检测的发票监制章的位置拓宽检测区域的大小，即可确定包含发票名称所在的图像区域，作为第一区域，如图3和图4所示，图3中的其余部分在下文中描述。具体如下：

首先检测发票监制章区域box1＝(x,y,width,height)，x、y、width、height分别表示检测区域的中心坐标和长、宽，M表示设定的尺寸。

然后向检测区域(即检测框)的左右各拓宽一个检测框的宽度大小，得到包含发票名称所在的图像区域box2＝(x-width,y,width*M,height)，M表示检测区域宽度拓宽的倍数，在本发明中优选为3。如果拓宽之后的坐标超过了发票图像的所在区域，则只拓宽到发票图像的边界。

步骤S300，获取所述第一区域中各文字的位置及识别结果，并根据位置对各文字的识别结果进行合并，得到发票名称识别结果，作为第一结果。

在本实施例中，利用带有汉字字符位置信息标注的票据发票名称区域图像训练基于深度学习的文字识别模型，在本实施例中优选采用EAST深度学习汉字字符检测模型(单字检测模型)，采用训练完成的EAST深度学习汉字字符检测模型，检测第一区域中所包含的汉字文字，得到发票名称各文字的位置信息，如图5所示。

在检测到第一区域中各文字的位置后，利用带类别信息的汉字字符图像训练基于深度学习的分类模型，用于对包含发票名称的图像区域中的汉字进行识别。训练具体方法包含两步：

首先，通过样本合成方式模拟发票名称字符样本生成大量汉字图像(即合成汉字数据集)，利用生成的样本训练深度学习分类模型。

然后，收集通过上述步骤检测出的发票名称单文字图像样本(即真实汉字数据)进行标记，利用标注的真实样本对基于深度学习的分类模型进行微调训练，最终得到训练好的分类模型，即基于深度学习的汉字字符图像识别器。

基于训练好的基于深度学习的分类模型对第一区域中的各文字进行识别，得到发票名称各文字的识别结果，如图6所示。

根据各文字的位置信息进行合并，具体如下：

将文字识别结果根据位置信息进行从上到下方式排序；

根据字符之间的间隙，将从上到下排序完成的字符串分成不同文本行；

根据位置信息将每一文本行中的字符进行从左到右的排序；

从左到右合并每一文本行中的字符识别结果；

从上到下合并所有文本行识别结果，得到发票名称识别结果。(此步骤主要是为了避免有些发票的票头文字有多行)。

步骤S400，对所述第一结果，计算其与预构建的第一类别库中各发票名称的编辑距离，若所述编辑距离与其的长度的比值小于设定阈值，则通过对应的发票名称对其进行矫正，并得到所述输入图像对应的分类结果；否则执行步骤S500；所述第一类别库为基于发票名称构建的类别库。

在本实施例中，预构建基于发票名称的类别库，即第一类别库(包含如航空运输电子客票行程单、北京市国家税务局通用定额发票、合肥市出租汽车通用机打发票、北京增值税普通发票等)，如图7所示，将发票名称识别结果和发票名称类别库中的各发票名称进行对比，计算发票名称识别结果和发票名称类别库中的各词条(即各发票名称)的编辑距离，当编辑距离和发票名称识别结果的字符串长度的比值小于一定阈值时(即图3中的发票名称类别库包含度字符串相似度满足条件的发票名称)，利用发票名称类别库中的发票名称矫正识别结果，并利用校正后的发票名称识别结果对发票进行分类(即将校正后的发票名称识别结果对应的类别作为发票图像对应的分类结果)。当编辑距离和字符串长度的比值不满足条件时则进行步骤S500。

在本实施例中，预构建基于发票名称拆分的关键词构建的类别库(即发票名称中关键词和对应的发票类别的索引库)，也简称为第二类别库，如果上述未能确定发票的种类，则利用关键词查找的方式，在发票名称识别结果中获取发票票据类别的关键词(如增值税、定额专用、出租汽车等)，对获取到的关键词，在第二类别库中进行检索，并按照对应的类别进行统计，返回统计次数最多的发票类别作为发票分类结果，如图7所示。

本发明第二实施例的一种发票图像自动分类系统，如图2所示，包括：获取模块100、检测拓宽模块200、识别合并模块300、矫正模块400、关键词检索模块500；

所述获取模块100，配置为获取待分类的发票图像，作为输入图像；

所述检测拓宽模块200，配置为获取所述输入图像中发票监制章的检测区域，并对该检测区域进行设定尺寸的拓宽，得到包含发票名称的图像区域，作为第一区域；

所述识别合并模块300，配置为获取所述第一区域中各文字的位置及识别结果，并根据位置对各文字的识别结果进行合并，得到发票名称识别结果，作为第一结果；

所述矫正模块400，配置为对所述第一结果，计算其与预构建的第一类别库中各发票名称的编辑距离，若所述编辑距离与其的长度的比值小于设定阈值，则通过对应的发票名称对其进行矫正，并得到所述输入图像对应的分类结果；否则执行关键词检索模块500；所述第一类别库为基于发票名称构建的类别库；

所述关键词检索模块500，配置为将所述第一结果中的各关键词在预构建的第二类别库中检索并统计对应的类别，将次数最多的类别作为所述输入图像对应的分类结果；所述第二类别库为基于发票名称拆分的关键词构建的类别库。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的系统的具体的工作过程及有关说明，可以参考前述方法实施例中的对应过程，在此不再赘述。

需要说明的是，上述实施例提供的发票图像自动分类系统，仅以上述各功能模块的划分进行举例说明，在实际应用中，可以根据需要而将上述功能分配由不同的功能模块来完成，即将本发明实施例中的模块或者步骤再分解或者组合，例如，上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块，以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称，仅仅是为了区分各个模块或者步骤，不视为对本发明的不当限定。

本发明第三实施例的一种存储装置，其中存储有多条程序，所述程序适用于由处理器加载并实现上述的发票图像自动分类方法。

本发明第四实施例的一种处理装置，包括处理器、存储装置；处理器，适于执行各条程序；存储装置，适于存储多条程序；所述程序适于由处理器加载并执行以实现上述的发票图像自动分类方法。

所述技术领域的技术人员可以清楚的了解到，为描述的方便和简洁，上述描述的存储装置、处理装置的具体工作过程及有关说明，可以参考前述方法实例中的对应过程，在此不再赘述。

下面参考图8其示出了适于用来实现本申请方法、系统、装置实施例的服务器的计算机系统的结构示意图。图8出的服务器仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图8所示，计算机系统包括中央处理单元(CPU，Central Processing Unit)801，其可以根据存储在只读存储器(ROM，Read Only Memory)802中的程序或者从存储部分808加载到随机访问存储器(RAM，Random Access Memory)803中的程序而执行各种适当的动作和处理。在RAM803中，还存储有系统操作所需的各种程序和数据。CPU 801、ROM802以及RAM803通过总线804彼此相连。输入/输出(I/O，Input/Output)接口805也连接至总线804。

以下部件连接至I/O接口805：包括键盘、鼠标等的输入部分806；包括诸如阴极射线管(CRT，Cathode Ray Tube)、液晶显示器(LCD，Liquid Crystal Display)等以及扬声器等的输出部分807；包括硬盘等的存储部分808；以及包括诸如LAN(局域网，Local AreaNetwork)卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口505。可拆卸介质811，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器810上，以便于从其上读出的计算机程序根据需要被安装入存储部分808。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分809从网络上被下载和安装，和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

术语“第一”、“第二”等是用于区别类似的对象，而不是用于描述或表示特定的顺序或先后次序。

术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素，而且还包括没有明确列出的其它要素，或者还包括这些过程、方法、物品或者设备/装置所固有的要素。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征作出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种发票图像自动分类方法，其特征在于，该方法包括：

步骤S100，获取待分类的发票图像，作为输入图像；

2.根据权利要求1所述的发票图像自动分类方法，其特征在于，步骤S200中“获取所述输入图像中发票监制章的检测区域”，其方法为：通过基于深度学习的目标检测模型获取输入图像中发票监制章的检测区域。

3.根据权利要求1所述的发票图像自动分类方法，其特征在于，步骤S200中“对该检测区域进行设定尺寸的拓宽，得到包含发票名称的图像区域”，其方法为：

box2＝(x-width,y,width*M,height)

4.根据权利要求3所述的发票图像自动分类方法，其特征在于，若所述拓宽后的检测区域超出所述输入图像的边界，则只保留边界内的区域作为包含发票名称的图像区域。

5.根据权利要求1所述的发票图像自动分类方法，其特征在于，步骤S300中“获取所述第一区域中各文字的位置及识别结果”，其方法为：对所述第一区域中的各文字，通过第一模型获取其的位置，并通过第二模型对其进行识别；所述第一模型为基于深度学习的文字识别模型，其在训练过程中的训练样本为带有汉字字符位置信息标注的发票名称区域图像；所述第二模型为基于深度学习的分类模型。

6.根据权利要求5所述的发票图像自动分类方法，其特征在于，所述第二模型其训练方法为：

7.根据权利要求1所述的发票图像自动分类方法，其特征在于，步骤S300中“根据所述位置对各文字的识别结果进行合并，得到发票名称识别结果”，其方法为：

8.一种发票图像自动分类系统，其特征在于，该系统包括：获取模块、检测拓宽模块、识别合并模块、矫正模块、关键词检索模块；

9.一种存储装置，其中存储有多条程序，其特征在于，所述程序应用由处理器加载并执行以实现权利要求1-7任一项所述的发票图像自动分类方法。

10.一种处理装置，包括处理器、存储装置；处理器，适用于执行各条程序；存储装置，适用于存储多条程序；其特征在于，所述程序适用于由处理器加载并执行以实现权利要求1-7任一项所述的发票图像自动分类方法。