CN117037198A

CN117037198A - 一种银行对账单的识别方法

Info

Publication number: CN117037198A
Application number: CN202311140282.0A
Authority: CN
Inventors: 陈泽榜; 李泽钦; 张嘉瑛; 曾子文
Original assignee: Beijing Zijing Technology Co ltd
Current assignee: Beijing Zijing Technology Co ltd
Priority date: 2023-09-05
Filing date: 2023-09-05
Publication date: 2023-11-10

Abstract

本申请提供一种银行对账单的识别方法，属于对账单识别技术领域。方法先获取第一对账单图像；第一对账单图像包含银行汇总的交易明细信息；对第一对账单图像进行OCR识别，获取第一对账单图像中的文字内容；对第一对账单图像进行版面分析，确定第一对账单图像中表格明细信息的位置，并基于确定的位置从第一对账单图像中截取表格图像片段进行表格结构识别，获得表格信息；对表格信息、第一对账单图像和文字内容进行关键信息抽取，获得结构化的银行对账单的交易明细信息。本申请无需模板即可完成对银行对账单内容的智能识别和信息提取，通用性好，且提高了对账单信息提取的准确度。

Description

一种银行对账单的识别方法

技术领域

本申请属于对账单识别技术领域，具体涉及一种银行对账单的识别方法。

背景技术

近年来，随着人工智能和计算机视觉技术的发展，票据智能识别在财税领域已经广泛应用。通过摄像头或扫描设备获取票据图像，然后使用算法自动识别和提取票据中的关键信息，实现票据信息的自动导入，这大大提高了记账和对账处理的效率。

目前银行的对账单信息识别主要有以下几种技术手段：

一是通过内置各大银行的对账单模板，通过模板匹配的方式获取银行对账单的信息。这种方法需要事先建立各银行对账单的电子化模板，识别时将扫描或拍摄的银行对账单图像与这些模板进行匹配，找到最相似的模板，然后从中提取银行对账单信息。但是每个银行的账单模板较多，模板匹配方法无法覆盖所有对账单模板，对对账单内容的识别准确率不高，且需要耗费大量的人工成本来维护银行的对账单模板。

二是通过文本检测和文本识别的方法，获取银行对账单的信息。这种方法会首先在银行对账单图像中检测出各文字区域，然后对检测出的文字区域进行OCR识别，识别出其中的文字信息。最后从识别结果中提取出所需的银行对账单信息，如交易日期、对方名称、金额等。虽然基于文本检测和识别的方法，无需事先建立银行对账单模板，通用性理论上更好。但是单纯依靠OCR技术，要做到对复杂的银行对账单信息实现较高的识别准确率也比较困难。因此银行对账单规格复杂，内容较为丰富，存在较多的表格、线条等元素，这给OCR系统带来一定难度，会对识别结果产生比较大的干扰，导致识别准确率下降。

发明内容

为此，本申请提供一种银行对账单的识别方法，有助于解决现有银行对账单识别技术通用性差且识别准确率较低的问题。

为实现以上目的，本申请采用如下技术方案：

本申请提供的一种银行对账单的识别方法，包括：

获取第一对账单图像；所述第一对账单图像包含银行汇总的交易明细信息；

对所述第一对账单图像进行OCR识别，获取所述第一对账单图像中的文字内容；

对所述第一对账单图像进行版面分析，确定所述第一对账单图像中表格明细信息的位置，并从所述第一对账单图像中截取所述位置处的表格图像片段，对所述表格图像片段进行表格结构识别，获得表格信息；

对所述表格信息、所述第一对账单图像和文字内容进行关键信息抽取，获取银行对账单的交易明细信息。

进一步地，所述对所述第一对账单图像进行版面分析，确定所述第一对账单图像中表格明细信息的位置，并从所述第一对账单图像中截取所述位置处的表格图像片段，对所述表格图像片段进行表格结构识别，获得表格信息，包括：

利用目标检测算法在所述第一对账单图像中检测并框选出表格明细信息所在的位置；

根据表格在所述第一对账单图像中框选的位置进行截图，获得表格图像片段，并对所述表格图像片段进行表格结构识别，获得表格信息；所述表格信息包括表格中的行列数量和每行每列的坐标位置。

进一步地，所述对所述表格信息、所述第一对账单图像和文字内容进行关键信息抽取，获取银行对账单的交易明细信息，包括：

利用多模态关键信息抽取技术对所述表格信息、所述第一对账单图像和所述文字内容进行多模态融合，获得多模态融合结果，对多模态融合结果进行关键信息提取，获得结构化的银行对账单的交易明细信息；所述银行对账单的交易明细信息包括交易明细的余额、发生额和发生日期。

进一步地，所述方法还包括：

校验所述银行对账单中相邻两行交易明细信息的余额与发生额之间的总金额是否相等，若相等，则数据自校验无误，若不相等，则数据自校验异常；

从所述交易明细信息中过滤掉所述数据自校验异常的行。

进一步地，所述方法还包括：获取银行回单图像，并对银行回单图像进行识别，获取真实的交易信息，将所述银行对账单的交易明细信息与所述真实的交易信息进行比对，根据比对结果去除与所述真实的交易信息不相符的交易明细信息。

进一步地，所述获取第一对账单图像，具体包括：

采集银行对账单的数据文件，并将数据文件统一转换为图像文件，获得银行对账单的图像数据；所述数据文件包括图片、扫描文件或文本文档；

利用文本检测模型检测所述图像数据中的文本，获得文本的坐标；

依据所述文本坐标对所述图像数据进行裁剪，获取所有文本的文本图像；

利用基于深度神经网络的角度分类模型对所有文本图像的角度进行角度分类，获得角度分类结果；所述角度包括0度、90度、180度和270度；

基于角度分类结果中文本图像数量最多的角度，确定所述图像数据整体的正向角度，根据所述正向角度对其余非正向角度的文本图像进行角度校正，获得正向的图像数据；

对正向的图像数据进行图像清晰化处理，获得第一对账单图像；所述图像清晰化处理包括去噪、去水印和去印章操作中的一种或多种。

本申请采用以上技术方案，至少具备以下有益效果：

通过本申请提供的一种银行对账单的识别方法，方法通过获取银行对账单的第一对账单图像进行OCR识别，获取第一对账单图像中的文字内容；然后再对第一对账单图像分别进行版面分析，确定第一对账单图像中表头标题表格明细信息的位置，并基于表格明细信息的位置提取表格图像片段进行表格结构识别，获得第一对账单图像中的表格信息；依据文字内容、第一对账单图像、版面分析结果和表格信息等数据进行关键信息抽取，从多种数据提取出银行对账单的关键信息字段，得到银行对账单中具体的交易明细信息，无需模板即可完成对银行对账单内容的智能识别和信息提取，方法的通用性好，且提高了对账单信息提取的准确度。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。

图1是根据一示例性实施例示出的一种银行对账单的识别方法流程图；

图2是根据一示例性实施例示出的银行对账单的识别方法的技术实现流程图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的方法的例子。这种手工处理方式显然效率很低，容易出错，无法保证信息的准确性。

传统的会计工作中，记账和银行对账都是通过手工的方式进行录入和识别。记账人需要逐笔记录纸质的记账凭证和银行对账单，手工输入各项交易信息，然后进行分类和归档。

因此，现有对银行对账单的识别和信息提取都采用模板匹配方法和文本检测识别方法实现。但模板匹配方法需要耗费大量的人工成本去维护海量的银行对账单模板，要准备涵盖所有主流银行的对账单模板，这无疑是一项极其浩大的工程，难以做到面面俱到。因此，这种方法实现的覆盖面难免有限，无法保证针对所有银行的对账单都有相应的模板，其准确率也难以达到较高水平。另一方面，基于文本检测和识别的方法，无需事先建立银行对账单模板，通用性理论上更好。但是单纯依靠OCR技术来对复杂的银行对账单实现准确的识别是比较困难的。因为银行对账单的规格复杂，内容较为丰富，存在较多的表格、线条等元素，这给OCR识别系统带来了一定的识别难度，会对识别结果产生比较大的干扰，导致识别准确率下降。综上所述，目前现有银行对账单识别技术在通用性和识别准确率方面都有较大的提升空间。本申请为解决上述智能审查技术存在的问题，提供一种银行对账单的识别方法，详见下列实施例。

实施例1

参照图1和图2，图1是本发明实施例针对上述问题示出的一种银行对账单的识别方法的一种流程图，图2是本发明实施例提供的银行对账单的识别方法的另一种流程图。如图1所示，方法包括以下步骤：

S1：获取第一对账单图像。其中，第一对账单图像包含银行汇总的交易明细信息。

具体的，获取银行对账单的第一对账单图像时，本发明先获取银行对账单的图像数据，然后对获取的图像数据进行图像预处理，最后得到银行对账单的第一对账单图像。

S2：对第一对账单图像进行OCR识别，获取第一对账单图像中文字内容。

具体的，本发明基于深度学习算法实现OCR技术，识别银行对账单图像中的全部文字信息，获取到图像中所有文字对应的文字内容，以便后续进行关键信息的提取。

S3：对第一对账单图像进行版面分析，确定第一对账单图像中表格明细信息的位置，并从第一对账单图像中截取表格图像片段进行表格结构识别，获得表格信息。

具体的，因为银行对账单的票面信息项多且复杂、各个银行的对账单版面不一，若是通过模板匹配的方法实现银行对账单关键信息的获取，不仅预设模板需要耗费大量人工成本，且无法面面俱到，涵盖各个银行的对账单模板。因此本发明提出基于版面分析、表格结构识别和多模态关键信息抽取等多项技术，实现关键信息的结构化。

首先，本发明基于深度学习的算法实现版面分析，具体使用目标检测算法来框选银行对账单票面中表头标题、表格明细信息、表尾信息等各个板块的位置。表头标题可以用于确定对账单的交易发生日期、账户名、用户银行账号等信息。表尾信息用于确定对账单的打印日期，打印机构、打印人员和打印卡号等信息。金额汇总

然后，根据版面分析结果，将对账单票面的表格部分单独截取出来，并基于深度学习的方法，进行表格结构识别，准确识别表格中行列数量、每一行每一列的坐标位置、每一个单元格的坐标位置，从而为下一步骤的关键信息结构化提供足够的信息，实现通用的银行对账单关键信息识别。

S4：对表格信息、第一对账单图像和文字内容进行关键信息抽取，获取银行对账单的交易明细信息。

具体的，本发明通过结合版面分析和表格结构识别得到的表格信息，以及OCR识别得到的文字信息和第一对账单图像等信息，基于多模态关键信息抽取技术从上述信息中获取银行对账单的交易明细信息，即提取出银行对账单的关键信息字段及其内容，如每一行明细的余额、发生额、日期等。其中，关键信息抽取指的是从文本或者图像中，抽取出关键的信息。

相较于基于模板的方法，本发明的方法对于各种复杂票面的银行对账单都可以很好的进行识别，通用性更好，并且识别过程中结合了多项人工智能技术，可以在一定程度上弥补OCR技术本身的不足，有助于提高信息提取的准确度。

另外，本发明实施例获取第一对账单图像，具体包括以下步骤：

S101：获取银行对账单的图像数据。先采集银行对账单的数据文件，并将数据文件统一转换为图像文件，从而获得银行对账单的图像数据，以便后续对对账单图像进行分析处理。

其中，数据文件包括图片、扫描文件或文本文档。将数据文件统一转换为图像文件时，具体可以将数据文件采用同一中格式进行转换，便于进行存储和读取，如PSD格式、PDT格式、WebP格式、XMP格式、GIF格式、BMP格式、SVG格式、JPEG格式、TIFF格式等，具体可以根据实际情况进行选择。

在具体实施过程中，银行对账单的数据文件可以从各个银行中获取，本发明支持照片、扫描文件、PDF文本等数据来源的导入。

S102：对图像数据进行图像预处理，获得第一对账单图像。由于银行对账单数据来源的多样性和复杂性，导入的数据可能存在倾斜、方向旋转等情况，为解决此问题，本发明首先基于深度学习的方法，对导入的银行对账单图像的角度进行识别，并根据识别的角度对银行对账单图像的角度进行校正，从而获取到正向的图像数据。之后再对图像进行去噪、去水印、去印章等预处理，为后续的识别提供清晰、正向的图像，从而提高后续流程中识别的准确性。

本发明通过获取银行对账单的第一对账单图像进行OCR识别，获取第一对账单图像中的文字内容；然后再对第一对账单图像分别进行版面分析，确定第一对账单图像中表格明细信息的位置，并基于表格明细信息的位置提取表格图像片段进行表格结构识别，获得第一对账单图像中的表格信息；依据文字内容、第一对账单图像、版面分析结果和表格信息等数据进行信息结构化处理，从多种数据提取出银行对账单的关键信息字段，得到银行对账单中具体的交易明细信息，无需模板即可完成对银行对账单内容的智能识别和信息提取，方法的通用性好，且提高了对账单信息提取的准确度。

实施例2

本发明实施例是在上述实施例1的基础上，增加了对银行对账单的交易明细信息的校验过程，以进一步提高对银行对账单信息识别的准确性。

本实施例中，对银行对账单的交易明细信息的校验过程具体包括：先对银行对账单的交易明细信息分别进行数据自校验和银行回单校验，若数据自校验和银行回单校验均校验无误，则输出银行对账单的交易明细信息，否则对银行对账单的交易明细信息进行人工校验，人工校验无误后输出银行对账单的交易明细信息。

具体的，在完成银行对账单的交易明细信息的识别提取后，还需进行银行对账单自身数据校验和银行回单数据相互校验，因OCR技术无法保证百分百的准确率，可能存在识别错误的情况，若直接将错误的识别结果放入记账的下一流程，则会导致后续流程的结果都出现错误，因此保证结果的准确性是个十分重要的问题。为此本发明实施例在上述实施例1识别完银行对账单的交易明细信息之后，针对识别出交易明细信息，设计了两种数据校验方式，以进一步保证识别的准确性。

在本实施例中，上述对银行对账单的交易明细信息分别进行数据自校验和银行回单校验，具体包括：

数据自校验是校验所述银行对账单中相邻两行交易明细信息的余额与发生额之间的总金额是否相等，若相等，则数据自校验无误，若不相等，则数据自校验异常；从所述交易明细信息中过滤掉所述数据自校验异常的行。

本发明实施例的数据自校验主要是依据行业惯例对银行对账单的交易明细信息进行校验，按照交易发生的先后时间顺序对相邻两行结构化信息进行金额校验，经过这个校验过程可以对识别结果进行评估，过滤掉一些明显不合理的识别结果。

此外，本发明数据自校验还包括对每一行的交易明细信息进行校验，包括余额和发生额信息之间的相互校验，该过程可以通过调取银行系统的交易数据进行比对校验，判断每一行的交易明细信息是否正确。

本发明实施例提供的银行回单校验是指获取银行回单图像，并对银行回单图像进行识别，获取真实的交易信息，将银行对账单的交易明细信息与真实的交易信息进行信息比对，根据比对结果去除或修正与真实的交易信息不相符的银行对账单的交易明细信息。

其中，银行回单是客户在银行转账的凭证，而对账单是所有银行回单转账的汇总，即银行对账单包括了每一笔银行回单，所以可以用对账单和回单进行对日期、金额、银行名称等字段进行校验。银行回单图像获取和识别采用了与上述银行对账单相同或相似的人工智能识别技术。

此外，本实施例中，如果上述双重智能校验不通过，也就是部分存在问题，比如回单的金额和对账单的金额匹配不上，这个时候需要进入人工校验流程，由人工对校验不通过的结构化信息进行确认，确保最终结果的准确性。

本实施例通过双重校验可以较好地保证银行对账单识别的准确性，并且若两者有一个校验不通过，则会再进一步进行标记提示，进入人工校验的流程，从而保证结果的准确性。

实施例3

本发明实施例是在上述实施例1的基础上，对实施例1中步骤S2的实现方式做进一步地详细描述。本发明采用的OCR技术基于两阶段算法实现，即文本检测和文本识别。具体地，文本检测和文本识别的实现过程如下：

第一阶段：文本检测，检测第一对账单图像上的文本，获取到文本的坐标，使用的算法是DBNet。DBNet是基于分割的文本检测算法，算法将可微分二值化模块引入了分割模型，使得模型能够通过自适应的阈值图进行二值化，并且自适应阈值图可以计算损失，能够在模型训练过程中起到辅助效果优化的作用。基于DBNet算法实现的文本检测模型可以分为三个部分：Backbone网络，负责提取图像的特征。FPN网络，特征金字塔，提高检测算法对不同尺度目标的检测能力。Head网络，计算文本区域概率图。

第二阶段：文本识别，根据第一阶段检测到的文本，将文本行分别裁剪下来进行识别，使用的算法是CRNN。CRNN模型融合CNN卷积特征和RNN序列特征，可以进行端到端训练，这种结构提高了文本图像的特征表达能力和上下文模型能力。在具体识别过程，使用卷积神经网络CNN作为特征提取层，从文本图像中提取特征，将CNN提取到的特征图作为序列数据输入到RNN中。获取文本图像每一列的上下文特征，最后通过转录层进行预测得到文本序列。

进一步地，在本实施例中，本申请对第一对账单图像进行版面分析，确定第一对账单图像中表头标题、表格明细信息和表尾信息的位置，并从第一对账单图像中截取表格图像片段进行表格结构识别，获得表格信息，具体包括：

利用目标检测算法对第一对账单图像进行版面检测分析，在第一对账单图像中识别并框选出表头标题、表格明细信息和表尾信息所在的位置。其中，目标检测算法具体可以采用Faster R-CNN算法、YOLO算法和DETR算法等深度学习算法。

根据表格在第一对账单图像中的框选位置进行截图处理，获得表格图像片段，并基于深度学习方法对表格图像片段进行表格结构识别，获得表格信息。其中，表格信息包括表格中的行列数量、每行与每列的坐标位置和每个单元格的坐标位置。根据每行的坐标位置可以确定表格中每行的内容，如文字，数字和字母等信息。同理，根据每列的坐标位置可以获取表格中每列的内容。此外，当遇到单独的单元格时，也可以根据每个单元格的坐标位置获取每个单元格的内容。

具体的，基于深度学习方法对表格图像片段进行表格结构识别是基于现有的表格检测识别方法或模型实现的，如平安科技最新发布的表格识别模型TableMaster，百度飞浆表格识别模型SLENET等。

在具体实践过程中，当利用表格识别模型TableMaster进行表格结构识别时，其采用多任务的学习模式，模型有两个分支，一个分支进行表格结构序列预测，一个分支进行单元格位置回归。在TableMaster识别结束后，识别结果经过后处理匹配算法，融合表格结构序列和单元格文本内容，得到表格最终的html。

本实施例通过OCR技术识别银行对账单图像中的全部文字信息，获取到坐标和内容，并对银行对账单图像进行版面分析以及表格结构识别，能够为后续关键信息结构化提供足够的模态信息，为实现银行对账单关键信息的通用识别提供了数据支撑。

实施例4

本发明实施例是在上述实施例1的基础上，对实施例1中步骤S4的实现方式做进一步地详细描述，具体地，该步骤的实现过程可以包括但不限于如下步骤：

S401、利用多模态关键信息抽取技术对所述表格信息、所述第一对账单图像和所述文字内容进行多模态融合，获得多模态融合结果。

S402，对多模态融合结果进行关键信息提取，获得结构化的银行对账单的交易明细信息。其中，银行对账单的交易明细信息包括交易明细的余额、发生额和发生日期。

其中，多模态关键信息抽取技术旨在从多种模态中提取结构化知识，包括非结构化和半结构化文本、图像、视频、表格等数据，其主要针对的图片模态和文本模态。多模态关键信息抽取技术具体的技术实现流程可参照现有技术实现，本发明在此不再赘述。

本实施例利用多模态关键信息抽取技术从表格信息、第一对账单图像、文字内容抽取出交易明细的余额、发生额和发生日期等结构化的交易明细信息，有助于提高信息提取的准确度。

本发明融合多项人工智能技术，支持绝大部分银行对账单的识别，能够实现高效、准确地从银行对账单图像上获取结构化的关键信息。与现有技术对比，本发明具备更高的通用性和准确性。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种银行对账单的识别方法，其特征在于，包括：

2.根据权利要求1所述的银行对账单的识别方法，其特征在于，所述对所述第一对账单图像进行版面分析，确定所述第一对账单图像中表格明细信息的位置，并从所述第一对账单图像中截取所述位置处的表格图像片段，对所述表格图像片段进行表格结构识别，获得表格信息，包括：

3.根据权利要求1所述的银行对账单的识别方法，其特征在于，所述对所述表格信息、所述第一对账单图像和文字内容进行关键信息抽取，获取银行对账单的交易明细信息，包括：

4.根据权利要求1所述的银行对账单的识别方法，其特征在于，还包括：

从所述交易明细信息中过滤掉所述数据自校验异常的行。

5.根据权利要求1所述的银行对账单的识别方法，其特征在于，还包括：获取银行回单图像，并对银行回单图像进行识别，获取真实的交易信息，将所述银行对账单的交易明细信息与所述真实的交易信息进行比对，根据比对结果去除与所述真实的交易信息不相符的交易明细信息。

6.根据权利要求1所述的银行对账单的识别方法，其特征在于，所述获取第一对账单图像，具体包括：