CN113657279A

CN113657279A - 一种票据类图像版面解析方法及装置

Info

Publication number: CN113657279A
Application number: CN202110949153.0A
Authority: CN
Inventors: 丁大强; 李蒙阳; 石海涛; 胡安裕
Original assignee: Beijing Jiu'an Tianxia Technology Co ltd
Current assignee: Beijing Jiu'an Tianxia Technology Co ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-11-16
Anticipated expiration: 2041-08-18
Also published as: CN113657279B

Abstract

一种票据类图像版面解析方法，包括：准备用于模型训练的训练版面样本，进行人工标注；对训练版面样本中文本框进行特征编码；将所述文本框的坐标特征与文本特征进行特征拼接，形成所述文本框的拼接特征；将训练版面样本中的多个候选框的所述拼接特征进行拼接，形成所述训练版面样本的特征序列向量；对模型进行训练，获得版面解析模型；将所述待解析版面的特征序列向量输入所述版面解析模型，获得所述待解析版面的解析结果。本发明采用机器学习方法，实现了端到端训练与处理过程，相对于传统的特征工程方法极大降低了人工的工作量，同时还提升了模型构架的运行效率，显著提高了票据类图像版面解析的准确性。

Description

一种票据类图像版面解析方法及装置

技术领域

本发明属于计算机应用技术领域，涉及一种图像识别处理方法及装置，特别涉及一种票据类图像版面解析方法及装置。

背景技术

在日常生活中，有大量的票据图像需要结构化存储。例如身份证、增值税发票、火车票、飞机票等。这些票据图像在电子化的过程中往往因为人员、设备、场景等因素，导致电子图像出现各种问题，例如倾斜、遮挡、模糊、反光等。这就会给后续的数据结构化带来两方面的挑战，一是OCR识别的挑战，二是版面分析的挑战。目前OCR识别技术已经较为成熟，但是版面分析技术却没有较为有效的解决方案。

现有的版面分析方法通常采用特征工程的方式，首先采用OCR算法识别图像版面中的每个文本框的文字坐标和文字内容，然后通过基于规则的方法将关键信息提取出来，例如姓名、日期、身份证号、校验码等。由于实际业务场景中获取的票据图像通常存在上述诸多问题，都吃基于规则的方法需要不断对设置的规则进行调整维护，不仅耗用大量的人工成本，而且还会造成规则越积越多，各类规则之间容易产生冲突，升级维护越来越复杂；同时，也会使票据图像版面识别效率难以继续提升。

发明内容

本发明的目的是：为克服现有技术的缺陷，提供一种识别准确率高、容错能力强、所需训练样本少、自动化处理程度高、占用人工成本低的票据类图像版面解析方法及装置。

本发明的技术方案是：一种票据类图像版面解析方法，包括以下步骤：s1准备用于模型训练的训练版面样本，进行人工标注；s2对训练版面样本中文本框进行特征编码，所述特征编码至少包括所述文本框的坐标特征和文本特征；s3将所述文本框的坐标特征与文本特征进行特征拼接，形成所述文本框的拼接特征；将训练版面样本中的多个候选框的所述拼接特征进行拼接，形成所述训练版面样本的特征序列向量；s4利用所述训练版面样本的特征序列向量对模型进行训练，获得版面解析模型；s5对于待解析版面，采用与上述步骤s2至s3相同的方法，获得所述待解析版面的特征序列向量；将所述待解析版面的特征序列向量输入所述版面解析模型，获得所述待解析版面的解析结果。

进一步，所述步骤s1还包括：采用数据增广策略，对训练版面样本进行数据增广；其中，所述数据增广策略包括以下方法中的一种或多种：随机扰动所述训练版面样本中检测框的坐标点；随机丢弃所述训练版面样本中的一个或多个检测框；随机切分所述检测框，并随机拆分所述检测框中的文本；随机替换所述检测框中的文本内容。

进一步，步骤s2中所述文本特征包括以下信息中的一种或多种：数字占比、英文占比、符号占比、其他字符占比。

进一步，所述步骤s2中对训练版面样本中文本框进行特征编码时，对所述坐标特征进行维度拉伸。

进一步，所述步骤s4中采用的模型为seq2seq+attention模型。

为实现上述目的，本发明还采用了如下技术方案：

一种票据类图像版面解析装置，基于如上所述票据类图像版面解析方法，包括：训练版面样本标注模块，用于对训练样本进行标注；文本框特征编码模块，用于对所述文本框进行特征编码；特征序列向量拼接模块，用于将所述文本框特征编码拼接为训练版面样本的特征序列向量；模型训练模块，用于利用训练版面样本的特征序列向量，训练并获得版面解析模型；其中，所述版面解析模型为seq2seq+attention模型；以及，版面解析模块，用于利用版面解析模型，对待解析版面进行解析，获得所述待解析版面的解析结果。

进一步，所述训练版面样本标注模块还用于：采取数据增广策略，对训练版面样本进行数据增广；其中，所述数据增广策略包括以下方法中的一种或多种：随机扰动所述训练版面样本中检测框的坐标点；随机丢弃所述训练版面样本中的一个或多个检测框；随机切分所述检测框，并随机拆分所述检测框中的文本；随机替换所述检测框中的文本内容。

进一步，所述文本框特征编码模块还用于：对训练版面样本中文本框进行特征编码时，对所述坐标特征进行维度拉伸。

本发明的另一个技术方案是：一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如上所述票据类图像版面解析方法的步骤。

本发明的另一个技术方案是：一种非暂态计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实现如上所述票据类图像版面解析方法的步骤。

有益效果：本发明一种票据类图像版面解析方法及装置，采用机器学习方法，只需要标注少量具有代表性的票据类图像版面，通过数据增广增加训练数据量，通过文本框的坐标特征和文本特征构成图像版面的特征向量，利用seq2seq+attention模型训练获得票据类图像版面分析模型，用于图像版面的识别，实现了端到端训练与处理过程。本发明相对于传统的特征工程方法极大降低了人工的工作量，同时还提升了模型构架的运行效率，显著提高了票据类图像版面解析的准确性。

附图说明

图1是实施例1中一种票据类图像版面解析方法的整体流程示意图；

图2是实施例1中采用的seq2seq+attention模型的整体结构示意图；

图3是实施例2中一种票据类图像版面解析装置的整体结构示意图；

图4是实施例3中一种电子设备的的整体结构示意图。

具体实施方式

以下结合附图1，进一步说明本发明一种票据类图像版面解析方法及装置的具体实施方式。本发明一种票据类图像版面解析方法及装置不限于以下实施例的描述。

实施例1：

本实施例给出票据类图像版面解析方法的具体实现步骤。作为一种可选的方式，本实施例采用的软硬件平台包括：一台具有3.0G赫兹中央处理器、Nvida 1080GPU处理器和16G字节内存的服务器，预先采用python语言编制了端到端的OCR版面分析程序，可以完成票据类图像中文本框的识别和文本位置、文字的识别。

如图1所示，本实施例采用的软件采用了一种票据类图像版面解析方法，包括以下步骤：

s1准备用于模型训练的训练版面样本，进行人工标注。训练版面样本可预先由端到端的OCR版面分析程序进行初步解析，然后在进行人工标注，也可以直接进行人工标注。优选的，所述步骤s1还包括：采用数据增广策略，对训练版面样本进行数据增广；其中，所述数据增广策略包括以下方法中的一种或多种：1)随机扰动所述训练版面样本中检测框的坐标点；2)随机丢弃所述训练版面样本中的一个或多个检测框；3)随机切分所述检测框，并随机拆分所述检测框中的文本；4)随机替换所述检测框中的文本内容。所述数据增广可以在人工标注后进行，也可以在人工标注前进行。

s2对训练版面样本中文本框进行特征编码，所述特征编码至少包括所述文本框的坐标特征和文本特征。优选的，步骤s2中所述文本特征包括以下信息中的一种或多种：数字占比、英文占比、符号占比、其他字符占比。由于票据类图像版面中相同位置文本框的文本内容通常具有较为固定的格式，因此通过提取上述信息作为文本特征，可以更有利于模型的训练。

优选的，所述步骤s2中对训练版面样本中文本框进行特征编码时，对所述坐标特征进行维度拉伸。由于票据类图像版面中文本框的位置通常决定了该文本的属性，因此将表达文本框位置的坐标特征信息作为版面解析特征，可以更有利于模型的训练。然而，由于坐标特征的维度相比于文本特征的维度较小，在模型训练过程中容易被忽略，为此，可以对所述坐标特征进行维度拉伸，从而提高模型对坐标特征的重视程度。

具体的，所述特征编码采用gensim的doc2vec进行训练，向量为维度选取50dim，每个box的文本都可以编码为50dim的向量。所述训练对象包括：1)OCR识别后的文本信息；2)所述文本框中文本的单元格数字占比、英文占比、符号占比、其他字符占比，共4个维度信息；以及3)文本所在四边形的4个顶点的坐标，为8个数值。将8个数值复制8遍，以实现维度拉伸。

s3将所述文本框的坐标特征与文本特征进行特征拼接，形成所述文本框的拼接特征；将训练版面样本中的多个候选框的所述拼接特征进行拼接，形成所述训练版面样本的特征序列向量。这样，便实现了通过一个训练版面样本的特征序列向量，对一个训练版面样本的特征进行表达。

s4利用所述训练版面样本的特征序列向量对模型进行训练，获得版面解析模型。显然，所述版面解析模型是一个端到端的ORC版面分析模型。

优选的，所述步骤s4中采用的模型为seq2seq+attention模型，具体模型结构如图2所示。相较于常规的seq2seq模型，seq2seq+attention模型具有以下特点：1)训练过程抛弃了常规teacher forcing的训练方式；训练和推理时用当前文本框的信息特征替代前一时刻模型的输出，更有利于提高当前版面解析结果的准确性。

s5对于待解析版面，采用与上述步骤s2至s3相同的方法(即与获得所述训练版面样本的特征序列向量相同的方法)，获得所述待解析版面的特征序列向量；将所述待解析版面的特征序列向量输入训练好的所述版面解析模型，获得所述待解析版面的解析结果。

实施例2：

本实施例给出一种票据类图像版面解析装置的具体实施方式，基于实施例1所述票据类图像版面解析方法。

如图2所示，所述票据类图像版面解析装置包括：

训练版面样本标注模块，用于对训练样本进行标注；优选的，所述训练版面样本标注模块还用于：采取数据增广策略，对训练版面样本进行数据增广；其中，所述数据增广策略包括以下方法中的一种或多种：1)随机扰动所述训练版面样本中检测框的坐标点；2)随机丢弃所述训练版面样本中的一个或多个检测框；3)随机切分所述检测框，并随机拆分所述检测框中的文本；4)随机替换所述检测框中的文本内容；

文本框特征编码模块，用于对所述文本框进行特征编码；优选的，所述文本框特征编码模块还用于：对训练版面样本中文本框进行特征编码时，对所述坐标特征进行维度拉伸；

特征序列向量拼接模块，用于将所述文本框特征编码拼接为训练版面样本的特征序列向量；

模型训练模块，用于利用训练版面样本的特征序列向量，训练并获得版面解析模型；其中，所述版面解析模型为seq2seq+attention模型；以及，

版面解析模块，用于利用版面解析模型，对待解析版面进行解析，获得所述待解析版面的解析结果。

实施例3：

本实施例给出一种电子设备的具体实施方式，基于实施例1所述票据类图像版面解析方法。

如图4所示，所述电子设备包括：处理器(processor)401、通信接口(Communications Interface)402、存储器(memory)403和通信总线404，其中，处理器401，通信接口402，存储器403通过通信总线404完成相互间的通信。处理器401可以调用存储在存储器403上并可在处理器401上运行的计算机程序，以执行上述各实施例提供的方法，例如包括：准备用于模型训练的训练版面样本，辅助进行人工标注；对训练版面样本中文本框进行特征编码；将所述文本框的坐标特征与文本特征进行特征拼接，形成所述文本框的拼接特征；将训练版面样本中的多个候选框的所述拼接特征进行拼接，形成所述训练版面样本的特征序列向量；利用所述训练版面样本的特征序列向量对模型进行训练，获得版面解析模型；对于待解析版面，获得所述待解析版面的特征序列向量；将所述待解析版面的特征序列向量输入所述版面解析模型，获得所述待解析版面的解析结果。

此外，上述的存储器403中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明实施例1所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

实施例4：

本实施例给出一种非暂态计算机可读存储介质的具体实施方式，基于实施例1所述票据类图像版面解析方法。

一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各实施例提供的方法，例如包括：准备用于模型训练的训练版面样本，辅助进行人工标注；对训练版面样本中文本框进行特征编码；将所述文本框的坐标特征与文本特征进行特征拼接，形成所述文本框的拼接特征；将训练版面样本中的多个候选框的所述拼接特征进行拼接，形成所述训练版面样本的特征序列向量；利用所述训练版面样本的特征序列向量对模型进行训练，获得版面解析模型；对于待解析版面，获得所述待解析版面的特征序列向量；将所述待解析版面的特征序列向量输入所述版面解析模型，获得所述待解析版面的解析结果。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种票据类图像版面解析方法，其特征在于，包括以下步骤：

s1准备用于模型训练的训练版面样本，进行人工标注；

s2对训练版面样本中文本框进行特征编码，所述特征编码至少包括所述文本框的坐标特征和文本特征；

s3将所述文本框的坐标特征与文本特征进行特征拼接，形成所述文本框的拼接特征；将训练版面样本中的多个候选框的所述拼接特征进行拼接，形成所述训练版面样本的特征序列向量；

s4利用所述训练版面样本的特征序列向量对模型进行训练，获得版面解析模型；

s5对于待解析版面，采用与上述步骤s2至s3相同的方法，获得所述待解析版面的特征序列向量；将所述待解析版面的特征序列向量输入所述版面解析模型，获得所述待解析版面的解析结果。

2.根据权利要求1所述的票据类图像版面解析方法，其特征在于，所述步骤s1还包括：采用数据增广策略，对训练版面样本进行数据增广；其中，所述数据增广策略包括以下方法中的一种或多种：

随机扰动所述训练版面样本中检测框的坐标点；

随机丢弃所述训练版面样本中的一个或多个检测框；

随机切分所述检测框，并随机拆分所述检测框中的文本；

随机替换所述检测框中的文本内容。

3.根据权利要求2所述的票据类图像版面解析方法，其特征在于，步骤s2中所述文本特征包括以下信息中的一种或多种：数字占比、英文占比、符号占比、其他字符占比。

4.根据权利要求3所述的票据类图像版面解析方法，其特征在于，所述步骤s2中对训练版面样本中文本框进行特征编码时，对所述坐标特征进行维度拉伸。

5.根据权利要求4所述的票据类图像版面解析方法，其特征在于，所述步骤s4中采用的模型为seq2seq+attention模型。

6.一种票据类图像版面解析装置，其特征在于：基于权利要求1-5中任一权利要求所述方法，包括：

训练版面样本标注模块，用于对训练样本进行标注；

文本框特征编码模块，用于对所述文本框进行特征编码；

7.根据权利要求6所述的票据类图像版面解析装置，其特征在于，所述训练版面样本标注模块还用于：采取数据增广策略，对训练版面样本进行数据增广；其中，所述数据增广策略包括以下方法中的一种或多种：

随机扰动所述训练版面样本中检测框的坐标点；

随机丢弃所述训练版面样本中的一个或多个检测框；

随机切分所述检测框，并随机拆分所述检测框中的文本；

随机替换所述检测框中的文本内容。

8.根据权利要求7所述的票据类图像版面解析装置，其特征在于：所述文本框特征编码模块还用于：对训练版面样本中文本框进行特征编码时，对所述坐标特征进行维度拉伸。

9.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至5任一项所述方法的步骤。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现如权利要求1至5任一项所述方法的步骤。