CN112861782A

CN112861782A - 票据照片关键信息提取系统及方法

Info

Publication number: CN112861782A
Application number: CN202110248041.2A
Authority: CN
Inventors: 陶越; 徐树公; 贾智伟; 陈靖超; 姜秀峰; 穆世义
Original assignee: University of Shanghai for Science and Technology
Current assignee: University of Shanghai for Science and Technology
Priority date: 2021-03-07
Filing date: 2021-03-07
Publication date: 2021-05-28
Anticipated expiration: 2041-03-07
Also published as: CN112861782B

Abstract

一种票据照片关键信息提取系统及方法，包括：前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块，前端模块采集图片并通过通信单元发送至文本检测单元，文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置，并相应裁剪图片后通过通信单元发送至识别单元，识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元，关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示，回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库。

Description

票据照片关键信息提取系统及方法

技术领域

本发明涉及的是一种图像处理领域的技术，具体是一种票据照片关键信息提取系统及方法。

背景技术

现有的票据关键信息提取技术的主要特点是：通过文本识别检测技术获得整张票据上的文字内容。通过模板匹配或者正则表达式来提取关键信息。

这类技术的主要缺陷和不足为：通过模板匹配的方式的方法只能从固定模板类型的票据上提取出关键信息。一旦票据图片的版式不符合系统中含有的模板，就无法正确提取出正确的关键信息。正则表达式匹配来提取关键信息的方法需要人为分析关键信息的格式，设计正则表达式。一旦出现超过正则表达式的关键信息，就无法正确提取出正确的关键信息。

发明内容

本发明针对现有技术存在的上述不足，提出一种票据照片关键信息提取系统及方法，通过深度神经网络，将文本内容和文本内容位置的结构化信息相结合以提升准确度，能够适应不同方式的文本内容位置信息结合以及多种词向量的转换方式。

本发明是通过以下技术方案实现的：

本发明涉及一种票据照片关键信息提取系统，包括：前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块，其中：前端模块采集图片并通过通信单元发送至文本检测单元，文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置，并相应裁剪图片后通过通信单元发送至识别单元，识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元，关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示，回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库。

技术效果

与现有技术相比，本发明能够从无固定格式的票据图片中提取出关键信息，关键信息提取方法结合了富文本内容中的二维位置信息，可以选择性使用字向量，词向量，位置向量。位置向量添加的位置可以灵活变动并且结合方式多样，通过回馈机制进一步方便数据集的后续收集增广，减少人工标注的耗时，方便分析错误情况。

附图说明

图1为本发明系统示意图；

图2为本发明方法流程图；

图3为商场票据关键信息提取的APP界面和演示效果的示意图。

具体实施方式

如图1所示，为本实施例涉及的一种商场票据关键信息提取系统，包括：用于用户进行交互的前端模块和使用分层式的票据关键信息提取模块，其中：前端模块通过人机交互界面获得输入图像并输出提取出的信息，商场票据关键信息提取模块根据获得的图片信息，进行文本检测识别和关键信息网络推理并得到提取出来的关键信息结果。

所述的前端模块，包括：拍摄单元、相册单元、上传单元、显示单元以及判断单元，其中：拍摄单元调取前端设备的摄像头进行拍摄，相册单元读取前端设备的存储内容，选择其中的图片，上传单元将拍摄单元拍摄的图片或者相册单元选择的图片上传到服务器，显示单元从服务器接收关键信息提取结果后显示在前端界面上，判断单元接收用户对关键信息的判断，上传单元与判断单元相连，将用户的判断结果上传至服务器。

所述的商场票据关键信息提取模块，包括：通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元，其中：通信单元接收图片后，将图片发送至文本检测单元，文本检测单元根据接收到的图片信息，进行文本检测神经网络推理并得到文本内容块的坐标位置，再根据文本块的坐标位置裁剪图片，文本检测单元将文本内容块的坐标位置和裁剪完毕的图片发送至通信单元，通信单元将裁剪的图片发送至识别模块，识别单元根据剪裁好的图片识别出文本转录内容后传送给通信单元，通信单元将文本坐标位置和文本转录内容发送至关键信息提取单元，关键信息提取单元根据坐标位置和转录内容结果使用上文提到的关键信息提取网络进行推理并得到关键信息，处理得到的关键信息通过通信单元发送至前端模块，用户在前端模块判断后将结果发给通信单元，回馈单元与通信单元相连，接收用户的判断结果后更新数据库。

所述的关键信息是指：票据中的商店，地址，总价格和日期。

用户可以选择性地判断关键信息结果是否提取正确。当用户反馈了判断结果，那么后端会记录下用户的判断结果，结果正确的内容会补充到数据库中，错误的结果同样也会保存，方便后续的错误分析。

所述的文本检测单元使用的DBnet网络。

所述的识别单元使用的算法是业界针对中文识别通用的CRNN的算法改进版，即特征提取部分由VGG改为了ResNet45。本实施例采取了多种票据的背景作为生成的文本内容的背景，并且为了获得更逼真的生成数据，添加了高斯模糊，并且增加了随机mask来模拟打印效果较差的数据。通过合成数据，能够训练出识别准确率为88％的识别网络。

所述的关键信息提取单元采用的是上文所述的关键信息提取网络。

如图2所示，为本实施例涉及一种基于上述票据照片关键信息提取系统的关键信息提取方法，包括训练阶段和测试阶段，其中：

步骤1、训练阶段，包括训练数据的生成、模型的构建、损失函数的设计、模型训练，具体为：

步骤1.1、训练数据的生成：训练采用公开的SROIE数据集(SROIE数据集是一个针对英文票据检测识别和关键信息提取任务的数据集)，由于SROIE数据集中提供的标注和所需训练网络的格式不符。因此需要对数据集进行前处理生成本实施例训练模型需要使用到的标注格式。

所述的标注是指：每张图片上的文本块中的内容，文本块的位置和关键信息，其中文本块中的内容和位置为：文本内容，x₁，y₁，x₂，y_2，，x₃，y₃，x₄，y₄，(x₁，y₁为文本块的左下角的坐标点，x₂，y₂为文本块的右下角的坐标点，x₃，y₃为文本块的右上角的坐标点，x₄，y₄为文本块的左上角的坐标点)，关键信息是指：{“date”：“2019-xx-xx”，“address”：”china”，“company”：”walmarxxx”，“total”，“34.00”}。

所述的SROIE数据集包括1000张票据照片和每张票据的标注，分别将其划分为训练集、验证集和测试集，训练集有500张，验证集有100张，测试集有374张。

所述的前处理是指：

①位置坐标的归一化处理：针对所有文本块的四个顶点坐标，将其x轴上的值和y轴上的值按照图片的宽度和高度进行归一化，之后再乘以1000后取整；针对文本块中的每一个单词，计算其左下角的坐标x_l，y_l和右上角的坐标x_r，y_r，其中

n为文本块的总字数，m为当前单词是文本块中的第几个单词。

②使用BIO方法标注文本内容：每一个单词对应其标注，根据其内容判断，非关键信息的内容标注为字母O，关键信息内容的标注则与关键信息的种类名称一一对应。

所述的标注，其格式为：单词，x_l，y_l，x_r，y_r，label。例如：China，12，10，35，6，B-Addr Shanghai，40，10，60，6，I-Addr。

步骤1.2、模型的构建：向量转化，即文本内容的向量化和文本位置信息的向量化，文本内容的向量化进一步包括字符向量化和词语向量化，其中字符向量化通过三层CNN网络实现，词语向量化通过GloVe词向量的方式或通过BERT的方式获得；文本位置信息的向量化通过可学习的方式转换或正余弦的方式转换，将位置向量与文本内容融合后，通过一层CRF层预测最后的标注。

所述的可学习的方式转换是指：通过一个id，然后根据这个id去搜索对应的向量，这个向量会随着网络的训练改变，即可学习。

所述的正余弦是指：

其中：pos为文本在序列中的位置，i为数值在向量中的位置。

所述的位置向量与文本内容结合包括：i)在文本内容向量化完毕之后结合；ii)位置向量通过BiLSTM之后与文本内容向量通过BiLSTM之后结合；iii)位置向量与文本内容向量通过BiLSTM之后结合。

所述的位置向量与文本内容的结合方式包括：i)相加形式结合：两个向量直接相加；ii)相连形式结合：两个向量头尾相连；iii)基于注意力机制相加形式结合：位置向量和融合向量分别乘以各自的权重后分别通过Tanh激活函数，之后这二者相连之后通过Softmax之后获得注意力权重。这个注意力权重分别乘以位置向量和融合向量后相加得到融合的特征向量。

步骤1.3、设计交叉熵损失损失函数，具体为：

其中：N为标签的个数，p_k为正确标签向量，q_k为神经网络输出的结果向量。

步骤1.4、模型训练：加载预训练好的文本内容向量化网络参数，其他的网络权重采用随机参数初始化，偏置采用全0初始化；针对步骤1.2向量转化进行微调，即采用Adam算法进行模型参数的更新，当模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的模型。

所述的网络参数是指：针对文本内容向量化和文本位置向量化的模块，学习率为2*10^-5，而之后的BiLSTM和CRF层的学习率为1*10^-3。

步骤2、测试阶段：将已有的文本块内容和文本块位置经过步骤1.1前处理转化为要求的格式，通过训练后的关键信息提取网络，得到的关键信息与标注结果进行比对得到召回率

正确率

阳f1分数

其中：TP是指：把正样本成功预测为正；TN是指：把负样本成功预测为负；FP是指：负样本错误地预测为正；FN是指：把正样本错误地预测为负。

本实施例进一步采用不同的网络结构在训练集上训练之后，可以发现不同的位置信息的接入位置能够带来不同的结果。使用GloVe词向量的时候，使用不同的结合方式，不同的结合位置能够带来不同的结果。

表1在SROIE验证集上基于GloVe词向量不同的结合方式的结果

使用BERT来转换词向量的时候，能够带来更好的结果。有使用固定BERT词向量的方法和微调的方法。

表2在SROIE验证集上基于BERT模型训练的不同的结果

本实施例进一步在中文商场票据数据集上进行性能测试：采用总共有500张的中文商场票据数据集，包括400多家店铺的打印票据，图片由手机拍摄获得。图片中的票据会存在一定的倾斜角度和弯曲，难度比SROIE高。本实施例将标注的中文商场票据数据集中450张作为训练集，50张作为测试集。

由于中文商场票据数据集标注格式和英文SROIE的标注方式相同。因此需要根据提供的标注来生成本实施例训练模型需要使用到的标注格式。中文BERT的预训练模型使用的分词方式是将句子中的每个字作为个体，所以就没有加入CNN形式的字向量提取。使用在SROIE数据集上的最优网络结构在中文商场票据数据集上获得的结果。结果如表3所示。

表3在中文商场票据数据集的结果

如图3所示，为本实施例采用的前端设备的界面和演示效果。本实施例中关键信息提取网络，在CPU为Intel(R)Xeon(R)Gold 6126，显卡为Rtx2080ti的服务器上进行推理，结果由制作SROIE数据集的官方网站进行评测。平均推理速度为0.1s。

表4为官方评测结果：

本发明的票据关键信息提取系统在服务器上运行，前端发送中文商场票据集中的图片。测试结果为，每张图片的平均整体推理时间为4.17s，平均准确率为64％。综上，本发明利用了BERT预训练模型，并结合了富文本的二维位置信息。

上述具体实施可由本领域技术人员在不背离本发明原理和宗旨的前提下以不同的方式对其进行局部调整，本发明的保护范围以权利要求书为准且不由上述具体实施所限，在其范围内的各个实现方案均受本发明之约束。

Claims

1.一种票据照片关键信息提取系统，其特征在于，包括：前端模块以及由通信单元、文本检测单元、识别单元、关键信息提取单元以及回馈单元组成的票据关键信息提取模块，其中：前端模块采集图片并通过通信单元发送至文本检测单元，文本检测单元进行文本检测神经网络推理并得到图片中文本内容块的坐标位置，并相应裁剪图片后通过通信单元发送至识别单元，识别单元从裁剪图片中识别出文本转录内容并通过通信单元发送至关键信息提取单元，关键信息提取单元根据文本内容块的坐标位置和文本转录内容通过关键信息提取网络进行推理并得到关键信息并通过通信单元发送至前端模块进行显示，回馈单元与通信单元相连并采集用户对关键信息的判断结果后更新数据库；

2.根据权利要求1所述的票据照片关键信息提取系统，其特征是，所述的前端模块，包括：拍摄单元、相册单元、上传单元、显示单元以及判断单元，其中：拍摄单元调取前端设备的摄像头进行拍摄，相册单元读取前端设备的存储内容，选择其中的图片，上传单元将拍摄单元拍摄的图片或者相册单元选择的图片上传到服务器，显示单元从服务器接收关键信息提取结果后显示在前端界面上，判断单元接收用户对关键信息的判断，上传单元与判断单元相连，将用户的判断结果上传至服务器；用户选择性地判断关键信息结果是否提取正确，选择的结果保存以进行错误分析。

3.根据权利要求1所述的票据照片关键信息提取系统，其特征是，所述的识别单元使用针对中文识别通用的CRNN的算法改进版，即特征提取部分为ResNet45，添加高斯模糊的同时增加随机mask来模拟打印效果较差的数据。

4.一种基于上述任一权利要求所述系统的关键信息提取方法，其特征在于，包括训练阶段和测试阶段，其中：

步骤1.1、训练数据的生成：训练采用公开的SROIE数据集前处理生成本实施例训练模型需要使用到的标注格式；

步骤1.2、模型的构建：将文本内容的向量化和文本位置信息的向量化，其中：

所述的文本内容的向量化包括通过三层CNN网络实现的字符向量化和通过GloVe词向量的方式或通过BERT的方式实现的词语向量化；

所述的文本位置信息的向量化通过可学习的方式转换或正余弦的方式转换，将位置向量与文本内容融合后，通过一层CRF层预测最后的标注；

步骤1.3、设计交叉熵损失损失函数，具体为：

其中：N为标签的个数，p_k为正确标签向量，q_k为神经网络输出的结果向量；

步骤1.4、模型训练：加载预训练好的文本内容向量化网络参数，其他的网络权重采用随机参数初始化，偏置采用全0初始化，针对步骤1.2向量转化进行微调，即采用Adam算法进行模型参数的更新，当模型迭代次数达到预设的迭代次数时，停止训练并保存训练好的模型；

正确率

和f1分数

5.根据权利要求4所述的关键信息提取方法，其特征是，所述的标注是指：每张图片上的文本块中的内容、文本块的位置和关键信息，其中：文本块中的内容和位置为：文本内容，x₁，y₁，x₂，y_2，，x₃，y₃，x₄，y₄，其中：x₁，y₁为文本块的左下角的坐标点，x₂，y₂为文本块的右下角的坐标点，x₃，y₃为文本块的右上角的坐标点，x₄，y₄为文本块的左上角的坐标点。

6.根据权利要求4所述的关键信息提取方法，其特征是，所述的前处理是指：

n为文本块的总字数，m为当前单词是文本块中的第几个单词；

7.根据权利要求4所述的关键信息提取方法，其特征是，所述的可学习的方式转换是指：通过一个id，然后根据这个id去搜索对应的向量，这个向量会随着网络的训练改变，即可学习。

8.根据权利要求4所述的关键信息提取方法，其特征是，所述的正余弦是指：

其中：pos为文本在序列中的位置，i为数值在向量中的位置。

9.根据权利要求4所述的关键信息提取方法，其特征是，所述的位置向量与文本内容结合包括：i)在文本内容向量化完毕之后结合；ii)位置向量通过BiLSTM之后与文本内容向量通过BiLSTM之后结合；iii)位置向量与文本内容向量通过BiLSTM之后结合。

10.根据权利要求4所述的关键信息提取方法，其特征是，所述的位置向量与文本内容的结合方式包括：i)相加形式结合：两个向量直接相加；ii)相连形式结合：两个向量头尾相连；iii)基于注意力机制相加形式结合：位置向量和融合向量分别乘以各自的权重后分别通过Tanh激活函数，之后这二者相连之后通过Softmax之后获得注意力权重，将该注意力权重分别乘以位置向量和融合向量后相加得到融合的特征向量。