CN111783735B

CN111783735B - 一种基于人工智能的钢材单据解析系统

Info

Publication number: CN111783735B
Application number: CN202010711981.6A
Authority: CN
Inventors: 邹晓峰; 朱彭生; 郑东源
Original assignee: Ouye Yunshang Co ltd
Current assignee: Ouye Yunshang Co ltd
Priority date: 2020-07-22
Filing date: 2020-07-22
Publication date: 2021-01-22
Anticipated expiration: 2040-07-22
Also published as: CN111783735A

Abstract

本发明涉及一种基于人工智能的钢材单据解析系统，该系统包括：MongoDB数据库：用以存储未解析的钢材单据文档以及解析后的解析结果；Pdf客户端：用以从MongoDB数据库里扫描新写入的未解析的钢材单据文档，并将其推送到消息队列Rabbitmq中；消息队列Rabbitmq：用以生成多个待解析的文档任务，实现文档任务的分发；Pdf‑worker：接收消息队列Rabbitmq的文档任务，并根据待解析文档的格式选择对应的解析方式，并将解析结果输出储存到MongoDB数据库中。与现有技术相比，本发明具有效率高、解析准确率高、数字化自动化、适用于各类钢材单据样式复杂、不统一的情况等优点。

Description

一种基于人工智能的钢材单据解析系统

技术领域

本发明涉及钢材单据信息数据处理技术领域，尤其是涉及一种基于人工智能的钢材单据解析系统。

背景技术

目前在钢铁服务领域中，上下游合作方在交互过程中存在大量的钢材单据信息流通，这些钢材单据信息都是非结构化的文档，包括照片、纸质、扫描件、截图等等，但是现在这些非结构化的文档都需要进行人工处理，采用人工处理的方式不但工作量大，而且存在人工处理效果不好、易出错、无法流程化、自动化、智能化等问题。

当前钢材单据主要分为PDF文件和扫描件图像2种，主要使用PDF解析引擎或者OCR文本识别技术来实现，但是这些的技术往往存在以下缺陷：

1、存在并发度不高，横向扩展性不够，不能同时满足大批量单据的同时解析；

2、二者不能互相的兼容，往往只支持一种形式不能满足实际的业务生产需要；

3、未对扫描件图像进行预处理，解析效果较差；

4、对表格解析支持较差且准确性不够；

5、对单据中存在印章的情况下会出现解析准确率下降现象。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于人工智能的钢材单据解析系统。

本发明的目的可以通过以下技术方案来实现：

一种基于人工智能的钢材单据解析系统，该系统包括：

MongoDB数据库：用以存储未解析的钢材单据文档以及解析后的解析结果；

Pdf客户端：用以从MongoDB数据库里扫描新写入的未解析的钢材单据文档，并将其推送到消息队列Rabbitmq中；

消息队列Rabbitmq：用以生成多个待解析的文档任务，实现文档任务的分发；

Pdf-worker：接收消息队列Rabbitmq的文档任务，并根据待解析文档的格式选择对应的解析方式，并将解析结果输出储存到MongoDB数据库中。

所述的Pdf-worker在解析扫描件PDF或者图片时，通过RPC接口调用扫描件解析服务scan-page-table对扫描件图像进行预处理。

所述的Pdf-worker采用PDFBox实现文本、表格和图表的PDF解析，并采用PDFBox输出的底层的PDF的信息。

Pdf-worker采用PDFBox实现文本、表格和图表的PDF解析具体包括以下步骤：

21)加载待解析的钢材单据文档获取文档总页数信息；

22)依次对文档每页信息进行解析，并判断文档页面是否为位图扫描件文件，若不是位图扫描件文件，则直接通过PDFBOX解析矢量PDF的文字表格信息，若是位图扫描件文件，则进行步骤23)；

23)生成该页的缩略图，并通过RPC接口调用扫描件解析服务对该页扫描件内容进行图像处理和文字检测后返回最终解析结果；

24)对所有页面解析结果进行合并输出。

所述的步骤23)中，扫描件解析服务采用OpenCV作为底层图像处理的库，对扫描件图像进行预处理，并且以TensorFlow作为深度学习框架进行文字检测、文字识别和表格解析，扫描件解析服务具体处理流程为：

231)加载待识别的扫描件图片；

232)对存在旋转角度或畸变情况的图像进行旋转校正；

233)去除印章，用以去除印章对整个图片的干扰；

234)表格检测；

235)文字区域检测；

236)文字识别；

237)表格解析；

238)将最终结果整合输出。

所述的步骤232)中，图像畸变包括：

仅存在大角度旋转、仅存在小角度旋转、仅存在透视畸变、以及以上三种情况混合出现；

对于不同的图像透视畸变情况采用对应的方法进行矫正畸变，具体为：

对于仅存在大角度旋转的情况：采用基于深度学习的图像分类模型来直接预测大角度类别，包括0度、90度、180度和270度；

对于仅存在小角度旋转的情况：基于像素投影或霍夫变换实现；

对于的仅存在透视畸变的情况：基于LSD直线检测，并在直线基础上获取泯灭点，最后通过泯灭点进行图像变换；

对于三种情况混合出现的情况：根据不同场景组合以上三种情况，分别依次进行三种情况的矫正畸变。

所述的步骤233)中，实现去除印章具体为：

采用YOLO图像检测网络检测出印章的区域，然后移除掉印章区域内红色的像素，完成去除印章。

所述的步骤234)中，实现表格检测具体为：

通过语义分割模型SegNet实现表格检测，其结构为分割引擎包含一个编码网络和一个对应的解码网络，并跟随一个像素级别的分类层，所述的编码网络的架构在拓扑上与VGG16网络中的13个卷积层相同，解码网络的角色为映射低分辨率的编码后的特征图到输入分辨率的特征图。

所述的步骤235)中，文字区域检测采用PSENet算法实现，输入图像后根据PSENet模型并输出文字区域坐标，为文字识别和表格还原提供依据；

所述的步骤236)中，文字识别采用CRNN算法实现，输入文字块局部图片后根据文字识别模型输出文字字符串，输出钢材单据识别的文字。

所述的步骤237)中，表格解析的位图表格包括有线表格、无线表格和半无线表格三类，对于不同类型的表格，因其表格线的完整性不同，对应不同的解析方式，具体为：

有线表格的解析以表格线信息为主，通过霍夫变换或者LSD直线检测算法，检测出表格线，然后根据表格线构建出表格的行列结构信息，然后将文本块按照位置信息填写到对应的单元格内；

无线表格和半无线表格的解析以文本块的对齐信息为主，通过虚拟划线划分表格行列结构，对每一条虚拟的行切分线和列切分线计算一个损失，过滤掉损失较大的不合理切分线，保留损失较小的切分线，基于此构建表格结构化信息，表格内检测出的表格线用以辅助虚拟线损失计算以及局部单元格的拆分和合并。

与现有技术相比，本发明具有以下优点：

一、本发明通过钢材单据的多任务解析来实现传统人工识别和手动录入单据的现状，提升工作效率、降低出错风险，实现钢铁生态圈业务数字化、智能化、流程化运营中的关键一环。

二、本发明对于各类钢材单据样式复杂、不统一的情况，能综合解决PDF及扫描件图片格式的问题。

三、实现分布式集群部署模式，系统支持横向扩展，具有很强的并发性与扩展性。

四、本发明能够针对位图表格有扭曲、褶皱等异常形变的情况进行处理，提高钢材单据场景下的解析准确率。

附图说明

图1为扫描件解析服务的解析流程。

图2为pdf-worker的解析流程。

图3为本发明的钢材单据文档解析流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例

本发明提供一种基于人工智能的钢材单据解析系统，包括以下步骤：

1、pdf-client负责从MongoDB里面扫描新写入的未解析的文档，然后推送到Rabbitmq；

2、pdf-worker从Rabbitmq里面获取待解析的文档任务，然后开始解析，解析完成后，把解析结果写入MongoDB，pdf-worker可以根据服务器的配置情况，部署多个节点，支持更高的并发，pdf-worker可以自动判断待解析文档的格式从而选择相应的解析方式；如图2所示，具体解析流程为：

21)加载待解析的文档获取文档总页数信息；

22)依次对文档每页信息进行解析；

23)判断文档是否是扫描件文件；

24)非扫描件文件直接通过PDFBOX解析改业的文字表格信息；

25)如果是扫描件文档生成该页的缩略图；

26)通过RPC接口调用下一层的扫描件解析相关服务(scan-page-table)；

27)对该页扫描件内容进行图像处理和文字检测；

28)返回最终解析结果；

29)对所有页面解析结果进行合并输出。

步骤24)中，pdf-worker服务使用Apache开源的PDFBox来解析PDF，基于PDFBox输出的底层的PDF的信息，来进行文本、表格和图表的解析，通过Rabbitmq来进行文档解析任务的分发，使用MongoDB存储待解析的文档和文档解析结果。

步骤26)-27)中，扫描件解析服务使用OpenCV作为底层图像处理的库，对扫描件图像进行预处理，并且使用TensorFlow作为深度学习框架进行文字检测、文字识别、表格解析，如图1所示，具体流程如下：

101)加载要识别的扫描件图片；

102)对图像进行旋转校正；

103)去除印章，避免对整个图片进行干扰；

104)表格检测；

105)文字区域检测；

106)文字识别；

107)表格解析；

108)将最终结果整合输出。

步骤101)-102)中，在pdf-worker解析扫描件PDF或者图片时，通过RPC接口调用扫描件解析服务(scan-page-table)，对扫描件图像进行预处理，scan-page-table可以部署多节点，以支持更高的并发，其中，在scan-page-table服务中对扫描件进行以下预处理：

1011)加载要识别的扫描件图片；

1012)对图像进行旋转校正，当遇到图像存在旋转角度或透视畸变的情况时，例如用手机拍照的图像比较容易出现旋转角度或透视畸变，显而易见，一个无畸变的图像比有畸变的图像更有利于图像解析；

常见的图像畸变有以下几种情况：

1、仅存在大角度旋转(90度，180度，270度)；

2、仅存在小角度旋转(90以内)；

3、仅存在透视畸变；

4、以上三种情况混合出现。比如100度的角度属于大角度和小角度的混合，也可以是大角度和透视畸变同时存在等。

对于上述的四种情况，本例中分别用不同的算法来矫正畸变，具体为：

对于第一种情况：大角度(90度，180度，270度)纠偏采用基于深度学习的图像分类模型来直接预测大角度类别，类别共四种(0度、90度、180度、270度)；

对于第二种情况：小角度纠偏采用基于像素投影或霍夫变换两种方法实现；

对于第三种情况：透视畸变采用基于LSD直线检测，并在直线基础上计算泯灭点，最后通过泯灭点计算实现图像变换；

对于第四种情况：根据不同场景自由组合以上三种情况(比如已知图像仅存在角度旋转，不存在透视畸变，就可以先进行大角度旋转纠偏在进行小角度旋转纠偏)。

步骤103)中去除印章的实现方式具体为：

本例中采用YOLO图像检测网络检测出印章的区域，然后通过图像处理算法，移除掉印章区域内红色的像素，以此完成去除印章的操作，由于移除印章的图像处理限制在通过YOLO网络检测出来的印章区域内，这样避免了对整个图片进行处理，避免了对整个图片进行干扰。

步骤104)中表格检测的实现方式具体为：

本例通过语义分割模型SegNet来实现，其结构是分割引擎包含一个编码网络和一个对应的解码网络，并跟随着一个像素级别的分类层。编码器网络的架构在拓扑上与VGG16网络中的13个卷积层相同。解码网络的角色是映射低分辨率的编码后的特征图到输入分辨率的特征图。上采样后的图是稀疏的，然后与可训练的滤波器卷积以产生密集的特征图。

在分别进行步骤104)-107)的文字检测、文字识别、表格解析时，本例采用tensorflow serving里面包含的扫描件解析需要使用的深度学习技术，具体包括以下内容：

文字区域检测采用PSENet算法来实现，从输入图像->PSENet模型->输出文字区域坐标，为下一步文字识别和表格还原提供依据；

文字识别采用CRNN算法实现，从输入文字块局部图片(上一层区域切割)->文字识别模型->输出文字字符串，整个单据识别提供文字输出；

表格解析，位图表格可以分为三类：有线表格、无线表格和半无线表格。对于不同类型的表格，因为表格线的完整性不同，有不同的解析方式。

有线表格解析以表格线信息为主，通过霍夫变换或者LSD等直线检测算法，检测出表格线，然后根据表格线构建出表格的行列结构信息，然后将文本块按照位置信息填写到对应的单元格内。

无线表格和半无线表格因为表格线信息不全，不能通过表格线重构表格结构。因此无线表格、半无线表格的解析主要以文本块的对齐信息为主，通过虚拟划线，划分表格行列结构。算法对每一条虚拟的行切分线和列切分线计算一个损失，过滤掉损失较大的不合理切分线，保留损失较小的切分线，然后基于此构建表格结构化信息，表格内检测出的表格线可以辅助虚拟线损失计算和局部单元格的拆分、合并。

3)最终将解析结果输出存储到MogoDb中。

Claims

1.一种基于人工智能的钢材单据解析系统，其特征在于，该系统包括：

Pdf-worker：接收消息队列Rabbitmq的文档任务，并根据待解析文档的格式选择对应的解析方式，并将解析结果输出储存到MongoDB数据库中，所述的Pdf-worker在解析扫描件PDF或者图片时，通过RPC接口调用扫描件解析服务scan-page-table对扫描件图像进行预处理，所述的扫描件解析服务scan-page-table的预处理具体包括加载要识别的扫描件图像以及对图像进行旋转校正，所述的Pdf-worker采用PDFBox实现文本、表格和图表的PDF解析，并采用PDFBox输出的底层的PDF的信息；

21)加载待解析的钢材单据文档获取文档总页数信息；

23)生成该页的缩略图，并通过RPC接口调用扫描件解析服务对该页扫描件内容进行图像处理和文字检测后返回最终解析结果，扫描件解析服务采用OpenCV作为底层图像处理的库，对扫描件图像进行预处理，并且以TensorFlow作为深度学习框架进行文字检测、文字识别和表格解析，扫描件解析服务具体处理流程为：

231)加载待识别的扫描件图片；

232)对存在旋转角度或畸变情况的图像进行旋转校正；

233)去除印章，用以去除印章对整个图片的干扰；

234)表格检测；

235)文字区域检测；

236)文字识别；

237)表格解析，表格解析的位图表格包括有线表格、无线表格和半无线表格三类，对于不同类型的表格，因其表格线的完整性不同，对应不同的解析方式，具体为：

无线表格和半无线表格的解析以文本块的对齐信息为主，通过虚拟划线划分表格行列结构，对每一条虚拟的行切分线和列切分线计算一个损失，过滤掉损失较大的不合理切分线，保留损失较小的切分线，基于此构建表格结构化信息，表格内检测出的表格线用以辅助虚拟线损失计算以及局部单元格的拆分和合并；

238)将最终结果整合输出；

24)对所有页面解析结果进行合并输出。

2.根据权利要求1所述的一种基于人工智能的钢材单据解析系统，其特征在于，所述的步骤232)中，图像畸变包括：

3.根据权利要求1所述的一种基于人工智能的钢材单据解析系统，其特征在于，所述的步骤233)中，实现去除印章具体为：

4.根据权利要求1所述的一种基于人工智能的钢材单据解析系统，其特征在于，所述的步骤234)中，实现表格检测具体为：

5.根据权利要求1所述的一种基于人工智能的钢材单据解析系统，其特征在于，所述的步骤235)中，文字区域检测采用PSENet算法实现，输入图像后根据PSENet模型并输出文字区域坐标，为文字识别和表格还原提供依据；