CN113806472A

CN113806472A - 一种对文字图片和图像型扫描件实现全文检索的方法及设备

Info

Publication number: CN113806472A
Application number: CN202010555019.8A
Authority: CN
Inventors: 翟晓刚
Original assignee: China Life Insurance Asset Management Co ltd
Current assignee: China Life Insurance Asset Management Co ltd
Priority date: 2020-06-17
Filing date: 2020-06-17
Publication date: 2021-12-17
Anticipated expiration: 2040-06-17
Also published as: CN113806472B

Abstract

本发明涉及文档处理领域，公开了一种对文字图片和图像型扫描件实现全文检索的方法及设备，本地GPU服务器上加载文字图片和图像型扫描件全文检索系统，用户上传待全文检索的文字图片或者长文本图像型PDF格式扫描件文档，系统采用基于深度学技术的OCR文字识别子系统、视觉信息分析算法，然后用户输入待检索的关键词，最后文字图片和长文本图像型PDF扫描件上高亮显示出关键词，系统支持上一处、下一处查看检索结果。本发明通过使用本方法能够准确、快速对文字图像或者长文本图像型PDF扫描件进行全文检索。

Description

一种对文字图片和图像型扫描件实现全文检索的方法及设备

技术领域

本发明涉及文档处理领域，尤其涉及一种对文字图片和图像型扫描件实现全文检索的方法及设备。

背景技术

PDF(Portable Document Format，译为可移植文档格式)，是一种常用的电子文件格式，在多类型操作系统具有较高的通用性和兼容性，可保证文件传输过程中数据信息不被修改或不因为编码类型导致发生变化，因此PDF被作为一种文件信息传递的主流形式。PDF主要用于公司商务合同，承载了大量的文字内容，但由于扫描件PDF文件的图片内容局限，无法像word进行全文检索，因此需要提供一种能够对文字图片和图像型扫描件进行全文检索，提高业务人员在商务合同上进行检索出所需要内容的效率，随着业务开展范围的不断扩大，商务合同内容和数量也随之不断扩大，解决长本文图片和图像型扫描件无法检索的问题，因此本发明提出了一种对文字图片和图像型扫描件实现全文检索的解决方案，高效并准确高亮显示检索内容。

发明内容

针对文字图片与长文本图像型扫描件PDF页数和内容多，业务处理要求能够快速、准确检索出所需内容等问题，本发明实施的一个目的旨在提供一种对文字图片和图像型扫描件实现全文检索的方法及设备，其处理效果较为高效准确，并能在处理后系统可迭代优化，提高检索效率和准确率。

为解决上述技术问题，本发明提供以下技术方案：

一种对文字图片和图像型扫描件实现全文检索的方法，包括以下步骤：

S1：在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索系统；

S2:用户上传文字图片和图像型扫描件PDF到系统上；

S3：系统对上传的文字图片和图像型扫描件PDF进行预处理；

S4：通过基于深度学习的OCR文字识别子系统对文字图片和图像型扫描件的全文本进行文字区域行检测，计算出行检测的位置信息像素值并进行位置信息的记录，记录行区域的左上、右下两个坐标；

S5：通过基于深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别；

S6：通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析，根据分析结果完成视觉信息的全版面恢复，并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应；

S7：对步骤S4-S6的结果实现数据序列化，将数据以结构化形式输出为JSON格式数据，并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字；

S8：在页面检索框内输入待检索关键词，根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息，并以结构化形式向前端页面输出位置信息列表的JSON串；

S9：根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。

进一步的，所述步骤S1包括：多用户并发使用该系统上传文字图片或者图像型扫描件PDF开展全文检索。

进一步的，所述步骤S3预处理包括：使用印章去除、倾斜校正、噪音去除。

进一步的，所述步骤S4包括：所述文字图片和图像型扫描件PDF都是长文本，需要对长文本图像型扫描件进行逐页切分，实施每页文本行区域整体分析与定位，再进行所有页的行位置信息整合，分析计算出行高和行宽的起始坐标信息以及结束坐标信息。

进一步的，所述步骤S5包括：所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对，输出特征值相似度最高的文字内容。

进一步的，所述步骤S7包括：在前端页面展示所识别的文字包括相应的视觉信息。

一种对文字图片和图像型扫描件实现全文检索的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。

本发明提供的一种对文字图片和图像型扫描件实现全文检索的方法及设备，通过使用本方法能够准确、快速对文字图像或者长文本图像型扫描件PDF进行检索，提高业务人员在商务合同上进行检索出所需要内容的效率，解决长本文图片和图像型扫描件无法检索的问题，且检索准确率高。

附图说明

图1为本发明的实施例架构示意图。

图2为本发明实施例实施流程图。

图3为本发明实施例文本行区域检测结果示意图。

图4为本发明实施例深度学习处理结果示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

S2:用户上传文字图片和图像型扫描件PDF到系统上；

S3：系统对上传的文字图片和图像型扫描件PDF进行预处理；

进一步的，所述步骤S4包括：所述文字图片和图像型扫描件PDF都是长文本，需要对长文本图像型扫描件PDF进行逐页切分，实施每页文本行区域整体分析与定位，再进行所有页的行位置信息整合，分析计算出行高和行宽的起始坐标信息以及结束坐标信息。

实施例1

下面结合图1-图4对本发明的实施例进行详细的解释说明。

如图1至图2所示，一种对文字图片和图像型扫描件实现全文检索的方法，包括以下步骤：

步骤一：加载文字图片和图像型扫描件PDF全文检索系统，该系统运行加载在本地GPU服务器上；

步骤二：用户上传文字图片或图像型扫描件PDF到系统上；

步骤三：系统对用户上传的文字图片和图像型扫描文件PDF进行全量预处理，调用系统中图像算法完成扫描文件切页以及签章去除、倾斜纠正、噪音去除等算法实现预处理，预处理后图片作为后续基于深度学习的OCR文字识别子系统的高质量输入；

步骤四：如图3所示，通过使用基于深度学习的OCR文字识别子系统对预处理图片进行行检测，记录行高、行宽在原文件中的起始坐标信息和终点坐标信息，所有页面行区域坐标信息汇总形成整个文件的页码与行区域列表；

文字图片和图像型扫描件PDF都是长文本，需要对长文本图像型扫描件进行逐页切分，实施每页文本行区域整体分析与定位，再进行所有页的行位置信息整合，分析计算出行高和行宽的起始坐标信息以及结束坐标信息，记录行区域的左上、右下两个坐标；

步骤五：根据行区域列表开展逐页切分图片并通过深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别，所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对，输出特征值相似度最高的文字内容；

步骤六：通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析，根据分析结果完成视觉信息的全版面恢复，并把检索出的所有结果文字内容与行检测位置信息进行一一对应；

步骤七：对完成步骤四至六的文字图片或图像型扫描件PDF文件的结果实现数据序列化，将数据以结构化形式输出为JSON格式数据，并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字，以及包括展示所识别的文字的相应的视觉信息；

步骤八：在页面检索框内输入待检索关键词，根据步骤四至五的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息，并以结构化形式向前端页面输出位置信息列表的JSON串；

步骤九：根据步骤八的结果在前端页面显示的文字图片或者图像型扫描件PDF原文件上高亮显示出检索到的内容。

如图1所示，该系统为多用户并发使用，用户上传需要检索的文字图片或者图像型扫描件PDF文件以及所要检索的内容后，等待系统执行完毕该文字图片或者图像型扫描件PDF文件中所要检索的内容，并在全本高亮显示出检索内容，随后用户可以通过系统进行上一处、下一处查看相应的其他页的检索内容，本地化系统的实现可更好地满足用户数据安全性的需求。

例如，用户想在一个图像型扫描件PDF文件上检索某个关键词，首先通过结合附图2所示的流程图，用户先将图像型扫描件PDF文件上传至本地CPU服务器上加载图像型扫描件PDF全文检索系统，完成预处理，并通过基于深度学习的OCR文字识别子系统进行全文本的文字区域行检测，计算出行检测的位置信息像素值且进行位置信息的记录，同时通过基于深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别，再通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析，根据分析结果完成视觉信息的全版面恢复，并把检索出的所有结果文字内容与行检测位置信息进行一一对应，实现数据序列化，将数据以结构化形式输出为JSON格式数据，并在前端页面展示此图像型扫描件PDF文件；其后结合附图4所示，用户在图像型扫描件PDF文件的页面检索框内输入检索词“付息日”，前端页面的图像型扫描件PDF文件上高亮显示出检索词“付息日”，用户还可以通过图像型扫描件PDF文件的上一处、下一处查看相应的其他页的检索内容。

本发明提供的一种对文字图片和图像型扫描件实现全文检索的方法及设备，提高业务人员在商务合同上进行检索出所需要内容的效率，解决长本文图片和图像型扫描件无法检索的问题，且检索准确率高。

以上所述仅为本发明的实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种对文字图片和图像型扫描件实现全文检索的方法，其特征在于：包括以下步骤：

S2:用户上传文字图片和图像型扫描件PDF到系统上；

S3：系统对上传的文字图片和图像型扫描件PDF进行预处理；

S4：通过基于深度学习的OCR文字识别子系统对文字图片和图像型扫描件PDF的全文本进行文字区域行检测，计算出行检测的位置信息像素值并进行位置信息的记录，记录行区域的左上、右下两个坐标；

2.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法，其特征在于：所述步骤S1包括：多用户并发使用该系统上传文字图片或者图像型扫描件PDF开展全文检索。

3.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法，其特征在于：所述步骤S3预处理包括：使用印章去除、倾斜校正、噪音去除。

4.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法，其特征在于：所述步骤S4包括：所述文字图片和图像型扫描件PDF都是长文本文件，需要对长文本图像型扫描件PDF进行逐页切分，实施每页文本行区域整体分析与定位，再进行所有页的行位置信息整合，分析计算出行高和行宽的起始坐标信息以及结束坐标信息。

5.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法，其特征在于：所述步骤S5包括：所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对，输出特征值相似度最高的文字内容。

6.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法，其特征在于：所述步骤S7包括：在前端页面展示所识别的文字包括相应的视觉信息。

7.一种对文字图片和图像型扫描件实现全文检索的设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于：所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。