CN117809313A

CN117809313A - 一种ocr文字提取的定位装置

Info

Publication number: CN117809313A
Application number: CN202410225870.2A
Authority: CN
Inventors: 严伟; 何中; 朱聪聪; 蒋烽; 顾志平; 戴健峰
Original assignee: Jiangsu Zhongwei Technology Software System Co ltd
Current assignee: Jiangsu Zhongwei Technology Software System Co ltd
Priority date: 2024-02-29
Filing date: 2024-02-29
Publication date: 2024-04-02

Abstract

本发明提出一种OCR文字提取的定位装置，包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块，本发明能够快速将图片中的文字快速的找到原有的位置，特别是在提取的文字内容出现重复的情况下也能够一一对应，能够使得提取遗漏、提取错误更容易被发现，减少了人工复核的工作量，当数字化文字提取被用来检验原文件的各种正确率时，由于内容与位置的绑定，文字有了位置的要求，减少因为文字内容的重复等原因导致的误判解决了文字识别因为排列不规则而导致的识别错误的问题，划分区域设置经纬度对每个文字设置位置坐标，减少了文字识别的错误，在图片中识别的每个文字均有对应的坐标，文字出现遗漏的时根据文字坐标快速查漏补缺。

Description

一种OCR文字提取的定位装置

技术领域

本发明涉及OCR识别技术领域，特别涉及一种OCR文字提取的定位装置。

背景技术

OCR是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

版式数据流文件对于扫描件、图片文字的提取使用截图再使用OCR工具进行识别，不便于保存记录，现有技术通过OCR工具识别的文字结果无法保存到文件不便于阅读，OCR识别到的文字结果和与文件中的位置进行恢复便于选中、搜索、复制等操作。

发明内容

本发明的目的在于提供一种OCR文字提取的定位装置，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种OCR文字提取的定位装置，其特征在于，包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块，所述文字内容辨别模块用于遍历文件，解析文件中每一页的内容描述文件，辨别出页面内容描述文件中存在的图像对象；

所述经纬度生成模块用于对获取的图像对象中的文字区域进行经纬度划分，确定每个文字的坐标位置；

所述OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取，并对图像中的文字内容进行识别；

所述文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置。

优选地，所述文字内容辨别模块辨别页面内容描述文件中是否存在图像对象时，当存在图像对象则获取图像对象指向的文件资源的路径地址，若不存在图像对象则解析下一页。

优选地，所述经纬度生成模块生成经纬度包括以下步骤：

步骤1：根据文字内容辨别模块检测文图像中存在的每个文字的位置，确定图像中的文字所在范围，将图片按照依据检测到的文字高度以及高度的行间距进行图片经度划分；

步骤2：获取每个经度度行中的文字位置的间隔进行纬度划分，将图像根据自身文字内容生成自适应的经纬度区域，根据每个文字检测到的文字位置可确定其所在对应的经纬度区域。

优选地，所述OCR转换服务模块识别文字内容包括以下步骤：

步骤1：分别截取检测到的文字位置所在图片；

步骤2：将文字内容按行输入到OCR引擎进行识别；

步骤3：将识别出文字内容信息分别输出。

优选地，所述OCR转换服务模块确认每个经纬度区域中所对应的文字内容，并将识别出文字内容信息和经纬度区域进行绑定。

优选地，所述文本位置对应模块计算文字的位置包括以下步骤：

步骤1：将每行文本中的文字内容信息和每行文本中的单个字的文本位置信息结合，获取每个文字内容对应的位置信息；

步骤2：根据图像对象所对应的图片的宽度和高度、在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高度计算两者之间的缩放比例；

步骤3：根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小结合步骤2计算出的缩放比例重新计算出文字的位置。

优选地，所述计算两者之间的缩放比例包括以下步骤：

步骤1：获取图像对象所对应的图片的宽度和高度，分别记为和；

步骤2：读取在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高度，记为，；

步骤3：根据公式计算出缩放比例，其中、分别为图片宽高的缩放比例。

优选地，所述计算文字位置的方法如下：假设文字在图片中识别的位置为表示为、、、，根据计算的图片宽高的缩放比例计算在阅读器中渲染的位置，文字位置能够表示为，，，。

与现有技术相比，本发明的有益效果是：

（1）本发明能够快速将图片中的文字快速的找到原有的位置，特别是在提取的文字内容出现重复的情况下也能够一一对应，使得用户能够更为精准的获知其原始位置；

（2）由于数字化提取出的文字与原图片位置一一对应，能够使得提取遗漏、提取错误更容易被发现，减少了人工复核的工作量；

（3）当数字化文字提取被用来检验原文件的各种正确率时，由于内容与位置的绑定，文字有了位置的要求，减少因为文字内容的重复等原因导致的误判；

（4）解决了文字识别因为排列不规则而导致的识别错误的问题，划分区域设置经纬度对每个文字设置位置坐标，减少了文字识别的错误；

（5）本发明在图片中识别的每个文字均有对应的坐标，当识别文字内容出现遗漏的时根据文字坐标可以快速查漏补缺。

附图说明

图1为本发明的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚.完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

OCR文字提取的定位装置包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块，其中，文字内容辨别模块用于遍历文件，解析文件中每一页的内容描述文件，辨别出页面内容描述文件中存在的图像对象；

经纬度生成模块用于对获取的图像对象中的文字区域进行经纬度划分，确定每个文字的坐标位置；

OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取，并对图像中的文字内容进行识别；

文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置。

OCR文字提取的定位装置工作步骤如下：

步骤S1：选择需要提取文字的文件，OCR文字提取的定位装置通过文字内容辨别模块遍历文件，解析文件中每一页的内容描述文件，辨别出页面内容描述文件中存在的图像对象，辨别页面内容描述文件中是否存在图像对象时，当存在图像对象则获取图像对象指向的文件资源的路径地址，若不存在图像对象则解析下一页；

步骤S2：经纬度生成模块对获取的图像对象中的文字区域进行经纬度划分，，根据文字内容辨别模块检测文图像中存在的每个文字的位置，确定图像中的文字所在范围，将图片按照依据检测到的文字高度以及高度的行间距进行图片经度划分；

步骤S3：获取每个经度度行中的文字位置的间隔进行纬度划分，将图像根据自身文字内容生成自适应的经纬度区域，根据每个文字检测到的文字位置可确定其所在对应的经纬度区域，从而确定每个文字的坐标位置，划分区域设置经纬度对每个文字设置位置坐标，减少了文字识别的错误；

步骤S4：OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取，首先分别截取检测到的文字位置所在图片；

步骤S5：将文字内容按行输入到OCR转换服务模块中的OCR引擎进行识别；

步骤S6：OCR转换服务模块将识别出文字内容信息分别输出，确认每个经纬度区域中所对应的文字内容，并将识别出文字内容信息和经纬度区域进行绑定，内容与位置的绑定，文字有了位置的要求，减少因为文字内容的重复等原因导致的误判；

步骤S7：文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置，首先通过文本位置对应模块计算文字的位置，将每行文本中的文字内容信息和每行文本中的单个字的文本位置信息结合，获取每个文字内容对应的位置信息；

步骤S8：根据图像对象所对应的图片的宽度和高度、在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高度计算两者之间的缩放比例，计算两者之间的缩放比例首先获取图像对象所对应的图片的宽度和高度，分别记为获取图像对象所对应的图片的宽度和高度，分别记为和；

然后读取在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高度，记为，；

根据公式计算出缩放比例，其中、分别为图片宽高的缩放比例；

步骤S9：根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小结合步骤S8计算出的缩放比例重新计算出文字的位置，计算方法如下：

假设文字在图片中识别的位置为表示为、、、，根据计算的图片宽高的缩放比例计算在阅读器中渲染的位置，文字位置能够表示为，，，。

本发明能够快速将图片中的文字快速的找到原有的位置，特别是在提取的文字内容出现重复的情况下也能够一一对应，使得用户能够更为精准的获知其原始位置；能够使得提取遗漏、提取错误更容易被发现，减少了人工复核的工作量，在图片中识别的每个文字均有对应的坐标，当识别文字内容出现遗漏的时根据文字坐标可以快速查漏补缺。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims

1.一种OCR文字提取的定位装置，其特征在于，包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块，所述文字内容辨别模块用于遍历文件，解析文件中每一页的内容描述文件，辨别出页面内容描述文件中存在的图像对象；

2.根据权利要求1所述的一种OCR文字提取的定位装置，其特征在于：所述文字内容辨别模块辨别页面内容描述文件中是否存在图像对象时，当存在图像对象则获取图像对象指向的文件资源的路径地址，若不存在图像对象则解析下一页。

3.根据权利要求1所述的一种OCR文字提取的定位装置，其特征在于：所述经纬度生成模块生成经纬度包括以下步骤：

4.根据权利要求1所述的一种OCR文字提取的定位装置，其特征在于：所述OCR转换服务模块识别文字内容包括以下步骤：

步骤1：分别截取检测到的文字位置所在图片；

步骤2：将文字内容按行输入到OCR引擎进行识别；

步骤3：将识别出文字内容信息分别输出。

5.根据权利要求1所述的一种OCR文字提取的定位装置，其特征在于：所述OCR转换服务模块确认每个经纬度区域中所对应的文字内容，并将识别出文字内容信息和经纬度区域进行绑定。

6.根据权利要求1所述的一种OCR文字提取的定位装置，其特征在于：所述文本位置对应模块计算文字的位置包括以下步骤：

7.根据权利要求6所述的一种OCR文字提取的定位装置，其特征在于：所述计算两者之间的缩放比例包括以下步骤：

8.根据权利要求6所述的一种OCR文字提取的定位装置，其特征在于：所述计算文字位置的方法如下：假设文字在图片中识别的位置为表示为、、、，根据计算的图片宽高的缩放比例计算在阅读器中渲染的位置，文字位置能够表示为，，，。