CN117809313A - 一种ocr文字提取的定位装置 - Google Patents
一种ocr文字提取的定位装置 Download PDFInfo
- Publication number
- CN117809313A CN117809313A CN202410225870.2A CN202410225870A CN117809313A CN 117809313 A CN117809313 A CN 117809313A CN 202410225870 A CN202410225870 A CN 202410225870A CN 117809313 A CN117809313 A CN 117809313A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- longitude
- ocr
- content
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000605 extraction Methods 0.000 title claims abstract description 22
- 238000006243 chemical reaction Methods 0.000 claims abstract description 14
- 238000000034 method Methods 0.000 claims description 7
- 238000009877 rendering Methods 0.000 claims description 7
- 239000000284 extract Substances 0.000 claims description 4
- 230000003044 adaptive effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/15—Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
Landscapes
- Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Character Input (AREA)
Abstract
本发明提出一种OCR文字提取的定位装置,包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块,本发明能够快速将图片中的文字快速的找到原有的位置,特别是在提取的文字内容出现重复的情况下也能够一一对应,能够使得提取遗漏、提取错误更容易被发现,减少了人工复核的工作量,当数字化文字提取被用来检验原文件的各种正确率时,由于内容与位置的绑定,文字有了位置的要求,减少因为文字内容的重复等原因导致的误判解决了文字识别因为排列不规则而导致的识别错误的问题,划分区域设置经纬度对每个文字设置位置坐标,减少了文字识别的错误,在图片中识别的每个文字均有对应的坐标,文字出现遗漏的时根据文字坐标快速查漏补缺。
Description
技术领域
本发明涉及OCR识别技术领域,特别涉及一种OCR文字提取的定位装置。
背景技术
OCR是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程;即,针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,并通过识别软件将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率,是OCR最重要的课题。衡量一个OCR系统性能好坏的主要指标有:拒识率、误识率、识别速度、用户界面的友好性,产品的稳定性,易用性及可行性等。
版式数据流文件对于扫描件、图片文字的提取使用截图再使用OCR工具进行识别,不便于保存记录,现有技术通过OCR工具识别的文字结果无法保存到文件不便于阅读,OCR识别到的文字结果和与文件中的位置进行恢复便于选中、搜索、复制等操作。
发明内容
本发明的目的在于提供一种OCR文字提取的定位装置,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:一种OCR文字提取的定位装置,其特征在于,包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块,所述文字内容辨别模块用于遍历文件,解析文件中每一页的内容描述文件,辨别出页面内容描述文件中存在的图像对象;
所述经纬度生成模块用于对获取的图像对象中的文字区域进行经纬度划分,确定每个文字的坐标位置;
所述OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取,并对图像中的文字内容进行识别;
所述文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置。
优选地,所述文字内容辨别模块辨别页面内容描述文件中是否存在图像对象时,当存在图像对象则获取图像对象指向的文件资源的路径地址,若不存在图像对象则解析下一页。
优选地,所述经纬度生成模块生成经纬度包括以下步骤:
步骤1:根据文字内容辨别模块检测文图像中存在的每个文字的位置,确定图像中的文字所在范围,将图片按照依据检测到的文字高度以及高度的行间距进行图片经度划分;
步骤2:获取每个经度度行中的文字位置的间隔进行纬度划分,将图像根据自身文字内容生成自适应的经纬度区域,根据每个文字检测到的文字位置可确定其所在对应的经纬度区域。
优选地,所述OCR转换服务模块识别文字内容包括以下步骤:
步骤1:分别截取检测到的文字位置所在图片;
步骤2:将文字内容按行输入到OCR引擎进行识别;
步骤3:将识别出文字内容信息分别输出。
优选地,所述OCR转换服务模块确认每个经纬度区域中所对应的文字内容,并将识别出文字内容信息和经纬度区域进行绑定。
优选地,所述文本位置对应模块计算文字的位置包括以下步骤:
步骤1:将每行文本中的文字内容信息和每行文本中的单个字的文本位置信息结合,获取每个文字内容对应的位置信息;
步骤2:根据图像对象所对应的图片的宽度和高度、在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高度计算两者之间的缩放比例;
步骤3:根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小结合步骤2计算出的缩放比例重新计算出文字的位置。
优选地,所述计算两者之间的缩放比例包括以下步骤:
步骤1:获取图像对象所对应的图片的宽度和高度,分别记为和;
步骤2:读取在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度
和高度,记为,;
步骤3:根据公式计算出缩放比例,其中、分别 为图片宽高的缩放比例。
优选地,所述计算文字位置的方法如下:假设文字在图片中识别的位置为表示为、、、,根据计算的图片宽高的缩放比例计算在阅读器中渲染的
位置,文字位置能够表示为,,,。
与现有技术相比,本发明的有益效果是:
(1)本发明能够快速将图片中的文字快速的找到原有的位置,特别是在提取的文字内容出现重复的情况下也能够一一对应,使得用户能够更为精准的获知其原始位置;
(2)由于数字化提取出的文字与原图片位置一一对应,能够使得提取遗漏、提取错误更容易被发现,减少了人工复核的工作量;
(3)当数字化文字提取被用来检验原文件的各种正确率时,由于内容与位置的绑定,文字有了位置的要求,减少因为文字内容的重复等原因导致的误判;
(4)解决了文字识别因为排列不规则而导致的识别错误的问题,划分区域设置经纬度对每个文字设置位置坐标,减少了文字识别的错误;
(5)本发明在图片中识别的每个文字均有对应的坐标,当识别文字内容出现遗漏的时根据文字坐标可以快速查漏补缺。
附图说明
图1为本发明的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚.完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
OCR文字提取的定位装置包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块,其中,文字内容辨别模块用于遍历文件,解析文件中每一页的内容描述文件,辨别出页面内容描述文件中存在的图像对象;
经纬度生成模块用于对获取的图像对象中的文字区域进行经纬度划分,确定每个文字的坐标位置;
OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取,并对图像中的文字内容进行识别;
文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置。
OCR文字提取的定位装置工作步骤如下:
步骤S1:选择需要提取文字的文件,OCR文字提取的定位装置通过文字内容辨别模块遍历文件,解析文件中每一页的内容描述文件,辨别出页面内容描述文件中存在的图像对象,辨别页面内容描述文件中是否存在图像对象时,当存在图像对象则获取图像对象指向的文件资源的路径地址,若不存在图像对象则解析下一页;
步骤S2:经纬度生成模块对获取的图像对象中的文字区域进行经纬度划分,,根据文字内容辨别模块检测文图像中存在的每个文字的位置,确定图像中的文字所在范围,将图片按照依据检测到的文字高度以及高度的行间距进行图片经度划分;
步骤S3:获取每个经度度行中的文字位置的间隔进行纬度划分,将图像根据自身文字内容生成自适应的经纬度区域,根据每个文字检测到的文字位置可确定其所在对应的经纬度区域,从而确定每个文字的坐标位置,划分区域设置经纬度对每个文字设置位置坐标,减少了文字识别的错误;
步骤S4:OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取,首先分别截取检测到的文字位置所在图片;
步骤S5:将文字内容按行输入到OCR转换服务模块中的OCR引擎进行识别;
步骤S6:OCR转换服务模块将识别出文字内容信息分别输出,确认每个经纬度区域中所对应的文字内容,并将识别出文字内容信息和经纬度区域进行绑定,内容与位置的绑定,文字有了位置的要求,减少因为文字内容的重复等原因导致的误判;
步骤S7:文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置,首先通过文本位置对应模块计算文字的位置,将每行文本中的文字内容信息和每行文本中的单个字的文本位置信息结合,获取每个文字内容对应的位置信息;
步骤S8:根据图像对象所对应的图片的宽度和高度、在页面内容描述文件中所设
置的对图片进行渲染展示的尺寸的宽度和高度计算两者之间的缩放比例,计算两者之间的
缩放比例首先获取图像对象所对应的图片的宽度和高度,分别记为获取图像对象所对应的
图片的宽度和高度,分别记为和;
然后读取在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和
高度,记为,;
根据公式计算出缩放比例,其中、分别
为图片宽高的缩放比例;
步骤S9:根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小结合步骤S8计算出的缩放比例重新计算出文字的位置,计算方法如下:
假设文字在图片中识别的位置为表示为、、、,根据计
算的图片宽高的缩放比例计算在阅读器中渲染的位置,文字位置能够表示为,,,。
本发明能够快速将图片中的文字快速的找到原有的位置,特别是在提取的文字内容出现重复的情况下也能够一一对应,使得用户能够更为精准的获知其原始位置;能够使得提取遗漏、提取错误更容易被发现,减少了人工复核的工作量,在图片中识别的每个文字均有对应的坐标,当识别文字内容出现遗漏的时根据文字坐标可以快速查漏补缺。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
Claims (8)
1.一种OCR文字提取的定位装置,其特征在于,包括文字内容辨别模块、经纬度生成模块、OCR转换服务模块、文本位置对应模块,所述文字内容辨别模块用于遍历文件,解析文件中每一页的内容描述文件,辨别出页面内容描述文件中存在的图像对象;
所述经纬度生成模块用于对获取的图像对象中的文字区域进行经纬度划分,确定每个文字的坐标位置;
所述OCR转换服务模块将经纬度生成模块中所确定的文字位置区域进行图像内容提取,并对图像中的文字内容进行识别;
所述文本位置对应模块根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小重新计算文字的位置。
2.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述文字内容辨别模块辨别页面内容描述文件中是否存在图像对象时,当存在图像对象则获取图像对象指向的文件资源的路径地址,若不存在图像对象则解析下一页。
3.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述经纬度生成模块生成经纬度包括以下步骤:
步骤1:根据文字内容辨别模块检测文图像中存在的每个文字的位置,确定图像中的文字所在范围,将图片按照依据检测到的文字高度以及高度的行间距进行图片经度划分;
步骤2:获取每个经度度行中的文字位置的间隔进行纬度划分,将图像根据自身文字内容生成自适应的经纬度区域,根据每个文字检测到的文字位置可确定其所在对应的经纬度区域。
4.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述OCR转换服务模块识别文字内容包括以下步骤:
步骤1:分别截取检测到的文字位置所在图片;
步骤2:将文字内容按行输入到OCR引擎进行识别;
步骤3:将识别出文字内容信息分别输出。
5.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述OCR转换服务模块确认每个经纬度区域中所对应的文字内容,并将识别出文字内容信息和经纬度区域进行绑定。
6.根据权利要求1所述的一种OCR文字提取的定位装置,其特征在于:所述文本位置对应模块计算文字的位置包括以下步骤:
步骤1:将每行文本中的文字内容信息和每行文本中的单个字的文本位置信息结合,获取每个文字内容对应的位置信息;
步骤2:根据图像对象所对应的图片的宽度和高度、在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高度计算两者之间的缩放比例;
步骤3:根据识别引擎识别到的图片中的文字位置以及图片对应的图像对象的大小结合步骤2计算出的缩放比例重新计算出文字的位置。
7.根据权利要求6所述的一种OCR文字提取的定位装置,其特征在于:所述计算两者之间的缩放比例包括以下步骤:
步骤1:获取图像对象所对应的图片的宽度和高度,分别记为和;
步骤2:读取在页面内容描述文件中所设置的对图片进行渲染展示的尺寸的宽度和高
度,记为,;
步骤3:根据公式计算出缩放比例,其中、分
别 为图片宽高的缩放比例。
8.根据权利要求6所述的一种OCR文字提取的定位装置,其特征在于:所述计算文字位
置的方法如下:假设文字在图片中识别的位置为表示为、、、,
根据计算的图片宽高的缩放比例计算在阅读器中渲染的位置,文字位置能够表示为,,,。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410225870.2A CN117809313A (zh) | 2024-02-29 | 2024-02-29 | 一种ocr文字提取的定位装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410225870.2A CN117809313A (zh) | 2024-02-29 | 2024-02-29 | 一种ocr文字提取的定位装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117809313A true CN117809313A (zh) | 2024-04-02 |
Family
ID=90423811
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410225870.2A Pending CN117809313A (zh) | 2024-02-29 | 2024-02-29 | 一种ocr文字提取的定位装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117809313A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111263111A (zh) * | 2020-01-17 | 2020-06-09 | 中国水产科学研究院东海水产研究所 | 一种基于监控视频的延绳钓捕捞信息提取系统 |
CN114430477A (zh) * | 2022-02-11 | 2022-05-03 | 北京星天地信息科技有限公司 | 一种适用于地图符号与注记的跨网传输、融合的方法 |
CN116774973A (zh) * | 2023-06-28 | 2023-09-19 | 中国平安财产保险股份有限公司 | 数据渲染方法、装置、计算机设备及存储介质 |
CN117197792A (zh) * | 2023-08-02 | 2023-12-08 | 浙江方大智控科技有限公司 | 路灯铭牌识别定位方法及系统 |
-
2024
- 2024-02-29 CN CN202410225870.2A patent/CN117809313A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111263111A (zh) * | 2020-01-17 | 2020-06-09 | 中国水产科学研究院东海水产研究所 | 一种基于监控视频的延绳钓捕捞信息提取系统 |
CN114430477A (zh) * | 2022-02-11 | 2022-05-03 | 北京星天地信息科技有限公司 | 一种适用于地图符号与注记的跨网传输、融合的方法 |
CN116774973A (zh) * | 2023-06-28 | 2023-09-19 | 中国平安财产保险股份有限公司 | 数据渲染方法、装置、计算机设备及存储介质 |
CN117197792A (zh) * | 2023-08-02 | 2023-12-08 | 浙江方大智控科技有限公司 | 路灯铭牌识别定位方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111507251B (zh) | 试题图像中作答区域的定位方法、装置、电子设备及计算机存储介质 | |
US10339378B2 (en) | Method and apparatus for finding differences in documents | |
TWI536277B (zh) | Form identification method and device | |
CN109657665A (zh) | 一种基于深度学习的发票批量自动识别系统 | |
US8584932B2 (en) | Information input/output apparatus, information processing apparatus, information input/output system, printing medium, and information input/output method | |
TW201617971A (zh) | 資訊識別方法及裝置 | |
CN112926469B (zh) | 基于深度学习ocr与版面结构的证件识别方法 | |
CN111931771B (zh) | 票据内容识别方法、装置、介质及电子设备 | |
US20080218812A1 (en) | Metadata image processing | |
US9396389B2 (en) | Techniques for detecting user-entered check marks | |
AU2006235826A1 (en) | Image processing device, image processing method, and storage medium storing image processing program | |
CN112084748A (zh) | 一种文本比对方法 | |
CN114445841A (zh) | 纳税申报表识别方法和装置 | |
JP6578858B2 (ja) | 情報処理装置及びプログラム | |
CN115147855A (zh) | 票据进行批量ocr识别方法及系统 | |
CN117809313A (zh) | 一种ocr文字提取的定位装置 | |
WO2014086266A1 (zh) | 一种方便电子化的专业笔记本及其电子缩略图显示方法 | |
CN111611986B (zh) | 一种基于手指交互的焦点文本提取和识别方法及系统 | |
JP4247190B2 (ja) | 二次元コード認識装置とそのプログラム | |
JP4160206B2 (ja) | 文字認識装置を利用したデータベース登録方法 | |
JP2009223612A (ja) | 画像認識装置及びプログラム | |
CN112765646A (zh) | 一种艺术测评中书画录入及匿名阅卷方法及系统 | |
JP4741363B2 (ja) | 画像処理装置、画像処理方法、及び、画像処理プログラム | |
JP6682827B2 (ja) | 情報処理装置及び情報処理プログラム | |
Nugawela et al. | Algorithmically Navigating Complex Tabular Structures in Images for Information Extraction |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |