CN113806472A - 一种对文字图片和图像型扫描件实现全文检索的方法及设备 - Google Patents
一种对文字图片和图像型扫描件实现全文检索的方法及设备 Download PDFInfo
- Publication number
- CN113806472A CN113806472A CN202010555019.8A CN202010555019A CN113806472A CN 113806472 A CN113806472 A CN 113806472A CN 202010555019 A CN202010555019 A CN 202010555019A CN 113806472 A CN113806472 A CN 113806472A
- Authority
- CN
- China
- Prior art keywords
- text
- picture
- type scanning
- image type
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 29
- 230000000007 visual effect Effects 0.000 claims description 19
- 238000001514 detection method Methods 0.000 claims description 15
- 238000013135 deep learning Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 4
- 238000012937 correction Methods 0.000 claims description 4
- 230000010354 integration Effects 0.000 claims description 4
- 238000007781 pre-processing Methods 0.000 claims description 4
- 238000011084 recovery Methods 0.000 claims description 4
- 239000013598 vector Substances 0.000 claims description 4
- 238000012545 processing Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Character Discrimination (AREA)
Abstract
本发明涉及文档处理领域,公开了一种对文字图片和图像型扫描件实现全文检索的方法及设备,本地GPU服务器上加载文字图片和图像型扫描件全文检索系统,用户上传待全文检索的文字图片或者长文本图像型PDF格式扫描件文档,系统采用基于深度学技术的OCR文字识别子系统、视觉信息分析算法,然后用户输入待检索的关键词,最后文字图片和长文本图像型PDF扫描件上高亮显示出关键词,系统支持上一处、下一处查看检索结果。本发明通过使用本方法能够准确、快速对文字图像或者长文本图像型PDF扫描件进行全文检索。
Description
技术领域
本发明涉及文档处理领域,尤其涉及一种对文字图片和图像型扫描件实现全文检索的方法及设备。
背景技术
PDF(Portable Document Format,译为可移植文档格式),是一种常用的电子文件格式,在多类型操作系统具有较高的通用性和兼容性,可保证文件传输过程中数据信息不被修改或不因为编码类型导致发生变化,因此PDF被作为一种文件信息传递的主流形式。PDF主要用于公司商务合同,承载了大量的文字内容,但由于扫描件PDF文件的图片内容局限,无法像word进行全文检索,因此需要提供一种能够对文字图片和图像型扫描件进行全文检索,提高业务人员在商务合同上进行检索出所需要内容的效率,随着业务开展范围的不断扩大,商务合同内容和数量也随之不断扩大,解决长本文图片和图像型扫描件无法检索的问题,因此本发明提出了一种对文字图片和图像型扫描件实现全文检索的解决方案,高效并准确高亮显示检索内容。
发明内容
针对文字图片与长文本图像型扫描件PDF页数和内容多,业务处理要求能够快速、准确检索出所需内容等问题,本发明实施的一个目的旨在提供一种对文字图片和图像型扫描件实现全文检索的方法及设备,其处理效果较为高效准确,并能在处理后系统可迭代优化,提高检索效率和准确率。
为解决上述技术问题,本发明提供以下技术方案:
一种对文字图片和图像型扫描件实现全文检索的方法,包括以下步骤:
S1:在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索系统;
S2:用户上传文字图片和图像型扫描件PDF到系统上;
S3:系统对上传的文字图片和图像型扫描件PDF进行预处理;
S4:通过基于深度学习的OCR文字识别子系统对文字图片和图像型扫描件的全文本进行文字区域行检测,计算出行检测的位置信息像素值并进行位置信息的记录,记录行区域的左上、右下两个坐标;
S5:通过基于深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别;
S6:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应;
S7:对步骤S4-S6的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字;
S8:在页面检索框内输入待检索关键词,根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
S9:根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。
进一步的,所述步骤S1包括:多用户并发使用该系统上传文字图片或者图像型扫描件PDF开展全文检索。
进一步的,所述步骤S3预处理包括:使用印章去除、倾斜校正、噪音去除。
进一步的,所述步骤S4包括:所述文字图片和图像型扫描件PDF都是长文本,需要对长文本图像型扫描件进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息。
进一步的,所述步骤S5包括:所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容。
进一步的,所述步骤S7包括:在前端页面展示所识别的文字包括相应的视觉信息。
一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
本发明提供的一种对文字图片和图像型扫描件实现全文检索的方法及设备,通过使用本方法能够准确、快速对文字图像或者长文本图像型扫描件PDF进行检索,提高业务人员在商务合同上进行检索出所需要内容的效率,解决长本文图片和图像型扫描件无法检索的问题,且检索准确率高。
附图说明
图1为本发明的实施例架构示意图。
图2为本发明实施例实施流程图。
图3为本发明实施例文本行区域检测结果示意图。
图4为本发明实施例深度学习处理结果示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种对文字图片和图像型扫描件实现全文检索的方法,包括以下步骤:
S1:在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索系统;
S2:用户上传文字图片和图像型扫描件PDF到系统上;
S3:系统对上传的文字图片和图像型扫描件PDF进行预处理;
S4:通过基于深度学习的OCR文字识别子系统对文字图片和图像型扫描件的全文本进行文字区域行检测,计算出行检测的位置信息像素值并进行位置信息的记录,记录行区域的左上、右下两个坐标;
S5:通过基于深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别;
S6:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应;
S7:对步骤S4-S6的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字;
S8:在页面检索框内输入待检索关键词,根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
S9:根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。
进一步的,所述步骤S1包括:多用户并发使用该系统上传文字图片或者图像型扫描件PDF开展全文检索。
进一步的,所述步骤S3预处理包括:使用印章去除、倾斜校正、噪音去除。
进一步的,所述步骤S4包括:所述文字图片和图像型扫描件PDF都是长文本,需要对长文本图像型扫描件PDF进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息。
进一步的,所述步骤S5包括:所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容。
进一步的,所述步骤S7包括:在前端页面展示所识别的文字包括相应的视觉信息。
一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
实施例1
下面结合图1-图4对本发明的实施例进行详细的解释说明。
如图1至图2所示,一种对文字图片和图像型扫描件实现全文检索的方法,包括以下步骤:
步骤一:加载文字图片和图像型扫描件PDF全文检索系统,该系统运行加载在本地GPU服务器上;
步骤二:用户上传文字图片或图像型扫描件PDF到系统上;
步骤三:系统对用户上传的文字图片和图像型扫描文件PDF进行全量预处理,调用系统中图像算法完成扫描文件切页以及签章去除、倾斜纠正、噪音去除等算法实现预处理,预处理后图片作为后续基于深度学习的OCR文字识别子系统的高质量输入;
步骤四:如图3所示,通过使用基于深度学习的OCR文字识别子系统对预处理图片进行行检测,记录行高、行宽在原文件中的起始坐标信息和终点坐标信息,所有页面行区域坐标信息汇总形成整个文件的页码与行区域列表;
文字图片和图像型扫描件PDF都是长文本,需要对长文本图像型扫描件进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息,记录行区域的左上、右下两个坐标;
步骤五:根据行区域列表开展逐页切分图片并通过深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别,所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容;
步骤六:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测位置信息进行一一对应;
步骤七:对完成步骤四至六的文字图片或图像型扫描件PDF文件的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字,以及包括展示所识别的文字的相应的视觉信息;
步骤八:在页面检索框内输入待检索关键词,根据步骤四至五的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
步骤九:根据步骤八的结果在前端页面显示的文字图片或者图像型扫描件PDF原文件上高亮显示出检索到的内容。
如图1所示,该系统为多用户并发使用,用户上传需要检索的文字图片或者图像型扫描件PDF文件以及所要检索的内容后,等待系统执行完毕该文字图片或者图像型扫描件PDF文件中所要检索的内容,并在全本高亮显示出检索内容,随后用户可以通过系统进行上一处、下一处查看相应的其他页的检索内容,本地化系统的实现可更好地满足用户数据安全性的需求。
例如,用户想在一个图像型扫描件PDF文件上检索某个关键词,首先通过结合附图2所示的流程图,用户先将图像型扫描件PDF文件上传至本地CPU服务器上加载图像型扫描件PDF全文检索系统,完成预处理,并通过基于深度学习的OCR文字识别子系统进行全文本的文字区域行检测,计算出行检测的位置信息像素值且进行位置信息的记录,同时通过基于深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别,再通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测位置信息进行一一对应,实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示此图像型扫描件PDF文件;其后结合附图4所示,用户在图像型扫描件PDF文件的页面检索框内输入检索词“付息日”,前端页面的图像型扫描件PDF文件上高亮显示出检索词“付息日”,用户还可以通过图像型扫描件PDF文件的上一处、下一处查看相应的其他页的检索内容。
一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
本发明提供的一种对文字图片和图像型扫描件实现全文检索的方法及设备,提高业务人员在商务合同上进行检索出所需要内容的效率,解决长本文图片和图像型扫描件无法检索的问题,且检索准确率高。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (7)
1.一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:包括以下步骤:
S1:在本地GPU服务器上加载文字图片和图像型扫描件PDF全文检索系统;
S2:用户上传文字图片和图像型扫描件PDF到系统上;
S3:系统对上传的文字图片和图像型扫描件PDF进行预处理;
S4:通过基于深度学习的OCR文字识别子系统对文字图片和图像型扫描件PDF的全文本进行文字区域行检测,计算出行检测的位置信息像素值并进行位置信息的记录,记录行区域的左上、右下两个坐标;
S5:通过基于深度学习的OCR文字识别子系统对所有行区域内的文字内容进行识别;
S6:通过视觉信息算法对行区域内的文字进行字体、字号等视觉信息进行分析,根据分析结果完成视觉信息的全版面恢复,并把检索出的所有结果文字内容与行检测区域位置信息进行一一对应;
S7:对步骤S4-S6的结果实现数据序列化,将数据以结构化形式输出为JSON格式数据,并在前端页面展示文字图片或者图像型扫描件原文件PDF以及所识别的文字;
S8:在页面检索框内输入待检索关键词,根据步骤S4-S5的结果计算分析出待检索关键词在文字图片或者图像型扫描件原文件PDF中的所有位置信息,并以结构化形式向前端页面输出位置信息列表的JSON串;
S9:根据S8的结果在前端页面显示的文字图片或者图像型扫描件原文件PDF上高亮显示出检索到的内容。
2.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S1包括:多用户并发使用该系统上传文字图片或者图像型扫描件PDF开展全文检索。
3.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S3预处理包括:使用印章去除、倾斜校正、噪音去除。
4.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S4包括:所述文字图片和图像型扫描件PDF都是长文本文件,需要对长文本图像型扫描件PDF进行逐页切分,实施每页文本行区域整体分析与定位,再进行所有页的行位置信息整合,分析计算出行高和行宽的起始坐标信息以及结束坐标信息。
5.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S5包括:所有行区域图片通过与训练好的OCR文字识别模型进行特征向量比对,输出特征值相似度最高的文字内容。
6.根据权利要求1所述的一种对文字图片和图像型扫描件实现全文检索的方法,其特征在于:所述步骤S7包括:在前端页面展示所识别的文字包括相应的视觉信息。
7.一种对文字图片和图像型扫描件实现全文检索的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于:所述处理器执行所述程序时实现如上述对文字图片和图像型扫描件实现全文检索的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555019.8A CN113806472B (zh) | 2020-06-17 | 2020-06-17 | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010555019.8A CN113806472B (zh) | 2020-06-17 | 2020-06-17 | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113806472A true CN113806472A (zh) | 2021-12-17 |
CN113806472B CN113806472B (zh) | 2023-12-26 |
Family
ID=78892683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010555019.8A Active CN113806472B (zh) | 2020-06-17 | 2020-06-17 | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113806472B (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114610777A (zh) * | 2022-03-06 | 2022-06-10 | 浙江数秦科技有限公司 | 基于区块链的民生档案智慧管理系统 |
CN114724152A (zh) * | 2022-02-22 | 2022-07-08 | 深圳职业技术学院 | 面向图像形式的海运提单解析方法、装置及设备 |
CN115952278A (zh) * | 2023-03-14 | 2023-04-11 | 北京有生博大软件股份有限公司 | 一种基于关键词定位的版式文件高亮方法及高亮系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464903A (zh) * | 2009-01-09 | 2009-06-24 | 江阴明伦科技有限公司 | 一种利用web方式进行OCR图文识别检索方法和系统 |
JP2011170392A (ja) * | 2009-11-30 | 2011-09-01 | Int Kk | 画像検索システム、画像検索方法および画像検索プログラム |
CN108897862A (zh) * | 2018-07-02 | 2018-11-27 | 广东飞企互联科技股份有限公司 | 一种基于政府公文图片检索方法及系统 |
-
2020
- 2020-06-17 CN CN202010555019.8A patent/CN113806472B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101464903A (zh) * | 2009-01-09 | 2009-06-24 | 江阴明伦科技有限公司 | 一种利用web方式进行OCR图文识别检索方法和系统 |
JP2011170392A (ja) * | 2009-11-30 | 2011-09-01 | Int Kk | 画像検索システム、画像検索方法および画像検索プログラム |
CN108897862A (zh) * | 2018-07-02 | 2018-11-27 | 广东飞企互联科技股份有限公司 | 一种基于政府公文图片检索方法及系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114724152A (zh) * | 2022-02-22 | 2022-07-08 | 深圳职业技术学院 | 面向图像形式的海运提单解析方法、装置及设备 |
CN114610777A (zh) * | 2022-03-06 | 2022-06-10 | 浙江数秦科技有限公司 | 基于区块链的民生档案智慧管理系统 |
CN115952278A (zh) * | 2023-03-14 | 2023-04-11 | 北京有生博大软件股份有限公司 | 一种基于关键词定位的版式文件高亮方法及高亮系统 |
Also Published As
Publication number | Publication date |
---|---|
CN113806472B (zh) | 2023-12-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11514698B2 (en) | Intelligent extraction of information from a document | |
US7801358B2 (en) | Methods and systems for analyzing data in media material having layout | |
US9613267B2 (en) | Method and system of extracting label:value data from a document | |
US8254681B1 (en) | Display of document image optimized for reading | |
US8290269B2 (en) | Image document processing device, image document processing method, program, and storage medium | |
KR20190123790A (ko) | 전자 문서로부터 데이터 추출 | |
JP4347677B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP4461769B2 (ja) | 文書検索・閲覧手法及び文書検索・閲覧装置 | |
JPS61267177A (ja) | 文書画像追加情報の蓄積方法 | |
US20130060786A1 (en) | Text-based searching of image data | |
US20110043869A1 (en) | Information processing system, its method and program | |
US8208737B1 (en) | Methods and systems for identifying captions in media material | |
CN113806472A (zh) | 一种对文字图片和图像型扫描件实现全文检索的方法及设备 | |
CN111310426A (zh) | 基于ocr的表格版式恢复方法、装置及存储介质 | |
KR19990036515A (ko) | 문자 인식/수정 방법 및 장치 | |
US9798711B2 (en) | Method and system for generating a graphical organization of a page | |
US9672438B2 (en) | Text parsing in complex graphical images | |
CN116225956A (zh) | 自动化测试方法、装置、计算机设备和存储介质 | |
JP4347675B2 (ja) | 帳票ocrプログラム、方法及び装置 | |
JP2021140831A (ja) | 帳票画像処理システム、帳票画像処理方法、および帳票画像処理プログラム | |
US20210042555A1 (en) | Information Processing Apparatus and Table Recognition Method | |
Gupta et al. | Table detection and metadata extraction in document images | |
Alzuru et al. | Cooperative human-machine data extraction from biological collections | |
JP2000259847A (ja) | 情報検索方法、装置および記録媒体 | |
WO2021117128A1 (ja) | 帳票画像処理システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |