CN114463758A - 一种保留原生内容的ocr双层文件生成方法 - Google Patents
一种保留原生内容的ocr双层文件生成方法 Download PDFInfo
- Publication number
- CN114463758A CN114463758A CN202210109987.5A CN202210109987A CN114463758A CN 114463758 A CN114463758 A CN 114463758A CN 202210109987 A CN202210109987 A CN 202210109987A CN 114463758 A CN114463758 A CN 114463758A
- Authority
- CN
- China
- Prior art keywords
- file
- layer
- ocr
- content
- current page
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Character Discrimination (AREA)
Abstract
本发明公开了一种保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:对原生文件进行计算、光学字符识别及存储;获取待使用文件,记录文件id;根据所述文件id与页码,读取对应的光学字符识别结果;根据用户需求,返回不同类型结果。通过单独存储版式文件格式信息和OCR结果信息,在不改变原始数据内容的前提下提供“双层”版式文件的使用,并且能灵活控制输出“双层”版式文件、“单文字层”版式文件和原生文件,从而不改变原始数据内容,原生文件原有的电子签名以及区块链信息等都不会改变,保证了数据的安全性和可靠性。
Description
技术领域
本发明涉及文件处理技术领域,具体来说,涉及一种保留原生内容的OCR双层文件生成方法。
背景技术
近年来,数字经济快速发展成为中国经济发展的新动能,越来越多的数据通过网络交换并保存。版式文档是网络时代的“数字纸张”,指区别于流式文档,在跨平台、多系统下维持固定模式的办公文档,如pdf,ofd等。随着数字经济的成熟化发展,企业对数据信息安全的重视程度不断上升。对版式文件进行电子签名,区块链等安全相关技术飞速发展。
已存在的电子数据(文件)中,有很大一部分是图片形式,而对数据进行进一步处理,分析,应用的计算机程序(如搜索引擎,数据分析,OA系统等等)大部分主要使用的是文本信息,OCR技术应运而生。OCR,光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。亦即将图像中的文字进行识别,并以文本的形式返回。
传统技术下OCR流程为,扫描版式文件内容,生成文本信息,然后在原版式文件基础上,加一层透明文字层,将文本信息结果按照识别的符号位置对原图像层进行遮罩。这样就形成”双层“文件,底层是原数据层(图像),上层是透明文字层,人或程序使用时,主要通过文字层直接抽取相关文本信息使用。这种方式很好的解决了图像文件的后续程序难以分析的问题,但同时也引入了一个致命的安全问题:这种做法从数据层面改变了原生文件数据,数据合法性无法得到保障,如果原文件有电子签名或使用区块链记录,均会导致文件验证不通过,原生文件的合法性完全丧失。
针对相关技术中的问题,目前尚未提出有效的解决方案。
发明内容
针对相关技术中的问题,本发明提出一种保留原生内容的OCR双层文件生成方法,以克服现有相关技术所存在的上述技术问题。
为此,本发明采用的具体技术方案如下:
一种保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:
对原生文件进行计算、光学字符识别(OCR)及存储;
获取待使用文件,记录文件id(fileId);
根据所述文件的id与页码,读取对应的OCR结果;
根据用户需求,返回不同类型结果。
进一步的,所述对原生文件进行计算、OCR及存储包括以下步骤:
从数据库种读取文件id;
按顺序抽取原生文件中的每一个页面;
识别并记录当前页面内容的版式,保存入库;
对当前页面内容进行OCR,保存入库;
合并识别结果与OCR结果;
若原生文件存在下一页,则继续进行页面识别与OCR。
进一步的,所述当前页面的版式包括当前页面的页码、宽及高。
进一步的,所述对当前页面内容进行OCR包括以下步骤:
利用场景文字识别(EAST)算法对当前页面内容进行文字检测;
使用卷积神经网络(CNN)与时序类分类网络模型(CTC)结合的卷积网络进行当前页面内容的文字识别。
进一步的,所述利用EAST算法对当前页面内容进行文字检测包括以下步骤:
使用卷积网络模型将当前页面提取四个级别的特征图;
通过上采样、串联及卷积方法进行逐层合并得到合并特征图;
输出单通道的分数特征图和多通道的几何特征图。
进一步的,所述卷积网络模型包括目标检测(PVANet)模型和视觉几何组(VGG16)模型。
进一步的,所述四个级别的特征图分别为当前页面大小的1/32、1/16、1/8和1/4。
进一步的,所述使用CNN与CTC结合的卷积网络进行当前页面内容的文字识别包括以下步骤:
提取特征图中文字区域的特征向量,并生成特征序列;
将特征序列转换为二维特征图输入CNN,获取序列上的上下文关系;
获得最后的标签序列。
进一步的,所述根据用户需求,返回不同类型结果包括以下步骤:
若需要原生文件,则直接返回;
若需要文字层内容,则返回OCR结果;
若需要双层版式文件,则在原生页面上动态增加透明文字层。
本发明的有益效果为:通过单独存储版式文件格式信息和OCR结果信息,在不改变原始数据内容的前提下提供“双层”版式文件的使用,并且能灵活控制输出“双层”版式文件、“单文字层”版式文件和原生文件,从而不改变原始数据内容,原生文件原有电子签名以及区块链信息等都不会改变,保证了数据的安全性和可靠性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例的一种保留原生内容的OCR双层文件生成方法的流程图;
图2是根据本发明实施例的一种保留原生内容的OCR双层文件生成方法的原理流程框图。
具体实施方式
为进一步说明各实施例,本发明提供有附图,这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理,配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点,图中的组件并未按比例绘制,而类似的组件符号通常用来表示类似的组件。
根据本发明的实施例,提供了一种保留原生内容的OCR双层文件生成方法。
现结合附图和具体实施方式对本发明进一步说明,如图1-2所示,根据本发明实施例的保留原生内容的OCR双层文件生成方法,该方法包括以下步骤:
S1、对原生文件进行计算、光学字符识别(OCR)及存储;
其中,所述对原生文件进行计算、OCR及存储包括以下步骤:
S11、从数据库种读取文件id;
S12、按顺序抽取原生文件中的每一个页面;
S13、识别并记录当前页面内容的版式,保存入库;
其中,所述当前页面的版式包括当前页面的页码、宽及高。
S14、对当前页面内容进行OCR,保存入库;
其中,所述对当前页面内容进行OCR包括以下步骤:
S141、利用场景文字识别(EAST)算法对当前页面内容进行文字检测;
所述利用EAST算法对当前页面内容进行文字检测包括以下步骤:
S1411、使用卷积网络模型将当前页面提取四个级别的特征图;
所述卷积网络模型包括目标检测(PVANet)模型和视觉几何组(VGG16)模型;所述四个级别的特征图分别为当前页面大小的1/32、1/16、1/8和1/4。
S1412、通过上采样、串联及卷积方法进行逐层合并得到合并特征图;
S1413、输出单通道的分数特征图和多通道的几何特征图。
S142、使用卷积神经网络(CNN)与时序类分类网络模型(CTC)结合的卷积网络进行当前页面内容的文字识别。
所述使用CNN与CTC结合的卷积网络进行当前页面内容的文字识别包括以下步骤:
S1421、提取特征图中文字区域的特征向量,并生成特征序列;
S1422、将特征序列转换为二维特征图输入CNN,获取序列上的上下文关系;
S1423、获得最后的标签序列。
S15、合并识别结果与OCR结果;
S16、若原生文件存在下一页,则继续进行页面识别与OCR。
S2、获取待使用文件,记录文件id;
S3、根据待使用文件id与页码,读取对应的OCR结果;
S4、根据用户需求,返回不同类型结果。
其中,所述根据用户需求,返回不同类型结果包括以下步骤:
S41、若需要原生文件,则直接返回;
S42、若需要文字层内容,则返回OCR结果;
S43、若需要双层版式文件,则在原生页面上动态增加透明文字层。
在实际应用时,如图2所示,用户使用终端设备在具体使用时的操作逻辑包括以下步骤:
步骤1:获取待使用文件的id;
步骤2:如果只需要原生文件,直接返回;
步骤3:根据文件id+页码读取OCR结果;
步骤4:如果只需要文字层内容,返回OCR结果;
步骤5:如果需要双层版式文件;
步骤6:根据OCR结果,在原生页上动态增加透明文字层;
步骤7:返回使用端,结束。
综上所述,借助于本发明的上述技术方案,通过单独存储版式文件格式信息和OCR结果信息,在不改变原始数据内容的前提下提供“双层”版式文件的使用,并且能灵活控制输出“双层”版式文件、“单文字层”版式文件和原生文件,从而不改变原始数据内容,原生文件原有的电子签名以及区块链信息等都不会改变,保证了数据的安全性和可靠性。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种保留原生内容的OCR双层文件生成方法,其特征在于,该方法包括以下步骤:
对原生文件进行计算、光学字符识别及存储;
获取待使用文件,记录文件id;
根据所述文件id与页码,读取对应的光学字符识别结果;
根据用户需求,返回不同类型结果。
2.根据权利要求1所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述对原生文件进行计算、光学字符识别及存储包括以下步骤:
从数据库种读取文件id;
按顺序抽取原生文件中的每一个页面;
识别并记录当前页面内容的版式,保存入库;
对当前页面内容进行光学字符识别,保存入库;
合并识别结果与光学字符识别结果;
若原生文件存在下一页,则继续进行页面识别与光学字符识别。
3.根据权利要求2所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述当前页面的版式包括当前页面的页码、宽及高。
4.根据权利要求3所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述对当前页面内容进行光学字符识别包括以下步骤:
利用场景文字识别算法对当前页面内容进行文字检测;
使用卷积神经网络模型与时序类分类网络模型结合的卷积网络进行当前页面内容的文字识别。
5.根据权利要求4所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述利用场景文字识别算法对当前页面内容进行文字检测包括以下步骤:
使用卷积网络模型将当前页面提取四个级别的特征图;
通过上采样、串联及卷积方法进行逐层合并得到合并特征图;
输出单通道的分数特征图和多通道的几何特征图。
6.根据权利要求5所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述卷积网络模型包括目标检测模型和视觉几何组模型。
7.根据权利要求6所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述四个级别的特征图分别为当前页面大小的1/32、1/16、1/8和1/4。
8.根据权利要求7所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述使用卷积神经网络模型与时序类分类网络模型结合的卷积网络进行当前页面内容的文字识别包括以下步骤:
提取特征图中文字区域的特征向量,并生成特征序列;
将特征序列转换为二维特征图输入卷积神经网络模型,获取序列上的上下文关系;
获得最后的标签序列。
9.根据权利要求8所述的一种保留原生内容的OCR双层文件生成方法,其特征在于,所述根据用户需求,返回不同类型结果包括以下步骤:
若需要原生文件,则直接返回;
若需要文字层内容,则返回光学字符识别结果;
若需要双层版式文件,则在原生页面上动态增加透明文字层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109987.5A CN114463758A (zh) | 2022-01-28 | 2022-01-28 | 一种保留原生内容的ocr双层文件生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210109987.5A CN114463758A (zh) | 2022-01-28 | 2022-01-28 | 一种保留原生内容的ocr双层文件生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114463758A true CN114463758A (zh) | 2022-05-10 |
Family
ID=81411206
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210109987.5A Pending CN114463758A (zh) | 2022-01-28 | 2022-01-28 | 一种保留原生内容的ocr双层文件生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114463758A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704540A (zh) * | 2023-08-09 | 2023-09-05 | 江苏中威科技软件系统有限公司 | 将纸质文件内容进行标识并高保真的转换为ofd文件的技术 |
-
2022
- 2022-01-28 CN CN202210109987.5A patent/CN114463758A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116704540A (zh) * | 2023-08-09 | 2023-09-05 | 江苏中威科技软件系统有限公司 | 将纸质文件内容进行标识并高保真的转换为ofd文件的技术 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11676411B2 (en) | Systems and methods for neuronal visual-linguistic data retrieval from an imaged document | |
CN109543690B (zh) | 用于提取信息的方法和装置 | |
US20200065601A1 (en) | Method and system for transforming handwritten text to digital ink | |
US20190385054A1 (en) | Text field detection using neural networks | |
CN111476067A (zh) | 图像的文字识别方法、装置、电子设备及可读存储介质 | |
Ohyama et al. | Detecting mathematical expressions in scientific document images using a u-net trained on a diverse dataset | |
CN109635805B (zh) | 图像文本定位方法及装置、图像文本识别方法及装置 | |
CN114596566B (zh) | 文本识别方法及相关装置 | |
Malik et al. | An efficient segmentation technique for Urdu optical character recognizer (OCR) | |
CN114821612B (zh) | 一种证券期货场景下pdf文档的信息抽取方法和系统 | |
CN116189162A (zh) | 一种船牌检测与识别方法、装置、电子设备和储存介质 | |
CN114463758A (zh) | 一种保留原生内容的ocr双层文件生成方法 | |
Igorevna et al. | Document image analysis and recognition: a survey | |
CN116384344A (zh) | 一种文档转换方法、装置及存储介质 | |
Marinai | Text retrieval from early printed books | |
Ashraf et al. | An analysis of optical character recognition (ocr) methods | |
CN115880702A (zh) | 数据处理方法、装置、设备、程序产品及存储介质 | |
CN116798055A (zh) | 表单录入方法及装置、电子设备和计算机可读介质 | |
CN112560849A (zh) | 基于神经网络算法的文理分割方法及系统 | |
Bagwe et al. | Optical character recognition using deep learning techniques for printed and handwritten documents | |
Acuña et al. | Table detection for improving accessibility of digital documents using a deep learning approach | |
CN116151202B (zh) | 表格填写方法、装置、电子设备及存储介质 | |
Rahaman et al. | A Rule-based Semi-automated OCR Postprocessing Method for Aligning Multi-language Transcripts with Multi-column Text | |
CN111666931B (zh) | 基于混合卷积文字图像识别方法、装置、设备及存储介质 | |
Vesalainen et al. | Image Segmentation methods for fine-grained OCR Document Layout Analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |