CN109726369A - 一种基于标准文献的智能模板化题录技术实现方法 - Google Patents

一种基于标准文献的智能模板化题录技术实现方法 Download PDF

Info

Publication number
CN109726369A
CN109726369A CN201711048558.7A CN201711048558A CN109726369A CN 109726369 A CN109726369 A CN 109726369A CN 201711048558 A CN201711048558 A CN 201711048558A CN 109726369 A CN109726369 A CN 109726369A
Authority
CN
China
Prior art keywords
normative document
image
page
pdf
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201711048558.7A
Other languages
English (en)
Other versions
CN109726369B (zh
Inventor
孙良君
王文锋
林雪
袁庆祝
王晶
王广
王练练
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongbo Information Technology Research Institute Co Ltd
Original Assignee
Zhongbo Information Technology Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongbo Information Technology Research Institute Co Ltd filed Critical Zhongbo Information Technology Research Institute Co Ltd
Priority to CN201711048558.7A priority Critical patent/CN109726369B/zh
Publication of CN109726369A publication Critical patent/CN109726369A/zh
Application granted granted Critical
Publication of CN109726369B publication Critical patent/CN109726369B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Processing Or Creating Images (AREA)

Abstract

本发明公开了一种基于标准文献的智能模板化题录技术实现方法,属于文档图像内容提取技术领域,通过对双层浮文PDF文字读取技术进行封装,把标准文献图像转换成纯文本TXT,对标准题录加工流程进行了自动化和电子化处理,实现对标准题录的自动采集,增强数据加工的工作效能,减少员工工作量和提高数据准确性,完成题录特征值提取关键技术的实现。本发明的基于标准文献的智能模板化题录技术实现方法解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题。

Description

一种基于标准文献的智能模板化题录技术实现方法
技术领域
本发明涉及一种智能模板化题录技术实现方法,特别是涉及一种基于标准文献的智能模板化题录技术实现方法,属于文档图像内容提取技术领域。
背景技术
基于标准文献智能模板化题录技术实现及其方法和普通的文档图像内容提取方法有类似的地方,现有文档图像内容提取方法多是通过图像扫描,通过横向和纵向的投影,根据RGB色差计算出文字的高度和间距,根据文字盒图像的差异性将文字和图像识别出来。
在《基于文档图像内容分析与特征提取的文档图像压缩方法》中提供了一种图像的文本定位和内容提取方法,该方法将文档图像视为一个矩阵,矩阵的大小由文档图像的高和宽确定,矩阵中的元素对应着文档图像中的象素,每个元素的值对应着象素的灰度值或RGB值,将文档图像向其边界投影,使得矩阵某一行/列的象素灰度值累加,得到关于行/列的灰度投影曲线,标准文献文本图像涉及到多个国家,多种语言,所需要提取的内容也是各式各样,不确定因素较多,无法满足标准文献智能模板化题录技术实现的实际需求。
发明内容
本发明的主要目的是为了提供一种基于标准文献的智能模板化题录技术实现方法,解决现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题。
本发明的目的可以通过采用如下技术方案达到:
一种基于标准文献的智能模板化题录技术实现方法,包括如下步骤:
步骤1:建立图像处理模块、模版配置模块、标准信息采集模块;
步骤2:图像处理模块对标准文献图像进行清晰化处理,并通过Tif拆分算法对Tif文件进行拆分,再经过组装技术生成单层PDF,生成双层浮文PDF版本的标准文献,再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件;
步骤3:模版配置模块根据标准文献的纸型、排版样式和标准类型对标准文献进行区分,在每种类型中选出代表性的标准文献作为模板,根据模板的版面和编写格式来确定需要配置的字段信息,根据每个字段的特殊性,决定使用坐标配置和范围配置这两种方式中的一种;
步骤4:标准信息采集模块根据标准文献的纸型、编写规范和标准类型来选择对应的模板,对标准文献所需信息进行提取和自动定位。
进一步的,所述图像处理模块、所述模版配置模块和所述图像处理模块均采用服务器完成,所述图像处理模块、所述模版配置模块和所述图像处理模块均采用互联网通信;
图像处理模块用于对文献图像进行清晰化处理,生成标准文献单双层浮文PDF文件、每页文本图像和带有分页标识的纯文本;
模版配置模块根据对标准文本不同版面的分析,对标准文献所需采集的信息的分析,通过配置生成不同模板;
标准信息采集模块根据对标准文献图像的版面分析,选择合适的模块对标准信息自动采集。
进一步的,所述步骤2中,图像处理模块对标准文献图像进行清晰化处理,并通过Tif拆分算法对Tif文件进行拆分,生成每一页标准文献的图像,并对每一页图像进行去污处理,再经过组装技术生成单层PDF,再经过封装后的OCR识别,生成双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件,再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件。
进一步的,所述图像处理模块用于处理PDF格式、A3Tif格式、A4Tif格式和B5Tif格式的图像;A3Tif图像的处理是将A3Tif按照拆分算法拆分成每一页的图像并存储在临时文件夹内,再对每一页图像采用去污处理算法进行图像优化,再使用图像组装技术将每一页图像组装成单层PDF,再使用OCR技术生成双层PDF,再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件,最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。
进一步的,所述PDF格式、A4Tif格式和B5Tif格式的图像的处理是将图像直接拆分成每一页的图像并存储在临时文件夹内,再对每一页图像采用去污处理算法进行图像优化,再使用图像组装技术将每一页图像组装成单层PDF,再使用OCR技术生成双层PDF,再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件,最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。
进一步的,所述步骤3中,所述坐标配置在对标准信息的一个字段进行配置时,通过计算得到该字段在文本中的坐标位置,将坐标位置信息作为该字段的配置内容,所述坐标位置信息包括页码P、起始横坐标X、起始纵坐标Y、长度L和宽度W。
进一步的,所述步骤3中,所述范围配置在对标准信息的一个字段进行配置时,记录字段信息的开头部分和结尾部分,通过文字解析比对获得字段信息,所述字段信息包括开头部分页码P、开头部分横坐标X、开头部分纵坐标Y、开头部分长度L、开头部分宽度W、开头内容和结尾内容。
进一步的,所述步骤4中,对标准文献所需信息进行自动定位时,在本地建立自动定位模块,通过获取被选择字段的页数和位置信息,当选中目标字段后,图片展示区域自动跳转到目标页并且显示目标位置。
进一步的,所述自动定位模块进行自动定位,包括如下步骤:
步骤411:设定一个固定值,在图片展示区域显示固定页数的图片;
步骤412:信息录入过程中,选中每个字段时,获取字段的页数和位置信息,如果获得的页数不高于设定的固定值,则直接调整;
步骤413:如果获取到的页数大于设定的固定值,拿获取的页数和标准文献的总页数作比较,如果小于总页数,则将图片展示区域的图片全部清空后,重新加载获取图片的页数,再跳转到目标页数并高亮显示目标位置;
步骤414:如果获取到的页数等于标准总页数,清空图片展示区,再展示标准全部图片,并直接跳转到最后一页,高亮显示位置信息。
进一步的,所述步骤4中,对标准文献所需信息进行提取过程中建立自动提取模块,对标准文献所需信息提取,包括如下步骤:
步骤421:根据标准文献图像的纸型和版式选择模板;
步骤422:确定模板后,从存储系统中获取模板的详细配置信息,根据每条详细信息的唯一关键字,将关键字对应的模板配置信息添加到需要著录的字段页面元素的属性值中;
步骤423:循环遍历整个输入性质的页面元素,并检测该元素的属性值,如果属性值是坐标配置属性,则根据页码P、位置信息起始坐标(X,Y)、长度L和宽度W,到标准文献双层PDF图像中截取出片段图像,通过双层PDF文字识别技术获取到文字信息,赋值给页面元素;
步骤424:当属性值是范围配置属性时,则根据开头内容和结尾标志,到标准文献纯文本TXT文件中通过文字匹配技术进行匹配,将匹配到的文字信息赋值给页面元素。
本发明的有益技术效果:按照本发明的基于标准文献的智能模板化题录技术实现方法,本发明提供的基于标准文献的智能模板化题录技术实现方法,解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题,通过对双层浮文PDF文字读取技术进行封装,把标准文献图像转换成纯文本TXT,对标准题录加工流程进行了自动化和电子化处理,实现对标准题录的自动采集,增强数据加工的工作效能,减少员工工作量和提高数据准确性,完成题录特征值提取关键技术的实现。
附图说明
图1为按照本发明的基于标准文献的智能模板化题录技术实现方法的一优选实施例的流程图;
图2为按照本发明的基于标准文献的智能模板化题录技术实现方法的一优选实施例的对标准文献所需信息进行自动定位的流程图;
图3为按照本发明的基于标准文献的智能模板化题录技术实现方法的一优选实施例的对标准文献所需信息进行自动提取的流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种基于标准文献的智能模板化题录技术实现方法,包括如下步骤:
步骤1:建立图像处理模块、模版配置模块、标准信息采集模块;
步骤2:图像处理模块对标准文献图像进行清晰化处理,并通过Tif拆分算法对Tif文件进行拆分,再经过组装技术生成单层PDF,生成双层浮文PDF版本的标准文献,再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件;
步骤3:模版配置模块根据标准文献的纸型、排版样式和标准类型对标准文献进行区分,在每种类型中选出代表性的标准文献作为模板,根据模板的版面和编写格式来确定需要配置的字段信息,根据每个字段的特殊性,决定使用坐标配置和范围配置这两种方式中的一种;
步骤4:标准信息采集模块根据标准文献的纸型、编写规范和标准类型来选择对应的模板,对标准文献所需信息进行提取和自动定位。
进一步的,在本实施例中,所述图像处理模块、所述模版配置模块和所述图像处理模块均采用服务器完成,所述图像处理模块、所述模版配置模块和所述图像处理模块均采用互联网通信;
图像处理模块用于对文献图像进行清晰化处理,生成标准文献单双层浮文PDF文件、每页文本图像和带有分页标识的纯文本;
模版配置模块根据对标准文本不同版面的分析,对标准文献所需采集的信息的分析,通过配置生成不同模板;
标准信息采集模块根据对标准文献图像的版面分析,选择合适的模块对标准信息自动采集。
进一步的,在本实施例中,所述步骤2中,图像处理模块对标准文献图像进行清晰化处理,并通过Tif拆分算法对Tif文件进行拆分,生成每一页标准文献的图像,并对每一页图像进行去污处理,再经过组装技术生成单层PDF,再经过封装后的OCR识别,生成双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件,再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件。
进一步的,在本实施例中,所述图像处理模块用于处理PDF格式、A3Tif格式、A4Tif格式和B5Tif格式的图像;A3Tif图像的处理是将A3Tif按照拆分算法拆分成每一页的图像并存储在临时文件夹内,再对每一页图像采用去污处理算法进行图像优化,再使用图像组装技术将每一页图像组装成单层PDF,再使用OCR技术生成双层PDF,再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件,最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT;所述PDF格式、A4Tif格式和B5Tif格式的图像的处理是将图像直接拆分成每一页的图像并存储在临时文件夹内,再对每一页图像采用去污处理算法进行图像优化,再使用图像组装技术将每一页图像组装成单层PDF,再使用OCR技术生成双层PDF,再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件,最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。
进一步的,在本实施例中,所述步骤3中,所述坐标配置在对标准信息的一个字段进行配置时,通过计算得到该字段在文本中的坐标位置,将坐标位置信息作为该字段的配置内容,所述坐标位置信息包括页码P、起始横坐标X、起始纵坐标Y、长度L和宽度W;所述范围配置在对标准信息的一个字段进行配置时,记录字段信息的开头部分和结尾部分,通过文字解析比对获得字段信息,所述字段信息包括开头部分页码P、开头部分横坐标X、开头部分纵坐标Y、开头部分长度L、开头部分宽度W、开头内容和结尾内容。
进一步的,在本实施例中,所述步骤4中,对标准文献所需信息进行自动定位时,在本地建立自动定位模块,通过获取被选择字段的页数和位置信息,当选中目标字段后,图片展示区域自动跳转到目标页并且显示目标位置。
进一步的,在本实施例中,如图2所示,所述自动定位模块进行自动定位,包括如下步骤:
步骤411:设定一个固定值,在图片展示区域显示固定页数的图片;
步骤412:信息录入过程中,选中每个字段时,获取字段的页数和位置信息,如果获得的页数不高于设定的固定值,则直接调整;
步骤413:如果获取到的页数大于设定的固定值,拿获取的页数和标准文献的总页数作比较,如果小于总页数,则将图片展示区域的图片全部清空后,重新加载获取图片的页数,再跳转到目标页数并高亮显示目标位置;
步骤414:如果获取到的页数等于标准总页数,清空图片展示区,再展示标准全部图片,并直接跳转到最后一页,高亮显示位置信息。
进一步的,在本实施例中,如图3所示,所述步骤4中,对标准文献所需信息进行提取过程中建立自动提取模块,对标准文献所需信息提取,包括如下步骤:
步骤421:根据标准文献图像的纸型和版式选择模板;
步骤422:确定模板后,从存储系统中获取模板的详细配置信息,根据每条详细信息的唯一关键字,将关键字对应的模板配置信息添加到需要著录的字段页面元素的属性值中;
步骤423:循环遍历整个输入性质的页面元素,并检测该元素的属性值,如果属性值是坐标配置属性,则根据页码P、位置信息起始坐标(X,Y)、长度L和宽度W,到标准文献双层PDF图像中截取出片段图像,通过双层PDF文字识别技术获取到文字信息,赋值给页面元素;
步骤424:当属性值是范围配置属性时,则根据开头内容和结尾标志,到标准文献纯文本TXT文件中通过文字匹配技术进行匹配,将匹配到的文字信息赋值给页面元素。
综上所述,在本实施例中,按照本实施例的基于标准文献的智能模板化题录技术实现方法,本实施例提供的基于标准文献的智能模板化题录技术实现方法,解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题,通过对双层浮文PDF文字读取技术进行封装,把标准文献图像转换成纯文本TXT,对标准题录加工流程进行了自动化和电子化处理,实现对标准题录的自动采集,增强数据加工的工作效能,减少员工工作量和提高数据准确性,完成题录特征值提取关键技术的实现。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (10)

1.一种基于标准文献的智能模板化题录技术实现方法,其特征在于,包括如下步骤:
步骤1:建立图像处理模块、模版配置模块、标准信息采集模块;
步骤2:图像处理模块对标准文献图像进行清晰化处理,并通过Tif拆分算法对Tif文件进行拆分,再经过组装技术生成单层PDF,生成双层浮文PDF版本的标准文献,再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件;
步骤3:模版配置模块根据标准文献的纸型、排版样式和标准类型对标准文献进行区分,在每种类型中选出代表性的标准文献作为模板,根据模板的版面和编写格式来确定需要配置的字段信息,根据每个字段的特殊性,决定使用坐标配置和范围配置这两种方式中的一种;
步骤4:标准信息采集模块根据标准文献的纸型、编写规范和标准类型来选择对应的模板,对标准文献所需信息进行提取和自动定位。
2.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述图像处理模块、所述模版配置模块和所述图像处理模块均采用服务器完成,所述图像处理模块、所述模版配置模块和所述图像处理模块均采用互联网通信;
图像处理模块用于对文献图像进行清晰化处理,生成标准文献单双层浮文PDF文件、每页文本图像和带有分页标识的纯文本;
模版配置模块根据对标准文本不同版面的分析,对标准文献所需采集的信息的分析,通过配置生成不同模板;
标准信息采集模块根据对标准文献图像的版面分析,选择合适的模块对标准信息自动采集。
3.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述步骤2中,图像处理模块对标准文献图像进行清晰化处理,并通过Tif拆分算法对Tif文件进行拆分,生成每一页标准文献的图像,并对每一页图像进行去污处理,再经过组装技术生成单层PDF,再经过封装后的OCR识别,生成双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件,再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件。
4.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述图像处理模块用于处理PDF格式、A3Tif格式、A4Tif格式和B5Tif格式的图像;A3Tif图像的处理是将A3Tif按照拆分算法拆分成每一页的图像并存储在临时文件夹内,再对每一页图像采用去污处理算法进行图像优化,再使用图像组装技术将每一页图像组装成单层PDF,再使用OCR技术生成双层PDF,再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件,最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。
5.根据权利要求4所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述PDF格式、A4Tif格式和B5Tif格式的图像的处理是将图像直接拆分成每一页的图像并存储在临时文件夹内,再对每一页图像采用去污处理算法进行图像优化,再使用图像组装技术将每一页图像组装成单层PDF,再使用OCR技术生成双层PDF,再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件,最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。
6.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述步骤3中,所述坐标配置在对标准信息的一个字段进行配置时,通过计算得到该字段在文本中的坐标位置,将坐标位置信息作为该字段的配置内容,所述坐标位置信息包括页码P、起始横坐标X、起始纵坐标Y、长度L和宽度W。
7.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述步骤3中,所述范围配置在对标准信息的一个字段进行配置时,记录字段信息的开头部分和结尾部分,通过文字解析比对获得字段信息,所述字段信息包括开头部分页码P、开头部分横坐标X、开头部分纵坐标Y、开头部分长度L、开头部分宽度W、开头内容和结尾内容。
8.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述步骤4中,对标准文献所需信息进行自动定位时,在本地建立自动定位模块,通过获取被选择字段的页数和位置信息,当选中目标字段后,图片展示区域自动跳转到目标页并且显示目标位置。
9.根据权利要求8所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述自动定位模块进行自动定位,包括如下步骤:
步骤411:设定一个固定值,在图片展示区域显示固定页数的图片;
步骤412:信息录入过程中,选中每个字段时,获取字段的页数和位置信息,如果获得的页数不高于设定的固定值,则直接调整;
步骤413:如果获取到的页数大于设定的固定值,拿获取的页数和标准文献的总页数作比较,如果小于总页数,则将图片展示区域的图片全部清空后,重新加载获取图片的页数,再跳转到目标页数并高亮显示目标位置;
步骤414:如果获取到的页数等于标准总页数,清空图片展示区,再展示标准全部图片,并直接跳转到最后一页,高亮显示位置信息。
10.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法,其特征在于,所述步骤4中,对标准文献所需信息进行提取过程中建立自动提取模块,对标准文献所需信息提取,包括如下步骤:
步骤421:根据标准文献图像的纸型和版式选择模板;
步骤422:确定模板后,从存储系统中获取模板的详细配置信息,根据每条详细信息的唯一关键字,将关键字对应的模板配置信息添加到需要著录的字段页面元素的属性值中;
步骤423:循环遍历整个输入性质的页面元素,并检测该元素的属性值,如果属性值是坐标配置属性,则根据页码P、位置信息起始坐标(X,Y)、长度L和宽度W,到标准文献双层PDF图像中截取出片段图像,通过双层PDF文字识别技术获取到文字信息,赋值给页面元素;
步骤424:当属性值是范围配置属性时,则根据开头内容和结尾标志,到标准文献纯文本TXT文件中通过文字匹配技术进行匹配,将匹配到的文字信息赋值给页面元素。
CN201711048558.7A 2017-10-31 2017-10-31 一种基于标准文献的智能模板化题录技术实现方法 Active CN109726369B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711048558.7A CN109726369B (zh) 2017-10-31 2017-10-31 一种基于标准文献的智能模板化题录技术实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711048558.7A CN109726369B (zh) 2017-10-31 2017-10-31 一种基于标准文献的智能模板化题录技术实现方法

Publications (2)

Publication Number Publication Date
CN109726369A true CN109726369A (zh) 2019-05-07
CN109726369B CN109726369B (zh) 2022-10-28

Family

ID=66293229

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711048558.7A Active CN109726369B (zh) 2017-10-31 2017-10-31 一种基于标准文献的智能模板化题录技术实现方法

Country Status (1)

Country Link
CN (1) CN109726369B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609982A (zh) * 2019-08-08 2019-12-24 浙江中控技术股份有限公司 Pdf文件数据解析系统及方法
CN112463728A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的题录数据提取方法
CN112463993A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的参数数据提取方法
CN113407890A (zh) * 2021-07-19 2021-09-17 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1748365A1 (en) * 2005-07-27 2007-01-31 Hewlett-Packard Development Company, L.P. Document Template Generation
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件
CN103366247A (zh) * 2013-07-04 2013-10-23 浙江省方大标准信息有限公司 标准有效性判断系统及方法
CN104008087A (zh) * 2014-06-05 2014-08-27 李梦依 一种针对具有标准格式的文案的自动排版方法和系统
CN106886509A (zh) * 2017-03-06 2017-06-23 大连理工大学 一种学位论文格式自动检测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP1748365A1 (en) * 2005-07-27 2007-01-31 Hewlett-Packard Development Company, L.P. Document Template Generation
CN101794278A (zh) * 2009-09-21 2010-08-04 广东省标准化研究院 一种标准文献全文数字化方法及软件
CN103366247A (zh) * 2013-07-04 2013-10-23 浙江省方大标准信息有限公司 标准有效性判断系统及方法
CN104008087A (zh) * 2014-06-05 2014-08-27 李梦依 一种针对具有标准格式的文案的自动排版方法和系统
CN106886509A (zh) * 2017-03-06 2017-06-23 大连理工大学 一种学位论文格式自动检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李兰芹: "纸质文献深度电子化的标准化工作流程构建", 《图书情报工作》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110609982A (zh) * 2019-08-08 2019-12-24 浙江中控技术股份有限公司 Pdf文件数据解析系统及方法
CN112463728A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的题录数据提取方法
CN112463993A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的参数数据提取方法
CN113407890A (zh) * 2021-07-19 2021-09-17 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质
CN113407890B (zh) * 2021-07-19 2024-01-12 北京百度网讯科技有限公司 信息提取方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN109726369B (zh) 2022-10-28

Similar Documents

Publication Publication Date Title
US11868717B2 (en) Multi-page document recognition in document capture
JP4533273B2 (ja) 画像処理装置及び画像処理方法、プログラム
US11182604B1 (en) Computerized recognition and extraction of tables in digitized documents
JP4854491B2 (ja) 画像処理装置及びその制御方法
JP2010510563A (ja) ハード・コピーの書式からの書式定義の自動発生
JP4785655B2 (ja) 文書処理装置及び文書処理方法
CN110210470B (zh) 商品信息图像识别系统
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP2004139484A (ja) 帳票処理装置、該装置実行のためのプログラム、及び、帳票書式作成プログラム
JPH08305731A (ja) 文書格納等の方法及び文書サーバ
EP2110758B1 (en) Searching method based on layout information
US20150310269A1 (en) System and Method of Using Dynamic Variance Networks
US20200311410A1 (en) Method of meta-data extraction from semi-structured documents
CN113901933A (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN114119949A (zh) 一种增强文本合成图像的生成方法和系统
US9049400B2 (en) Image processing apparatus, and image processing method and program
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN111860450A (zh) 票证识别装置以及票证信息管理系统
JP4807618B2 (ja) 画像処理装置及び画像処理プログラム
CN111241955B (zh) 一种票据信息提取方法及系统
CN102262614A (zh) 纵向校对方法和装置
JPH1063813A (ja) イメージ文書管理方法及びその装置
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置
WO2021140682A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
WO2023021636A1 (ja) データ処理装置、データ処理方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant