CN109726369A

CN109726369A - 一种基于标准文献的智能模板化题录技术实现方法

Info

Publication number: CN109726369A
Application number: CN201711048558.7A
Authority: CN
Inventors: 孙良君; 王文锋; 林雪; 袁庆祝; 王晶; 王广; 王练练
Original assignee: Zhongbo Information Technology Research Institute Co Ltd
Current assignee: Zhongbo Information Technology Research Institute Co Ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2019-05-07
Anticipated expiration: 2037-10-31
Also published as: CN109726369B

Abstract

本发明公开了一种基于标准文献的智能模板化题录技术实现方法，属于文档图像内容提取技术领域，通过对双层浮文PDF文字读取技术进行封装，把标准文献图像转换成纯文本TXT，对标准题录加工流程进行了自动化和电子化处理，实现对标准题录的自动采集，增强数据加工的工作效能，减少员工工作量和提高数据准确性，完成题录特征值提取关键技术的实现。本发明的基于标准文献的智能模板化题录技术实现方法解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题。

Description

一种基于标准文献的智能模板化题录技术实现方法

技术领域

本发明涉及一种智能模板化题录技术实现方法，特别是涉及一种基于标准文献的智能模板化题录技术实现方法，属于文档图像内容提取技术领域。

背景技术

基于标准文献智能模板化题录技术实现及其方法和普通的文档图像内容提取方法有类似的地方，现有文档图像内容提取方法多是通过图像扫描，通过横向和纵向的投影，根据RGB色差计算出文字的高度和间距，根据文字盒图像的差异性将文字和图像识别出来。

在《基于文档图像内容分析与特征提取的文档图像压缩方法》中提供了一种图像的文本定位和内容提取方法，该方法将文档图像视为一个矩阵，矩阵的大小由文档图像的高和宽确定，矩阵中的元素对应着文档图像中的象素，每个元素的值对应着象素的灰度值或RGB值，将文档图像向其边界投影，使得矩阵某一行/列的象素灰度值累加，得到关于行/列的灰度投影曲线，标准文献文本图像涉及到多个国家，多种语言，所需要提取的内容也是各式各样，不确定因素较多，无法满足标准文献智能模板化题录技术实现的实际需求。

发明内容

本发明的主要目的是为了提供一种基于标准文献的智能模板化题录技术实现方法，解决现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题。

本发明的目的可以通过采用如下技术方案达到：

一种基于标准文献的智能模板化题录技术实现方法，包括如下步骤：

步骤1：建立图像处理模块、模版配置模块、标准信息采集模块；

步骤2：图像处理模块对标准文献图像进行清晰化处理，并通过Tif拆分算法对Tif文件进行拆分，再经过组装技术生成单层PDF，生成双层浮文PDF版本的标准文献，再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件；

步骤3：模版配置模块根据标准文献的纸型、排版样式和标准类型对标准文献进行区分，在每种类型中选出代表性的标准文献作为模板，根据模板的版面和编写格式来确定需要配置的字段信息，根据每个字段的特殊性，决定使用坐标配置和范围配置这两种方式中的一种；

步骤4：标准信息采集模块根据标准文献的纸型、编写规范和标准类型来选择对应的模板，对标准文献所需信息进行提取和自动定位。

进一步的，所述图像处理模块、所述模版配置模块和所述图像处理模块均采用服务器完成，所述图像处理模块、所述模版配置模块和所述图像处理模块均采用互联网通信；

图像处理模块用于对文献图像进行清晰化处理，生成标准文献单双层浮文PDF文件、每页文本图像和带有分页标识的纯文本；

模版配置模块根据对标准文本不同版面的分析，对标准文献所需采集的信息的分析，通过配置生成不同模板；

标准信息采集模块根据对标准文献图像的版面分析，选择合适的模块对标准信息自动采集。

进一步的，所述步骤2中，图像处理模块对标准文献图像进行清晰化处理，并通过Tif拆分算法对Tif文件进行拆分，生成每一页标准文献的图像，并对每一页图像进行去污处理，再经过组装技术生成单层PDF，再经过封装后的OCR识别，生成双层浮文PDF版本的标准文献，即标准文献双层浮文PDF文件，再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件。

进一步的，所述图像处理模块用于处理PDF格式、A3Tif格式、A4Tif格式和B5Tif格式的图像；A3Tif图像的处理是将A3Tif按照拆分算法拆分成每一页的图像并存储在临时文件夹内，再对每一页图像采用去污处理算法进行图像优化，再使用图像组装技术将每一页图像组装成单层PDF，再使用OCR技术生成双层PDF，再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件，最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。

进一步的，所述PDF格式、A4Tif格式和B5Tif格式的图像的处理是将图像直接拆分成每一页的图像并存储在临时文件夹内，再对每一页图像采用去污处理算法进行图像优化，再使用图像组装技术将每一页图像组装成单层PDF，再使用OCR技术生成双层PDF，再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件，最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。

进一步的，所述步骤3中，所述坐标配置在对标准信息的一个字段进行配置时，通过计算得到该字段在文本中的坐标位置，将坐标位置信息作为该字段的配置内容，所述坐标位置信息包括页码P、起始横坐标X、起始纵坐标Y、长度L和宽度W。

进一步的，所述步骤3中，所述范围配置在对标准信息的一个字段进行配置时，记录字段信息的开头部分和结尾部分，通过文字解析比对获得字段信息，所述字段信息包括开头部分页码P、开头部分横坐标X、开头部分纵坐标Y、开头部分长度L、开头部分宽度W、开头内容和结尾内容。

进一步的，所述步骤4中，对标准文献所需信息进行自动定位时，在本地建立自动定位模块，通过获取被选择字段的页数和位置信息，当选中目标字段后，图片展示区域自动跳转到目标页并且显示目标位置。

进一步的，所述自动定位模块进行自动定位，包括如下步骤：

步骤411：设定一个固定值，在图片展示区域显示固定页数的图片；

步骤412：信息录入过程中，选中每个字段时，获取字段的页数和位置信息，如果获得的页数不高于设定的固定值，则直接调整；

步骤413：如果获取到的页数大于设定的固定值，拿获取的页数和标准文献的总页数作比较，如果小于总页数，则将图片展示区域的图片全部清空后，重新加载获取图片的页数，再跳转到目标页数并高亮显示目标位置；

步骤414：如果获取到的页数等于标准总页数，清空图片展示区，再展示标准全部图片，并直接跳转到最后一页，高亮显示位置信息。

进一步的，所述步骤4中，对标准文献所需信息进行提取过程中建立自动提取模块，对标准文献所需信息提取，包括如下步骤：

步骤421：根据标准文献图像的纸型和版式选择模板；

步骤422：确定模板后，从存储系统中获取模板的详细配置信息，根据每条详细信息的唯一关键字，将关键字对应的模板配置信息添加到需要著录的字段页面元素的属性值中；

步骤423：循环遍历整个输入性质的页面元素，并检测该元素的属性值，如果属性值是坐标配置属性，则根据页码P、位置信息起始坐标(X,Y)、长度L和宽度W，到标准文献双层PDF图像中截取出片段图像，通过双层PDF文字识别技术获取到文字信息，赋值给页面元素；

步骤424：当属性值是范围配置属性时，则根据开头内容和结尾标志，到标准文献纯文本TXT文件中通过文字匹配技术进行匹配，将匹配到的文字信息赋值给页面元素。

本发明的有益技术效果：按照本发明的基于标准文献的智能模板化题录技术实现方法，本发明提供的基于标准文献的智能模板化题录技术实现方法，解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题，通过对双层浮文PDF文字读取技术进行封装，把标准文献图像转换成纯文本TXT，对标准题录加工流程进行了自动化和电子化处理，实现对标准题录的自动采集，增强数据加工的工作效能，减少员工工作量和提高数据准确性，完成题录特征值提取关键技术的实现。

附图说明

图1为按照本发明的基于标准文献的智能模板化题录技术实现方法的一优选实施例的流程图；

图2为按照本发明的基于标准文献的智能模板化题录技术实现方法的一优选实施例的对标准文献所需信息进行自动定位的流程图；

图3为按照本发明的基于标准文献的智能模板化题录技术实现方法的一优选实施例的对标准文献所需信息进行自动提取的流程图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供的一种基于标准文献的智能模板化题录技术实现方法，包括如下步骤：

进一步的，在本实施例中，所述图像处理模块、所述模版配置模块和所述图像处理模块均采用服务器完成，所述图像处理模块、所述模版配置模块和所述图像处理模块均采用互联网通信；

进一步的，在本实施例中，所述步骤2中，图像处理模块对标准文献图像进行清晰化处理，并通过Tif拆分算法对Tif文件进行拆分，生成每一页标准文献的图像，并对每一页图像进行去污处理，再经过组装技术生成单层PDF，再经过封装后的OCR识别，生成双层浮文PDF版本的标准文献，即标准文献双层浮文PDF文件，再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件。

进一步的，在本实施例中，所述图像处理模块用于处理PDF格式、A3Tif格式、A4Tif格式和B5Tif格式的图像；A3Tif图像的处理是将A3Tif按照拆分算法拆分成每一页的图像并存储在临时文件夹内，再对每一页图像采用去污处理算法进行图像优化，再使用图像组装技术将每一页图像组装成单层PDF，再使用OCR技术生成双层PDF，再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件，最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT；所述PDF格式、A4Tif格式和B5Tif格式的图像的处理是将图像直接拆分成每一页的图像并存储在临时文件夹内，再对每一页图像采用去污处理算法进行图像优化，再使用图像组装技术将每一页图像组装成单层PDF，再使用OCR技术生成双层PDF，再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件，最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。

进一步的，在本实施例中，所述步骤3中，所述坐标配置在对标准信息的一个字段进行配置时，通过计算得到该字段在文本中的坐标位置，将坐标位置信息作为该字段的配置内容，所述坐标位置信息包括页码P、起始横坐标X、起始纵坐标Y、长度L和宽度W；所述范围配置在对标准信息的一个字段进行配置时，记录字段信息的开头部分和结尾部分，通过文字解析比对获得字段信息，所述字段信息包括开头部分页码P、开头部分横坐标X、开头部分纵坐标Y、开头部分长度L、开头部分宽度W、开头内容和结尾内容。

进一步的，在本实施例中，所述步骤4中，对标准文献所需信息进行自动定位时，在本地建立自动定位模块，通过获取被选择字段的页数和位置信息，当选中目标字段后，图片展示区域自动跳转到目标页并且显示目标位置。

进一步的，在本实施例中，如图2所示，所述自动定位模块进行自动定位，包括如下步骤：

进一步的，在本实施例中，如图3所示，所述步骤4中，对标准文献所需信息进行提取过程中建立自动提取模块，对标准文献所需信息提取，包括如下步骤：

步骤421：根据标准文献图像的纸型和版式选择模板；

综上所述，在本实施例中，按照本实施例的基于标准文献的智能模板化题录技术实现方法，本实施例提供的基于标准文献的智能模板化题录技术实现方法，解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题，通过对双层浮文PDF文字读取技术进行封装，把标准文献图像转换成纯文本TXT，对标准题录加工流程进行了自动化和电子化处理，实现对标准题录的自动采集，增强数据加工的工作效能，减少员工工作量和提高数据准确性，完成题录特征值提取关键技术的实现。

以上所述，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于标准文献的智能模板化题录技术实现方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述图像处理模块、所述模版配置模块和所述图像处理模块均采用服务器完成，所述图像处理模块、所述模版配置模块和所述图像处理模块均采用互联网通信；

3.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述步骤2中，图像处理模块对标准文献图像进行清晰化处理，并通过Tif拆分算法对Tif文件进行拆分，生成每一页标准文献的图像，并对每一页图像进行去污处理，再经过组装技术生成单层PDF，再经过封装后的OCR识别，生成双层浮文PDF版本的标准文献，即标准文献双层浮文PDF文件，再通过双层PDF识别技术生成带有分页标识的纯文本TXT文件。

4.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述图像处理模块用于处理PDF格式、A3Tif格式、A4Tif格式和B5Tif格式的图像；A3Tif图像的处理是将A3Tif按照拆分算法拆分成每一页的图像并存储在临时文件夹内，再对每一页图像采用去污处理算法进行图像优化，再使用图像组装技术将每一页图像组装成单层PDF，再使用OCR技术生成双层PDF，再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件，最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。

5.根据权利要求4所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述PDF格式、A4Tif格式和B5Tif格式的图像的处理是将图像直接拆分成每一页的图像并存储在临时文件夹内，再对每一页图像采用去污处理算法进行图像优化，再使用图像组装技术将每一页图像组装成单层PDF，再使用OCR技术生成双层PDF，再使用双层PDF识别文字技术生成带有分页标识的纯文本TXT文件，最终在图像处理模块产生单层PDF、双层PDF、每一页图像和带有分页标识的纯文本TXT。

6.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述步骤3中，所述坐标配置在对标准信息的一个字段进行配置时，通过计算得到该字段在文本中的坐标位置，将坐标位置信息作为该字段的配置内容，所述坐标位置信息包括页码P、起始横坐标X、起始纵坐标Y、长度L和宽度W。

7.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述步骤3中，所述范围配置在对标准信息的一个字段进行配置时，记录字段信息的开头部分和结尾部分，通过文字解析比对获得字段信息，所述字段信息包括开头部分页码P、开头部分横坐标X、开头部分纵坐标Y、开头部分长度L、开头部分宽度W、开头内容和结尾内容。

8.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述步骤4中，对标准文献所需信息进行自动定位时，在本地建立自动定位模块，通过获取被选择字段的页数和位置信息，当选中目标字段后，图片展示区域自动跳转到目标页并且显示目标位置。

9.根据权利要求8所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述自动定位模块进行自动定位，包括如下步骤：

10.根据权利要求1所述的一种基于标准文献的智能模板化题录技术实现方法，其特征在于，所述步骤4中，对标准文献所需信息进行提取过程中建立自动提取模块，对标准文献所需信息提取，包括如下步骤：

步骤421：根据标准文献图像的纸型和版式选择模板；