CN109271616A

CN109271616A - 一种基于标准文献题录特征值的智能提取方法

Info

Publication number: CN109271616A
Application number: CN201710578530.8A
Authority: CN
Inventors: 严菁; 陈银龙; 金志刚; 卞超杰; 魏雪艳; 王玮健; 李正祥; 程锦彬; 许祥红
Original assignee: Jiangsu Institute Of Quality And Standardization
Current assignee: Jiangsu Institute Of Quality And Standardization
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2019-01-25
Anticipated expiration: 2037-07-17
Also published as: CN109271616B

Abstract

本发明公开了一种基于标准文献题录特征值的智能提取方法，涉及一种文档图像内容的提取方法，通过对OCR技术进行封装，把标准文献图像转换成双层浮文PDF，根据对不同模板标准文本格式版面的分析，对标准文献题录字段位置区域进行定位和自动采集，改变原有人工录入的方式，减少员工工作量和提高数据准确性，提高题录字段采集、处理、提取效率和定位准确率。

Description

一种基于标准文献题录特征值的智能提取方法

技术领域

本发明涉及一种文档图像内容的提取方法，尤其涉及一种基于标准文献题录特征值的智能提取方法。

背景技术

文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要。标准文献文本图像是由纸质标准文本通过扫描仪图像数据采集设备生成的,以静止图像编码方法存储的数字图像,载荷有丰富的文字信息、图像信息、格式信息等重要内容。随着全球化贸易往来,企业对国际标准的需求日益旺盛，多种国外语言文字的文本图像需要进行识别和处理。文本图像的文种识别是对以图像形式呈现、由不同语言文字构成的图像,提取能够用于计算机识别的底层特征,实现文种的自动分类,对于有效提取文本图像中的信息具有十分重要的意义。随着网络通信技术和信息处理技术的迅速发展,文本图像的分析处理、提取和定位等技术也在不断改进，为文本图像内容的深度挖掘应用提供支撑。标准文献题录提取的主要目的是为用户提供标准查询的简要内容介绍，从而方便用户的购买和查询。其中关键点和难点就是准确快速的文本定位,文本定位的好坏将直接影响系统的识别结果。

中国信息技术与应用学术论坛,2008《基于版面特征的文档图像的文本定位方法》提供一种图像的文本定位技术，并针对基于版面特征的文档图像提出了一种文本定位方法。该方法首先利用拉普拉斯算子粗略检测出文字边缘区域,利用形态学膨胀方法扩展区域,接着通过聚类分析来提取文本层,最后根据中文字符的自身矩形区域比例、宽高比等特征有效定位出图像中的文本区域

中国信息技术与应用学术论坛,2008《基于版面特征的文档图像的文本定位方法》其首先定位首行和末行文本区域位置，再借助中文字符一般的宽高比来进行文本区域定位，使用一个宽高比的阶梯函数扩展笔画矩形区域，主要是纵向的扩展，从而定位出文档图像中的文本区域。

其针对的是文档图像中文字字符通用的宽高比0.7，但是在不同语种、混合复杂版面文档图像处理中，字符实际占用空间与周围环境有关，文本区域定位往往达不到满意的效果，不确定因素较多，无法满足标准文献题录特征值智能化提取的实际需求。

发明内容

本发明的目的是提供一种基于标准文献题录特征值的智能提取方法，解决了现有技术中题录字段的采集、处理和提取的效率低，定位准确率低的问题。

为实现上述目的，本发明采用以下技术方案：

一种基于标准文献题录特征值的智能提取方法，包括如下步骤：

步骤1：建立图像获取模块、图像处理模块、模版配置模块、文献提取模块和审核模块；图像获取模块用于获取标准文献纸质文本的图像，并生成文献图像；图像处理模块用于对文献图像进行清晰化处理，生成标准文献双层浮文PDF文件；模版配置模块用于对标准文献双层浮文PDF文件中的题录字段进行提取，生成标准文献题录字段；文献提取模块用于对标准文献题录字段的内容进行提取；审核模块用于让标准题录加工人员对标准文献题录字段的内容进行核对和修改；

步骤2：图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像，图像处理模块对标准文献图像进行清晰化处理，并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF，再经过封装后的OCR识别，最后生成txt版本和双层浮文PDF版本的标准文献，即标准文献双层浮文PDF文件；

步骤3：模版配置模块根据标准文献的编写格式规范，确定标准文献题录字段，模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取；

步骤4：文献提取模块根据标准文献题录字段各自定位的区域，自动采集标准文献双层浮文PDF版本中所涵盖的文本内容；

步骤5：标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行核对，如果内容存在不正确的地方，标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行修改。

所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均为服务器，所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均通过互联网通信。

所述位置区域截取是指记录第一个位置所在的坐标、字段所在的页码、宽度和长度；采用位置区域截取的字段主要包括标准号、标准中文名称、标准英文名称、发布日期、实施日期、中国标准分类号、国际标准分类号和发布单位等；所述范围截取是指记录字段开头位置坐标、尾部位置坐标和字段所在的页码；采用范围截取的字段主要包括提取单位、归口单位、起草单位、起草人和适用范围字段。

执行步骤4时，文献提取模块在本地建立数据缓存模块，数据缓存模块从模版配置模块中将准备加工的标准文本下载到本地缓存中，按以下步骤进行数据缓存：

步骤S1：从本地缓存获取数据，在数据信息查询过程中，首先在本地缓存中获取，如数据信息存在则直接反馈给控件，如本地缓存未缓存该数据，则进行操作步骤S2；

步骤S2：从本地磁盘获取数据，如本地磁盘中有所需的数据信息，则反馈磁盘中的数据给控件，同时将此数据信息缓存到本地，如本地磁盘中未获取到所需的数据信息，则进行操作步骤S3；

步骤S3：从本地数据库服务器获取数据，如本地缓存及磁盘都未获取到所需的数据信息，则去本地数据库服务器获取并反馈给对应的控件，同时将此数据更新至本地缓存及本地磁盘中；

由于本地缓存有限，当数据缓存模块中的缓存空间超过阀值后，必须进行替换操作，其具体步骤如下：

步骤S4：有新缓存数据时，判断缓存空间是否足够，如果足够则直接存入缓存，如不够则进行操作步骤S5；

步骤S5：缓存空间不够，移除距最近一次使用最远的缓存数据，重复操作步骤S5，直至可储存新的缓存数据。

本发明所述的一种基于标准文献题录特征值的智能提取方法，通过对OCR技术进行封装，把标准文献图像转换成双层浮文PDF，根据对不同模板标准文本格式版面的分析，对标准文献题录字段位置区域进行定位和自动采集，改变原有人工录入的方式，减少员工工作量和提高数据准确性，提高题录字段采集、处理、提取效率和定位准确率。

附图说明

图1是本发明的流程图；

图2是本发明的步骤S1到步骤S3的流程图；

图3是本发明的步骤S4和步骤S5的流程图。

具体实施方式

如图1-图3所示一种基于标准文献题录特征值的智能提取方法，包括如下步骤：

步骤2：图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像，图像处理模块对标准文献图像进行清晰化处理，并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF，再经过封装后的OCR识别，最后生成txt版本和双层浮文PDF版本的标准文献，即标准文献双层浮文PDF文件；标准扫描加工人员预先标注标准文本的前言和首页。

步骤3：模版配置模块根据标准文献的编写格式规范，确定标准文献题录字段，比如：标准中文名称、标准英文名称、中国标准分类号、国际标准分类号、发布日期、实施日期、废止日期、适用范围、标准状态等52个字段，根据每个字段所在文档的页码和区域，预先配置好不同标准文本格式的题录特征值自动提取模板，模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取；

所述位置区域截取是指记录第一个位置所在的坐标、字段所在的页码、宽度和长度；采用位置区域截取的字段主要包括标准号、标准中文名称、标准英文名称和中标分类号等47个字段；所述范围截取是指记录字段开头位置坐标、尾部位置坐标和字段所在的页码；采用范围截取的字段主要包括提取单位、归口单位、起草单位、起草人和适用范围字段。

由于标准文本PDF版本大小不一，几兆、几十兆和上百兆不等，因此在标准题录加工时，文献提取模块在本地建立数据缓存模块，数据缓存模块将准备加工的标准文本下载到本地缓存中，设定ObjectDataSource的CacheDuration(缓存时间：秒)，EnableCaching＝true。这样每隔CacheDuration指定的时间段才调用SelectMethod指定的方法来执行数据库查询，其他时候都是直接返回缓存的数据。取数据的过程缓存，在缓存期间，绑定控件向ObjectDataSource要数据，ObjectDataSource直接将缓存的数据返回给控件，不再去向TypeName指向的类要数据。设置缓存时间为1小时，静态文件缓存是4小时。

采用位置区域截取的字段的截取方法如下：

标准号的提取模板配置方法：通过对大量同样格式的标准文献格式进行分析，归纳总结标准号所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为标准文献标准号的定位区域。

标准中文名称的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结标准中文名称所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为标准文献中文名称的定位区域。

标准英文名字的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结标准英文名称所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为标准文献英文名称的定位区域。

发布日期的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结标准发布日期所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为标准文献发布日期的定位区域。

实施日期的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结标准实施日期所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为标准文献实施日期的定位区域。

中国标准分类号的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结中国标准分类号所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为中国标准分类号的定位区域。

国际标准分类号的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结国际标准分类号所在标准文献第1页，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为国际标准分类号的定位区域。

发布单位的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注)，设定字段开头位置坐标(X值、Y值)、宽度、高度，即为发布单位的定位区域。

采用范围截取的字段的截取方法如下：

起草单位的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注)，设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值)，即为起草单位的定位区域。

起草人的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注)，设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值)，即为起草人的定位区域。

提出单位的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注)，设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值)，即为提出单位的定位区域。

适用范围的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结发布单位所在标准文献的正文首页(正文首页已在文本扫描阶段进行标注)，设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值)，即为适用范围的定位区域。

归口单位的提取模板配置方法：先定位页码，通过对大量同样格式的标准文献格式进行分析，归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注)，设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值)，即为归口单位的定位区域。

起草单位、归口单位和提出单位又根据不同的文字表述而配置不同的定位。首先定位标准文本首页，介于标准文本前言和首页之间，以“起草单位、归口单位和提出单位”关键词作为定位词。比如：①本部分由XXX提出并归口；②本标准由XXX归口；③本标准由XXX提出并归口；④本指导性文件由XXX提出并归口；⑤归口单位：XXX；主要起草单位：XXX；⑥归口单位：XXX；起草单位：XXX；⑦本部分由XXX归口。

与现有技术相比，本发明提出的技术方案通过预先配置好不同标准文本格式的题录特征值自动提取模板，根据准文献题录字段各自定位的区域，自动采集该区域中所涵盖的文本内容。同时本发明提供的文本图像定位方法包括位置区域截取和范围截取，适用于不同语种、混合复杂版面文档图像中文本关键字段内容的提取，使原先由手工题录加工变成自动加工，提高了题录加工的效率和准确率。

Claims

1.一种基于标准文献题录特征值的智能提取方法，其特征在于：包括如下步骤：

2.如权利要求1所述的一种基于标准文献题录特征值的智能提取方法，其特征在于：所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均为服务器，所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均通过互联网通信。

3.如权利要求1所述的一种基于标准文献题录特征值的智能提取方法，其特征在于：所述位置区域截取是指记录第一个位置所在的坐标、字段所在的页码、宽度和长度；采用位置区域截取的字段主要包括标准号、标准中文名称、标准英文名称、发布日期、实施日期、中国标准分类号、国际标准分类号和发布单位；所述范围截取是指记录字段开头位置坐标、尾部位置坐标和字段所在的页码；采用范围截取的字段主要包括提取单位、归口单位、起草单位、起草人和适用范围字段。

4.如权利要求1所述的一种基于标准文献题录特征值的智能提取方法，其特征在于：执行步骤4时，文献提取模块在本地建立数据缓存模块，数据缓存模块从模版配置模块中将准备加工的标准文本下载到本地缓存中，按以下步骤进行数据缓存：