CN109271616A - 一种基于标准文献题录特征值的智能提取方法 - Google Patents

一种基于标准文献题录特征值的智能提取方法 Download PDF

Info

Publication number
CN109271616A
CN109271616A CN201710578530.8A CN201710578530A CN109271616A CN 109271616 A CN109271616 A CN 109271616A CN 201710578530 A CN201710578530 A CN 201710578530A CN 109271616 A CN109271616 A CN 109271616A
Authority
CN
China
Prior art keywords
module
document
normative document
data
normative
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710578530.8A
Other languages
English (en)
Other versions
CN109271616B (zh
Inventor
严菁
陈银龙
金志刚
卞超杰
魏雪艳
王玮健
李正祥
程锦彬
许祥红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute Of Quality And Standardization
Original Assignee
Jiangsu Institute Of Quality And Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute Of Quality And Standardization filed Critical Jiangsu Institute Of Quality And Standardization
Priority to CN201710578530.8A priority Critical patent/CN109271616B/zh
Publication of CN109271616A publication Critical patent/CN109271616A/zh
Application granted granted Critical
Publication of CN109271616B publication Critical patent/CN109271616B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种基于标准文献题录特征值的智能提取方法,涉及一种文档图像内容的提取方法,通过对OCR技术进行封装,把标准文献图像转换成双层浮文PDF,根据对不同模板标准文本格式版面的分析,对标准文献题录字段位置区域进行定位和自动采集,改变原有人工录入的方式,减少员工工作量和提高数据准确性,提高题录字段采集、处理、提取效率和定位准确率。

Description

一种基于标准文献题录特征值的智能提取方法
技术领域
本发明涉及一种文档图像内容的提取方法,尤其涉及一种基于标准文献题录特征值的智能提取方法。
背景技术
文本是计算机视觉的许多应用中的一项重要特征。图像中的文本存有很多有用的信息,对视觉内容理解和获取至关重要。标准文献文本图像是由纸质标准文本通过扫描仪图像数据采集设备生成的,以静止图像编码方法存储的数字图像,载荷有丰富的文字信息、图像信息、格式信息等重要内容。随着全球化贸易往来,企业对国际标准的需求日益旺盛,多种国外语言文字的文本图像需要进行识别和处理。文本图像的文种识别是对以图像形式呈现、由不同语言文字构成的图像,提取能够用于计算机识别的底层特征,实现文种的自动分类,对于有效提取文本图像中的信息具有十分重要的意义。随着网络通信技术和信息处理技术的迅速发展,文本图像的分析处理、提取和定位等技术也在不断改进,为文本图像内容的深度挖掘应用提供支撑。标准文献题录提取的主要目的是为用户提供标准查询的简要内容介绍,从而方便用户的购买和查询。其中关键点和难点就是准确快速的文本定位,文本定位的好坏将直接影响系统的识别结果。
中国信息技术与应用学术论坛,2008《基于版面特征的文档图像的文本定位方法》提供一种图像的文本定位技术,并针对基于版面特征的文档图像提出了一种文本定位方法。该方法首先利用拉普拉斯算子粗略检测出文字边缘区域,利用形态学膨胀方法扩展区域,接着通过聚类分析来提取文本层,最后根据中文字符的自身矩形区域比例、宽高比等特征有效定位出图像中的文本区域
中国信息技术与应用学术论坛,2008《基于版面特征的文档图像的文本定位方法》其首先定位首行和末行文本区域位置,再借助中文字符一般的宽高比来进行文本区域定位,使用一个宽高比的阶梯函数扩展笔画矩形区域,主要是纵向的扩展,从而定位出文档图像中的文本区域。
其针对的是文档图像中文字字符通用的宽高比0.7,但是在不同语种、混合复杂版面文档图像处理中,字符实际占用空间与周围环境有关,文本区域定位往往达不到满意的效果,不确定因素较多,无法满足标准文献题录特征值智能化提取的实际需求。
发明内容
本发明的目的是提供一种基于标准文献题录特征值的智能提取方法,解决了现有技术中题录字段的采集、处理和提取的效率低,定位准确率低的问题。
为实现上述目的,本发明采用以下技术方案:
一种基于标准文献题录特征值的智能提取方法,包括如下步骤:
步骤1:建立图像获取模块、图像处理模块、模版配置模块、文献提取模块和审核模块;图像获取模块用于获取标准文献纸质文本的图像,并生成文献图像;图像处理模块用于对文献图像进行清晰化处理,生成标准文献双层浮文PDF文件;模版配置模块用于对标准文献双层浮文PDF文件中的题录字段进行提取,生成标准文献题录字段;文献提取模块用于对标准文献题录字段的内容进行提取;审核模块用于让标准题录加工人员对标准文献题录字段的内容进行核对和修改;
步骤2:图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像,图像处理模块对标准文献图像进行清晰化处理,并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF,再经过封装后的OCR识别,最后生成txt版本和双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件;
步骤3:模版配置模块根据标准文献的编写格式规范,确定标准文献题录字段,模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取;
步骤4:文献提取模块根据标准文献题录字段各自定位的区域,自动采集标准文献双层浮文PDF版本中所涵盖的文本内容;
步骤5:标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行核对,如果内容存在不正确的地方,标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行修改。
所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均为服务器,所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均通过互联网通信。
所述位置区域截取是指记录第一个位置所在的坐标、字段所在的页码、宽度和长度;采用位置区域截取的字段主要包括标准号、标准中文名称、标准英文名称、发布日期、实施日期、中国标准分类号、国际标准分类号和发布单位等;所述范围截取是指记录字段开头位置坐标、尾部位置坐标和字段所在的页码;采用范围截取的字段主要包括提取单位、归口单位、起草单位、起草人和适用范围字段。
执行步骤4时,文献提取模块在本地建立数据缓存模块,数据缓存模块从模版配置模块中将准备加工的标准文本下载到本地缓存中,按以下步骤进行数据缓存:
步骤S1:从本地缓存获取数据,在数据信息查询过程中,首先在本地缓存中获取,如数据信息存在则直接反馈给控件,如本地缓存未缓存该数据,则进行操作步骤S2;
步骤S2:从本地磁盘获取数据,如本地磁盘中有所需的数据信息,则反馈磁盘中的数据给控件,同时将此数据信息缓存到本地,如本地磁盘中未获取到所需的数据信息,则进行操作步骤S3;
步骤S3:从本地数据库服务器获取数据,如本地缓存及磁盘都未获取到所需的数据信息,则去本地数据库服务器获取并反馈给对应的控件,同时将此数据更新至本地缓存及本地磁盘中;
由于本地缓存有限,当数据缓存模块中的缓存空间超过阀值后,必须进行替换操作,其具体步骤如下:
步骤S4:有新缓存数据时,判断缓存空间是否足够,如果足够则直接存入缓存,如不够则进行操作步骤S5;
步骤S5:缓存空间不够,移除距最近一次使用最远的缓存数据,重复操作步骤S5,直至可储存新的缓存数据。
本发明所述的一种基于标准文献题录特征值的智能提取方法,通过对OCR技术进行封装,把标准文献图像转换成双层浮文PDF,根据对不同模板标准文本格式版面的分析,对标准文献题录字段位置区域进行定位和自动采集,改变原有人工录入的方式,减少员工工作量和提高数据准确性,提高题录字段采集、处理、提取效率和定位准确率。
附图说明
图1是本发明的流程图;
图2是本发明的步骤S1到步骤S3的流程图;
图3是本发明的步骤S4和步骤S5的流程图。
具体实施方式
如图1-图3所示一种基于标准文献题录特征值的智能提取方法,包括如下步骤:
步骤1:建立图像获取模块、图像处理模块、模版配置模块、文献提取模块和审核模块;图像获取模块用于获取标准文献纸质文本的图像,并生成文献图像;图像处理模块用于对文献图像进行清晰化处理,生成标准文献双层浮文PDF文件;模版配置模块用于对标准文献双层浮文PDF文件中的题录字段进行提取,生成标准文献题录字段;文献提取模块用于对标准文献题录字段的内容进行提取;审核模块用于让标准题录加工人员对标准文献题录字段的内容进行核对和修改;
步骤2:图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像,图像处理模块对标准文献图像进行清晰化处理,并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF,再经过封装后的OCR识别,最后生成txt版本和双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件;标准扫描加工人员预先标注标准文本的前言和首页。
步骤3:模版配置模块根据标准文献的编写格式规范,确定标准文献题录字段,比如:标准中文名称、标准英文名称、中国标准分类号、国际标准分类号、发布日期、实施日期、废止日期、适用范围、标准状态等52个字段,根据每个字段所在文档的页码和区域,预先配置好不同标准文本格式的题录特征值自动提取模板,模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取;
步骤4:文献提取模块根据标准文献题录字段各自定位的区域,自动采集标准文献双层浮文PDF版本中所涵盖的文本内容;
步骤5:标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行核对,如果内容存在不正确的地方,标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行修改。
所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均为服务器,所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均通过互联网通信。
所述位置区域截取是指记录第一个位置所在的坐标、字段所在的页码、宽度和长度;采用位置区域截取的字段主要包括标准号、标准中文名称、标准英文名称和中标分类号等47个字段;所述范围截取是指记录字段开头位置坐标、尾部位置坐标和字段所在的页码;采用范围截取的字段主要包括提取单位、归口单位、起草单位、起草人和适用范围字段。
执行步骤4时,文献提取模块在本地建立数据缓存模块,数据缓存模块从模版配置模块中将准备加工的标准文本下载到本地缓存中,按以下步骤进行数据缓存:
步骤S1:从本地缓存获取数据,在数据信息查询过程中,首先在本地缓存中获取,如数据信息存在则直接反馈给控件,如本地缓存未缓存该数据,则进行操作步骤S2;
步骤S2:从本地磁盘获取数据,如本地磁盘中有所需的数据信息,则反馈磁盘中的数据给控件,同时将此数据信息缓存到本地,如本地磁盘中未获取到所需的数据信息,则进行操作步骤S3;
步骤S3:从本地数据库服务器获取数据,如本地缓存及磁盘都未获取到所需的数据信息,则去本地数据库服务器获取并反馈给对应的控件,同时将此数据更新至本地缓存及本地磁盘中;
由于本地缓存有限,当数据缓存模块中的缓存空间超过阀值后,必须进行替换操作,其具体步骤如下:
步骤S4:有新缓存数据时,判断缓存空间是否足够,如果足够则直接存入缓存,如不够则进行操作步骤S5;
步骤S5:缓存空间不够,移除距最近一次使用最远的缓存数据,重复操作步骤S5,直至可储存新的缓存数据。
由于标准文本PDF版本大小不一,几兆、几十兆和上百兆不等,因此在标准题录加工时,文献提取模块在本地建立数据缓存模块,数据缓存模块将准备加工的标准文本下载到本地缓存中,设定ObjectDataSource的CacheDuration(缓存时间:秒),EnableCaching=true。这样每隔CacheDuration指定的时间段才调用SelectMethod指定的方法来执行数据库查询,其他时候都是直接返回缓存的数据。取数据的过程缓存,在缓存期间,绑定控件向ObjectDataSource要数据,ObjectDataSource直接将缓存的数据返回给控件,不再去向TypeName指向的类要数据。设置缓存时间为1小时,静态文件缓存是4小时。
采用位置区域截取的字段的截取方法如下:
标准号的提取模板配置方法:通过对大量同样格式的标准文献格式进行分析,归纳总结标准号所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为标准文献标准号的定位区域。
标准中文名称的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结标准中文名称所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为标准文献中文名称的定位区域。
标准英文名字的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结标准英文名称所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为标准文献英文名称的定位区域。
发布日期的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结标准发布日期所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为标准文献发布日期的定位区域。
实施日期的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结标准实施日期所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为标准文献实施日期的定位区域。
中国标准分类号的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结中国标准分类号所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为中国标准分类号的定位区域。
国际标准分类号的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结国际标准分类号所在标准文献第1页,设定字段开头位置坐标(X值、Y值)、宽度、高度,即为国际标准分类号的定位区域。
发布单位的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注),设定字段开头位置坐标(X值、Y值)、宽度、高度,即为发布单位的定位区域。
采用范围截取的字段的截取方法如下:
起草单位的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注),设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值),即为起草单位的定位区域。
起草人的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注),设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值),即为起草人的定位区域。
提出单位的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注),设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值),即为提出单位的定位区域。
适用范围的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结发布单位所在标准文献的正文首页(正文首页已在文本扫描阶段进行标注),设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值),即为适用范围的定位区域。
归口单位的提取模板配置方法:先定位页码,通过对大量同样格式的标准文献格式进行分析,归纳总结发布单位所在标准文献的前言页(前言页已在文本扫描阶段进行标注),设定字段开头位置坐标(X值、Y值)和尾部位置坐标(X值、Y值),即为归口单位的定位区域。
起草单位、归口单位和提出单位又根据不同的文字表述而配置不同的定位。首先定位标准文本首页,介于标准文本前言和首页之间,以“起草单位、归口单位和提出单位”关键词作为定位词。比如:①本部分由XXX提出并归口;②本标准由XXX归口;③本标准由XXX提出并归口;④本指导性文件由XXX提出并归口;⑤归口单位:XXX;主要起草单位:XXX;⑥归口单位:XXX;起草单位:XXX;⑦本部分由XXX归口。
与现有技术相比,本发明提出的技术方案通过预先配置好不同标准文本格式的题录特征值自动提取模板,根据准文献题录字段各自定位的区域,自动采集该区域中所涵盖的文本内容。同时本发明提供的文本图像定位方法包括位置区域截取和范围截取,适用于不同语种、混合复杂版面文档图像中文本关键字段内容的提取,使原先由手工题录加工变成自动加工,提高了题录加工的效率和准确率。
本发明所述的一种基于标准文献题录特征值的智能提取方法,通过对OCR技术进行封装,把标准文献图像转换成双层浮文PDF,根据对不同模板标准文本格式版面的分析,对标准文献题录字段位置区域进行定位和自动采集,改变原有人工录入的方式,减少员工工作量和提高数据准确性,提高题录字段采集、处理、提取效率和定位准确率。

Claims (4)

1.一种基于标准文献题录特征值的智能提取方法,其特征在于:包括如下步骤:
步骤1:建立图像获取模块、图像处理模块、模版配置模块、文献提取模块和审核模块;图像获取模块用于获取标准文献纸质文本的图像,并生成文献图像;图像处理模块用于对文献图像进行清晰化处理,生成标准文献双层浮文PDF文件;模版配置模块用于对标准文献双层浮文PDF文件中的题录字段进行提取,生成标准文献题录字段;文献提取模块用于对标准文献题录字段的内容进行提取;审核模块用于让标准题录加工人员对标准文献题录字段的内容进行核对和修改;
步骤2:图像获取模块获取标准文献纸质文本的Tif版本的标准文献图像,图像处理模块对标准文献图像进行清晰化处理,并通过Tif软件编辑器将Tif版本的标准文献图像处理生成单层PDF,再经过封装后的OCR识别,最后生成txt版本和双层浮文PDF版本的标准文献,即标准文献双层浮文PDF文件;
步骤3:模版配置模块根据标准文献的编写格式规范,确定标准文献题录字段,模版配置模块采用位置区域截取或范围截取的方式对标准文献题录字段进行提取;
步骤4:文献提取模块根据标准文献题录字段各自定位的区域,自动采集标准文献双层浮文PDF版本中所涵盖的文本内容;
步骤5:标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行核对,如果内容存在不正确的地方,标准题录加工人员通过审核模块对自动采集标准文献双层浮文PDF版本中所涵盖的文本内容进行修改。
2.如权利要求1所述的一种基于标准文献题录特征值的智能提取方法,其特征在于:所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均为服务器,所述图像获取模块、所述图像处理模块、所述模版配置模块、所述文献提取模块和所述审核模块均通过互联网通信。
3.如权利要求1所述的一种基于标准文献题录特征值的智能提取方法,其特征在于:所述位置区域截取是指记录第一个位置所在的坐标、字段所在的页码、宽度和长度;采用位置区域截取的字段主要包括标准号、标准中文名称、标准英文名称、发布日期、实施日期、中国标准分类号、国际标准分类号和发布单位;所述范围截取是指记录字段开头位置坐标、尾部位置坐标和字段所在的页码;采用范围截取的字段主要包括提取单位、归口单位、起草单位、起草人和适用范围字段。
4.如权利要求1所述的一种基于标准文献题录特征值的智能提取方法,其特征在于:执行步骤4时,文献提取模块在本地建立数据缓存模块,数据缓存模块从模版配置模块中将准备加工的标准文本下载到本地缓存中,按以下步骤进行数据缓存:
步骤S1:从本地缓存获取数据,在数据信息查询过程中,首先在本地缓存中获取,如数据信息存在则直接反馈给控件,如本地缓存未缓存该数据,则进行操作步骤S2;
步骤S2:从本地磁盘获取数据,如本地磁盘中有所需的数据信息,则反馈磁盘中的数据给控件,同时将此数据信息缓存到本地,如本地磁盘中未获取到所需的数据信息,则进行操作步骤S3;
步骤S3:从本地数据库服务器获取数据,如本地缓存及磁盘都未获取到所需的数据信息,则去本地数据库服务器获取并反馈给对应的控件,同时将此数据更新至本地缓存及本地磁盘中;
由于本地缓存有限,当数据缓存模块中的缓存空间超过阀值后,必须进行替换操作,其具体步骤如下:
步骤S4:有新缓存数据时,判断缓存空间是否足够,如果足够则直接存入缓存,如不够则进行操作步骤S5;
步骤S5:缓存空间不够,移除距最近一次使用最远的缓存数据,重复操作步骤S5,直至可储存新的缓存数据。
CN201710578530.8A 2017-07-17 2017-07-17 一种基于标准文献题录特征值的智能提取方法 Expired - Fee Related CN109271616B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710578530.8A CN109271616B (zh) 2017-07-17 2017-07-17 一种基于标准文献题录特征值的智能提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710578530.8A CN109271616B (zh) 2017-07-17 2017-07-17 一种基于标准文献题录特征值的智能提取方法

Publications (2)

Publication Number Publication Date
CN109271616A true CN109271616A (zh) 2019-01-25
CN109271616B CN109271616B (zh) 2022-09-16

Family

ID=65152513

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710578530.8A Expired - Fee Related CN109271616B (zh) 2017-07-17 2017-07-17 一种基于标准文献题录特征值的智能提取方法

Country Status (1)

Country Link
CN (1) CN109271616B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110097A (zh) * 2019-05-13 2019-08-09 江苏省质量技术监督信息中心 一种基于模式识别技术在标准化文献元数据提取实现方法
CN112463993A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的参数数据提取方法
CN112463728A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的题录数据提取方法
CN113779948A (zh) * 2021-09-10 2021-12-10 成都材智科技有限公司 一种核电结构材料数据文件自动化提取系统及方法
CN118035533A (zh) * 2022-11-11 2024-05-14 重庆博腾药业有限公司 文献数据库构建方法、装置及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011260A (ja) * 2003-06-20 2005-01-13 Canon Sales Co Inc 文書管理装置、文書管理システム及び文書管理用プログラム
CN103310019A (zh) * 2013-07-04 2013-09-18 浙江省方大标准信息有限公司 面向检测机构标准信息与知识服务系统及方法
CN103366247A (zh) * 2013-07-04 2013-10-23 浙江省方大标准信息有限公司 标准有效性判断系统及方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005011260A (ja) * 2003-06-20 2005-01-13 Canon Sales Co Inc 文書管理装置、文書管理システム及び文書管理用プログラム
CN103310019A (zh) * 2013-07-04 2013-09-18 浙江省方大标准信息有限公司 面向检测机构标准信息与知识服务系统及方法
CN103366247A (zh) * 2013-07-04 2013-10-23 浙江省方大标准信息有限公司 标准有效性判断系统及方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
张震等: "基于Solr的大规模标准文献可视化分析系统", 《计算机系统应用》 *
曲美艳等: "标准文献的CNMARC格式著录方法探讨", 《科技情报开发与经济》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110097A (zh) * 2019-05-13 2019-08-09 江苏省质量技术监督信息中心 一种基于模式识别技术在标准化文献元数据提取实现方法
CN112463993A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的参数数据提取方法
CN112463728A (zh) * 2020-11-27 2021-03-09 成都材智科技有限公司 一种科技文献的题录数据提取方法
CN113779948A (zh) * 2021-09-10 2021-12-10 成都材智科技有限公司 一种核电结构材料数据文件自动化提取系统及方法
CN118035533A (zh) * 2022-11-11 2024-05-14 重庆博腾药业有限公司 文献数据库构建方法、装置及计算机可读存储介质

Also Published As

Publication number Publication date
CN109271616B (zh) 2022-09-16

Similar Documents

Publication Publication Date Title
CN109271616A (zh) 一种基于标准文献题录特征值的智能提取方法
CN101297319B (zh) 在电子文档中嵌入热点
US9286392B2 (en) Enhanced search engine
WO2011068571A1 (en) Identifying matching canonical documents in response to a visual query
CN106484663A (zh) 一种文档内容的提取方法和装置
CN113901933B (zh) 基于人工智能的电子发票信息抽取方法、装置及设备
CN112631586A (zh) 一种应用开发方法、装置、电子设备和存储介质
Prakash et al. Content extraction studies using neural network and attribute generation
CN117312711A (zh) 一种基于ai分析的搜索引擎优化方法及系统
JPH08147446A (ja) 電子ファイリング装置
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
CN111881900B (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
CN109919153A (zh) 基于手写识别人工智能技术的自动单据录入系统及方法
CN116343210B (zh) 档案数字化的管理方法及装置
CN112990091A (zh) 基于目标检测的研报解析方法、装置、设备和存储介质
US7356458B1 (en) Multi-language correspondence/form generator
US11914567B2 (en) Text-based machine learning extraction of table data from a read-only document
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN115630636A (zh) 文本识别方法及装置
CN113343140B (zh) 一种基于neo4j图形数据库自动提取网页正文内容的方法
CN112348022B (zh) 一种基于深度学习的自由格式文档识别方法
CN111241955B (zh) 一种票据信息提取方法及系统
JPS60114967A (ja) 画像フアイル装置
CN106874684A (zh) 一种图像标注系统及方法
Oliaee et al. Layout Analysis of Historic Architectural Program Documents

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220916