CN112463993A - 一种科技文献的参数数据提取方法 - Google Patents

一种科技文献的参数数据提取方法 Download PDF

Info

Publication number
CN112463993A
CN112463993A CN202011357636.3A CN202011357636A CN112463993A CN 112463993 A CN112463993 A CN 112463993A CN 202011357636 A CN202011357636 A CN 202011357636A CN 112463993 A CN112463993 A CN 112463993A
Authority
CN
China
Prior art keywords
parameter data
technical literature
scientific
parameter
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011357636.3A
Other languages
English (en)
Inventor
王卓
李皓琛
王者
刘昌鑫
王英海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Caizhi Technology Co ltd
Original Assignee
Chengdu Caizhi Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Caizhi Technology Co ltd filed Critical Chengdu Caizhi Technology Co ltd
Priority to CN202011357636.3A priority Critical patent/CN112463993A/zh
Publication of CN112463993A publication Critical patent/CN112463993A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/44Browsing; Visualisation therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种科技文献的参数数据提取方法,包括以下步骤:S1、上传科技文献PDF格式文件;S2、通过参数解析模块对科技文献PDF中的参数进行自动提取,获得参数数据,再通过与目标数据库字段匹配,同时显示参数数据所在的位置信息,并显示匹配结果;S3、将获得的参数数据建立新文档并与科技文献PDF原文对应部分同时展示;S4、上传者手动修改并完善新文档对应参数数据部分的录入,然后保存至数据库中。根据使用需要可通过对于科研文献内有价值的内容,本发明采用提取有价值、实用的参数数据内容,使用参数解析模块准确提取图片、表格、科学研究参数数据等。帮助科学研究人员轻松用PDF科学文件建立起属于自己的参数数据资料库。

Description

一种科技文献的参数数据提取方法
技术领域
本发明涉及计算机数据提取领域,具体涉及一种科技文献的参数数据提取方法。
背景技术
科技文献是科技发展技术积累的结晶,是现代化企业科学研究、组织生产、提高产品质量必要技术文献。随着科学技术不断发展,科技文献的积累日益丰富,互联网拥有很多公开的PDF科技文献资源,资源中包含了众多有价值、值得挖掘的信息。但是和传统网页,Word,txt等文档相比,科技文献PDF格式多样,也存在缺乏结构信息,提取表格数据,图片数据等非常困难。
在申请号为200910076809.1的中国专利“结合OCR技术的PDF文字提取方法”,该专利通过在字符计算机内码确认过程中结合OCR技术,通过解析和转换获得PDF中字符的编码、位置、字符图像、字体、字号等信息,实现对文献PDF文字的提取,但是在实际使用过程中,科技文献PDF格式多样,甚至出现图片文字等,这种OCR技术容易导致乱码率较高。同时对于图片以及表格中的数据参数提取极为不便。
发明内容
针对现有技术的不足,本发明提供了一种科技文献的参数数据提取方法,解决了现有技术中科技文献PDF的数据参数提取不便的技术问题。
为实现以上目的,本发明通过以下技术方案予以实现:
一种科技文献的参数数据提取方法,包括以下步骤:
S1、上传科技文献PDF格式文件;
S2、通过参数解析模块对科技文献PDF中的参数进行自动提取,获得参数数据,再通过与目标数据库字段匹配,同时显示参数数据所在的位置信息,并显示匹配结果;
S3、将获得的参数数据建立新文档并与科技文献PDF原文对应部分同时展示;
S4、上传者手动修改并完善新文档对应参数数据部分的录入,然后保存至数据库中。
进一步的,所述S2中,参数解析模块提取科技文献PDF中的数字数值,以及图片、表格中的参数数字数值。
进一步的,所述S2中,参数解析模块根据科技文献PDF原文中图片对象的追踪,获得图片坐标,并将图片保存为png格式;同时自动提取图片下方的文字说明,根据图片坐标和整页坐标计算图片所在的位置,并提取对应位置信息。
进一步的,所述S2中,参数解析模块根据科技文献PDF原文中表格进行最终,栅格表和色块表,可以做到自动提取并识别,并获得表哥所对应的位置位置信息。
进一步的,所述S2中,参数解析模块通过网络通信方式存储目标数据库字段,并与题录数据进行匹配。
进一步的,所述S2中,参数解析模块通过内部数据库方式存储目标数据库字段,并与题录数据进行匹配。
进一步的,所述S2中,参数解析模块采用字符串相似度算法进行匹配。
进一步的,所述S4中,上传者手动修改使用框选式参数数据提取方式操作。
本发明提供了一种科技文献的参数数据提取方法,通过。
1、根据使用需要可通过对于科研文献内有价值的内容,本发明采用提取有价值、实用的参数数据内容,使用参数解析模块准确提取图片、表格、科学研究参数数据等。帮助科学研究人员轻松用PDF科学文件建立起属于自己的参数数据资料库。
2、本发明根据需要,手动拖拽调整匹配结果,以便完善参数匹配结果,同时根据需要进行参数的对比和修改操作,大大便捷了参数的操作。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明的科技文献数据数字化参数数据提取方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明实施例提供一种科技文献数据数字化参数数据提取方法,包括如下步骤:
S1、上传科技文献PDF格式文件。
S2、通过参数解析模块对科技文献PDF中的题录数据进行自动提取,获得参数数据,再通过与目标数据库字段匹配,本步骤重点提取数值、图片、表格等参数类数据,参数解析模块可以自动提取数值,使用正则表达式匹配整数,浮点数,科学计数法等数学数值;例如所在提取图片中的相关参数时,根据对科技文献PDF中图片对象的追踪,获取图片坐标,将文件保存为png格式图片;同时可以自动提取图片下方的文字说明,根据图片坐标和整页坐标计算图片说明的位置,提取位置文本,避免在图片下方的文字以图片格式存在被忽视;提取表格时,对于常用的栅格表和色块表,可以做到自动提取并识别。
参数解析模块自动获取参数数据库字段,可以通过网络通信方式获取目标数据库的字段,获取字段名称等信息,同时也可以在存储模块中输入常用翻译数据库,以便将参数数据名称翻译为多种语言,增加匹配命中率。参数解析模块获得的参数数据与目标数据库字段采用字符串相似度算法进行匹配,只有类型相同的字段和参数数据才能自动匹配,以便提高其运算效率,并提高准确度。
S3、随后展示匹配结果,同时在界面展示PDF原文和题录数据,便于操作人员校对参数数据。方便在进行参数数据修改时,对照原文PDF比较。
S4、对于解析结果不满意的参数数据,操作人员可以进行手动修改。软件提供了非常便捷的框选式参数数据提取,无论是想获取科技文献PDF中的图片,表格,文本,只需要在科技文献PDF中框选,软件就可以识别坐标并自动解析出需要的结果,同时将参数数据保存进数据库中。
根据使用需要可通过对于科研文献内有价值的内容,本发明也进行了深入的研究,只提取有价值、实用的参数数据内容,使用技术准确提取图片、表格、科学研究参数数据等。帮助科学研究人员轻松用PDF科学文件建立起属于自己的参数数据资料库。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种科技文献的参数数据提取方法,其特征在于,包括以下步骤:
S1、上传科技文献PDF格式文件;
S2、通过参数解析模块对科技文献PDF中的参数进行自动提取,获得参数数据,再通过与目标数据库字段匹配,同时显示参数数据所在的位置信息,并显示匹配结果;
S3、将获得的参数数据建立新文档并与科技文献PDF原文对应部分同时展示;
S4、上传者手动修改并完善新文档对应参数数据部分的录入,然后保存至数据库中。
2.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块提取科技文献PDF中的数字数值,以及图片、表格中的参数数字数值。
3.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块根据科技文献PDF原文中图片对象的追踪,获得图片坐标,并将图片保存为png格式;同时自动提取图片下方的文字说明,根据图片坐标和整页坐标计算图片所在的位置,并提取对应位置信息。
4.如权利要求3所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块根据科技文献PDF原文中表格进行最终,栅格表和色块表,可以做到自动提取并识别,并获得表哥所对应的位置位置信息。
5.如权利要求4所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块通过网络通信方式存储目标数据库字段,并与题录数据进行匹配。
6.如权利要求4所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块通过内部数据库方式存储目标数据库字段,并与题录数据进行匹配。
7.如权利要求4所述的科技文献数据数字化提取方法,其特征在于,所述S2中,参数解析模块采用字符串相似度算法进行匹配。
8.如权利要求5所述的科技文献数据数字化提取方法,其特征在于,所述S4中,上传者手动修改使用框选式参数数据提取方式操作。
CN202011357636.3A 2020-11-27 2020-11-27 一种科技文献的参数数据提取方法 Pending CN112463993A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011357636.3A CN112463993A (zh) 2020-11-27 2020-11-27 一种科技文献的参数数据提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011357636.3A CN112463993A (zh) 2020-11-27 2020-11-27 一种科技文献的参数数据提取方法

Publications (1)

Publication Number Publication Date
CN112463993A true CN112463993A (zh) 2021-03-09

Family

ID=74809138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011357636.3A Pending CN112463993A (zh) 2020-11-27 2020-11-27 一种科技文献的参数数据提取方法

Country Status (1)

Country Link
CN (1) CN112463993A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271616A (zh) * 2017-07-17 2019-01-25 江苏省质量和标准化研究院 一种基于标准文献题录特征值的智能提取方法
CN109726369A (zh) * 2017-10-31 2019-05-07 中博信息技术研究院有限公司 一种基于标准文献的智能模板化题录技术实现方法
CN111814485A (zh) * 2020-07-09 2020-10-23 倪亚晖 一种基于海量标准文献数据的语义解析方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109271616A (zh) * 2017-07-17 2019-01-25 江苏省质量和标准化研究院 一种基于标准文献题录特征值的智能提取方法
CN109726369A (zh) * 2017-10-31 2019-05-07 中博信息技术研究院有限公司 一种基于标准文献的智能模板化题录技术实现方法
CN111814485A (zh) * 2020-07-09 2020-10-23 倪亚晖 一种基于海量标准文献数据的语义解析方法及装置

Similar Documents

Publication Publication Date Title
US7664323B2 (en) Scalable hash-based character recognition
US20060277159A1 (en) Accuracy in searching digital ink
JP2014170539A (ja) 単一セル中の画像データ及びシンボルデータによるテーブルのソート及びフィルタリング
CN102915437A (zh) 文本信息识别方法及系统
JP5664174B2 (ja) 持ち運び可能な電子ファイルからキャラクタの外接矩形を抽出する装置及び方法
US8386943B2 (en) Method for query based on layout information
Isheawy et al. Optical character recognition (OCR) system
CN113326797A (zh) 一种pdf文档提取的表格信息转换为结构化知识的方法
Clausner et al. Efficient ocr training data generation with aletheia
CN112765999A (zh) 机器翻译双语对照方法及系统
CN115828874A (zh) 基于图像识别技术的行业表格数字化处理方法
CN109271616B (zh) 一种基于标准文献题录特征值的智能提取方法
CN109726369A (zh) 一种基于标准文献的智能模板化题录技术实现方法
JP6856916B1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
CN112464907A (zh) 一种文档处理系统及方法
CN115830620B (zh) 一种基于ocr的档案文本数据处理方法及系统
CN106406560B (zh) 桌面操作系统中机械工程字符矢量字体输出方法和系统
Baker et al. Comparing approaches to mathematical document analysis from PDF
CN112463993A (zh) 一种科技文献的参数数据提取方法
CN1336604A (zh) 中文古籍数字化及内容检索自动化方法和系统
CN111985881A (zh) 智能合同审阅系统及方法
CN112149679B (zh) 一种基于ocr文字识别提取公文要素的方法及装置
CN1426017A (zh) 一种校对多个电子文件的方法及其系统
CN110852359B (zh) 基于深度学习的家谱识别方法及系统
CN113657373A (zh) 一种文书自动编目方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination