CN112463728A - 一种科技文献的题录数据提取方法 - Google Patents
一种科技文献的题录数据提取方法 Download PDFInfo
- Publication number
- CN112463728A CN112463728A CN202011357625.5A CN202011357625A CN112463728A CN 112463728 A CN112463728 A CN 112463728A CN 202011357625 A CN202011357625 A CN 202011357625A CN 112463728 A CN112463728 A CN 112463728A
- Authority
- CN
- China
- Prior art keywords
- data
- scientific
- technical literature
- module
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 20
- 238000013075 data extraction Methods 0.000 title claims abstract description 14
- 238000004458 analytical method Methods 0.000 claims abstract description 16
- 238000003860 storage Methods 0.000 claims abstract description 13
- 238000012550 audit Methods 0.000 claims abstract description 11
- 238000012986 modification Methods 0.000 claims abstract description 5
- 230000004048 modification Effects 0.000 claims abstract description 5
- 238000007405 data analysis Methods 0.000 claims abstract description 4
- 238000005516 engineering process Methods 0.000 claims description 7
- 238000000605 extraction Methods 0.000 abstract description 5
- 238000011160 research Methods 0.000 abstract description 4
- 238000011161 development Methods 0.000 description 2
- 230000008569 process Effects 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 239000013078 crystal Substances 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000002715 modification method Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/113—Details of archiving
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/148—File search processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
- G06F16/156—Query results presentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供一种科技文献的题录数据提取方法,包括以下步骤:S1、上传科技文献PDF至存储模块;S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配;S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过。可实现自动提取科技文献中题录数据用于文件的归档和查看,更可以深度挖掘科技文献中的参数数据用于科研研究,实现了科研文献的高可用,发挥文献最大价值。
Description
技术领域
本发明涉及计算机数据提取技术领域,具体涉及一种科技文献的题录数据提取方法。
背景技术
科技文献是科技发展技术积累的结晶,是现代化企业科学研究、组织生产、提高产品质量必要技术文献。随着科学技术不断发展,科技文献的积累日益丰富,互联网拥有很多公开的PDF科技文献资源,资源中包含了众多有价值、值得挖掘的信息。但是和传统网页,Word,txt等文档相比,科技文献PDF格式多样,也存在缺乏结构信息,提取题录数据,非常困难,不便于科技人员快速对文献的检索。
在中国专利申请公布号为CN 109726369A中公开了一种基于标准文献的智能模板化题录技术实现方法,该申请文献中通过提供的基于标准文献的智能模板化题录技术实现方法,解决了现有技术中存在的标准题录需手工录入、数据加工工作效能低、数据信息提取不准确、定位准确率低的问题,通过对双层浮文PDF文字读取技术进行封装,把标准文献图像转换成纯文本TXT,对标准题录加工流程进行了自动化和电子化处理,实现对标准题录的自动采集。但是对于一些特殊的文献格式,并没有指定的标准格式进行匹配,无法准确快速处理题录的快速提取。
现有技术没有提供一体化的文献提取方案,大多数技术只能做到一两个点,例如:对PDF文档进行OCR操作、从PDF文档提取篇章结构、从PDF文档提取图片、从PDF文档提取表格等。处理时需要准备多个软件配合,费时费力。并且现有的支持科技文献种类较少,只支持期刊论文、标准等一种或两种,覆盖面窄,容易丢失文献中的重要信息。
发明内容
针对现有技术的不足,本发明提供了一种科技文献的题录数据提取方法,解决了现有技术中无法识别多种格式下科技文献的题录数据提取的问题。
为实现以上目的,本发明通过以下技术方案予以实现:
一种科技文献的题录数据提取方法,包括以下步骤:
S1、上传科技文献PDF至存储模块,同时记录上传者、以及上传时间信息;
S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;
S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,并同时输出匹配结果,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配,直至匹配结果符合要求,向审核人员提交;
S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过,审核通过后将题录数据保存至数据库中。
进一步的,所述S2中,内置OCR模块包括对科技报告、专利数据、电子书籍、期刊论文、学位论文、标准文件。
进一步的,所述S2中,确定数据位置标记信息具体操作为:依据关键词确定、字体大小和字体、段落序号确定数据位置标记信息。
进一步的,所述S4中,匹配结果不符合要求时,首先判定是否需要通过第三方OCR模块解析,若需要则通过第三方OCR模块将数据位置标记信息进行重新解析后匹配,若不需要,则采用人工修改方式修改解析结果后再匹配。
本发明提供了一种科技文献的题录数据提取方法,通过。
1、本发明提供完备的科技文献数据提取体系,可实现自动提取科技文献中题录数据用于文件的归档和查看,更可以深度挖掘科技文献中的参数数据用于科研研究,实现了科研文献的高可用,发挥文献最大价值。
2、对于复杂的没有指定标准格式的科技文献,可采取人工处理或者自行添加第三方OCR模块对科技文献目录的快速提取,大大节省了检索的时间,提高了检索效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1本发明的科技文献的题录数据提取方法流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本发明提供一种科技文献数据数字化题录数据提取方法,包括完整的科技文献PDF上传、科技文献PDFOCR、科技文献PDF题录数据提取、科技文献PDF题录数据审核功能,具体步骤如下所示:
S1、使用者上传科技文献PDF至存储模块,同时存储模块会实时记录上传者以及上的时间信息。
S2、通过内置OCR模块对科技文献PDF进行题录数据解析,目前解析模块我们提供六种科技文献的解析模块软件:科技报告、专利数据、电子书籍、期刊论文、学位论文,以及标准模板。例如:对于期刊论文,解析模块会自动提取题名、期号、作者、作者单位、出版年份、关键词、摘要、结论、基金项目、实验等信息。
同时解析模块采用多种方式来确定科技文献段落分布,主要包括:1.依据关键词确定段落位置;2.根据字体大小和字体确定段落位置;3.根据段落序号确定段落位置。同时根据需要解析模块也可以将提取出的文本自动进行优化,例如:将时间有关的段落自动转换为易于阅读的时间戳,将大段落全角英文自动转换为半角英文,自动去除中文段落中无意义的空格,最后向上传者输出解析结果。
软件在自动解析时也保存了解析结果在科技文献PDF中的定位,上传者可以点击自动解析结果跳转到科技文献PDF的对应位置,检查解析结果是否正确,简单操作,可实现内容的快速查找。
这种运算方式可减少运算过程,内置OCR模块自动将解析出的数据位置标记信息与标准模板中数据库字段名称才用字符串相似度算法进行匹配,只有类型相同的字段和参数数据才能自动匹配,例如,文本字段不能匹配到数值参数数据。同时数据位置标记信息的展示结果在对应的原始科技文献PDF中定位相匹配,用户可以点击自动解析结果跳转到科技文献PDF的对应位置,检查解析结果是否正确。
S3、数据位置标记信息采用网络云方式或翻译库方式与存储模块中的标准模块进行自动匹配,并输出匹配结果。若对匹配结果符合理想结果,则将匹配结果参数数据向审核人员提交;若对匹配解果不符合理想,则先判断是否有需要通过第三方OCR模块,若不需要,则通过上传者手动修改后即可将匹配结果反馈给审核人员,若需要第三方OCR模块,则可以多线程对科技文献PDF进行OCR操作,通过对OCR SDK的配置,输出效果最佳的OCR科技文献PDF。在OCR进度完成后,会自动跳到S2,重新进行自动解析。其中人工修改时提供了框选的方式,可以通过框选坐标直接获取对应坐标区域的文本,在框选的同时,软件也会自动保存框选坐标,便于审核人员检查。
上传者向审核人员提交题录数据,利于题录数据的质量把控。
S4,审核人员决定是否采用数据,如果不通过,上传人员需要修改结果直至审核人员通过,审核人员通过后,科技文献PDF和题录数据进入数据库存储,等待进一步进行参数数据提取。
本发明可以自动提取科技文献中的题录数据用于文献的归档和查看,更可以深度挖掘科技文献中的参数数据用于科研研究,实现了科研文献的高可用,发挥文献最大价值。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (4)
1.一种科技文献的题录数据提取方法,其特征在于,包括以下步骤:
S1、上传科技文献PDF至存储模块,同时记录上传者、以及上传时间信息;
S2、通过内置OCR模块对科技文献PDF进行题录数据解析,并确定数据位置标记信息;
S3、将数据位置标记信息与存储模块中的标准段落模块信息进行自动匹配,并同时输出匹配结果,若匹配结果符合,则将匹配结果参数数据向审核人员提交;若不符合,否则对数据位置标记信息返回S2进行重新解析后匹配,直至匹配结果符合要求,向审核人员提交;
S4、若审核人员审核不通过,则通过上传者人工修改后再次要求审核人员审核,直至审核通过,审核通过后将题录数据保存至数据库中。
2.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S2中,内置OCR模块包括对科技报告、专利数据、电子书籍、期刊论文、学位论文、标准文件。
3.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S2中,确定数据位置标记信息具体操作为:依据关键词确定、字体大小和字体、段落序号确定数据位置标记信息。
4.如权利要求1所述的科技文献数据数字化提取方法,其特征在于,所述S4中,匹配结果不符合要求时,首先判定是否需要通过第三方OCR模块解析,若需要则通过第三方OCR模块将数据位置标记信息进行重新解析后匹配,若不需要,则采用人工修改方式修改解析结果后再匹配。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357625.5A CN112463728A (zh) | 2020-11-27 | 2020-11-27 | 一种科技文献的题录数据提取方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011357625.5A CN112463728A (zh) | 2020-11-27 | 2020-11-27 | 一种科技文献的题录数据提取方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112463728A true CN112463728A (zh) | 2021-03-09 |
Family
ID=74809111
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011357625.5A Pending CN112463728A (zh) | 2020-11-27 | 2020-11-27 | 一种科技文献的题录数据提取方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112463728A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887361A (zh) * | 2021-09-23 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257904A (zh) * | 2015-06-16 | 2016-12-28 | 佳能株式会社 | 信息处理装置及信息处理装置的控制方法 |
CN108377304A (zh) * | 2017-02-01 | 2018-08-07 | 株式会社东芝 | 图像处理装置及图像处理方法 |
CN109271616A (zh) * | 2017-07-17 | 2019-01-25 | 江苏省质量和标准化研究院 | 一种基于标准文献题录特征值的智能提取方法 |
CN109726369A (zh) * | 2017-10-31 | 2019-05-07 | 中博信息技术研究院有限公司 | 一种基于标准文献的智能模板化题录技术实现方法 |
-
2020
- 2020-11-27 CN CN202011357625.5A patent/CN112463728A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106257904A (zh) * | 2015-06-16 | 2016-12-28 | 佳能株式会社 | 信息处理装置及信息处理装置的控制方法 |
CN108377304A (zh) * | 2017-02-01 | 2018-08-07 | 株式会社东芝 | 图像处理装置及图像处理方法 |
CN109271616A (zh) * | 2017-07-17 | 2019-01-25 | 江苏省质量和标准化研究院 | 一种基于标准文献题录特征值的智能提取方法 |
CN109726369A (zh) * | 2017-10-31 | 2019-05-07 | 中博信息技术研究院有限公司 | 一种基于标准文献的智能模板化题录技术实现方法 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113887361A (zh) * | 2021-09-23 | 2022-01-04 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
CN113887361B (zh) * | 2021-09-23 | 2024-01-09 | 苏州浪潮智能科技有限公司 | 一种文献校对方法、系统、存储介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109992645B (zh) | 一种基于文本数据的资料管理系统及方法 | |
CN109062874B (zh) | 财政数据的获取方法、终端设备及介质 | |
CN109753909B (zh) | 一种基于内容分块和BiLSTM模型的简历解析方法 | |
Kahle et al. | Transkribus-a service platform for transcription, recognition and retrieval of historical documents | |
WO2019227584A1 (zh) | 简历数据信息解析处理方法、装置、设备及存储介质 | |
Neudecker | An open corpus for named entity recognition in historic newspapers | |
CN108932294B (zh) | 基于索引的简历数据处理方法、装置、设备及存储介质 | |
US9177013B2 (en) | System and method for citation processing, presentation and transport and for validating references | |
CN109933796B (zh) | 一种公告文本关键信息提取方法及设备 | |
Vijayarani et al. | Performance comparison of OCR tools | |
CN112182148A (zh) | 一种基于全文检索的标准辅助编写方法 | |
CN110941702A (zh) | 一种法律法规和法条的检索方法及装置、可读存储介质 | |
CN111753536A (zh) | 一种专利申请文本的自动撰写方法和装置 | |
CN112463728A (zh) | 一种科技文献的题录数据提取方法 | |
US11574491B2 (en) | Automated classification and interpretation of life science documents | |
CN112418813A (zh) | 基于智能解析识别的aeo资质智能评级管理系统、方法及存储介质 | |
CN117095419A (zh) | 一种pdf文档数据处理与信息抽取装置及方法 | |
Dannélls et al. | Evaluation and refinement of an enhanced OCR process for mass digitisation. | |
CN114115831A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN116343210A (zh) | 档案数字化的管理方法及装置 | |
CN112990091A (zh) | 基于目标检测的研报解析方法、装置、设备和存储介质 | |
Hast et al. | Making large collections of handwritten material easily accessible and searchable | |
Chung | A retrieval framework and implementation for electronic documents with similar layouts | |
CN117034864B (zh) | 可视化标注方法、装置、计算机设备以及存储介质 | |
CN113033177B (zh) | 一种电子病历数据的解析方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |