CN111797203A - 一种批量pdf文件快速检索方法 - Google Patents

一种批量pdf文件快速检索方法 Download PDF

Info

Publication number
CN111797203A
CN111797203A CN202010610170.7A CN202010610170A CN111797203A CN 111797203 A CN111797203 A CN 111797203A CN 202010610170 A CN202010610170 A CN 202010610170A CN 111797203 A CN111797203 A CN 111797203A
Authority
CN
China
Prior art keywords
pdf
file
files
content
batch
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010610170.7A
Other languages
English (en)
Inventor
毛俊平
陈建华
张民航
孙逸群
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Koal Software Co ltd
Original Assignee
Koal Software Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Koal Software Co ltd filed Critical Koal Software Co ltd
Priority to CN202010610170.7A priority Critical patent/CN111797203A/zh
Publication of CN111797203A publication Critical patent/CN111797203A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种批量PDF文件内容的快速检索方法,该方案通过把PDF文件转换为TXT格式的文本文件,再把TXT格式的文本文件标题和内容等其他信息导入全文搜索引擎中,实现大批量PDF文件内容的快速检索。本发明提供的方法能够快速检索PDF文件内容,弥补了不方便查询PDF内容的限制问题。

Description

一种批量PDF文件快速检索方法
技术领域
本发明涉及一种文件检索技术,具体涉及一种PDF文件快速检索技术。
背景技术
日常工作中,PDF文件随处可见,当我们有大量的PDF格式的文献、资料和电子书时,有时候需要查找固定的关键字,定位到具体哪个文件中,一般系统自带的搜索只能搜索文件名称,不能检PDF文件内容,特别是有些文件的文件名不一定是文件的标题,可能是无意义的字母或数字等,我们只能凭记忆一个一个用编辑器打开PDF文件,再通过编辑器查找,这样效率太低了,缺少一个快速检索PDF格式文件内容的方法。
发明内容
针对现有PDF格式文件检索效率低的问题,本发明提供一种批量PDF文件快速文件检索的方法。
为了达到上述目的,本发明采用如下的技术方案:
一种批量PDF文件快速文件检索的方法,其通过把PDF格式文件转换为TXT格式的文件,再通过检索TXT格式的文件内容来检索PDF文件内容。
在本发明的一个优选实施例中,所述批量PDF文件快速文件检索的方法具体包括如下步骤:
1)使用转换工具把PDF格式文件转为TXT格式的文件;
2)把文件标题和TXT格式文件的内容导入到全文搜索引擎中;
3)通过全文搜索引擎搜索关键字;
4)在查询结果中查看包含输入关键字的文件名;
5)打开对应的PDF格式文件。
基于本发明提供的方法,可以快速查询批量PDF文件内容。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合实例,进一步阐述本发明。
本发明提供的检索方法,其应用的计算是把PDF格式文件转换为TXT格式的文件,通过检索TXT文件内容达到快速查找PDF文件内容的目的。
基于上述原理,该方法具体通过如下步骤实现:
1)使用转换工具把PDF格式文件批量转为TXT格式的文件;
2)把PDF文件名称和转换后的TXT格式文件内容导入到全文搜索引擎中;
3)通过全文搜索引擎搜索关键字;
4)在查询结果中查看包含输入关键字的文件名;
5)打开对应的PDF格式文件,查看PDF文件内容。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (2)

1.一种批量PDF文件快速文件检索的方法,其通过把PDF格式文件转换为TXT格式的文件,再通过检索TXT格式的文件内容来检索PDF文件内容。
2.如权利要求1所述所述批量PDF文件快速文件检索的方法,其特征在于,具体包括如下步骤:
1)使用转换工具把PDF格式文件转为TXT格式的文件;
2)把文件标题和TXT格式文件的内容导入到全文搜索引擎中;
3)通过全文搜索引擎搜索关键字;
4)在查询结果中查看包含输入关键字的文件名;
5)打开对应的PDF格式文件。
CN202010610170.7A 2020-06-29 2020-06-29 一种批量pdf文件快速检索方法 Pending CN111797203A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010610170.7A CN111797203A (zh) 2020-06-29 2020-06-29 一种批量pdf文件快速检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010610170.7A CN111797203A (zh) 2020-06-29 2020-06-29 一种批量pdf文件快速检索方法

Publications (1)

Publication Number Publication Date
CN111797203A true CN111797203A (zh) 2020-10-20

Family

ID=72809706

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010610170.7A Pending CN111797203A (zh) 2020-06-29 2020-06-29 一种批量pdf文件快速检索方法

Country Status (1)

Country Link
CN (1) CN111797203A (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262640A (zh) * 2010-05-31 2011-11-30 中国移动通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN103064839A (zh) * 2011-10-19 2013-04-24 北京中文在线数字出版股份有限公司 一种Pdf全文在线检索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102262640A (zh) * 2010-05-31 2011-11-30 中国移动通信集团贵州有限公司 一种全文检索文档数据库的方法及装置
CN103064839A (zh) * 2011-10-19 2013-04-24 北京中文在线数字出版股份有限公司 一种Pdf全文在线检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"福昕新工具PDF也能文内搜索", Retrieved from the Internet <URL:http://news.newhua.com/news/2010/0303/86769.shtml> *

Similar Documents

Publication Publication Date Title
Nanba et al. Overview of the Patent Mining Task at the NTCIR-8 Workshop.
US6898592B2 (en) Scoping queries in a search engine
RU2398272C2 (ru) Способ и система для индексирования и поиска в базах данных
US6286000B1 (en) Light weight document matcher
CA2677307A1 (en) Searching structured geographical data
WO2006041950A2 (en) Classification-expanded indexing and retrieval of classified documents
RU2008131536A (ru) Использование обратной связи с использованием для улучшения результатов поиска
US20150154306A1 (en) Method for searching related entities through entity co-occurrence
CN105843960B (zh) 基于语义树的索引方法和系统
TW200841197A (en) Context based search and document retrieval
CN100498783C (zh) 一种支持全文检索系统同时检索数值类型数据域的方法
US20020049686A1 (en) System, method and article of manufacuture for personal catalog and knowledge management
CN102902701B (zh) 信息查询系统及方法
CN111797203A (zh) 一种批量pdf文件快速检索方法
US20080177701A1 (en) System and method for searching a volume of files
CN114218347A (zh) 多个文件内容的快速索引查找方法
CN111259145B (zh) 基于情报数据的文本检索分类方法、系统及存储介质
JP2009519535A (ja) データファイルを操作する方法及び装置
Larsen et al. Preliminary study of technical terminology for the retrieval of scientific book metadata records
CN114564484A (zh) 一种基于海量数据的标签化处理及高速检索方法
Aleman-Meza Searching and ranking documents based on semantic relationships
Lei et al. Research and Application of Unstructured Data Acquisition and Retrieval Technology
CN117093754A (zh) 一种数字档案的检索方法
CN118689850A (zh) 电子文件的自动归档方法、装置、电子设备及存储介质
Cheragui et al. Plagzoom: Plagiarism detection tool in a document

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination