CN111797203A - 一种批量pdf文件快速检索方法 - Google Patents
一种批量pdf文件快速检索方法 Download PDFInfo
- Publication number
- CN111797203A CN111797203A CN202010610170.7A CN202010610170A CN111797203A CN 111797203 A CN111797203 A CN 111797203A CN 202010610170 A CN202010610170 A CN 202010610170A CN 111797203 A CN111797203 A CN 111797203A
- Authority
- CN
- China
- Prior art keywords
- file
- files
- content
- batch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种批量PDF文件内容的快速检索方法,该方案通过把PDF文件转换为TXT格式的文本文件,再把TXT格式的文本文件标题和内容等其他信息导入全文搜索引擎中,实现大批量PDF文件内容的快速检索。本发明提供的方法能够快速检索PDF文件内容,弥补了不方便查询PDF内容的限制问题。
Description
技术领域
本发明涉及一种文件检索技术,具体涉及一种PDF文件快速检索技术。
背景技术
日常工作中,PDF文件随处可见,当我们有大量的PDF格式的文献、资料和电子书时,有时候需要查找固定的关键字,定位到具体哪个文件中,一般系统自带的搜索只能搜索文件名称,不能检PDF文件内容,特别是有些文件的文件名不一定是文件的标题,可能是无意义的字母或数字等,我们只能凭记忆一个一个用编辑器打开PDF文件,再通过编辑器查找,这样效率太低了,缺少一个快速检索PDF格式文件内容的方法。
发明内容
针对现有PDF格式文件检索效率低的问题,本发明提供一种批量PDF文件快速文件检索的方法。
为了达到上述目的,本发明采用如下的技术方案:
一种批量PDF文件快速文件检索的方法,其通过把PDF格式文件转换为TXT格式的文件,再通过检索TXT格式的文件内容来检索PDF文件内容。
在本发明的一个优选实施例中,所述批量PDF文件快速文件检索的方法具体包括如下步骤:
1)使用转换工具把PDF格式文件转为TXT格式的文件;
2)把文件标题和TXT格式文件的内容导入到全文搜索引擎中;
3)通过全文搜索引擎搜索关键字;
4)在查询结果中查看包含输入关键字的文件名;
5)打开对应的PDF格式文件。
基于本发明提供的方法,可以快速查询批量PDF文件内容。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合实例,进一步阐述本发明。
本发明提供的检索方法,其应用的计算是把PDF格式文件转换为TXT格式的文件,通过检索TXT文件内容达到快速查找PDF文件内容的目的。
基于上述原理,该方法具体通过如下步骤实现:
1)使用转换工具把PDF格式文件批量转为TXT格式的文件;
2)把PDF文件名称和转换后的TXT格式文件内容导入到全文搜索引擎中;
3)通过全文搜索引擎搜索关键字;
4)在查询结果中查看包含输入关键字的文件名;
5)打开对应的PDF格式文件,查看PDF文件内容。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (2)
1.一种批量PDF文件快速文件检索的方法,其通过把PDF格式文件转换为TXT格式的文件,再通过检索TXT格式的文件内容来检索PDF文件内容。
2.如权利要求1所述所述批量PDF文件快速文件检索的方法,其特征在于,具体包括如下步骤:
1)使用转换工具把PDF格式文件转为TXT格式的文件;
2)把文件标题和TXT格式文件的内容导入到全文搜索引擎中;
3)通过全文搜索引擎搜索关键字;
4)在查询结果中查看包含输入关键字的文件名;
5)打开对应的PDF格式文件。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610170.7A CN111797203A (zh) | 2020-06-29 | 2020-06-29 | 一种批量pdf文件快速检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010610170.7A CN111797203A (zh) | 2020-06-29 | 2020-06-29 | 一种批量pdf文件快速检索方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111797203A true CN111797203A (zh) | 2020-10-20 |
Family
ID=72809706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010610170.7A Pending CN111797203A (zh) | 2020-06-29 | 2020-06-29 | 一种批量pdf文件快速检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111797203A (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262640A (zh) * | 2010-05-31 | 2011-11-30 | 中国移动通信集团贵州有限公司 | 一种全文检索文档数据库的方法及装置 |
CN103064839A (zh) * | 2011-10-19 | 2013-04-24 | 北京中文在线数字出版股份有限公司 | 一种Pdf全文在线检索方法 |
-
2020
- 2020-06-29 CN CN202010610170.7A patent/CN111797203A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102262640A (zh) * | 2010-05-31 | 2011-11-30 | 中国移动通信集团贵州有限公司 | 一种全文检索文档数据库的方法及装置 |
CN103064839A (zh) * | 2011-10-19 | 2013-04-24 | 北京中文在线数字出版股份有限公司 | 一种Pdf全文在线检索方法 |
Non-Patent Citations (1)
Title |
---|
"福昕新工具PDF也能文内搜索", Retrieved from the Internet <URL:http://news.newhua.com/news/2010/0303/86769.shtml> * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nanba et al. | Overview of the Patent Mining Task at the NTCIR-8 Workshop. | |
US6898592B2 (en) | Scoping queries in a search engine | |
RU2398272C2 (ru) | Способ и система для индексирования и поиска в базах данных | |
US6286000B1 (en) | Light weight document matcher | |
CA2677307A1 (en) | Searching structured geographical data | |
WO2006041950A2 (en) | Classification-expanded indexing and retrieval of classified documents | |
RU2008131536A (ru) | Использование обратной связи с использованием для улучшения результатов поиска | |
US20150154306A1 (en) | Method for searching related entities through entity co-occurrence | |
CN105843960B (zh) | 基于语义树的索引方法和系统 | |
TW200841197A (en) | Context based search and document retrieval | |
CN100498783C (zh) | 一种支持全文检索系统同时检索数值类型数据域的方法 | |
US20020049686A1 (en) | System, method and article of manufacuture for personal catalog and knowledge management | |
CN102902701B (zh) | 信息查询系统及方法 | |
CN111797203A (zh) | 一种批量pdf文件快速检索方法 | |
US20080177701A1 (en) | System and method for searching a volume of files | |
CN114218347A (zh) | 多个文件内容的快速索引查找方法 | |
CN111259145B (zh) | 基于情报数据的文本检索分类方法、系统及存储介质 | |
JP2009519535A (ja) | データファイルを操作する方法及び装置 | |
Larsen et al. | Preliminary study of technical terminology for the retrieval of scientific book metadata records | |
CN114564484A (zh) | 一种基于海量数据的标签化处理及高速检索方法 | |
Aleman-Meza | Searching and ranking documents based on semantic relationships | |
Lei et al. | Research and Application of Unstructured Data Acquisition and Retrieval Technology | |
CN117093754A (zh) | 一种数字档案的检索方法 | |
CN118689850A (zh) | 电子文件的自动归档方法、装置、电子设备及存储介质 | |
Cheragui et al. | Plagzoom: Plagiarism detection tool in a document |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |