CN103064839A - 一种Pdf全文在线检索方法 - Google Patents

一种Pdf全文在线检索方法 Download PDF

Info

Publication number
CN103064839A
CN103064839A CN2011103192777A CN201110319277A CN103064839A CN 103064839 A CN103064839 A CN 103064839A CN 2011103192777 A CN2011103192777 A CN 2011103192777A CN 201110319277 A CN201110319277 A CN 201110319277A CN 103064839 A CN103064839 A CN 103064839A
Authority
CN
China
Prior art keywords
retrieval
content
books
word content
pdf
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2011103192777A
Other languages
English (en)
Inventor
姜波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Original Assignee
BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd filed Critical BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Priority to CN2011103192777A priority Critical patent/CN103064839A/zh
Publication of CN103064839A publication Critical patent/CN103064839A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

本发明提供了一种Pdf全文在线检索方法,包括:在服务器端建立Pdf格式的图书的数据库;对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息;采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果;将检索文字内容的检索结果定位到该检索文字内容的所在页面;点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息;该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。

Description

一种Pdf全文在线检索方法
技术领域
本发明涉及检索技术领域,特别是涉及一种Pdf全文在线检索方法。
背景技术
由于在线检索的时候很难深入到pdf文件里边进行检索,即使可以也是检索的效率不高,也不能准确定位检索到的内容在pdf文件的哪一页,因此对pdf的全文检索向来是不理想的。
因而,目前需要本领域技术人员迫切解决的一个技术问题就是:如何找到一种新型的对所需检索内容准确定位地进行一种Pdf全文在线检索方法。
发明内容
本发明所要解决的一个技术问题是提供一种Pdf全文在线检索方法,该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
为了解决上述问题,本发明公开了一种Pdf全文在线检索方法,包括:
在服务器端建立Pdf格式的图书的数据库;
对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息;
采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果;
将检索文字内容的检索结果定位到该检索文字内容的所在页面;
点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息。
优选的,所述对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息的步骤,包括:
采用Pdf拆分工具,对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分,获得Pdf格式的图书的每一页内容的数据信息;
采用Pdf内容解析工具,Pdf格式的图书的每一页内容的数据信息进行解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
优选的,所述采用全文检索引擎架构的方法,依据所需检索的文字内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果的步骤,包括:
针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件;
在浏览器的页面中输入所需检索文字内容的索引关键字;
采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果。
优选的,所述采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果的步骤,包括:
建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系;
依据所需检索文字内容的索引关键字,通过分词器对所需检索文字内容进行检索,获得检索结果。
优选的,所述将检索文字内容的检索结果定位到该检索文字内容的所在页面的步骤,包括:
依据检索文字内容的检索结果,执行相应的操作。
优选的,所述依据检索文字内容的检索结果,执行相应的操作的步骤,包括:
若服务器端建立Pdf格式的图书的数据库中存在所需检索文字内容的索引关键字,则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系,获得所需检索文字内容的索引关键字的网页页面的数据信息;
若服务器端建立Pdf格式的图书的数据库中不存在所需检索文字内容的索引关键字,则发送返回信息,通知用户端没有查询到所需检索文字内容的相关信息。
优选的,所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。
优选的,所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。
与现有技术相比,本发明具有以下优点:
可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
总之,本发明提供一种Pdf全文在线检索方法,该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
附图说明
图1是本发明一种Pdf全文在线检索方法实施例的步骤流程图;
图2是本发明中Pdf在线分页实时浏览的步骤流程图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明的核心思想之一是提供了一种Pdf(Portable Document Format,译为可移植文档格式,是一种电子文件格式。这种文件格式与操作系统平台无关,也就是说,PDF文件不管是在Windows,Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一性能使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。Adobe公司于2009年7月13日宣布,作为电子文档长期保存格式的PDF/Archive经中国国家国家标准化管理委员会批准已成为正式的中国国家标准,并已于2009年9月1日起正式实施。PDF格式文件目前已成为数字化信息事实上的一个工业标准)全文在线检索方法,包括:在服务器端建立Pdf格式的图书的数据库;对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息;采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果;将检索文字内容的检索结果定位到该检索文字内容的所在页面;点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息;该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
参照图1,示出了本发明一种Pdf全文在线检索方法实施例的步骤流程图,具体可以包括:
步骤101、在服务器端建立Pdf格式的图书的数据库。
步骤102、对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
其中,所述步骤102具体可以包括:
子步骤A1、采用Pdf拆分工具,对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分,获得Pdf格式的图书的每一页内容的数据信息。
子步骤A2、采用Pdf内容解析工具,Pdf格式的图书的每一页内容的数据信息进行解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
参照图2,示出了本发明中Pdf在线分页实时浏览的步骤流程图,具体可以包括:
步骤201、建立Pdf格式的图书的数据库。
步骤202、对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
其中,所述步骤202具体可以包括:
子步骤B1、采用Pdf拆分工具,对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分,获得Pdf格式的图书的每一页内容的数据信息。
子步骤B2、采用Pdf内容解析工具,Pdf格式的图书的每一页内容的数据信息进行解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
步骤203、将浏览器能够识别的Pdf格式的图书的每一页内容的数据信息传输到浏览器端,获得浏览器能够识别的图书的数据库。
步骤204、在浏览器能够识别的图书的数据库搜索所需阅读的Pdf格式图书的阅读页,获得所需阅读的Pdf格式图书的阅读页。
其中,所述步骤104具体可以包括:
子步骤C1、客户端发送阅读所需阅读的Pdf格式图书的阅读页的阅读请求。
子步骤C2、服务器端接收阅读所需阅读的Pdf格式图书的阅读页的阅读请求。
子步骤C3、依据所需阅读的Pdf格式图书的阅读页的索引关键字搜索浏览器能够识别的图书的数据库,获得所需阅读的Pdf格式图书的阅读页。
其中,所述索引关键字为时间范围、信息关键字、信息分类关键字及信息有效期。
步骤205、调用浏览器端的阅读器空间,下载所需阅读的Pdf格式图书的阅读页并在浏览器的页面上显示出Pdf格式的图书的阅读页的页面信息。
总之,Pdf在线分页实时浏览方法可以提高图书在线浏览的加载速度,从而实现针对Pdf格式的图书实时进行分页在线浏览。
步骤103、采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果。
其中,
本发明所采用的全文检索引擎架构的方法是采用Lucence的方法,Lucence是apache软件基金会4jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,即它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。
所述子步骤103具体可以包括:
子步骤D1、针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件。
子步骤D2、在浏览器的页面中输入所需检索文字内容的索引关键字。
子步骤D3、采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果。
其中,所述子步骤D3具体可以包括:
子步骤E1、建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系。
子步骤E2、依据所需检索文字内容的索引关键字,通过分词器对所需检索文字内容进行检索,获得检索结果。
步骤104、将检索文字内容的检索结果定位到该检索文字内容的所在页面。
其中,所述步骤104具体可以包括:
子步骤F1、依据检索文字内容的检索结果,执行相应的操作。
所述子步骤F1具体可以包括:
子步骤G1、若服务器端建立Pdf格式的图书的数据厍中存在所需检索文字内容的索引关键字,则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系,获得所需检索文字内容的索引关键字的网页页面的数据信息。
子步骤G2、若服务器端建立Pdf格式的图书的数据库中不存在所需检索文字内容的索引关键字,则发送返回信息,通知用户端没有查询到所需检索文字内容的相关信息。
所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。
所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。
步骤105、点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息。
总之,本发明提供一种Pdf全文在线检索方法,该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。
以上对本发明所提供的一种Pdf全文在线检索方法进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (8)

1.一种Pdf全文在线检索方法,其特征在于,包括:
在服务器端建立Pdf格式的图书的数据库;
对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息;
采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果;
将检索文字内容的检索结果定位到该检索文字内容的所在页面;
点击该检索文字内容的所在页面,对该检索文字内容进行阅读,获得该检索文字内容的信息。
2.根据权利要求1所述的方法,其特征在于,所述对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息的步骤,包括:
采用Pdf拆分工具,对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分,获得Pdf格式的图书的每一页内容的数据信息;
采用Pdf内容解析工具,Pdf格式的图书的每一页内容的数据信息进行解析,获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。
3.根据权利要求1所述的方法,其特征在于,所述采用全文检索引擎架构的方法,依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索,获得所需检索文字内容的检索结果的步骤,包括:
针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件;
在浏览器的页面中输入所需检索文字内容的索引关键字;
采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果。
4.根据权利要求3所述的方法,其特征在于,所述采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索,获得所需检索文字内容的检索结果的步骤,包括:
建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系;
依据所需检索文字内容的索引关键字,通过分词器对所需检索文字内容进行检索,获得检索结果。
5.根据权利要求1所述的方法,其特征在于,所述将检索文字内容的检索结果定位到该检索文字内容的所在页面的步骤,包括:
依据检索文字内容的检索结果,执行相应的操作。
6.根据权利要求5所述的方法,其特征在于,所述依据检索文字内容的检索结果,执行相应的操作的步骤,包括:
若服务器端建立Pdf格式的图书的数据库中存在所需检索文字内容的索引关键字,则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系,获得所需检索文字内容的索引关键字的网页页面的数据信息;
若服务器端建立Pdf格式的图书的数据厍中不存在所需检索文字内容的索引关键字,则发送返回信息,通知用户端没有查询到所需检索文字内容的相关信息。
7.根据权利要求6所述的方法,其特征在于:
所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。
8.根据权利要求6所述的方法,其特征在于:
所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。
CN2011103192777A 2011-10-19 2011-10-19 一种Pdf全文在线检索方法 Pending CN103064839A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2011103192777A CN103064839A (zh) 2011-10-19 2011-10-19 一种Pdf全文在线检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2011103192777A CN103064839A (zh) 2011-10-19 2011-10-19 一种Pdf全文在线检索方法

Publications (1)

Publication Number Publication Date
CN103064839A true CN103064839A (zh) 2013-04-24

Family

ID=48107469

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2011103192777A Pending CN103064839A (zh) 2011-10-19 2011-10-19 一种Pdf全文在线检索方法

Country Status (1)

Country Link
CN (1) CN103064839A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699724A (zh) * 2013-12-10 2015-06-10 北京先进数通信息技术股份公司 一种基于Lucene的数据搜索方法及装置
CN107180039A (zh) * 2016-03-09 2017-09-19 腾讯科技(深圳)有限公司 一种基于图片的文字信息识别方法及装置
CN111797203A (zh) * 2020-06-29 2020-10-20 格尔软件股份有限公司 一种批量pdf文件快速检索方法
CN112597422A (zh) * 2020-12-30 2021-04-02 深圳市世强元件网络有限公司 一种pdf文件分割方法和网页中pdf文件加载方法
CN115525611A (zh) * 2022-08-16 2022-12-27 北京矩阵分解科技有限公司 便携式文档格式文件中的关键词查询方法、装置及设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991770A (en) * 1997-12-30 1999-11-23 U S West, Inc Method for automatically generating Internet ready GIFs from selected data files
CN1643483A (zh) * 2002-03-19 2005-07-20 电子图书系统有限公司 用于跟踪电子书籍阅读模式的系统、方法和计算机程序产品
WO2007089573A2 (en) * 2006-01-27 2007-08-09 Unz.Org, Llc Presenting digitized content on a network
CN101425089A (zh) * 2008-11-13 2009-05-06 北京中文在线教育科技发展有限公司 用于在线电子图书的加载方法和检索方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5991770A (en) * 1997-12-30 1999-11-23 U S West, Inc Method for automatically generating Internet ready GIFs from selected data files
CN1643483A (zh) * 2002-03-19 2005-07-20 电子图书系统有限公司 用于跟踪电子书籍阅读模式的系统、方法和计算机程序产品
WO2007089573A2 (en) * 2006-01-27 2007-08-09 Unz.Org, Llc Presenting digitized content on a network
CN101425089A (zh) * 2008-11-13 2009-05-06 北京中文在线教育科技发展有限公司 用于在线电子图书的加载方法和检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
于天恩: "《Lucene搜索引擎开发权威经典》", 31 October 2008, 中国铁道出版社 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699724A (zh) * 2013-12-10 2015-06-10 北京先进数通信息技术股份公司 一种基于Lucene的数据搜索方法及装置
CN107180039A (zh) * 2016-03-09 2017-09-19 腾讯科技(深圳)有限公司 一种基于图片的文字信息识别方法及装置
CN111797203A (zh) * 2020-06-29 2020-10-20 格尔软件股份有限公司 一种批量pdf文件快速检索方法
CN112597422A (zh) * 2020-12-30 2021-04-02 深圳市世强元件网络有限公司 一种pdf文件分割方法和网页中pdf文件加载方法
CN115525611A (zh) * 2022-08-16 2022-12-27 北京矩阵分解科技有限公司 便携式文档格式文件中的关键词查询方法、装置及设备

Similar Documents

Publication Publication Date Title
CN101452453B (zh) 一种输入法网址导航的方法和一种输入法系统
CN110362372A (zh) 页面转译方法、装置、介质及电子设备
CN110019616B (zh) 一种poi现势状态获取方法及其设备、存储介质、服务器
US10430490B1 (en) Methods and systems for providing custom crawl-time metadata
US8099430B2 (en) Computer method and apparatus of information management and navigation
US20150287047A1 (en) Extracting Information from Chain-Store Websites
CN105426508A (zh) 网页生成方法和装置
CN103678362A (zh) 搜索方法及系统
CN103064839A (zh) 一种Pdf全文在线检索方法
CN106021583A (zh) 页面流量数据的统计方法及其系统
EP3961426A2 (en) Method and apparatus for recommending document, electronic device and medium
US10558630B2 (en) Enhancing textual searches with executables
US9613012B2 (en) System and method for automatically generating keywords
US20090182759A1 (en) Extracting entities from a web page
CN105183774A (zh) 一种智能查询方法及系统
Tsai et al. PubMed-EX: a web browser extension to enhance PubMed search with text mining features
CN107391556B (zh) 基于推荐应用的搜索方法、服务器及计算机可读介质
WO2015070689A1 (en) Improving search results based on an environment context
CN108614821B (zh) 地质资料互联互查系统
CN103064835A (zh) 一种Pdf在线分页实时浏览方法
JP2014146257A (ja) 情報処理装置、情報処理方法、及び、情報処理プログラム
CN111310465B (zh) 平行语料获取方法、装置、电子设备、及存储介质
KR101255554B1 (ko) 번역 완료 기간 예측 장치 및 방법
Frey et al. How FAIR are CMC corpora?
CN113761906B (zh) 解析文档的方法、装置、设备和计算机可读介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20130424