CN103064839A

CN103064839A - 一种Pdf全文在线检索方法

Info

Publication number: CN103064839A
Application number: CN2011103192777A
Authority: CN
Inventors: 姜波
Original assignee: BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Current assignee: BEIJING CHINESEALL DIGITAL PUBLISHING Co Ltd
Priority date: 2011-10-19
Filing date: 2011-10-19
Publication date: 2013-04-24

Abstract

本发明提供了一种Pdf全文在线检索方法，包括：在服务器端建立Pdf格式的图书的数据库；对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息；采用全文检索引擎架构的方法，依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索，获得所需检索文字内容的检索结果；将检索文字内容的检索结果定位到该检索文字内容的所在页面；点击该检索文字内容的所在页面，对该检索文字内容进行阅读，获得该检索文字内容的信息；该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。

Description

一种Pdf全文在线检索方法

技术领域

本发明涉及检索技术领域，特别是涉及一种Pdf全文在线检索方法。

背景技术

由于在线检索的时候很难深入到pdf文件里边进行检索，即使可以也是检索的效率不高，也不能准确定位检索到的内容在pdf文件的哪一页，因此对pdf的全文检索向来是不理想的。

因而，目前需要本领域技术人员迫切解决的一个技术问题就是：如何找到一种新型的对所需检索内容准确定位地进行一种Pdf全文在线检索方法。

发明内容

本发明所要解决的一个技术问题是提供一种Pdf全文在线检索方法，该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。

为了解决上述问题，本发明公开了一种Pdf全文在线检索方法，包括：

在服务器端建立Pdf格式的图书的数据库；

对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息；

采用全文检索引擎架构的方法，依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索，获得所需检索文字内容的检索结果；

将检索文字内容的检索结果定位到该检索文字内容的所在页面；

点击该检索文字内容的所在页面，对该检索文字内容进行阅读，获得该检索文字内容的信息。

优选的，所述对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息的步骤，包括：

采用Pdf拆分工具，对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分，获得Pdf格式的图书的每一页内容的数据信息；

采用Pdf内容解析工具，Pdf格式的图书的每一页内容的数据信息进行解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。

优选的，所述采用全文检索引擎架构的方法，依据所需检索的文字内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索，获得所需检索文字内容的检索结果的步骤，包括：

针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件；

在浏览器的页面中输入所需检索文字内容的索引关键字；

采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索，获得所需检索文字内容的检索结果。

优选的，所述采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索，获得所需检索文字内容的检索结果的步骤，包括：

建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系；

依据所需检索文字内容的索引关键字，通过分词器对所需检索文字内容进行检索，获得检索结果。

优选的，所述将检索文字内容的检索结果定位到该检索文字内容的所在页面的步骤，包括：

依据检索文字内容的检索结果，执行相应的操作。

优选的，所述依据检索文字内容的检索结果，执行相应的操作的步骤，包括：

若服务器端建立Pdf格式的图书的数据库中存在所需检索文字内容的索引关键字，则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系，获得所需检索文字内容的索引关键字的网页页面的数据信息；

若服务器端建立Pdf格式的图书的数据库中不存在所需检索文字内容的索引关键字，则发送返回信息，通知用户端没有查询到所需检索文字内容的相关信息。

优选的，所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。

优选的，所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。

与现有技术相比，本发明具有以下优点：

可以实现对所需检索内容准确定位地进行Pdf全文在线检索。

总之，本发明提供一种Pdf全文在线检索方法，该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。

附图说明

图1是本发明一种Pdf全文在线检索方法实施例的步骤流程图；

图2是本发明中Pdf在线分页实时浏览的步骤流程图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

本发明的核心思想之一是提供了一种Pdf(Portable Document Format，译为可移植文档格式，是一种电子文件格式。这种文件格式与操作系统平台无关，也就是说，PDF文件不管是在Windows，Unix还是在苹果公司的Mac OS操作系统中都是通用的。这一性能使它成为在Internet上进行电子文档发行和数字化信息传播的理想文档格式。越来越多的电子图书、产品说明、公司文告、网络资料、电子邮件开始使用PDF格式文件。Adobe公司于2009年7月13日宣布，作为电子文档长期保存格式的PDF/Archive经中国国家国家标准化管理委员会批准已成为正式的中国国家标准，并已于2009年9月1日起正式实施。PDF格式文件目前已成为数字化信息事实上的一个工业标准)全文在线检索方法，包括：在服务器端建立Pdf格式的图书的数据库；对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息；采用全文检索引擎架构的方法，依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索，获得所需检索文字内容的检索结果；将检索文字内容的检索结果定位到该检索文字内容的所在页面；点击该检索文字内容的所在页面，对该检索文字内容进行阅读，获得该检索文字内容的信息；该方法可以实现对所需检索内容准确定位地进行Pdf全文在线检索。

参照图1，示出了本发明一种Pdf全文在线检索方法实施例的步骤流程图，具体可以包括：

步骤101、在服务器端建立Pdf格式的图书的数据库。

步骤102、对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。

其中，所述步骤102具体可以包括：

子步骤A1、采用Pdf拆分工具，对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分，获得Pdf格式的图书的每一页内容的数据信息。

子步骤A2、采用Pdf内容解析工具，Pdf格式的图书的每一页内容的数据信息进行解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。

参照图2，示出了本发明中Pdf在线分页实时浏览的步骤流程图，具体可以包括：

步骤201、建立Pdf格式的图书的数据库。

步骤202、对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。

其中，所述步骤202具体可以包括：

子步骤B1、采用Pdf拆分工具，对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分，获得Pdf格式的图书的每一页内容的数据信息。

子步骤B2、采用Pdf内容解析工具，Pdf格式的图书的每一页内容的数据信息进行解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息。

步骤203、将浏览器能够识别的Pdf格式的图书的每一页内容的数据信息传输到浏览器端，获得浏览器能够识别的图书的数据库。

步骤204、在浏览器能够识别的图书的数据库搜索所需阅读的Pdf格式图书的阅读页，获得所需阅读的Pdf格式图书的阅读页。

其中，所述步骤104具体可以包括：

子步骤C1、客户端发送阅读所需阅读的Pdf格式图书的阅读页的阅读请求。

子步骤C2、服务器端接收阅读所需阅读的Pdf格式图书的阅读页的阅读请求。

子步骤C3、依据所需阅读的Pdf格式图书的阅读页的索引关键字搜索浏览器能够识别的图书的数据库，获得所需阅读的Pdf格式图书的阅读页。

其中，所述索引关键字为时间范围、信息关键字、信息分类关键字及信息有效期。

步骤205、调用浏览器端的阅读器空间，下载所需阅读的Pdf格式图书的阅读页并在浏览器的页面上显示出Pdf格式的图书的阅读页的页面信息。

总之，Pdf在线分页实时浏览方法可以提高图书在线浏览的加载速度，从而实现针对Pdf格式的图书实时进行分页在线浏览。

步骤103、采用全文检索引擎架构的方法，依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索，获得所需检索文字内容的检索结果。

其中，

本发明所采用的全文检索引擎架构的方法是采用Lucence的方法，Lucence是apache软件基金会4jakarta项目组的一个子项目，是一个开放源代码的全文检索引擎工具包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。

所述子步骤103具体可以包括：

子步骤D1、针对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息建立能够进行索引的相应索引文件。

子步骤D2、在浏览器的页面中输入所需检索文字内容的索引关键字。

子步骤D3、采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索，获得所需检索文字内容的检索结果。

其中，所述子步骤D3具体可以包括：

子步骤E1、建立分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系。

子步骤E2、依据所需检索文字内容的索引关键字，通过分词器对所需检索文字内容进行检索，获得检索结果。

步骤104、将检索文字内容的检索结果定位到该检索文字内容的所在页面。

其中，所述步骤104具体可以包括：

子步骤F1、依据检索文字内容的检索结果，执行相应的操作。

所述子步骤F1具体可以包括：

子步骤G1、若服务器端建立Pdf格式的图书的数据厍中存在所需检索文字内容的索引关键字，则依据分词文字内容和分词文字内容对应的浏览器端网页页面的一一对应关系，获得所需检索文字内容的索引关键字的网页页面的数据信息。

子步骤G2、若服务器端建立Pdf格式的图书的数据库中不存在所需检索文字内容的索引关键字，则发送返回信息，通知用户端没有查询到所需检索文字内容的相关信息。

所述索引关键字包括时间范围、信息关键字、信息分类关键字及信息有效期。

所述所需检索文字内容的索引关键字的网页页面的数据信息包括所需检索文字内容的文字信息及所需检索文字内容在网页页面的位置信息。

步骤105、点击该检索文字内容的所在页面，对该检索文字内容进行阅读，获得该检索文字内容的信息。

以上对本发明所提供的一种Pdf全文在线检索方法进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种Pdf全文在线检索方法，其特征在于，包括：

在服务器端建立Pdf格式的图书的数据库；

2.根据权利要求1所述的方法，其特征在于，所述对Pdf格式的图书的数据库中的Pdf格式的图书进行拆分及解析，获得浏览器能够识别的Pdf格式的图书的每一页内容的数据信息的步骤，包括：

3.根据权利要求1所述的方法，其特征在于，所述采用全文检索引擎架构的方法，依据所需检索的内容的索引关键字对浏览器能够识别的Pdf格式的图书的每一页内容的数据信息进行全文在线检索，获得所需检索文字内容的检索结果的步骤，包括：

在浏览器的页面中输入所需检索文字内容的索引关键字；

4.根据权利要求3所述的方法，其特征在于，所述采用全文检索引擎架构的方法对所需检索文字内容的索引关键字进行检索，获得所需检索文字内容的检索结果的步骤，包括：

5.根据权利要求1所述的方法，其特征在于，所述将检索文字内容的检索结果定位到该检索文字内容的所在页面的步骤，包括：

依据检索文字内容的检索结果，执行相应的操作。

6.根据权利要求5所述的方法，其特征在于，所述依据检索文字内容的检索结果，执行相应的操作的步骤，包括：

若服务器端建立Pdf格式的图书的数据厍中不存在所需检索文字内容的索引关键字，则发送返回信息，通知用户端没有查询到所需检索文字内容的相关信息。

7.根据权利要求6所述的方法，其特征在于：

8.根据权利要求6所述的方法，其特征在于：