CN106055546A - 基于Lucene的光盘库全文检索系统 - Google Patents
基于Lucene的光盘库全文检索系统 Download PDFInfo
- Publication number
- CN106055546A CN106055546A CN201510640451.6A CN201510640451A CN106055546A CN 106055546 A CN106055546 A CN 106055546A CN 201510640451 A CN201510640451 A CN 201510640451A CN 106055546 A CN106055546 A CN 106055546A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- index
- file
- information
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/22—Indexing; Data structures therefor; Storage structures
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于Lucene的光盘库全文检索系统,属于计算机应用技术领域。采用一级索引的方式和Lucene搜索引擎实现光盘库全文检索系统。从本地文件系统中提取信息资源,通过构造索引库,构造分析器,构造索引创建器,为获取的文件数据建立索引,对文件的内容信息进行分词处理等一系列操作为数据创建索引。根据获取的用户输入的检索信息,对其进行关键词拆分,得到关键词。通过检索器对关键词进行检索,并对检索的结果进行过滤,获得检索结果集。通过索引获得关键词在磁盘文件的信息列表,用户通过光盘库管理系统操作该信息列表,读取对应的文本信息。所以,只需要输入关键词,就能获取关键词在整个光盘上哪些文件上出现过,并获取与关键词相关的信息。用户可在任意平台操作,有效解决了基于超大存储设备的检索困难问题。
Description
技术领域
本发明涉及一种面向光盘库的全文检索系统,属于计算机应用技术领域。
背景技术
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。它提供了一个简单却强大的应用程式接口,能够做全文索引和搜寻。Lucene作为一个全文检索引擎,其具有如下突出的优点:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
(5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等。
更重要的是,在Java开发环境里Lucene是一个成熟的免费开源工具,任何人都可以根据应用的实际情况编写出更适合当前应用的全文检索引擎,其跨平台性也是面向光盘库系统得以使用的重要原因。
综上,将光盘库管理系统与Lucene全文检索引擎结合可以实现光盘库的全文检索系统。
发明内容
本发明的目的是为了解决现有光盘库管理系统无法实现光盘库全文检索的问题,提出一种基于Lucene实现的光盘库的全文检索系统。
本发明的目的是通过下述技术方案实现的。
一种基于Lucene实现的光盘库全文检索系统,包括如下步骤:
步骤1、Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件,因而可为要存入光盘库的文件建立索引文件。
步骤2、Lucene在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。可实现光盘库索引文件的追加,通过与原有索引的合并,达到优化的目的。
步骤3、Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等,可根据索引文件对光盘库中的文件进行全文检索。
本发明的一种基于Lucene实现的光盘库全文检索系统与现有的技术相比,具有以下优点:
1、索引文件的建立速度快。
2、索引文件可以建立在磁盘上,避免占用光盘的存储空间。
3、本发明直接以文件的形式将数据存入光盘库中,直接对光盘库的文件进行操作而并不是通过数据库文件进行存储和检索,降低了数据存储和光盘库操作的复杂性。
4、检索方法简单易行,检索速度快。
附图说明
图1是本发明利用基于Lucene的光盘库全文检索系统在磁盘上直接建立文件索引的方法流程图;
图2是本发明利用基于Lucene的光盘库全文检索系统通过磁盘索引文件直接查询与关键词相关的文件信息的方法流程图。
图3是本发明利用基于Lucene的光盘库全文检索的系统实现用户刻录文件操作方法的流程图。
具体实施方式
下面结合附图和实施例对本发明做详细说明。
一种基于Lucene的面向光盘库的全文检索系统,包括索引文件的建立和关键词检索。
实施例
1.如图1所示,利用基于光盘库的全文检索系统在磁盘上直接建立光盘文件倒排索引的方法,步骤如下:
步骤11从本地文件系统中提取文本信息资源或其它类型的文件资源,作为全文检索的目标。
步骤12构造索引库Directory。在本地文件系统中找到索引文件存放的位置,设置为索引库的位置,也即索引存入的位置。
步骤13构造分析器Analyzer。用于对文件信息进行分词处理。
步骤14构造索引创建器IndexWriter。索引创建器所创建的文件索引存放到索引库的位置,如果索引库中没有索引,则索引创建的方式为新建方式;否则设置为追加方式。
步骤15为获取的文件数据建立索引,根据不同的文件类型创建相应的文档描述Document,并设置相应属性域Filed的内容,如文件名、文件路径、文件内容。
步骤16对文件的内容信息进行分词处理,然后通过索引构造器将文件的索引内容写入到索引库中。
2.如图2所示,利用基于Lucene的光盘库全文检索系统通过磁盘索引文件直接检索关键词所在文件信息的方法,步骤如下:
步骤21构造检索器IndexSearcher,以只读的方式打开索引文件用于检索。
步骤22构造分析器Analyzer,用于构造查询条件。
步骤23获取用于检索文件的关键词信息。
步骤24构造查询条件Query,设置所要查询的属性域。
步骤25构造过滤器Filter,用于对检索的结果进行过滤。
步骤26利用查询条件,通过检索器进行检索,并对检索的结果进行过滤,获得检索结果集TopDocs。
步骤27通过结果集获取检索到的文件对应的文档描述,通过检索器读取文档描述中对应属性域的内容,如文件内容信息,文件名信息。
步骤28通过检索获得的文件信息,通过光盘库管理系统对文件进行操作,实现打开或下载。
3.如图3所示,利用基于Lucene的光盘库全文检索的系统实现用户刻录文件操作方法,步骤如下:
步骤31在Opensuse平台上进行操作,将需要进行刻录的文件导入Opensuse平台上。
步骤32用户添加需要刻录的文件。
步骤32用户对添加的文件进行确认,可进行删除和再次添加的操作。
步骤33在用户确认进行刻录后,将需要导入光盘库的文件复制到刻录的目录下,等待固定的一段时间。
步骤34全文检索系统调用光盘库管理系统刻录功能。
步骤35光盘库管理系统对文件进行刻录。
综上所述,以上仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (1)
1.一种基于Lucene的光盘库全文检索系统,其特征在于:包括索引文件建立及关键词检索;
其中文件索引建立包含从本地文件系统中提取信息资源,通过构造索引库,构造分析器,构造索引创建器,为获取的文件数据建立索引,对文件的内容信息进行分词处理等一系列操作为数据创建索引。
关键词检索包含根据获取的用户输入的检索信息,对其进行关键词拆分,得到关键词。通过检索器对关键词进行检索,并对检索的结果进行过滤,获得检索结果集。通过索引获得关键词在磁盘文件的信息列表,用户通过光盘库管理系统操作该信息列表,读取对应的文本信息。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510640451.6A CN106055546A (zh) | 2015-10-08 | 2015-10-08 | 基于Lucene的光盘库全文检索系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510640451.6A CN106055546A (zh) | 2015-10-08 | 2015-10-08 | 基于Lucene的光盘库全文检索系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106055546A true CN106055546A (zh) | 2016-10-26 |
Family
ID=57179442
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510640451.6A Pending CN106055546A (zh) | 2015-10-08 | 2015-10-08 | 基于Lucene的光盘库全文检索系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106055546A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
CN109522392A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于语音的检索方法、服务器及计算机可读存储介质 |
CN110619036A (zh) * | 2019-08-25 | 2019-12-27 | 南京理工大学 | 基于改进if-idf算法的全文检索系统 |
CN110941642A (zh) * | 2019-11-20 | 2020-03-31 | 贵州电网有限责任公司电力科学研究院 | 基于Lucene全文检索的配电网数据处理方法、装置 |
CN110968555A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 维度数据处理方法和装置 |
CN111625539A (zh) * | 2020-04-28 | 2020-09-04 | 四川省金科成地理信息技术有限公司 | 一种应用于信息资源共享平台的索引创建及数据检索方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819592A (zh) * | 2012-08-08 | 2012-12-12 | 河海大学 | 一种基于Lucene的桌面搜索系统及方法 |
CN103177127A (zh) * | 2013-04-18 | 2013-06-26 | 陶光毅 | 基于光盘库的数据库存储系统及利用该系统的方法 |
CN104008207A (zh) * | 2014-06-18 | 2014-08-27 | 广东绿源巢信息科技有限公司 | 基于光盘的数据库的数据外部存储系统及数据存储方法 |
CN104834663A (zh) * | 2015-02-02 | 2015-08-12 | 北京理工大学 | 面向光盘库的全文检索系统 |
CN104834664A (zh) * | 2015-02-02 | 2015-08-12 | 北京理工大学 | 面向光盘库的全文检索系统 |
-
2015
- 2015-10-08 CN CN201510640451.6A patent/CN106055546A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102819592A (zh) * | 2012-08-08 | 2012-12-12 | 河海大学 | 一种基于Lucene的桌面搜索系统及方法 |
CN103177127A (zh) * | 2013-04-18 | 2013-06-26 | 陶光毅 | 基于光盘库的数据库存储系统及利用该系统的方法 |
CN104008207A (zh) * | 2014-06-18 | 2014-08-27 | 广东绿源巢信息科技有限公司 | 基于光盘的数据库的数据外部存储系统及数据存储方法 |
CN104834663A (zh) * | 2015-02-02 | 2015-08-12 | 北京理工大学 | 面向光盘库的全文检索系统 |
CN104834664A (zh) * | 2015-02-02 | 2015-08-12 | 北京理工大学 | 面向光盘库的全文检索系统 |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108804592A (zh) * | 2018-05-28 | 2018-11-13 | 山东浪潮商用系统有限公司 | 知识库检索实现方法 |
CN110968555A (zh) * | 2018-09-30 | 2020-04-07 | 北京国双科技有限公司 | 维度数据处理方法和装置 |
CN109522392A (zh) * | 2018-10-11 | 2019-03-26 | 平安科技(深圳)有限公司 | 基于语音的检索方法、服务器及计算机可读存储介质 |
CN110619036A (zh) * | 2019-08-25 | 2019-12-27 | 南京理工大学 | 基于改进if-idf算法的全文检索系统 |
CN110619036B (zh) * | 2019-08-25 | 2023-07-18 | 南京理工大学 | 基于改进tf-idf算法的全文检索系统 |
CN110941642A (zh) * | 2019-11-20 | 2020-03-31 | 贵州电网有限责任公司电力科学研究院 | 基于Lucene全文检索的配电网数据处理方法、装置 |
CN111625539A (zh) * | 2020-04-28 | 2020-09-04 | 四川省金科成地理信息技术有限公司 | 一种应用于信息资源共享平台的索引创建及数据检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106055546A (zh) | 基于Lucene的光盘库全文检索系统 | |
US8311999B2 (en) | System and method for knowledge research | |
US7930288B2 (en) | Knowledge extraction for automatic ontology maintenance | |
US8606726B2 (en) | Detecting correlations between data representing information | |
KR20130049111A (ko) | 분산 처리를 이용한 포렌식 인덱스 방법 및 장치 | |
US9406018B2 (en) | Systems and methods for semantic data integration | |
US10083031B2 (en) | Cognitive feature analytics | |
US20140358868A1 (en) | Life cycle management of metadata | |
CA2977847A1 (en) | Automated extraction tools and their use in social content tagging systems | |
Blanke et al. | Integrating holocaust research | |
US10740365B2 (en) | Gap identification in corpora | |
CN110570928A (zh) | 一种基于HBase和ozone的医疗影像文件存取方法 | |
CN112000929A (zh) | 一种跨平台数据分析方法、系统、设备及可读存储介质 | |
CN105095436A (zh) | 数据源数据自动建模方法 | |
JP5221664B2 (ja) | 情報マップ管理システムおよび情報マップ管理方法 | |
Tao et al. | Facilitating Twitter data analytics: Platform, language and functionality | |
CN103530311A (zh) | 对元数据进行优先次序排序的方法和装置 | |
KR101105798B1 (ko) | 키워드 정련 장치 및 방법과 그를 위한 컨텐츠 검색 시스템 및 그 방법 | |
CN111045994A (zh) | 一种基于kv数据库的文件分类检索方法及系统 | |
KR102025813B1 (ko) | 사건 흐름 정보를 제공하기 위한 연대순 정보 기반 큐레이션 장치 및 그것의 제어방법 | |
US11263192B2 (en) | Hyper-folding information in a uniform interaction feed | |
KR100862565B1 (ko) | 사용자 맞춤형 특허정보 데이터베이스 구축시스템 | |
Pokorný et al. | Graph pattern index for Neo4j graph databases | |
CN107818126B (zh) | 一种面向Mongo数据库的全文信息检索方法 | |
JP2022090209A (ja) | アカウント分析システム、及びアカウント分析方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
DD01 | Delivery of document by public notice |
Addressee: Beijing Hui Yu Data Technology Co., Ltd. Document name: Notification to Make Rectification |
|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20161026 |