CN104834664A - 面向光盘库的全文检索系统 - Google Patents

面向光盘库的全文检索系统 Download PDF

Info

Publication number
CN104834664A
CN104834664A CN201510053799.5A CN201510053799A CN104834664A CN 104834664 A CN104834664 A CN 104834664A CN 201510053799 A CN201510053799 A CN 201510053799A CN 104834664 A CN104834664 A CN 104834664A
Authority
CN
China
Prior art keywords
file
module
keyword
index
server
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510053799.5A
Other languages
English (en)
Inventor
宋丹丹
杨欢
蔡晓聪
陈科宇
孙宇超
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Institute of Technology BIT
Original Assignee
Beijing Institute of Technology BIT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Institute of Technology BIT filed Critical Beijing Institute of Technology BIT
Priority to CN201510053799.5A priority Critical patent/CN104834664A/zh
Publication of CN104834664A publication Critical patent/CN104834664A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种面向光盘库的全文检索系统,属于计算机应用技术领域。包括文件数据存储模块、文件索引建立模块、关键词检索模块、文件信息读取模块。其中文件数据存储模块包含文件容量计算模块、光盘分配模块、数据存入模块;文件索引建立模块包含文件读取模块、文件信息分词模块、磁盘索引文件建立模块;关键词检索模块包括含关键词获取模块、关键词处理模块、磁盘检索模块、检索结果输出模块。全文检索方法是先将文件存入光盘库中,通过读取光盘库文件的操作在磁盘上建立文件的索引信息。只需对磁盘上的索引文件进行操作即可按照关键词出现频率递减的顺序显示相关的文件路径,并通过文件路径读取文件内容。大大降低了数据存储和光盘库操作的复杂性。

Description

面向光盘库的全文检索系统
技术领域
本发明涉及一种面向光盘库的全文检索系统,属于计算机应用技术领域。
背景技术
日益增长的存储需要使得人们对超大容量存储设备的需求也相应的提高。目前基于光盘的存储设备有光盘塔、光盘库和光盘镜服务器,而其中光盘库显得尤为重要。光盘库是一种带有自动换盘机构(机械手)的光盘网络共享设备。光盘库一般由放置光盘的光盘架、自动换盘机构(机械手)和驱动器三部分组成。近年来,由于单张光盘的存储容量大大增加,光盘库相较于常见的存储设备如磁盘阵例、磁带库等其价格性能优势逐渐显露出来。目前关于光盘库的数据管理多是基于光盘库上的数据库来操作的,对于某些数据,通过光盘上的数据库进行管理确实比较方便。但是对于某些文件数据,特别是需要进行全文检索的文件数据,用光盘上的数据库来管理,就相当于在检索引擎和数据之间增加了一层数据,造成检索上的不方便。所以对于需要进行全文检索的数据,直接以文件形式存储在光盘库中是合理高效的,因而本发明以此形式实现光盘库的数据存储。
全文检索技术,就是以数据诸如文字,声音,图像等为主要内容,以检索文献资料的内容而不是外表特征的一种检索技术。与其他搜索引擎相比,全文搜索引擎的显著特点是它能够以文中任何一个有检索意义的词作为检索入口,而且取得的检索结果是原始文献,而不是文献线索。目前有许多高效的全文检索引擎,但是这些引擎基于的存储介质大多都是磁盘,而在大数据存储的今天,亟需一种由光盘库作为存储介质的检索引擎所构成的全文检索系统。本发明实现了面向光盘库的全文检索系统。
综上所述,本发明不仅在光盘库数据管理和全文检索数据存储介质上做了创新,还将两者结合,实现了基于光盘库的全文检索系统。
发明内容
本发明的目的是为了解决现有光盘库管理系统无法实现光盘库全文检索的问题,提出一种面向光盘库的全文检索系统。
本发明的目的是通过下述技术方案实现的。
一种面向光盘库的全文检索系统,包括文件数据存储模块、文件索引建立模块、关键词检索模块、文件信息读取模块。其中,
文件数据存储模块包含文件容量计算模块、光盘分配模块、数据存入模块;
文件索引建立模块包含文件读取模块、文件信息分词模块、磁盘索引文件建立模块;
关键词检索模块包括含关键词获取模块、关键词处理模块、磁盘检索模块、检索结果输出模块。
文件数据存储模块通过文件容量计算模块统计所要存入光盘库的总文件大小,以此确定分配光盘的数量。再通过光盘分配模块对文件进行分配,确定每个文件要存入的光盘编号,最后通过数据存入模块将文件存入对应的光盘中。
文件索引建立模块通过文件读取模块获得存入光盘库中的文件,再通过文件信息分词模块对文件内容进行分词处理,最后通过磁盘索引文件建立模块在磁盘上建立这些文件的索引文件。
关键词检索模块通过关键词获取模块获得用户输入的关键词,再利用关键词处理模块实现对关键词的识别和拆分处理,最后通过磁盘检索模块对各个关键词进行检索,获得关键词检索结果,并通过检索结果输出模块根据关键词在文件中出现频率的递减顺序输出文件路径。
文件信息读取模块根据关键词检索模块得到的文件路径,读取相应文件内容。
一种面向光盘库的全文检索方法,先将文件存入光盘库中,再通过读取光盘库文件的操作在磁盘上建立文件的索引信息。通过关键词检索时,只需对磁盘上的索引文件进行操作即可按照关键词出现频率递减的顺序显示相关的文件路径,并通过文件路径读取文件内容。
所述将文件数据存储到光盘库,步骤如下:
步骤1从磁盘或其它存储介质上读取要存入的文件数据。
步骤2计算这些将要存入的文件数据总的容量大小M。
步骤3将文件总容量除以每张光盘的总容量m,得到所需要的空白光盘数量n。
步骤4对于空白光盘数量n,在光盘库中找到n张空白光盘,若光盘库中没有足够的n张空白光盘,则提醒存储容量不足。
步骤5将文件总容量减去n张空白光盘的总容量,得到文件所需的剩余容量l。
步骤6搜索光盘库中已经写入数据但是未写满的光盘,查看是否有剩余容量大于文件所需的剩余容量l的光盘。
步骤7若找到剩余容量大于文件所需的剩余容量l的光盘,分配该光盘上的空间给文件,并更新该光盘的剩余容量;若没有,则分配一张新的空白光盘,并更新该光盘的剩余容量。若既没有剩余容量大于文件所需的剩余容量的光盘,也没有剩余的空白光盘,则提醒存储容量不足。
步骤8根据分配给文件的光盘编号,使用光盘库中的机械换盘器找到对应编号的光盘。
步骤9使用光盘库中的光盘驱动器驱动找到的光盘,为光盘数据的写入做准备。
步骤10将文件数据通过光驱写入到光盘中。
所述在磁盘上直接建立光盘文件的倒排索引,步骤如下:
步骤1在磁盘上存放索引文件的位置对索引文件执行读操作,以判断磁盘上的索引文件是否已经存在;
步骤2若磁盘上的索引文件不存在,则先在磁盘上指定位置建立磁盘索引文件的初始哈希表,索引文件内容为空。
步骤3读取新存入光盘的文件,获得文件的相关信息,这些信息包括文件存放的光盘编号、文件的编号、文件的内容。
步骤4对文件的内容进行分词处理,将文件的内容划分成单词的集合,保存每个单词的相关信息,包括单词在文件中出现的位置和频率。
步骤5将文件所包含的单词集合、各单词的相关信息以及为文件在光盘上的路径做为索引的内容链接到磁盘索引文件的哈希表上。
所述通过磁盘索引文件直接检索关键词所在文件信息,步骤如下:
步骤1获取用户输入的用于检索的关键词。
步骤2对关键词进行分词解析,得到多个关键词,确定用户要检索的信息。
步骤3对每个关键词采取同样的操作,依次通过磁盘上的索引文件检索包含该关键词的文件相关的索引信息。
步骤4文件的索引信息包含关键词出现的频度,依据关键词出现的频度将与关键词相关的多个文件路径输出,供用户选择。
所述根据检索结果读取光盘库信息文件,步骤如下:
步骤1用户选择检索到的文件路径用于读取。
步骤2使用光盘库的机械换盘器找到文件路径对应的光盘。
步骤3使用光盘库的光盘驱动器驱动光盘数据的读取。
有益效果
本发明实现面向光盘库的全文检索系统。该系统的实现方法是在文件数据存入后再建立相应的索引,节省了数据存入的时间,且只需在磁盘上建立索引而不需要在光盘上建立索引,节省了光盘的存储容量。在检索时只需操作磁盘上的索引文件,检索速度快。本发明直接以文件的形式将数据存入光盘库中,直接对光盘库的文件进行操作而并不是通过数据库文件进行存储和检索,降低了数据存储和光盘库操作的复杂性。
附图说明
图1是本发明利用磁盘索引文件实现的基于光盘库的全文检索系统的结构示意图;
图2是本发明利用基于光盘库的全文检索系统在磁盘上直接建立文件索引的方法流程图;
图3是本发明利用基于光盘库的全文检索系统通过磁盘索引文件直接查询与关键词相关的文件信息的方法流程图;
图中标号,100-全文检索系统、110-文件数据存储模块、120-文件索引建立模块、130-关键词检索模块、140-文件信息读取模块、m1-文件容量计算模块、m2-光盘分配模块、m3-数据存入模块、m4-文件读取模块、m5-文件信息分词模块、m6-磁盘索引文件建立模块、m7-关键词获取模块、m8-关键词处理模块、m9-磁盘检索模块、m10-检索结果输出模块、200-光盘库、210-机械换盘器、220-光盘驱动器、230-光盘、240-光盘上的索引文件、300-磁盘存储器、310-磁盘上的索引文件、X-光盘库管理系统。
具体实施方式
下面结合附图和实施例对本发明做详细说明。
一种面向光盘库的全文检索系统,包括文件数据存储模块110、文件索引建立模块120、关键词检索模块130、文件信息读取模块140。
其中文件数据存储模110块包含文件容量计算模块m1、光盘分配模块m2、数据存入模块m3;
文件索引建立模块120包含文件读取模块m4、文件信息分词模块m5、磁盘索引文件建立模块m6;
关键词检索模块130包括关键词获取模块m7、关键词处理模块m8、磁盘检索模块m9、检索结果输出模块m10。
文件数据存储模块110通过文件容量计算模块统计所要存入光盘库的总文件大小,以此确定分配光盘的数量。再通过光盘分配模块对文件进行分配,确定每个文件要存入的光盘编号,最后通过数据存入模块将文件存入对应的光盘中。
文件索引建立模块通过文件读取模块获得存入光盘库中的文件,再通过文件信息分词模块对文件内容进行分词处理,最后通过磁盘索引文件建立模块在磁盘上建立这些文件的索引文件。
关键词检索模块通过关键词获取模块获得用户输入的关键词,再利用关键词处理模块实现对关键词的识别和拆分处理,最后通过磁盘检索模块对各个关键词进行检索,获得关键词检索结果,并通过检索结果输出模块根据关键词在文件中出现频率的递减顺序输出文件路径。
文件信息读取模块根据关键词检索模块得到的文件路径,读取相应文件内容。
实施例
1.利用基于光盘库的全文检索系统将文件数据存储到光盘库的方法,步骤如下:
步骤1.1对于给定的文件数据,首先通过文件容量计算模块m1,获得该文件容量大小信息;
步骤1.2将文件容量计算模块m1的计算结果作为参数,通过光盘分配模块m2,获得为该文件数据分配的光盘编号。
步骤1.3数据存入模块m3利用光盘库管理系统x,通过机械换盘器210,找到文件分配的光盘,使用光盘驱动器220驱动光盘,将数据写入光盘230上。
步骤1.4重复步骤1.3,直到完成光盘库的数据写入。
2.如图2所示,利用基于光盘库的全文检索系统在磁盘上直接建立光盘文件倒排索引的方法,步骤如下:
步骤2.1全文检索系统通过读取磁盘上索引文件判断磁盘上索引文件是否已经存在。若索引文件不存在,执行步骤2.2;若索引文件已存在,执行步骤2.3;
步骤2.2全文检索系统通过索引文件建立模块m6建立索引文件的初始哈希表,用于链接文件的索引信息;
步骤2.3全文检索系统通过文件读取模块m4读取光盘中的文件,获得文件的相关信息,包括文件所在光盘编号、文件编号、文件内容;
步骤2.4全文检索系统通过文件分词模块m5对读取的文件内容进行分词处理,获得单词的集合以及单词的相关信息,即单词出现频率、位置;
步骤2.5全文检索系统通过磁盘索引文件建立模块m6将文件索引信息(包括单词的相关信息及文件所在光盘编号)链接在索引文件的哈希表上;
步骤2.6重复步骤2.3至2.5,直至完成所有文件的索引建立。
3.如图3所示,利用基于光盘库的全文检索系统通过磁盘索引文件直接检索关键词所在文件信息的方法,步骤如下:
步骤3.1全文检索系统通过关键词获取模块m7获取用户输入的用于检索的信息(关键词);
步骤3.2全文检索系统通过关键词处理模块m8分析用户输入用于检索的信息,包括关键词的数量、长度,确定用户想要查询的信息;
步骤3.3全文检索系统通过磁盘检索模块m9,根据磁盘索引文件得到用户查询的关键词所在文件的文件索引信息;
步骤3.4全文检索系统通过检索结果输出模块m10将查询得到的文件信息根据关键词出现频度,将文件信息顺序输出。
4.利用基于光盘库的全文检索系统读取光盘库信息文件方法,步骤如下:
步骤4.1通过光盘库管理系统x使用机械换盘器210,找到文件所在的光盘;
步骤4.2通过光盘库管理系统x使用光盘驱动器220,驱动光盘,读取文件数据。
综上所述,以上仅为本发明的实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种面向光盘库的全文检索系统,其特征在于:包括文件数据存储模块、文件索引建立模块、关键词检索模块、文件信息读取模块;
其中文件数据存储模块包含文件容量计算模块、光盘分配模块、数据存入模块;
文件索引建立模块包含文件读取模块、文件信息分词模块、磁盘索引文件建立模块;
关键词检索模块包括含关键词获取模块、关键词处理模块、磁盘检索模块、检索结果输出模块;
文件数据存储模块通过文件容量计算模块统计所要存入光盘库的总文件大小,以此确定分配光盘的数量;再通过光盘分配模块对文件进行分配,确定每个文件要存入的光盘编号,最后通过数据存入模块将文件存入对应的光盘中;
文件索引建立模块通过文件读取模块获得存入光盘库中的文件,再通过文件信息分词模块对文件内容进行分词处理,最后通过磁盘索引文件建立模块在磁盘上建立这些文件的索引文件;
关键词检索模块通过关键词获取模块获得用户输入的关键词,再利用关键词处理模块实现对关键词的识别和拆分处理,最后通过磁盘检索模块对各个关键词进行检索,获得关键词检索结果,并通过检索结果输出模块根据关键词在文件中出现频率的递减顺序输出文件路径;
文件信息读取模块根据关键词检索模块得到的文件路径,读取相应文件内容。
2.一种面向光盘库的全文检索方法,其特征在于:一种面向光盘库的全文检索方法,首先将数据文件存入光盘库中,再通过读取光盘库文件的操作在磁盘上直接建立光盘文件的倒排索引文件;进行文件的全文检索时,首先通过磁盘上的索引文件直接检索关键词所在文件信息,再根据检索结果读取光盘库信息文件。
3.根据权利要求2所述的一种面向光盘库的全文检索方法,其特征在于:将数据文件存储到光盘库,步骤如下:
步骤1从磁盘或其它存储介质上读取要存入的文件数据;
步骤2计算这些将要存入的文件数据总的容量大小M;
步骤3将文件总容量除以每张光盘的总容量m,得到所需要的空白光盘数量n;
步骤4对于空白光盘数量n,在光盘库中找到n张空白光盘,若光盘库中没有足够的n张空白光盘,则提醒存储容量不足;
步骤5将文件总容量减去n张空白光盘的总容量,得到文件所需的剩余容量l;
步骤6搜索光盘库中已经写入数据但是未写满的光盘,查看是否有剩余容量大于文件所需的剩余容量l的光盘;
步骤7若找到剩余容量大于文件所需的剩余容量l的光盘,分配该光盘上的空间给文件,并更新该光盘的剩余容量;若没有,则分配一张新的空白光盘,更新该光盘的剩余容量;若既没有剩余容量大于文件所需的剩余容量的光盘,也没有剩余的空白光盘,则提醒存储容量不足;
步骤8根据分配给文件的光盘编号,使用光盘库中的机械换盘器找到对应编号的光盘;
步骤9使用光盘库中的光盘驱动器驱动找到的光盘,为光盘数据的写入做准备;
步骤10将文件数据通过光驱写入到光盘中。
4.根据权利要求2所述的一种面向光盘库的全文检索方法,其特征在于:在磁盘上直接建立光盘文件的倒排索引,步骤如下:
步骤1在磁盘上存放索引文件的位置对索引文件执行读操作,以判断磁盘上的索引文件是否已经存在;
步骤2若磁盘上的索引文件不存在,则先在磁盘上指定位置建立磁盘索引文件的初始哈希表,索引文件内容为空;
步骤3读取新存入光盘的文件,获得文件的相关信息,这些信息包括文件存放的光盘编号、文件的编号、文件的内容;
步骤4对文件的内容进行分词处理,将文件的内容划分成单词的集合,保存每个单词的相关信息,包括单词在文件中出现的位置和频率;
步骤5将文件所包含的单词集合、各单词的相关信息以及为文件在光盘上的路径做为索引的内容链接到磁盘索引文件的哈希表上。
5.根据权利要求2所述的一种面向光盘库的全文检索方法,其特征在于:通过磁盘索引文件直接检索关键词所在文件信息,步骤如下:
步骤1获取用户输入的用于检索的关键词;
步骤2对关键词进行分词解析,得到多个关键词,确定用户要检索的信息;
步骤3对每个关键词采取同样的操作,依次通过磁盘上的索引文件检索包含该关键词的文件相关的索引信息;
步骤4文件的索引信息包含关键词出现的频度,依据关键词出现的频度将与关键词相关的多个文件路径输出,供用户选择。
6.根据权利要求2所述的一种面向光盘库的全文检索方法,其特征在于:根据检索结果读取光盘库信息文件,步骤如下:
步骤1用户选择检索到的文件路径用于读取;
步骤2使用光盘库的机械换盘器找到文件路径对应的光盘;
步骤3使用光盘库的光盘驱动器驱动光盘数据的读取。
CN201510053799.5A 2015-02-02 2015-02-02 面向光盘库的全文检索系统 Pending CN104834664A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510053799.5A CN104834664A (zh) 2015-02-02 2015-02-02 面向光盘库的全文检索系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510053799.5A CN104834664A (zh) 2015-02-02 2015-02-02 面向光盘库的全文检索系统

Publications (1)

Publication Number Publication Date
CN104834664A true CN104834664A (zh) 2015-08-12

Family

ID=53812552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510053799.5A Pending CN104834664A (zh) 2015-02-02 2015-02-02 面向光盘库的全文检索系统

Country Status (1)

Country Link
CN (1) CN104834664A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512339A (zh) * 2015-12-31 2016-04-20 深圳市朗科科技股份有限公司 一种文件检索器及检索方法
CN106055546A (zh) * 2015-10-08 2016-10-26 北京慧存数据科技有限公司 基于Lucene的光盘库全文检索系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288740A1 (en) * 2004-06-30 2008-11-20 Koninklijke Philips Electronics, N.V. Method and Device for Generating an Identification Data Block for a Data Carrier
CN101620607A (zh) * 2008-07-01 2010-01-06 全国组织机构代码管理中心 全文检索方法及系统
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
CN103177127A (zh) * 2013-04-18 2013-06-26 陶光毅 基于光盘库的数据库存储系统及利用该系统的方法
CN104063384A (zh) * 2013-03-19 2014-09-24 上海软智信息科技有限公司 一种数据检索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080288740A1 (en) * 2004-06-30 2008-11-20 Koninklijke Philips Electronics, N.V. Method and Device for Generating an Identification Data Block for a Data Carrier
CN101620607A (zh) * 2008-07-01 2010-01-06 全国组织机构代码管理中心 全文检索方法及系统
CN101819578A (zh) * 2010-01-25 2010-09-01 青岛普加智能信息有限公司 检索方法、索引建立方法和装置及检索系统
CN104063384A (zh) * 2013-03-19 2014-09-24 上海软智信息科技有限公司 一种数据检索方法及装置
CN103177127A (zh) * 2013-04-18 2013-06-26 陶光毅 基于光盘库的数据库存储系统及利用该系统的方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106055546A (zh) * 2015-10-08 2016-10-26 北京慧存数据科技有限公司 基于Lucene的光盘库全文检索系统
CN105512339A (zh) * 2015-12-31 2016-04-20 深圳市朗科科技股份有限公司 一种文件检索器及检索方法

Similar Documents

Publication Publication Date Title
US8910044B1 (en) Playlist incorporating tags
CN108874971B (zh) 一种应用于海量标签化实体数据存储的工具和方法
US7765215B2 (en) System and method for providing a trustworthy inverted index to enable searching of records
CN102541927B (zh) 一种实现数据缓存的方法和装置
CN101464901B (zh) 一种对象存储设备中的对象查找方法
JPH10501086A (ja) 記憶プレーン編成及びそれに基づく記憶システム
CN101278289A (zh) 提供对象以支持worm存储设备中的数据结构的系统和方法
CN105373541A (zh) 数据库的数据操作请求的处理方法和系统
US20090063410A1 (en) Method for Performing Parallel Data Indexing Within a Data Storage System
CN104731896A (zh) 一种数据处理方法及系统
CN101763415B (zh) 一种数据库的b树索引的生成方法及装置
CN101692252A (zh) 文件空闲块的分配和回收方法
CN110096509A (zh) 大数据环境下实现历史数据拉链表存储建模处理的系统及方法
CN106980665A (zh) 数据字典实现方法、装置及数据字典管理系统
CN103186617A (zh) 一种存储数据的方法和装置
CN102779138A (zh) 实时数据的硬盘存取方法
CN103186622A (zh) 一种全文检索系统中索引信息的更新方法以及装置
CN101963977A (zh) 无城市搜索方法及移动终端
CN103473324A (zh) 基于非结构化数据存储的多维业务属性检索装置及方法
CN103186607A (zh) 分布式语音检索系统
CN101963993B (zh) 一种数据库单表记录快速查找的方法
CN104834663A (zh) 面向光盘库的全文检索系统
CN107273443B (zh) 一种基于大数据模型元数据的混合索引方法
CN104834664A (zh) 面向光盘库的全文检索系统
CN117472854A (zh) 一种加速批量文件搜索模型

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20150812