CN105045852A

CN105045852A - 一种教学资源的全文搜索引擎系统

Info

Publication number: CN105045852A
Application number: CN201510392169.0A
Authority: CN
Inventors: 王肃; 郑骏; 陈志云; 胡文心; 王明亚
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2015-07-06
Filing date: 2015-07-06
Publication date: 2015-11-11

Abstract

本发明公开了一种教学资源的全文搜索引擎系统，包括：用户交互单元，其为输入输出装置，用于接收用户输入的关键词或语句，以及显示或输出查询到的教学资源；教学资源库，其用于存储上传的教学资源；文本处理单元，用于对教学资源的文本及关键词或语句进行处理，生成分词结果；建立索引单元，其利用基于lucene的建索引引擎，根据教学资源的分词结果建立索引文件，并存储索引文件；查询搜索单元，其用于根据关键词或语句的分词结果生成查询对象，对建立索引单元内的索引文件进行搜索，搜索到的与查询对象最相关的教学资源后返回用户交互单元。本发明具有优秀的面向对象的系统架构，使得对于Lucene扩展的难度降低，方便扩充新功能。

Description

一种教学资源的全文搜索引擎系统

技术领域

本发明涉及信息检索领域，特别涉及一种针对教学资源的构建垂直搜索引擎的方法。

背景技术

伴随着因特网的普及，教育系统中可用的网页信息、课件资源和各种电子信息载体也不断产生，比之于通用网页信息检索的发展，教育信息化改革和教学资源建设的发展相对缓慢，专门针对教育资源的专业检索还尚未出现。以往对教育资源的全文检索功能可以由以下三种方法实现：

(1)使用关系数据库的Like“keyword”查询来代替全文检索系统。这种方法在信息量比较小的情况下，检索速度比较快，但是由于查询语句比较繁琐，在面对海量信息的情况下，检索速度会急剧降低，其性能也往往达不到要求，甚至影响数据库的其他正常使用。

(2)使用通用的数据库系统提供的全文检索功能。有些教学平台虽称实现了全文索引库，但其实质是通过先检索放在关系数据库里的结构化数据，如标题、作者、关键词、文摘等，然后链接全文以获得全文，真正实现全文检索的不多。

(3)使用网络上如google、baidu等搜索引擎提供的站内搜索。此方法对于校园网来说，成本昂贵，索引范围不全，更新周期慢等。

这三种方法的搜索技术在教学资源文档检索方面存在诸多不足，导致目前学校对教学资源库中文档的索引管理效率低下，用户查找教学资源不方便。因此，针对网络教学平台的教育资源研究并定制一个全文检索系统是必要的。

当前信息处理研究领域中的信息抽取、信息过滤、信息检索等研究热点正好适应了这一需要，值得教育信息化改革的学习和借鉴。信息抽取的目的是对目前存在的多种格式的文档资源，如Office文档、PDF文档、标记格式文档(HTML、XML、xSL)等进行分析，提取出文档中的内容。信息检索一般是指文件信息检索。其主要目的是针对用户提出的查询，快速准确地得到所需要的文件信息。信息检索的核心技术是全文检索技术。全文检索技术不仅是提高教学资源利用率的保证，更是促进网络教学系统发展的关键技术之一。

Lucene是一套用于全文检索和搜寻的开源程式库，由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口，其目的是为软件开发人员提供一个简单易用的工具包，以方便的在目标系统中实现全文检索的功能，或者是以此为基础建立起完整的全文检索引擎。Lucene作为一个全文检索引擎，其具有如下突出的优点：

(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件。

(2)在传统全文检索引擎的倒排索引的基础上，实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的。

(3)优秀的面向对象的系统架构，使得对于Lucene扩展的学习难度降低，方便扩充新功能。

(4)设计了独立于语言和文件格式的文本分析接口，索引器通过接受Token流完成索引文件的创立，用户扩展新的语言和文件格式，只需要实现文本分析的接口。

(5)已经默认实现了一套强大的查询引擎，用户无需自己编写代码即可使系统可获得强大的查询能力，Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。

为了克服上述现有技术的缺陷，针对教育信息化和网络化的需求特点，本发明创新地在网络教学平台上基于lucene构建一个全文检索引擎系统，可以对系统内课件资源库中各种文档如PDF文件、Office文档等进行全文检索。

发明内容

本发明提出了一种教学资源的全文搜索引擎系统，包括：用户交互单元，其为输入输出装置，用于接收用户输入的关键词或语句，以及显示或输出查询到的教学资源；教学资源库，其用于存储上传的教学资源；文本处理单元，分别与所述用户交互单元和所述教学资源库通信，用于对所述教学资源的文本及所述关键词或语句进行处理，生成分词结果；建立索引单元，其与所述文本处理单元通信，利用基于lucene的建索引引擎，根据所述教学资源的分词结果建立索引文件，并存储所述索引文件；查询搜索单元，其与所述用户交互单元、所述文本处理单元及所述建立索引单元，其用于根据所述关键词或语句的分词结果生成查询对象，对所述建立索引单元内的所述索引文件进行搜索，搜索到的与所述查询对象最相关的教学资源后返回所述用户交互单元。

本发明所述的教学资源全文搜索引擎系统中，所述文本处理单元包括：文本抽取模块，从所述教学资源中抽取出文本；所述文本来源包括：ppt类型、word类型、pdf类型、txt类型的文档；中文词语处理模块，其为ICTCLAS分词系统用于对从所述文本、用户输入的所述关键词或语句进行词语切分、词性标注及词语过滤，生成分词结果。

本发明所述的教学资源全文搜索引擎系统中，所述建立索引单元包括：索引创建模块，其用于建立索引器IndexWriter，建立文档对象Document，在所述文档对象Document中建立字段Field，并将所述文档对象Document添加到所述索引器IndexWriter中，得到索引文件；索引存储模块，其与所述索引创建模块通信，用于存储所述索引文件。

本发明所述的教学资源全文搜索引擎系统中，所述查询搜索单元包括：搜索索引模块，其基于lucene的query查询接口，根据所述关键词或语句的分词结果生成查询对象，对所述建立索引单元内的所述索引文件进行搜索，得到相关的教学资源；相关性排序模块，其用于对所述教学资源与所述查询对象的相关程度进行打分，按得分排序得到与所述查询对象最相关的教学资源。

本发明所述的教学资源全文搜索引擎系统中，所述用户交互单元为web网站。

本发明的有益效果在于：

索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式，使得兼容系统或者不同平台的应用能够共享建立的索引文件。在传统全文检索引擎的倒排索引的基础上，本发明实现了分块索引，能够针对新的文件建立小文件索引，提升索引速度。然后通过与原有索引的合并，达到优化的目的。本发明具有优秀的面向对象的系统架构，使得对于Lucene扩展的学习难度降低，方便扩充新功能。本发明设计了独立于语言和文件格式的文本分析接口，索引器通过接受Token流完成索引文件的创立，用户扩展新的语言和文件格式，只需要实现文本分析的接口。本系统已经默认实现了一套强大的查询引擎，用户无需自己编写代码即可使系统可获得强大的查询能力，Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。

附图说明

图1是全文搜索引擎系统的结构框图。

图2是全文搜索引擎系统的搜索流程图。

图3是Lucene数据源组织结构图。

具体实施方式

结合以下具体实施例和附图，对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等，除以下专门提及的内容之外，均为本领域的普遍知识和公知常识，本发明没有特别限制内容。

参见图1，本发明教学资源的全文搜索引擎系统包括：用户交互单元1，其为输入输出装置，用于接收用户输入的关键词或语句，以及显示或输出查询到的教学资源；教学资源库2，其用于存储上传的教学资源；文本处理单元3，其分别与用户交互单元1和教学资源库2通信，用于对教学资源的文本及关键词或语句进行处理，生成分词结果；建立索引单元4，其与文本处理单元3通信，利用基于lucene的建索引引擎，根据教学资源的分词结果建立索引文件，并存储索引文件；查询搜索单元5，其与用户交互单元1、文本处理单元3及建立索引单元4，其用于根据关键词或语句的分词结果生成查询对象，对建立索引单元4内的索引文件进行搜索，搜索到的与查询对象最相关的教学资源后返回用户交互单元1。

具体实施方式中使用的是Lucene3.6版本，Lucene的工作流程分两大步：第一步建立索引，第二步查询。本发明的目的是对大量office文档，pdf，txt等文件创建索引，根据创建好的索引文件，通过关键词或者语句能够快速搜索到相应的文件。方法流程如图1所示：1利用ApachePOI和ApachePDFbox的开放源码函式库对MicrosoftOffice格式文档和pdf格式文档抽取出文本；2利用中科院分词系统ICTCLAS对抽取出的文本进行中文分词；3利用Lucene对切分词创建索引；4执行搜索，应用Lucene的打分机制，可以将搜索到的结果根据相关性由高到低返回。

图2显示的是全文搜索引擎系统的搜索流程图。以下结合实例，对各单元的功能模块的功能及其实现方法作详细阐述。

1、文本抽取

文本处理单元3包括文本抽取模块31和中文词语处理模块32。文本抽取模块31从教学资源中抽取出文本；文本来源包括：ppt类型、word类型、pdf类型、txt类型的文档。中文词语处理模块32为ICTCLAS分词系统用于对从文本、用户输入的关键词或语句进行词语切分、词性标注及词语过滤，生成分词结果。

文本抽取是创建索引的基础，本发明文本抽取模块31使用了POI和PDFbox开源文本抽取工具，对office文档和pdf等格式进行文本抽取。

ApachePOI是Apache软件基金会的开放源码函式库，POI提供API给Java程序对MicrosoftOffice格式文档读和写的功能。本发明对以后缀名为doc、docx、ppt、pptx的文件进行文本抽取，使用到了POI如下结构：

HSLF-提供读写MicrosoftPowerPoint2003格式档案的功能。

XSLF-提供读写MicrosoftPowerPoint2007及以上格式档案的功能。

HWPF-提供读写MicrosoftWord2003格式档案的功能。

XWPF-提供读写MicrosoftWord2007及以上格式档案的功能。

中文本抽取模块31若使用的是POI3.1版本，在抽取文本之前，需要引入poi-3.10-FINAL.jar包。ApachePDFbox是最常见的一种PDF文本抽取工具，PDFBox是一个开源的JavaPDF库，这个库允许访问PDF文件的各项信息。中文本抽取模块31若使用的是PDFbox1.8版本，在抽取pdf文本之前，需要引入pdfbox-app-1.8.jar包。

2、分词

词语是信息表达的最小单位，而汉语不同于西方语言，其句子的词语－没有分隔符(空格)，因此需要进行词语进行切分。本发明实施例提供的中文词语处理模块，用于对从课件资源中抽取出的文本信息和用户输入的查询语句进行词语切分和词性标注。

汉语词语切分中存在切分歧义，如“帽子和服装”可切分为“帽子/和/服装”，也可能被错误地切分为“帽子/和服/装”，因而需要利用各种上下文知识解决词语切分歧义。在切分的基础上，利用基于规则和统计(隐马尔科夫模型)的方法进行词性标注。基于隐马尔科夫模型的n元语法统计分析方法，被证明在词性标注中能达到较高的精度。这里本发明实施例中的中文词语处理模块32使用的分词程序是中科院计算所研发的分词系统-ICTCLAS，其是目前最好的中文分词器之一。该分词系统的主要思想是先通过CHMM(层叠隐马尔可夫模型)进行分词，通过分层，既增加了分词的准确性，又保证了分词的效率。中文词语处理模块32的基本思路:先进行原子切分，然后在此基础上进行N-最短路径粗切分，找出前N个最符合的切分结果，生成二元分词表，然后生成分词结果，接着进行词性标注并完成主要分词步骤。ICTCLAS功能包括：中文分词；词性标注；未登录词识别。分词正确率高达97.58％，运行效率高，占用内存小。本发明使用的是ICTCLAS2011Java版本。在创建索引之前，Lucene会调用Analyzer类对待索引文件的文本进行分词，Lucene本身的StandardAnalyzer提供了中文分词接口，不过其采用的算法为1-gram，这种分词方法虽然不会损失任何索引信息，但是造成的索引垃圾太多，并且中文分词正确率很低。本发明调用了中科院分词系统ICTCLAS，在Lucene中建立了一个新的分词器ICTCLASAnalyzer，该分词器支持用户自定义词典，添加停用词表等功能，对人名和英文分词的准确率也较高。实现ICTCLASAnalyzer分词器，需要继承Analyzer类，并重写publicTokenStreamtokenStream(StringfieldName,Readerreader)方法。

3、创建索引

如图2所示，建立索引单元4包括：索引创建模块41，其用于建立索引器IndexWriter，建立文档对象Document，在文档对象Document中建立字段Field，并将文档对象Document添加到索引器IndexWriter中，得到索引文件；索引存储模块42，其与索引创建模块41通信，用于存储索引文件。在进行全文搜索的过程中，Lucene主要用于建立索引和进行搜索。上述功能所涉及的Lucene的类主要包括：

IndexWriter:lucene中最重要的类之一，它主要是用来将文档加入索引，同时控制索引过程中的一些参数使用。

Analyzer:分析器，主要用于分析搜索引擎遇到的各种文本。常用的有StandardAnalyzer分析器，StopAnalyzer分析器、WhitespaceAnalyzer分析器等。

Directory:索引存放的位置；lucene提供了两种索引存放的位置，一种是磁盘，一种是内存。一般情况将索引放在磁盘上；相应地lucene提供了FSDirectory和RAMDirectory两个类。

Document:文档；Document相当于一个要进行索引的单元，任何可以想要被索引的文件都必须转化为Document对象才能进行索引。

Field：字段。

IndexSearcher:是lucene中最基本的检索工具，所有的检索都会用到IndexSearcher工具。

Query:查询，lucene中支持模糊查询，语义查询，短语查询，组合查询等等，如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些类。

QueryParser:是一个解析用户输入的工具，可以通过扫描用户输入的字符串，生成Query对象。

Hits:在搜索完成之后，需要把搜索结果返回并显示给用户，只有这样才算是完成搜索的目的。在lucene中，搜索的结果的集合是用Hits类的实例来表示的。

Token是建立索引的基本单位，表示每个被编入索引的字符。其中包含了词元的内容，词元所属的类别，词元的首字母和尾字母在文本中的位置信息等。TokenStream是用来走访Token的iterator,Tokenizer继承自TokenStream，其输入为Reader。为了构建ICTCLASAnalyzer分词器，需要实现自己的ICTCLASTokenizer类，该类继承自Tokenizer类，并重写publicbooleanincrementToken()等方法。

索引创建模块41建立索引addDocument(Document)的过程如下：

1建立索引器IndexWriter:

IndexWriterwriter＝newIndexWriter(存储索引的路径，分析器的实例)；

存储索引的路径:在物理硬盘上的路径如：d:/aa等

分析器的实例：分析器就是词法分析器，包括英文分析器和中文分析器等，应根据情况使用分析器，常用的分析器有：StanardAnalyzer(标准分析器)、CJKAnalyzer(二分法分词器)和FrenchAnalyzer(法语分析器)等。本发明使用的是ICTCALSAnalyzer(调用中科院分词系统ICTCLAS自建的分词器)。

2建立文档对象Document:

Documentdoc＝newDocument()；

这个方法用来创建一个不含任何Field的空Document。

3建立信息字段对象Field:

如果想吧Field添加到Document里面，只需要使用add方法。

Documentdoc＝newDocument()；

doc.add(field)

4将Field添加到Document里面:

Fieldfield＝newField(Field名称，Field内容，存储方式，索引方式)；

参数介绍：

Field名称就是为Field起的名字，类似数据表的字段名称。

Field内容就是该Field的内容，类似数据表的字段内容。

存储方式包括三种：

不存储(Field.Store.NO)、完全存储(Field.Store.YES)、压缩存储(Field.Store.COMPRESS)

索引方式包括四种：

不索引(Field.Index.No)、索引但不分歧(Field.Index.NO_NORMS)、索引但不分词(Field.Index.UN_TOKENIZED)、分词并索引(Field.Index.TOKENIZED)。

5将Document添加到IndexWriter里面:

indexWriter.addDocument(document)；

(6)关闭索引器IndexWriter:

indexWriter.close()；

Lucene数据源组织结构如图3所示。索引存储模块42将得到的索引文件存储在存储空间中。

4、搜索及Lucene打分机制

查询搜索单元5包括：搜索索引模块51，其基于lucene的query查询接口，根据关键词或语句的分词结果生成查询对象，对建立索引单元4内的索引文件进行搜索，得到相关的教学资源；相关性排序模块52，其用于对教学资源与查询对象的相关程度进行打分，按得分排序得到与查询对象最相关的教学资源。

搜索索引模块51中用于Lucene搜索的4个主要api的类分别为IndexSearcher，Query，QueryParser和Hits。

IndexSearcher是搜索的入口，他的search方法提供了搜索功能。QueryParser是一个非常通用的帮助类，他的作用是把用户输入的文本转换为内置的Query对象。QueryParser的使用如下

QueryParser.parse(Stringquery,Stringfield,Analyzeranalyzer)throwsParseException，

其中：query是用户输入的内容，field是搜索默认的field，analyzer是用来将用户输入的内容也作分析处理(分词)，一般情况下这里的anaylyzer需要和创建索引的时候采用的analyzer保持一致。

搜索结果的处理:Hits对象，Hits对象是搜索结果的集合，主要有下面几个方法：

length()，这个方法记录有多少条结果返回(lazyloading)

doc(n)返回第n个记录

id(n)返回第n个记录的DocumentID

score(n)第n个记录的相关度(积分)

由于搜索的结果一般比较大，从性能上考虑，Hits对象并不会真正把所有的结果全部取回，默认情况下是保留前100个记录。

相关性排序模块52具有一套较为完善的打分机制，该Lucene打分机制结合了Booleanmodel和VectorSpaceModel(VSM)。

lucene在查询时会首先基于BooleanModel通过在查询语句中的boolean逻辑(AND，OR，NOT)来缩小待打分的文档结果，此过程涉及倒排表的合并。VSM模型会对上述返回的结果进行打分，计算查询语句与搜索文档的相关性。打分公式如下：

score(q,d)＝coord(q,d)×queryNorm(q)×∑_tinq(tf(tind)×idf(t)²×t.getBoost()×norm(t,d))

该公式各部分的意义如下：

t：Term，这里的Term是指包含域信息的Term。

coord(q,d)：一次搜索可能包含多个搜索词，而一篇文档中也可能包含多个搜索词，此项表示，当一篇文档中包含的搜索词越多，则此文档则打分越高。

queryNorm(q)：计算每个查询条目的方差和，此值并不影响排序，而仅仅使得不同的query之间的分数可以比较。

tf(tind)：Termt在文档d中出现的词频。

idf(t)：Termt在几篇文档中出现过。

boost：激励因子，可以通过setBoost方法设置。

各类Boost值：

t.getBoost()：查询语句中每个词的权重，可以在查询中设定某个词更加重要；

d.getBoost()：文档权重，在索引阶段写入nrm文件，表明某些文档比其他文档更重要；

f.getBoost()：域的权重，在索引阶段写入nrm文件，表明某些域比其他的域更重要。

norm(t,d)：标准化因子，它包括三个参数：

Documentboost：此值越大，说明此文档越重要。

Fieldboost：此域越大，说明此域越重要。

lengthNorm(field)＝(1.0/Math.sqrt(numTerms))：一个域中包含的Term总数越多，也即文档越长，此值越小，文档越短，此值越大。

查询搜索单元5将搜索到的教学资源结果列表传输给用户交互单元1，用户交互单元1通过web页面的形式显示。用户可以点击相应的课件资源进行在线查看，或者下载到本地。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种教学资源的全文搜索引擎系统，其特征在于，包括：

用户交互单元(1)，其为输入输出装置，用于接收用户输入的关键词或语句，以及显示或输出查询到的教学资源；

教学资源库(2)，其用于存储上传的教学资源；

文本处理单元(3)，其分别与所述用户交互单元(1)和所述教学资源库(2)通信，用于对所述教学资源的文本及所述关键词或语句进行处理，生成分词结果；

建立索引单元(4)，其与所述文本处理单元(3)通信，利用基于lucene的建索引引擎，根据所述教学资源的分词结果建立索引文件，并存储所述索引文件；

查询搜索单元(5)，其与所述用户交互单元(1)、所述文本处理单元(3)及所述建立索引单元(4)，其用于根据所述关键词或语句的分词结果生成查询对象，对所述建立索引单元(4)内的所述索引文件进行搜索，搜索到的与所述查询对象最相关的教学资源后返回所述用户交互单元(1)。

2.如权利要求1所述的教学资源全文搜索引擎系统，其特征在于，所述文本处理单元(3)包括：

文本抽取模块(31)，从所述教学资源中抽取出文本；所述文本来源包括：ppt类型、word类型、pdf类型、txt类型的文档；

中文词语处理模块(32)，其为ICTCLAS分词系统用于对从所述文本、用户输入的所述关键词或语句进行词语切分、词性标注及词语过滤，生成分词结果。

3.如权利要求1所述的教学资源全文搜索引擎系统，其特征在于，所述建立索引单元(4)包括：

索引创建模块(41)，其用于建立索引器IndexWriter，建立文档对象Document，在所述文档对象Document中建立字段Field，并将所述文档对象Document添加到所述索引器IndexWriter中，得到索引文件；

索引存储模块(42)，其与所述索引创建模块(41)通信，用于存储所述索引文件。

4.如权利要求1所述的教学资源全文搜索引擎系统，其特征在于，所述查询搜索单元(5)包括：

搜索索引模块(51)，其基于lucene的query查询接口，根据所述关键词或语句的分词结果生成查询对象，对所述建立索引单元(4)内的所述索引文件进行搜索，得到相关的教学资源；

相关性排序模块(52)，其用于对所述教学资源与所述查询对象的相关程度进行打分，按得分排序得到与所述查询对象最相关的教学资源。

5.如权利要求1所述的教学资源全文搜索引擎系统，其特征在于，所述用户交互单元(1)为web网站。