CN105045852A - 一种教学资源的全文搜索引擎系统 - Google Patents

一种教学资源的全文搜索引擎系统 Download PDF

Info

Publication number
CN105045852A
CN105045852A CN201510392169.0A CN201510392169A CN105045852A CN 105045852 A CN105045852 A CN 105045852A CN 201510392169 A CN201510392169 A CN 201510392169A CN 105045852 A CN105045852 A CN 105045852A
Authority
CN
China
Prior art keywords
text
index
teaching resource
query
document
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510392169.0A
Other languages
English (en)
Inventor
王肃
郑骏
陈志云
胡文心
王明亚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
East China Normal University
Original Assignee
East China Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by East China Normal University filed Critical East China Normal University
Priority to CN201510392169.0A priority Critical patent/CN105045852A/zh
Publication of CN105045852A publication Critical patent/CN105045852A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Abstract

本发明公开了一种教学资源的全文搜索引擎系统,包括:用户交互单元,其为输入输出装置,用于接收用户输入的关键词或语句,以及显示或输出查询到的教学资源;教学资源库,其用于存储上传的教学资源;文本处理单元,用于对教学资源的文本及关键词或语句进行处理,生成分词结果;建立索引单元,其利用基于lucene的建索引引擎,根据教学资源的分词结果建立索引文件,并存储索引文件;查询搜索单元,其用于根据关键词或语句的分词结果生成查询对象,对建立索引单元内的索引文件进行搜索,搜索到的与查询对象最相关的教学资源后返回用户交互单元。本发明具有优秀的面向对象的系统架构,使得对于Lucene扩展的难度降低,方便扩充新功能。

Description

一种教学资源的全文搜索引擎系统
技术领域
本发明涉及信息检索领域,特别涉及一种针对教学资源的构建垂直搜索引擎的方法。
背景技术
伴随着因特网的普及,教育系统中可用的网页信息、课件资源和各种电子信息载体也不断产生,比之于通用网页信息检索的发展,教育信息化改革和教学资源建设的发展相对缓慢,专门针对教育资源的专业检索还尚未出现。以往对教育资源的全文检索功能可以由以下三种方法实现:
(1)使用关系数据库的Like“keyword”查询来代替全文检索系统。这种方法在信息量比较小的情况下,检索速度比较快,但是由于查询语句比较繁琐,在面对海量信息的情况下,检索速度会急剧降低,其性能也往往达不到要求,甚至影响数据库的其他正常使用。
(2)使用通用的数据库系统提供的全文检索功能。有些教学平台虽称实现了全文索引库,但其实质是通过先检索放在关系数据库里的结构化数据,如标题、作者、关键词、文摘等,然后链接全文以获得全文,真正实现全文检索的不多。
(3)使用网络上如google、baidu等搜索引擎提供的站内搜索。此方法对于校园网来说,成本昂贵,索引范围不全,更新周期慢等。
这三种方法的搜索技术在教学资源文档检索方面存在诸多不足,导致目前学校对教学资源库中文档的索引管理效率低下,用户查找教学资源不方便。因此,针对网络教学平台的教育资源研究并定制一个全文检索系统是必要的。
当前信息处理研究领域中的信息抽取、信息过滤、信息检索等研究热点正好适应了这一需要,值得教育信息化改革的学习和借鉴。信息抽取的目的是对目前存在的多种格式的文档资源,如Office文档、PDF文档、标记格式文档(HTML、XML、xSL)等进行分析,提取出文档中的内容。信息检索一般是指文件信息检索。其主要目的是针对用户提出的查询,快速准确地得到所需要的文件信息。信息检索的核心技术是全文检索技术。全文检索技术不仅是提高教学资源利用率的保证,更是促进网络教学系统发展的关键技术之一。
Lucene是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供。Lucene提供了一个简单却强大的应用程式接口,其目的是为软件开发人员提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎。Lucene作为一个全文检索引擎,其具有如下突出的优点:
(1)索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。
(2)在传统全文检索引擎的倒排索引的基础上,实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。
(3)优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。
(4)设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。
(5)已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。
为了克服上述现有技术的缺陷,针对教育信息化和网络化的需求特点,本发明创新地在网络教学平台上基于lucene构建一个全文检索引擎系统,可以对系统内课件资源库中各种文档如PDF文件、Office文档等进行全文检索。
发明内容
本发明提出了一种教学资源的全文搜索引擎系统,包括:用户交互单元,其为输入输出装置,用于接收用户输入的关键词或语句,以及显示或输出查询到的教学资源;教学资源库,其用于存储上传的教学资源;文本处理单元,分别与所述用户交互单元和所述教学资源库通信,用于对所述教学资源的文本及所述关键词或语句进行处理,生成分词结果;建立索引单元,其与所述文本处理单元通信,利用基于lucene的建索引引擎,根据所述教学资源的分词结果建立索引文件,并存储所述索引文件;查询搜索单元,其与所述用户交互单元、所述文本处理单元及所述建立索引单元,其用于根据所述关键词或语句的分词结果生成查询对象,对所述建立索引单元内的所述索引文件进行搜索,搜索到的与所述查询对象最相关的教学资源后返回所述用户交互单元。
本发明所述的教学资源全文搜索引擎系统中,所述文本处理单元包括:文本抽取模块,从所述教学资源中抽取出文本;所述文本来源包括:ppt类型、word类型、pdf类型、txt类型的文档;中文词语处理模块,其为ICTCLAS分词系统用于对从所述文本、用户输入的所述关键词或语句进行词语切分、词性标注及词语过滤,生成分词结果。
本发明所述的教学资源全文搜索引擎系统中,所述建立索引单元包括:索引创建模块,其用于建立索引器IndexWriter,建立文档对象Document,在所述文档对象Document中建立字段Field,并将所述文档对象Document添加到所述索引器IndexWriter中,得到索引文件;索引存储模块,其与所述索引创建模块通信,用于存储所述索引文件。
本发明所述的教学资源全文搜索引擎系统中,所述查询搜索单元包括:搜索索引模块,其基于lucene的query查询接口,根据所述关键词或语句的分词结果生成查询对象,对所述建立索引单元内的所述索引文件进行搜索,得到相关的教学资源;相关性排序模块,其用于对所述教学资源与所述查询对象的相关程度进行打分,按得分排序得到与所述查询对象最相关的教学资源。
本发明所述的教学资源全文搜索引擎系统中,所述用户交互单元为web网站。
本发明的有益效果在于:
索引文件格式独立于应用平台。Lucene定义了一套以8位字节为基础的索引文件格式,使得兼容系统或者不同平台的应用能够共享建立的索引文件。在传统全文检索引擎的倒排索引的基础上,本发明实现了分块索引,能够针对新的文件建立小文件索引,提升索引速度。然后通过与原有索引的合并,达到优化的目的。本发明具有优秀的面向对象的系统架构,使得对于Lucene扩展的学习难度降低,方便扩充新功能。本发明设计了独立于语言和文件格式的文本分析接口,索引器通过接受Token流完成索引文件的创立,用户扩展新的语言和文件格式,只需要实现文本分析的接口。本系统已经默认实现了一套强大的查询引擎,用户无需自己编写代码即可使系统可获得强大的查询能力,Lucene的查询实现中默认实现了布尔操作、模糊查询、分组查询等等。
附图说明
图1是全文搜索引擎系统的结构框图。
图2是全文搜索引擎系统的搜索流程图。
图3是Lucene数据源组织结构图。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
参见图1,本发明教学资源的全文搜索引擎系统包括:用户交互单元1,其为输入输出装置,用于接收用户输入的关键词或语句,以及显示或输出查询到的教学资源;教学资源库2,其用于存储上传的教学资源;文本处理单元3,其分别与用户交互单元1和教学资源库2通信,用于对教学资源的文本及关键词或语句进行处理,生成分词结果;建立索引单元4,其与文本处理单元3通信,利用基于lucene的建索引引擎,根据教学资源的分词结果建立索引文件,并存储索引文件;查询搜索单元5,其与用户交互单元1、文本处理单元3及建立索引单元4,其用于根据关键词或语句的分词结果生成查询对象,对建立索引单元4内的索引文件进行搜索,搜索到的与查询对象最相关的教学资源后返回用户交互单元1。
具体实施方式中使用的是Lucene3.6版本,Lucene的工作流程分两大步:第一步建立索引,第二步查询。本发明的目的是对大量office文档,pdf,txt等文件创建索引,根据创建好的索引文件,通过关键词或者语句能够快速搜索到相应的文件。方法流程如图1所示:1利用ApachePOI和ApachePDFbox的开放源码函式库对MicrosoftOffice格式文档和pdf格式文档抽取出文本;2利用中科院分词系统ICTCLAS对抽取出的文本进行中文分词;3利用Lucene对切分词创建索引;4执行搜索,应用Lucene的打分机制,可以将搜索到的结果根据相关性由高到低返回。
图2显示的是全文搜索引擎系统的搜索流程图。以下结合实例,对各单元的功能模块的功能及其实现方法作详细阐述。
1、文本抽取
文本处理单元3包括文本抽取模块31和中文词语处理模块32。文本抽取模块31从教学资源中抽取出文本;文本来源包括:ppt类型、word类型、pdf类型、txt类型的文档。中文词语处理模块32为ICTCLAS分词系统用于对从文本、用户输入的关键词或语句进行词语切分、词性标注及词语过滤,生成分词结果。
文本抽取是创建索引的基础,本发明文本抽取模块31使用了POI和PDFbox开源文本抽取工具,对office文档和pdf等格式进行文本抽取。
ApachePOI是Apache软件基金会的开放源码函式库,POI提供API给Java程序对MicrosoftOffice格式文档读和写的功能。本发明对以后缀名为doc、docx、ppt、pptx的文件进行文本抽取,使用到了POI如下结构:
HSLF-提供读写MicrosoftPowerPoint2003格式档案的功能。
XSLF-提供读写MicrosoftPowerPoint2007及以上格式档案的功能。
HWPF-提供读写MicrosoftWord2003格式档案的功能。
XWPF-提供读写MicrosoftWord2007及以上格式档案的功能。
中文本抽取模块31若使用的是POI3.1版本,在抽取文本之前,需要引入poi-3.10-FINAL.jar包。ApachePDFbox是最常见的一种PDF文本抽取工具,PDFBox是一个开源的JavaPDF库,这个库允许访问PDF文件的各项信息。中文本抽取模块31若使用的是PDFbox1.8版本,在抽取pdf文本之前,需要引入pdfbox-app-1.8.jar包。
2、分词
词语是信息表达的最小单位,而汉语不同于西方语言,其句子的词语-没有分隔符(空格),因此需要进行词语进行切分。本发明实施例提供的中文词语处理模块,用于对从课件资源中抽取出的文本信息和用户输入的查询语句进行词语切分和词性标注。
汉语词语切分中存在切分歧义,如“帽子和服装”可切分为“帽子/和/服装”,也可能被错误地切分为“帽子/和服/装”,因而需要利用各种上下文知识解决词语切分歧义。在切分的基础上,利用基于规则和统计(隐马尔科夫模型)的方法进行词性标注。基于隐马尔科夫模型的n元语法统计分析方法,被证明在词性标注中能达到较高的精度。这里本发明实施例中的中文词语处理模块32使用的分词程序是中科院计算所研发的分词系统-ICTCLAS,其是目前最好的中文分词器之一。该分词系统的主要思想是先通过CHMM(层叠隐马尔可夫模型)进行分词,通过分层,既增加了分词的准确性,又保证了分词的效率。中文词语处理模块32的基本思路:先进行原子切分,然后在此基础上进行N-最短路径粗切分,找出前N个最符合的切分结果,生成二元分词表,然后生成分词结果,接着进行词性标注并完成主要分词步骤。ICTCLAS功能包括:中文分词;词性标注;未登录词识别。分词正确率高达97.58%,运行效率高,占用内存小。本发明使用的是ICTCLAS2011Java版本。在创建索引之前,Lucene会调用Analyzer类对待索引文件的文本进行分词,Lucene本身的StandardAnalyzer提供了中文分词接口,不过其采用的算法为1-gram,这种分词方法虽然不会损失任何索引信息,但是造成的索引垃圾太多,并且中文分词正确率很低。本发明调用了中科院分词系统ICTCLAS,在Lucene中建立了一个新的分词器ICTCLASAnalyzer,该分词器支持用户自定义词典,添加停用词表等功能,对人名和英文分词的准确率也较高。实现ICTCLASAnalyzer分词器,需要继承Analyzer类,并重写publicTokenStreamtokenStream(StringfieldName,Readerreader)方法。
3、创建索引
如图2所示,建立索引单元4包括:索引创建模块41,其用于建立索引器IndexWriter,建立文档对象Document,在文档对象Document中建立字段Field,并将文档对象Document添加到索引器IndexWriter中,得到索引文件;索引存储模块42,其与索引创建模块41通信,用于存储索引文件。在进行全文搜索的过程中,Lucene主要用于建立索引和进行搜索。上述功能所涉及的Lucene的类主要包括:
IndexWriter:lucene中最重要的类之一,它主要是用来将文档加入索引,同时控制索引过程中的一些参数使用。
Analyzer:分析器,主要用于分析搜索引擎遇到的各种文本。常用的有StandardAnalyzer分析器,StopAnalyzer分析器、WhitespaceAnalyzer分析器等。
Directory:索引存放的位置;lucene提供了两种索引存放的位置,一种是磁盘,一种是内存。一般情况将索引放在磁盘上;相应地lucene提供了FSDirectory和RAMDirectory两个类。
Document:文档;Document相当于一个要进行索引的单元,任何可以想要被索引的文件都必须转化为Document对象才能进行索引。
Field:字段。
IndexSearcher:是lucene中最基本的检索工具,所有的检索都会用到IndexSearcher工具。
Query:查询,lucene中支持模糊查询,语义查询,短语查询,组合查询等等,如有TermQuery,BooleanQuery,RangeQuery,WildcardQuery等一些类。
QueryParser:是一个解析用户输入的工具,可以通过扫描用户输入的字符串,生成Query对象。
Hits:在搜索完成之后,需要把搜索结果返回并显示给用户,只有这样才算是完成搜索的目的。在lucene中,搜索的结果的集合是用Hits类的实例来表示的。
Token是建立索引的基本单位,表示每个被编入索引的字符。其中包含了词元的内容,词元所属的类别,词元的首字母和尾字母在文本中的位置信息等。TokenStream是用来走访Token的iterator,Tokenizer继承自TokenStream,其输入为Reader。为了构建ICTCLASAnalyzer分词器,需要实现自己的ICTCLASTokenizer类,该类继承自Tokenizer类,并重写publicbooleanincrementToken()等方法。
索引创建模块41建立索引addDocument(Document)的过程如下:
1建立索引器IndexWriter:
IndexWriterwriter=newIndexWriter(存储索引的路径,分析器的实例);
存储索引的路径:在物理硬盘上的路径如:d:/aa等
分析器的实例:分析器就是词法分析器,包括英文分析器和中文分析器等,应根据情况使用分析器,常用的分析器有:StanardAnalyzer(标准分析器)、CJKAnalyzer(二分法分词器)和FrenchAnalyzer(法语分析器)等。本发明使用的是ICTCALSAnalyzer(调用中科院分词系统ICTCLAS自建的分词器)。
2建立文档对象Document:
Documentdoc=newDocument();
这个方法用来创建一个不含任何Field的空Document。
3建立信息字段对象Field:
如果想吧Field添加到Document里面,只需要使用add方法。
Documentdoc=newDocument();
doc.add(field)
4将Field添加到Document里面:
Fieldfield=newField(Field名称,Field内容,存储方式,索引方式);
参数介绍:
Field名称就是为Field起的名字,类似数据表的字段名称。
Field内容就是该Field的内容,类似数据表的字段内容。
存储方式包括三种:
不存储(Field.Store.NO)、完全存储(Field.Store.YES)、压缩存储(Field.Store.COMPRESS)
索引方式包括四种:
不索引(Field.Index.No)、索引但不分歧(Field.Index.NO_NORMS)、索引但不分词(Field.Index.UN_TOKENIZED)、分词并索引(Field.Index.TOKENIZED)。
5将Document添加到IndexWriter里面:
indexWriter.addDocument(document);
(6)关闭索引器IndexWriter:
indexWriter.close();
Lucene数据源组织结构如图3所示。索引存储模块42将得到的索引文件存储在存储空间中。
4、搜索及Lucene打分机制
查询搜索单元5包括:搜索索引模块51,其基于lucene的query查询接口,根据关键词或语句的分词结果生成查询对象,对建立索引单元4内的索引文件进行搜索,得到相关的教学资源;相关性排序模块52,其用于对教学资源与查询对象的相关程度进行打分,按得分排序得到与查询对象最相关的教学资源。
搜索索引模块51中用于Lucene搜索的4个主要api的类分别为IndexSearcher,Query,QueryParser和Hits。
IndexSearcher是搜索的入口,他的search方法提供了搜索功能。QueryParser是一个非常通用的帮助类,他的作用是把用户输入的文本转换为内置的Query对象。QueryParser的使用如下
QueryParser.parse(Stringquery,Stringfield,Analyzeranalyzer)throwsParseException,
其中:query是用户输入的内容,field是搜索默认的field,analyzer是用来将用户输入的内容也作分析处理(分词),一般情况下这里的anaylyzer需要和创建索引的时候采用的analyzer保持一致。
搜索结果的处理:Hits对象,Hits对象是搜索结果的集合,主要有下面几个方法:
length(),这个方法记录有多少条结果返回(lazyloading)
doc(n)返回第n个记录
id(n)返回第n个记录的DocumentID
score(n)第n个记录的相关度(积分)
由于搜索的结果一般比较大,从性能上考虑,Hits对象并不会真正把所有的结果全部取回,默认情况下是保留前100个记录。
相关性排序模块52具有一套较为完善的打分机制,该Lucene打分机制结合了Booleanmodel和VectorSpaceModel(VSM)。
lucene在查询时会首先基于BooleanModel通过在查询语句中的boolean逻辑(AND,OR,NOT)来缩小待打分的文档结果,此过程涉及倒排表的合并。VSM模型会对上述返回的结果进行打分,计算查询语句与搜索文档的相关性。打分公式如下:
score(q,d)=coord(q,d)×queryNorm(q)×∑tinq(tf(tind)×idf(t)2×t.getBoost()×norm(t,d))
该公式各部分的意义如下:
t:Term,这里的Term是指包含域信息的Term。
coord(q,d):一次搜索可能包含多个搜索词,而一篇文档中也可能包含多个搜索词,此项表示,当一篇文档中包含的搜索词越多,则此文档则打分越高。
queryNorm(q):计算每个查询条目的方差和,此值并不影响排序,而仅仅使得不同的query之间的分数可以比较。
tf(tind):Termt在文档d中出现的词频。
idf(t):Termt在几篇文档中出现过。
boost:激励因子,可以通过setBoost方法设置。
各类Boost值:
t.getBoost():查询语句中每个词的权重,可以在查询中设定某个词更加重要;
d.getBoost():文档权重,在索引阶段写入nrm文件,表明某些文档比其他文档更重要;
f.getBoost():域的权重,在索引阶段写入nrm文件,表明某些域比其他的域更重要。
norm(t,d):标准化因子,它包括三个参数:
Documentboost:此值越大,说明此文档越重要。
Fieldboost:此域越大,说明此域越重要。
lengthNorm(field)=(1.0/Math.sqrt(numTerms)):一个域中包含的Term总数越多,也即文档越长,此值越小,文档越短,此值越大。
查询搜索单元5将搜索到的教学资源结果列表传输给用户交互单元1,用户交互单元1通过web页面的形式显示。用户可以点击相应的课件资源进行在线查看,或者下载到本地。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

Claims (5)

1.一种教学资源的全文搜索引擎系统,其特征在于,包括:
用户交互单元(1),其为输入输出装置,用于接收用户输入的关键词或语句,以及显示或输出查询到的教学资源;
教学资源库(2),其用于存储上传的教学资源;
文本处理单元(3),其分别与所述用户交互单元(1)和所述教学资源库(2)通信,用于对所述教学资源的文本及所述关键词或语句进行处理,生成分词结果;
建立索引单元(4),其与所述文本处理单元(3)通信,利用基于lucene的建索引引擎,根据所述教学资源的分词结果建立索引文件,并存储所述索引文件;
查询搜索单元(5),其与所述用户交互单元(1)、所述文本处理单元(3)及所述建立索引单元(4),其用于根据所述关键词或语句的分词结果生成查询对象,对所述建立索引单元(4)内的所述索引文件进行搜索,搜索到的与所述查询对象最相关的教学资源后返回所述用户交互单元(1)。
2.如权利要求1所述的教学资源全文搜索引擎系统,其特征在于,所述文本处理单元(3)包括:
文本抽取模块(31),从所述教学资源中抽取出文本;所述文本来源包括:ppt类型、word类型、pdf类型、txt类型的文档;
中文词语处理模块(32),其为ICTCLAS分词系统用于对从所述文本、用户输入的所述关键词或语句进行词语切分、词性标注及词语过滤,生成分词结果。
3.如权利要求1所述的教学资源全文搜索引擎系统,其特征在于,所述建立索引单元(4)包括:
索引创建模块(41),其用于建立索引器IndexWriter,建立文档对象Document,在所述文档对象Document中建立字段Field,并将所述文档对象Document添加到所述索引器IndexWriter中,得到索引文件;
索引存储模块(42),其与所述索引创建模块(41)通信,用于存储所述索引文件。
4.如权利要求1所述的教学资源全文搜索引擎系统,其特征在于,所述查询搜索单元(5)包括:
搜索索引模块(51),其基于lucene的query查询接口,根据所述关键词或语句的分词结果生成查询对象,对所述建立索引单元(4)内的所述索引文件进行搜索,得到相关的教学资源;
相关性排序模块(52),其用于对所述教学资源与所述查询对象的相关程度进行打分,按得分排序得到与所述查询对象最相关的教学资源。
5.如权利要求1所述的教学资源全文搜索引擎系统,其特征在于,所述用户交互单元(1)为web网站。
CN201510392169.0A 2015-07-06 2015-07-06 一种教学资源的全文搜索引擎系统 Pending CN105045852A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510392169.0A CN105045852A (zh) 2015-07-06 2015-07-06 一种教学资源的全文搜索引擎系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510392169.0A CN105045852A (zh) 2015-07-06 2015-07-06 一种教学资源的全文搜索引擎系统

Publications (1)

Publication Number Publication Date
CN105045852A true CN105045852A (zh) 2015-11-11

Family

ID=54452399

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510392169.0A Pending CN105045852A (zh) 2015-07-06 2015-07-06 一种教学资源的全文搜索引擎系统

Country Status (1)

Country Link
CN (1) CN105045852A (zh)

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719206A (zh) * 2016-01-01 2016-06-29 河南牧业经济学院 一种高等教育教学资源配置与分析系统
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置
CN105930490A (zh) * 2016-05-03 2016-09-07 北京优宇通教育科技有限公司 一种教学资源智能甄选系统
CN106021390A (zh) * 2016-05-12 2016-10-12 福建南威软件有限公司 一种文件的管理方法和装置
CN106227734A (zh) * 2016-07-08 2016-12-14 大唐融合通信股份有限公司 一种基于问题搜索系统的数据处理方法和系统
CN106708996A (zh) * 2016-12-19 2017-05-24 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106817407A (zh) * 2016-12-23 2017-06-09 四川九鼎瑞信软件开发有限公司 一种教学信息资源推送方法及系统
CN107145555A (zh) * 2017-04-28 2017-09-08 北京安数云信息技术有限公司 一种基于分词的模糊语句搜索方法
CN108228743A (zh) * 2017-12-18 2018-06-29 深圳供电局有限公司 一种实时大数据搜索引擎系统
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN108520002A (zh) * 2018-03-12 2018-09-11 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN108733848A (zh) * 2018-06-11 2018-11-02 百应科技(北京)有限公司 一种搜索知识的方法及系统
CN109766826A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种自动识别作业信息的方法及系统
CN110383263A (zh) * 2017-03-20 2019-10-25 国际商业机器公司 从多个数据语料库中创建认知智能查询
CN111026712A (zh) * 2019-11-04 2020-04-17 厦门天锐科技股份有限公司 文件上传方法、装置及文件查询方法、装置和电子设备
CN111259145A (zh) * 2020-01-16 2020-06-09 广西计算中心有限责任公司 基于情报数据的文本检索分类方法、系统及存储介质
CN111259011A (zh) * 2020-01-15 2020-06-09 北京爱论答科技有限公司 一种教学资料搜索方法、系统、设备及存储介质
CN111444693A (zh) * 2018-12-29 2020-07-24 深圳市优学天下教育发展股份有限公司 一种基于语音识别的教育资源获取方法及系统
CN111818278A (zh) * 2020-07-17 2020-10-23 济南浪潮高新科技投资发展有限公司 一种教学视频采集与检索系统及方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242118A1 (en) * 2004-10-08 2006-10-26 Engel Alan K Classification-expanded indexing and retrieval of classified documents
CN101561815A (zh) * 2009-05-19 2009-10-21 华中科技大学 分布式密文全文检索系统
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN103778202A (zh) * 2014-01-10 2014-05-07 江苏哲勤科技有限公司 一种企业电子文档管理服务端及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060242118A1 (en) * 2004-10-08 2006-10-26 Engel Alan K Classification-expanded indexing and retrieval of classified documents
CN101561815A (zh) * 2009-05-19 2009-10-21 华中科技大学 分布式密文全文检索系统
CN103559206A (zh) * 2013-10-10 2014-02-05 Tcl集团股份有限公司 一种信息推荐方法及系统
CN103778202A (zh) * 2014-01-10 2014-05-07 江苏哲勤科技有限公司 一种企业电子文档管理服务端及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
陈宁: ""Lucene全文检索在网络教学平台中的应用研究"", 《中国优秀硕士学位论文全文数据库 信息科技辑》 *

Cited By (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105719206A (zh) * 2016-01-01 2016-06-29 河南牧业经济学院 一种高等教育教学资源配置与分析系统
CN105786966A (zh) * 2016-01-26 2016-07-20 浪潮软件集团有限公司 一种文本结构化的方法和装置
CN105930490A (zh) * 2016-05-03 2016-09-07 北京优宇通教育科技有限公司 一种教学资源智能甄选系统
CN106021390A (zh) * 2016-05-12 2016-10-12 福建南威软件有限公司 一种文件的管理方法和装置
CN106227734A (zh) * 2016-07-08 2016-12-14 大唐融合通信股份有限公司 一种基于问题搜索系统的数据处理方法和系统
CN106227734B (zh) * 2016-07-08 2019-06-25 大唐融合通信股份有限公司 一种基于问题搜索系统的数据处理方法和系统
CN106708996B (zh) * 2016-12-19 2020-09-25 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106708996A (zh) * 2016-12-19 2017-05-24 北京天广汇通科技有限公司 用于对关系数据库进行全文搜索的方法及系统
CN106817407A (zh) * 2016-12-23 2017-06-09 四川九鼎瑞信软件开发有限公司 一种教学信息资源推送方法及系统
CN110383263B (zh) * 2017-03-20 2023-06-16 国际商业机器公司 从多个数据语料库中创建认知智能查询
CN110383263A (zh) * 2017-03-20 2019-10-25 国际商业机器公司 从多个数据语料库中创建认知智能查询
CN107145555A (zh) * 2017-04-28 2017-09-08 北京安数云信息技术有限公司 一种基于分词的模糊语句搜索方法
CN107145555B (zh) * 2017-04-28 2019-08-02 北京安数云信息技术有限公司 一种基于分词的模糊语句搜索方法
CN108228743A (zh) * 2017-12-18 2018-06-29 深圳供电局有限公司 一种实时大数据搜索引擎系统
CN108363768A (zh) * 2018-02-07 2018-08-03 深圳壹账通智能科技有限公司 一种基于Lucene的文档搜索方法、存储介质和服务器
CN108520002A (zh) * 2018-03-12 2018-09-11 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
WO2019174132A1 (zh) * 2018-03-12 2019-09-19 平安科技(深圳)有限公司 数据处理方法、服务器及计算机存储介质
CN108733848A (zh) * 2018-06-11 2018-11-02 百应科技(北京)有限公司 一种搜索知识的方法及系统
CN108733848B (zh) * 2018-06-11 2020-08-11 百应科技(北京)有限公司 一种搜索知识的方法及系统
CN111444693B (zh) * 2018-12-29 2024-03-26 深圳市优学天下教育发展股份有限公司 一种基于语音识别的教育资源获取方法及系统
CN111444693A (zh) * 2018-12-29 2020-07-24 深圳市优学天下教育发展股份有限公司 一种基于语音识别的教育资源获取方法及系统
CN109766826A (zh) * 2019-01-08 2019-05-17 广东小天才科技有限公司 一种自动识别作业信息的方法及系统
CN111026712A (zh) * 2019-11-04 2020-04-17 厦门天锐科技股份有限公司 文件上传方法、装置及文件查询方法、装置和电子设备
CN111259011A (zh) * 2020-01-15 2020-06-09 北京爱论答科技有限公司 一种教学资料搜索方法、系统、设备及存储介质
CN111259145A (zh) * 2020-01-16 2020-06-09 广西计算中心有限责任公司 基于情报数据的文本检索分类方法、系统及存储介质
CN111818278A (zh) * 2020-07-17 2020-10-23 济南浪潮高新科技投资发展有限公司 一种教学视频采集与检索系统及方法

Similar Documents

Publication Publication Date Title
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN110399457B (zh) 一种智能问答方法和系统
US11573996B2 (en) System and method for hierarchically organizing documents based on document portions
US8346534B2 (en) Method, system and apparatus for automatic keyword extraction
CN110555153A (zh) 一种基于领域知识图谱的问答系统及其构建方法
AU2008292779B2 (en) Coreference resolution in an ambiguity-sensitive natural language processing system
Hienert et al. Digital library research in action–supporting information retrieval in sowiport
Al-Zoghby et al. Arabic semantic web applications–a survey
US20090094019A1 (en) Efficiently Representing Word Sense Probabilities
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
CN107844493B (zh) 一种文件关联方法及系统
CN111061828B (zh) 一种数字图书馆知识检索方法及装置
US20090112845A1 (en) System and method for language sensitive contextual searching
Gupta et al. A novel hybrid text summarization system for Punjabi text
KR20180097120A (ko) 전자 문서 검색 방법 및 그 서버
KR101095866B1 (ko) 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템
CN115563313A (zh) 基于知识图谱的文献书籍语义检索系统
US8229970B2 (en) Efficient storage and retrieval of posting lists
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN110633375A (zh) 一种基于政务工作的媒体信息整合利用的系统
KR101476225B1 (ko) 자연어 및 수식 색인화 방법과 그를 위한 장치 및 컴퓨터로 읽을 수 있는 기록매체
KR20210032253A (ko) 자연어 질의를 통한 문서 검색 및 응답 제공 시스템 및 방법
CN110705285A (zh) 一种政务文本主题词库构建方法、装置、服务器及可读存储介质
Ceri et al. The information retrieval process
CN114117242A (zh) 数据查询方法和装置、计算机设备、存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20151111

WD01 Invention patent application deemed withdrawn after publication