发明内容
针对上述提到的现有技术中手持学习终端没有搜索试题功能及公式搜索功能的缺点,本发明提供一种新的用于手持学习终端的针对试题的搜索及对与试题关联知识点对应的课件进行学习的搜学方法,其在手持学习终端的存储器内存储压缩后的试题库,由输入装置输入需搜索的内容,微处理器将输入内容与存储器内试题库中的试题内容进行匹配,并将所有匹配成功的结果显示在显示装置上,并可对与试题关联的所有知识点对应的所有课件进行学习。
本发明解决其技术问题采用的方案是:一种在个人手持学习终端上实现的针对试题的搜索与学习相结合的方法,该方法包括:
A、在电脑上将所有的试题分类建立试题库压缩包,并将试题库压缩包存储于互联网络服务器或其它存储介质上;
B、通过互联网络系统或其它存储介质将试题库压缩包存储至手持学习终端;
C、在手持学习终端的存储器内部存储有“标准对照库”,其中包含英文标准对照库、中文标准对照库、无意义词标准对照库、标点符号标准对照库、与其它语种相关的标准对照库;
D、在手持学习终端上选择待搜索的试题库压缩包,设置搜索范围;
E、从手持学习终端的输入装置输入要搜索的关键字;
F、手持学习终端的微处理器识别输入装置输入的所有关键字,并对输入的关键字进行分词处理:
a、搜索内容是英文,以空格作为关键词词条的分隔标记;
b、搜索内容是中文,先以前两个字作为第一个预关键词,在“中文标准对照库”内搜索与之匹配的内容,如果搜索到与之内容和顺序完全匹配的词条,则在其后加上第三个字在中文标准对照库内再次匹配内容,如果匹配成功,则继续加入其后的字进行循环匹配直到匹配最大化构成关键词组,如果匹配不成功,则将前两个字作为一个关键词进行分隔标记,再将第三个字加入其后的一个字后循环匹配直到匹配最大化构成关键词组;如果没有搜索到与前两个字内容和顺序完全匹配的词条,则在第一个字后作出分隔标记将其作为一个关键词,再将第二个字加上其后的一个字在中文标准对照库内搜索与之匹配的词条,如果加上后在中文标准对照库内能找到匹配的词条,则再加入其后的第三个字进行循环匹配直到匹配最大化构成关键词组,如果加上后词条不构成关键词,则采用上一次匹配成功的词条作为关键词,后面一个字则作为后面词条的开始,依此方法将所有中文输入内容进行分词;
c、搜索内容为公式,在表示公式的文本中按公式输入的顺序进行非跳跃性的最小化单元或包含若干个最小化单元组合的方法进行分词;
d、搜索内容为其它语种的文本:遵从以空格为分隔标记或与相关语种的标准对照库中关键字相匹配取最大化词条的规则;
G、在手持学习终端的微处理器内滤除输入内容中没有实际意义的关键词及标点;
H、在手持学习终端的微处理器内将输入内容中的大写字母全部转化为小写;
I、将动词的各种时态包括过去式、过去分词、现在进行时、第三人称单数还原为原形,并将名词的复数形式还原为单数原形;
J、微处理器将输入的关键词与试题库压缩包内的数据进行匹配,并通过显示驱动装置显示匹配成功的试题内容,
a、显示内容为文本,将匹配成功的试题内容显示在显示装置上,并将关键词高亮显示;
b、显示内容为公式,微处理器将该文本和数字类型的公式反向解析成对应的图片,并将该公式对应的图片显示在显示装置上。
本发明解决其技术问题采用的技术方案进一步还包括:
所述的试题库压缩包的试题内容中文本部分采用通用的Huffman压缩算法或<前缀长度,后缀>的压缩算法建立,其中前缀长度用数字表示;试题库压缩包中公式采用MathML数学标记语言表示成文本和数字相结合的形式。
所述的试题库压缩包中数字部分按照通用的Huffman或<数值,数值标识>的压缩算法建立,数值以原值或以当前数值与前一数值的差值的方法表示,数值标识用来区分数值的种类为原值还是差值。
所述的试题库压缩包对应有唯一的包号(即包ID号),各个试题库压缩包包号对应存储在手持学习终端上授权的存储器内,包中包含试题内容、与试题内容关联的知识点对应的各类用于用户学习的学习课件、根据试题内容建立的索引文件。
所述的索引文件包括:词典文件、频率文件、位置文件、Field域库,其中词典文件包括关键词、指向频率文件的指针、指向位置文件的指针。
所述的Field域库用于表达试题与其属性的关联关系,其属性包含试题号即QID号、文章标题、指向试题内容的地址、认知分类、难易程度、答案、解析、同类试题。
所述的英文标准对照库中,英文关键词按照英文字母对应的ASCII码顺序进行排序,中文标准对照库中,中文词条按照国标内码进行排序;其它语种的标准对照库中关键词按照国际标准Unicode内码从小到大的原则进行排序。
在微处理器将输入的关键词与试题库压缩包内的数据进行匹配时,先将关键词与索引文件中的“词典文件”内的关键词进行匹配,再根据与匹配成功的关键词关联的指向频率文件的指针和指向位置文件的指针找到对应的频率文件和位置文件,再由频率文件和位置文件确定输入的关键词在试题库压缩包中所属的试题及所有位置。
所述的搜索内容为公式,则输入完成后微处理器将其解析成文本和数字相结合类型的MathML数学标记语言进行搜索,并将搜索到的试题中所有包含此公式的文本和数字反向解析成图片显示给用户。
所述的匹配成功的试题按照
A、相邻关键词在匹配成功的试题中位置相邻则优先显示,如果没有位置相邻的关键词,则
B、关键词在试题中被提及的频率次数多的优先显示,如果关键词在匹配成功的试题中被提及的频率次数相同的,则
C、按照第一个关键词在匹配成功的试题中首次出现的字符位置的前后顺序优先显示。
针对有收藏价值的试题形成“错题集数据库文件”或“收藏夹数据库文件”,记录用户解错的试题或有其它收藏意义的试题,两者结构相同:包ID号、试题QID号、试题包名称、收藏日期,其中试题包名称中包含了文件的保存路径。
可根据知识点的难易程度进行分类搜索,从而得到精确的搜索结果。
搜索成功的试题可做题、学习与试题关联的知识点对应的课件、查看解析、查看答案、查看包含试题所属年级/科目/难度/认知分类/对应知识点的属性。
本发明的有益效果是:本专利技术在将PC标准的搜索引擎技术应用到个人手持设备的嵌入式领域的基础上,引入了垂直搜索的概念。厂家将各行各业各领域的信息资料进行收集、加工后将其分类储存至远程服务器的试题数据库或其它存储介质;用户从中选取满足需要的试题库压缩包将其下载到手持设备后,可随时、随地从中搜索满足条件的内容。这种在特定的领域内垂直搜索信息的方法,提高了搜索的准确性、全面性,为用户节省了大量的搜索时间;同时按照国际标准MathML数学标记语言将理科公式以文本和数字形式表达后,能够对公式进行分词处理,使得包含理科公式的试题能够随意搜索;通过与厂家试题数据库的交互,保证了试题的更新性,另外,本专利是全球首次将PC搜索引擎技术应用到个人手持学习终端的技术,为用户提供更便利的服务。
下面将结合附图和具体实施方式对本发明做进一步说明。
具体实施方式
本实施例为本发明的优选实施方式,其它凡其原理和基本实现方法与本实施例相同或近似的,均在本发明保护范围之内。
本发明是一种将垂直搜索技术引入到嵌入式领域的手持学习终端中用来实现试题搜索的技术。用户通过互联网络系统或其它存储介质等载体将包含海量试题信息的试题库压缩包下载到个人手持式设备作为搜索的目标库(并可通过此类方式将个人手持设备上的试题包更新),然后在个人手持设备上输入搜索条件,再一键启动搜题搜索引擎,得到满足条件的信息。
本发明实现的过程分为下述两个相互独立而又关联的部分:
1、PC机对相关标准对照库及原始试题库的加工处理过程,主要包含如下两方面:
(1)、建立相关标准对照库原始库文件,并对其进行排序、压缩的过程;
(2)、参看附图5,针对包含英文、中文、数字等各种语种的文本及图片、图像、动漫、声音、音乐、多媒体学习课件和用国际标准数学标记语言MathML所表示的理科公式的试题内容建成原始试题库文件,并对其进行分词、滤除无意义词和标点符号、将所有大写字母转换为小写、将动词的各种时态包括过去式、过去分词、现在进行时、第三人称单数还原为原形,将名词的复数形式还原为单数原形、排序、倒排、索引、压缩后形成一个包含“试题内容”、“与试题内容关联的知识点对应的各类用于用户学习的学习课件”、“根据试题内容建立的索引文件”的目标试题库压缩包。
2、手持学习终端启动搜索引擎对目标试题库压缩包解析、调用、显示等处理。
(一)、下面结合实例说明PC机对相关标准对照库及原始试题库的处理过程:
1、各类标准对照库及原始试题库中索引文件的关键词排序处理:
(1)、英文的排序:按照英文字母对应的ASCII码进行相应的关键词条的相关排序,每一个词条对应一个相应的内码地址,由此可知,前面若干部分内容及顺序都相同的词条会以相邻的地址按顺序排序;经排序后的关键词条库如下表所示:
a |
able |
ablove |
about |
…… |
h |
he |
hear |
…… |
(2)、中文的排序:按照国标内码对词条进行排序,每一个词条对应一个相应的内码地址,前面若干部分内容及顺序都相同的词条会以相邻的地址按照顺序排序,如下表所示:
排序后的关键词条库 |
阿 |
阿拉 |
阿拉伯 |
阿拉伯语 |
…… |
(3)、其它语种的关键词排序处理:按照国际标准Unicode内码从小到大的排序规则进行排序。
2、PC机对原始试题库倒排、建立索引文件、手持学习终端对试题库的相关解析(1)、倒排:
A、倒排过程:将“试题号即QID号”与“其包含的所有关键词”之间一对多的关系倒排为“试题包含的所有关键词”与“关键词所属试题号”之间多对一的关系;
B、倒排结构:由上述A可知,倒排结构由“关键字”、“试题号”所组成:(2)、索引:
A、针对原始试题库内容对应的所有关键词进行分词、滤除无意义词和标点符号、将所有大写转换为小写、将动词的各种时态包括过去式、过去分词、现在进行时、第三人称单数还原为原形、将名词的复数形式还原为单数原形、排序、倒排后建立索引文件。
B、索引文件的结构如下:
a、词典文件:
a)、关键词:即原始试题库中所有试题内容经分词、滤除无意义词及标点符号、统一大小写、将动词的各种时态还原为原形,将名词的复数形式还原为单数原形后的关键词;
b)、指向频率文件的指针:关键词指向所属频率文件的指针;
c)、指向位置文件的指针:关键词指向所属位置文件的指针;
b、频率文件:关键词在试题库所属的试题中出现的所有次数;
c、位置文件:关键词在试题库所属的试题中出现的字节位置;
d、Field域库:用于表达试题与其属性的关联关系,其属性包含试题号即QID号、文章标题、指向试题内容的地址、认知分类、难易程度、答案、解析、同类试题,由此可见,一个关键词对应着一个或多个Field域库,由Field域库所引出的关联关系及益处如下:
a)、一道试题即一篇文章,而试题的标题即为其对应的知识点名称,由于一道试题对应一个或多个知识点,故一道试题可能有一个或多个文章标题,即试题QID号与知识点名称或者说是文章标题存在一对一或一对多的关系;
b)、由于一道试题对应着一个或多个知识点,而一个知识点对应着一个或多个学习课件,从而可知一道试题亦对应着一个或多个学习课件。下表中表现试题号即QID号与知识点或文章标题域之间、知识点与对应的学习课件间的对应关系:
c)、Field域库建立起试题的各种关联关系后,用户对搜索成功的试题可做题、查看解析、查看答案、查看试题所属年级、科目、难度、认知分类、对应知识点、查看上或下一道题等;
d)、查看试题的属性找到对应的知识点,将知识点的认知分类属性与试题的难易程度相关联,便于用户选择知识点的难易程度进行分类搜索,从而得到更为精确的搜索结果;
e)、由试题对应的知识点找到对应的学习课件,用户通过学习课件进行学习,做到搜学相结合,提高了对试题及知识点的理解深度;
f)、便于用户收藏具有收藏价值或做错题的试题,形成“我的收藏夹数据库文件”或“错题集数据库文件”,方便用户下次对该题的操作,其中“我的收藏夹数据库文件”或“错题集数据库文件”中所保存的试题数据结构包含:所属包的ID号、试题QID号、试题包名称、收藏日期,其中试题包名称中包含了该试题的保存路径。
C、建立了上述索引结构后,则显然可以看出整个试题库由“索引文件”、“试题内容”、“学习课件”三个部分所组成,试题库的结构组成关系如下表所示:
a、其中“索引文件”由词典文件、频率文件、位置文件、Field域厍所组成,其中词典文件由关键词、指向频率文件的指针、指向位置文件的指针所构成;
b、其中“试题内容”由中文、英文及其它语种的文本、标点、图片、图像、动漫、声音、音乐、用国际标准语言MathML所表示的理科公式等组成;
c、其中“学习课件”由图片、图像、声音、音乐、动漫、文本等各种形式所组合而形成的多媒体课件。
D、手持学习终端启动搜索引擎,与试题库中关键词匹配的过程:
a、将输入的关键词与索引文件中“词典文件”内的关键词进行内容和顺序的匹配:
b、根据“词典文件”中匹配成功的关键词对应的指向频率文件的指针和指向位置文件的指针找到对应的频率文件和位置文件;
c、根据频率文件和位置文件找到试题库中关键词所属的所有试题和在试题中的位置;
E、上述索引结构用一个二维结构图举例说明如下:
|
文章A |
文章B |
文章C |
文章D |
关键词1(已知) |
|
3(P1,P2,P3) |
|
1(P1) |
关键词2(直线) |
3(P1,P2,P3) |
2(P1,P2) |
|
2(P1,P2) |
关键词3(方程) |
1(P1) |
2(P1,P2) |
3(P1,P2,P3) |
2(P1,P2) |
a、第一列即内容为“关键词1-3”表示的是词典文件,而“文章A”、“文章B”、“文章C”、“文章D”所在列则表示频率文件和位置文件,频率文件用数字表示(如上表中的数字3、1、2),指所在行的关键词在所在列的文章中出现的频率次数;位置文件用数字表示(如上表中<P*>,其中*为1-3),指所在行的关键词在所在列的文章中出现的位置,也即是关键词字符在所属试题中的位置,用字节数来表示;
b、针对上表中的频率文件及位置文件可以分析出,关键词与所属的所有试题号的对应关系如下:
关键词 |
对应的试题号 |
关键词1(已知) |
B、D |
关键词2(直线) |
A、B、D |
关键词3(方程) |
A、B、C、D |
F、确立索引结构、建立索引文件的益处在于:
a、在试题库压缩包中建立索引文件牺牲了手持学习终端的空间,但输入的关键词只需与索引文件中的关键词匹配即可,避免了将输入关键词与整个试题库压缩包中的海量信息进行字符串的顺序匹配,从而节省了手持学习终端的处理时间,进而节省用户的等待时间,提高了效率;
b、举例而言:假设要查询单词“line”,搜索引擎先对索引文件中的“词典文件”内的关键词用二分法查找、找到匹配的该词,读出所属的所有试题号,再由频率文件和位置文件确定所有的搜索结果。“词典文件”通常非常小,因而,整个过程的时间是毫秒级的,而如果是用普通的顺序匹配算法,不建索引,而是对试题库压缩包内所有文章的内容进行字符串匹配,这个过程将会相当缓慢,当试题库压缩包信息量很大时,时间往往是无法忍受的。
c、综合上述可知,此种搜学相结合的方法形成了集“预习、学习、练习、复习、测试”于一体的有针对性的系统的学习方法;、各类标准对照库、索引文件及原始试题库试题内容的压缩、手持学习终端对其相关解压处理:
(1)、压缩方法至少有如下三种:
A、第一种是针对所有语种的文本或数字所采用的通用的Huffman压缩方法;
B、第二种是针对所有语种的文本所采用的<前缀长度,后缀>的压缩方法:
a、其中前缀长度用数字表示,使当前词条与其上一条相邻的词条相关联,后缀则为相关语种的文本如字母或中文或其它语种的字符;
b、解压还原时手持学习机微处理器先找到当前词条上一相邻地址的词条,再将上述相邻词条按照从左至右的顺序取前缀长度所表示数值个数的字母或中文或其它语种的字符,依次逆序回找到前缀长度正确表示的所有字母或中文或其它语种的字符,最后将回找到的所有对象与后缀相组合则完成对词条的解压过程。
c、英文的压缩及解压过程举例如下所示:
如下表中“about”用此方法压缩后表示为<3,ut>,“hear”表示为<2,ar>,解压还原“about”的过程如附图6中所示:取<3,ut>上一词条即<2,out>从左至右的前三个字母即为“2,o”,其中的数字2表示词条<2,out>中的前缀,即还需要对<2,out>进行解压得到其原形,而结合词条<2,out>的前三个字母与<3,ut>的后缀“ut”,此时about解压还原为“2,out”,再按此法还原2为ab,此时将“ab”与“out相结合,”则about还原完全;同理,“hear”经过一次还原后亦得到正确的还原结果。
d、中文的压缩及解压过程举例如附图7中所示:
如“阿拉伯语”用此方法表示为<3,语>,还原“阿拉伯语”的过程如附图7中所示(同英文的解压还原方法一致)。
e、其它语种的压缩及解压均遵从上述英文或中文的压缩、解压方法;
C、第三种是针对数字所采用的<数值,数值标识>的压缩方法:
a、其中的数值以原值或当前值与上一个值的差值来表示,数值标识用以表示数值的种类是原值还是差值,如用0代表原值、1代表其为差值。
b、数值用原值表示可防止手持学习终端解压时间过长从而使得用户等待的时间过长,故在某部分位置直接保存数字即原值,而不保存其与前一个数字的差值,故保存为原值时,不需要解压还原,从而节省时间,达到时间、空间的合理均衡;
c、差值的表示方法可以减小数字的长度,进而减少保存该数字需要的字节数。例如当前试题号是16389,不压缩时要用3个字节保存,上一试题号是16382,压缩后保存与16389的差值即7,则只用一个字节即可保存,第三个试题号如果是16390,则压缩后保存为1(即16390与16389的差值),从而达到节省空间的目的;
d、差值的解压还原过程类似于上述英文和中文的<前缀长度,后缀>的向上相邻地址进行逆序顺次回找累加法。下面举例说明差值压缩的存储方法及手持学习终端对其的解压过程:
a)、请参看附图8,附图8是一组原值的数字采用<数值,数值标识>压缩前后的对比:附图8中左侧为数值压缩前形式,右侧为数值压缩后形式以及压缩说明。
b)、附图8中,“压缩后”所在的列包含<数值,数值标识>,其中第一列数字代表原值或差值(如1、2、80、10、10、101),第二列包含0、1的数字即为数值标识,其中0表示原值,1表示差值。
c)、数值“90”经过一次还原即得到其原值,其还原过程如附图9中所示:
图中左侧为数值压缩前形式,中间一栏为压缩后存储形式,右侧为还原结果,带箭头弧线为还原过程。
d)、数值还可经过多次还原得到原数值,本实施例中以两次还原为例,
请参看附图10,数值“100”经过两次还原即得到其原值,其还原过程如附图10中所示:图中左侧为数值压缩前形式,第二栏为压缩后存储形式,第三栏为首次还原结果,第四栏为二次还原结果,带箭头弧线为还原过程,分别表示第一次还原过程和第二次还原过程。
(2)、采用上述各压缩方法的益处在于:
A、缩小了原始试题库的容量,从而节省了手持学习终端的存储空间;
B、使得手持学习终端在CPU的处理速度和存储空间之间取得平衡。
(二)、下面结合实例及附图说明手持学习终端启动搜索引擎对目标试题库压缩包的解析、调用、显示等处理过程:
1、参看附图3、附图4,在手持学习终端上输入所有的关键词,包括中文、英文等各语种的文本内容的输入、启动公式编辑器输入的采用MathML表示的文本和数字类型的理科公式,之后启动搜索引擎:
(1)、公式的输入:
A、手持学习终端确定每个特殊符号或公式框架对应的唯一编号及特定的、通用的MathML解析格式;
B、用户启动某个公式编辑器,并按规则输入数据,手持学习终端生成对应的MathML标记;
C、公式编辑器接收输入的MathML标记,并根据用户提供的标准的、完整的MathML标记将其反向解析,生成该标记所表示的图片,展现给用户;
D、用户启动其它公式编辑器按规则输入其它的公式直至所有公式输入完成,对应于公式的MathML标记生成的图片全部展现给用户;
E、组合整个公式的MathML标记,对应输出用于表达所有公式内容的MathML文本和经反向解析后的完整图片,则公式的编辑完成;
(2)、普通文本的输入:利用相关的输入法输入普通文本。
(3)、理科公式采用MathML数学标记语言表示成文本和数字类型的的示例如下:
MathML=<math><mrow><msqrt><mrow><mi>x</mi></mrow></msqrt><
mo>*43*</mo><msqrt><mrow><mo>-</mo><mi>x</mi></mrow></msqrt
></mrow></math>
2、对所有关键词进行分词处理:
(1)、英文的分词:
A、方法:以空格为标记分隔一个关键词;
B、示例:文章“Tom lives in Guangzhou,I live in Guangzhou too”分词后的结果为:[Tom]、[lives]、[in]、[Guangzhou]、[,][I][live]、[in]、[too]。
(2)、中文的分词:
A、方法:参看附图1,本发明中对输入的中文关键字分词,先取前两个关键字,与“中文标准对照库”中的关键词比较并在其中找到内容和顺序均完全匹配的词则说明前两个关键字至少可作为一个分词或是一个分词的某一部分,其后接着加入第三个关键字,将前三个字组成的关键词与“中文标准对照库”中的关键词进行匹配,如果内容和顺序完全匹配则说明前三个关键字至少可作为一个分词或是一个分词的某一部分,则再继续取下一个关键字,直到所取到的关键词在“中文标准对照库”中找不到内容和顺序均完全匹配的词条,则说明去除最后一个关键字上一次内容和顺序成功匹配的词条已是最大化的一个词条,即可将上一次成功匹配的词条作为一个分词看待,再将未匹配成功的词条中最后一个字与其后的一个关键字相结合与“中文标准对照库”中的词条进行匹配,如此反复循环,直至所有的关键词匹配完成,则完成所有中文关键词的分词处理。
B、示例:输入关键字“诺亚舟实业公司成立于1999年”,先取“诺亚”与“中文标准对照库”中关键词比较,并找到了包含“诺亚”的词条,然后加入“舟”字即取“诺亚舟”三字与“中文标准对照库”比较,在该库中亦找到了“诺亚舟”一词,则再加入“实”字即取“诺亚舟实”四字与“中文标准对照库”进行比较,在该库中找不到“诺亚舟实”这样的词,则说明“诺亚舟实”不能作为一个分词处理,而去除最后一次加入的关键字“实”字后的“诺亚舟”即可为一个关键词,再将“实”字与其后的“业”字组合成新的词条,与“中文标准对照库”比较,在该库中找到了“实业”这个词,如此类推下去,则上述关键字分词结果为:“诺亚舟/实业/公司/成立/于/1999年”,则说明例中找到了“诺亚舟”、“实业”、“公司”、“成立”、“于”、“1999”这些关键词。
(3)、公式的分词:
A、方法:在表示公式的文本中按公式输入的顺序进行非跳跃性的最小化单元或包含若干个最小化单元组合的方法进行分词;
B、示例:公式“X2+3XY+Y2=5”可分解为下表中38个分词:
序号 |
关键词 |
序号 |
关键词 |
序号 |
关键词 |
1 |
X2+3XY+Y2=5 |
2 |
X2+3XY+Y2= |
3 |
X2+3XY+Y2 |
4 |
X2+3XY+ |
5 |
X2+3XY |
6 |
X2+3 |
7 |
X2+ |
8 |
X2 |
9 |
X |
10 |
2 |
11 |
+3XY+Y2=5 |
12 |
+3XY+Y2= |
13 |
+3XY+Y2 |
14 |
+3XY+ |
15 |
+3XY |
16 |
+3 |
17 |
+ |
18 |
3XY+Y2=5 |
19 |
3XY+Y2= |
20 |
3XY+Y2 |
21 |
3XY+ |
22 |
3XY |
23 |
3 |
24 |
XY+Y2=5 |
25 |
XY+Y2= |
26 |
XY+Y2 |
27 |
XY+ |
28 |
XY |
29 |
+Y2=5 |
30 |
+Y2= |
31 |
+Y2 |
32 |
Y2=5 |
33 |
Y2= |
34 |
Y2 |
35 |
Y |
36 |
=5 |
37 |
= |
38 |
5 |
|
|
(4)、搜索内容为其它语种的文本:遵从以空格为分隔标记或与相关语种的标准对照库中关键字相匹配取最大化词条的规则。
3、过滤关键词中无实际意义之词及标点符号(如英文中的“in、at”等,中文中的“的”“是”等);
4、统一关键词内容中的所有大小写,将所有的大写字母转换成小写;
5、将动词的各种时态包括过去式、过去分词、现在进行时、第三人称单数还原为原形,并将名词的复数形式还原为单数原形;
6、微处理器将输入的关键词与试题库压缩包内的数据进行匹配:
(1)、将所有输入的关键词与索引文件中的“词典文件”内的关键词进行内容和顺序的匹配,包括与索引文件中各语种的普通文本和采用MahtML数学标记语言所表示的理科公式的匹配;
(2)、根据“词典文件”中匹配成功的关键词对应的指向频率文件和位置文件的指针找到对应的频率文件和位置文件;
(3)、根据频率文件和位置文件找到试题库压缩包中关键词所属的所有试题和在试题中的位置
7、对所有匹配成功的搜索结果内容按照相邻关键词在不同的试题中的位置是否相邻、关键词在试题中被提及的频率次数的多少、第一个关键词在试题中的位置的“优先级显示”的原则进行显示排序:
(1)、首先,相邻关键词在匹配成功的试题中位置相邻则优先显示。
(2)、其次,相邻关键词在匹配成功的试题中位置不相邻,则比较关键词在试题中被提及的频率次数,频率多的优先显示。
(3)、最后,关键词在匹配成功的试题中被提及的频率次数相同的,则按照第一个关键词在匹配成功的试题中首次出现的字符位置的前后顺序优先显示
8、根据上述显示排序结果调用手持学习终端的显示驱动设备显示所有搜索结果:
(1)、显示内容为文本,将匹配成功的试题内容显示在显示装置上,并将关键词高亮显示;
(2)、显示内容为公式,微处理器将试题库压缩包中采用MathML所表示的文本和数字类型的公式反向解析成对应的图片,并将该公式对应的图片显示在显示装置上
(三)、下面举例具体说明本发明的操作过程。
1、原始试题库的建库、排序、倒排、索引、压缩:
(1)、设有文章1(试题1)和文章2(试题2)构成一个原始试题库文件:
A、文章1的内容为:Tom lives in Guangzhou,I live in Guangzhou too.
B、文章2的内容为:He once lived in Shanghai.
(2)、对文章1和文章2的内容进行关键词分词处理:
A、分词目的:由于搜索引擎是基于索引文件中的关键词进行索引和查询的,首先要取得这两篇文章的关键词,即为建索引文件提取关键词;
B、分词方法:文章内容相当于一个字符串,先找出字符串中的所有单词,即采用以空隔为标记的分词方法,则文章1及文章2的关键词为:
a、文章1的所有关键词为:[Tom][lives][in][Guangzhou][,][I][live][in][Guangzhou][too].
b、文章2的所有关键词为:[He][once][lived][in][shanghai].
(3)、参照“无意义词标准对照库”、“标点符号对照库”滤除无意义的关键词及标点符号、并参照“英文大小写标准对照库”统一大小写,则文章1及文章2的关键词为:
A、文章1的所有关键词为:[tom][lives][guangzhou][i][live][guangzhou]
B、文章2的所有关键词为:[he][lived][shanghai].
(4)、参照“动词原形标准对照库”将动词的各种时态还原为原形,并参照“名词单数标准对照库”将名词的复数形式还原为单数原形,则文章1及文章2的关键词为:
A、文章1的所有关键词为:[tom][live][guangzhou][i][live][guangzhou]
B、文章2的所有关键词为:[he][live][shanghai].
(5)、倒排:
A、将上述文章1及文章2中“试题号”对“试题中所有关键词”倒排成:“试题中所有关键词”对“拥有该关键词的所有试题号”;
B、将试题中所有关键词按照“前面若干部分内容和顺序都相同的词条以相邻的地址按顺序排序”的排序规则进行排序;
C、倒排结果如下表所示:
关键词 |
所属试题号 |
guangzhou |
1 |
he |
2 |
i |
1 |
live |
1,2 |
shanghai |
2 |
tom |
1 |
(6)、建立索引文件:
A、将文章1及文章2在倒排基础上加上“出现频率”和“出现位置”信息后,索引结构变为“关键词+试题号+[出现频率]+出现位置”,其中“试题号+[出现频率]”即为频率文件,“出现位置”即为位置文件,则包含上述文章1和文章2的试题库压缩包内的索引文件如下表中所示:
关键词 |
所属文章号及出现频率 |
出现位置 |
说明 |
guangzhou |
1[2] |
3,6 |
“guangzhou”在文章1中出现两次,位置分别为第3和第6个字符 |
he |
2[1] |
1 |
“he”在文章2中出现一次,位置为第1个字符 |
i |
1[1] |
4 |
“i”在文章1中出现1次,位置为第4个字符 |
live |
1[2],2[1] |
2,5,2 |
“live”在文章1中出现2次,位置为第2个和第5个字符;在文章2中出现1次,位置为第1个字符 |
shanghai |
2[1] |
3 |
“shanghai”在文章2中出现1次,位置为第3个字符 |
tom |
1[1] |
1 |
“tom”在文章1中出现1次,位置为第1个字符 |
B、上表的索引结构说明:
a、第一列“关键词”即为索引文件中的“词典文件”,词典文件中包含了“关键词”、“指向频率文件的频率指针”、“指向频率文件的位置指针”、;
b、第二列即“频率文件”,包含关键词所属的文章号及在该文章中出现的频率次数;
c、第三列即“位置文件”,包含了关键词在所属的文章中出现的位置。
(7)、将索引文件及原始试题库中的试题内容进行压缩;
(8)、加入与试题相关联的知识点对应的用于用户学习的学习课件后即形成目标试题库压缩包,由上述可知,目标试题库压缩包中包含“试题内容”、“与试题内容关联的知识点对应的各类用于用户学习的学习课件”、“根据试题内容建立的索引文件”三大部分;
(9)、至此,PC机上将原始试题库加工成目标试题库压缩包的过程完成。
2、手持学习终端启动搜索引擎、解析目标试题库压缩包、显示搜索结果:
(1)、输入所有关键字,如“He lives in Guangzhou,Shanghai”;
(2)、对关键字进行分词处理后,得到六个关键词:[He][lives][in][Guangzhou][,][Shanghai];
(3)、参照手持学习终端上的“无意义词标准对照库”、“标点符号对照库”滤除无意义词及标点符号后,得到四个关键词[He][lives][Guangzhou][Shanghai];
(4)、参照手持学习终端上“英文大小写标准对照库”统一关键词大小写,将大写统一改为小写,得到四个关键词:[he][lives][guangzhou][shanghai];
(5)、参照手持学习终端上的“动词原形标准对照库”将动词的各种时态还原为原形,并参照“名词单数标准对照库”将名词的复数形式还原为单数原形,得到四个关键词:[he][live][guangzhou][shanghai];
(6)、用二分搜索法将关键词与试题库压缩包的索引文件中词典文件内的关键词相匹配,得到如下匹配结果:
关键词 |
频率文件 |
位置文件 |
guangzhou |
1[2] |
3,6 |
he |
2[1] |
1 |
live |
1[2],2[1] |
2,5,2 |
shanghai |
2[1] |
3 |
(7)、根据上表中关键词与索引文件的频率文件和位置文件相匹配的结果找到试题库压缩包中对应的文章和内容,即找到文章1和文章2;
(8)、对匹配成功的文章内容进行显示排序:
A、按照相邻关键词在试题库压缩包中的位置相邻所属的文章优先显示的原则,输入的关键词[he]与[live]相邻,而文章2中上述两关键词亦相邻,故文章2的内容优先于文章1的内容显示位置靠前;
(9)、根据显示排序的结果,手持学习终端驱动显示驱动装置显示搜索结果;
本发明可广泛应用于各种手持学习终端中,如电子词典、学习机等。