CN101963957B - 一种智能卡上实现电子词典的方法及智能卡 - Google Patents

一种智能卡上实现电子词典的方法及智能卡 Download PDF

Info

Publication number
CN101963957B
CN101963957B CN2010102965468A CN201010296546A CN101963957B CN 101963957 B CN101963957 B CN 101963957B CN 2010102965468 A CN2010102965468 A CN 2010102965468A CN 201010296546 A CN201010296546 A CN 201010296546A CN 101963957 B CN101963957 B CN 101963957B
Authority
CN
China
Prior art keywords
dictionary
entry
file
key word
sign indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2010102965468A
Other languages
English (en)
Other versions
CN101963957A (zh
Inventor
张云
郑术强
杜兆峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Watchdata Co ltd
Original Assignee
Beijing WatchData System Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing WatchData System Co Ltd filed Critical Beijing WatchData System Co Ltd
Priority to CN2010102965468A priority Critical patent/CN101963957B/zh
Publication of CN101963957A publication Critical patent/CN101963957A/zh
Application granted granted Critical
Publication of CN101963957B publication Critical patent/CN101963957B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种智能卡上实现电子词典的方法及智能卡,可节约存储空间,提高查找效率。该方法包括以下步骤:根据通过不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同类符号采用占用空间少的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字及与其相应的第二类符号组成的解释部分;将编码后的词典内容存储在词库文件中。

Description

一种智能卡上实现电子词典的方法及智能卡
技术领域
本发明涉及电子词典领域,特别涉及一种智能卡上实现电子词典的方法及智能卡。
背景技术
电子词典是一种将传统的印刷词典转成数码方式、进行快速查询的数字学习工具。目前,很多电子设备,例如文曲星等专业电子词典设备以及手机等移动终端都可以支持电子词典的功能。这些电子设备实现电子词典需要支持词典内容存储功能及词典内容索引功能。
目前电子设备实现词典内容存储功能具体是将词典内容按功能分类存储在词库文件中,例如将英译汉和汉译英词典内容存放在不同词库文件中。本文将词典内容中关键字及其对应的解释部分称为词条,现有实现电子词典的方法中在词库文件中存放词典内容时,通常采用对所有词条按照定长格式存储的方式。并且,在词库文件中存放词典内容时仅采用单一的编码方式,而单一编码方式需要占用较多的比特位。
由此可以看出,上述实现词典内容存储功能的方式,会占用很多存储空间,尤其对于那些长度较短的词条按照定长格式进行存储。
目前电子设备实现词典内容索引功能的方法为,接收到用户输入的关键字时,以用户输入的关键字作为索引,从词库文件的起始部分即第一个词条开始查找,如果在第一个词条中未查找到上述关键字,则向后移动固定的长度,该长度等于以定长格式存储的词条的长度。
可见,现有实现词典内容索引功能采用的逐个检索各个词条的全部匹配方式,查找效率低下。
上述实现词典内容存储功能及词典内容索引功能的方法,对电子设备的存储容量和处理速度均有一定的要求,存储容量过小则不能完整存储以定长格式存储词条的词库文件,处理速度不理想则会导致查找时间太长。
因此,在手机等移动终端上实现电子词典功能时,词库文件是存储在手机终端上的,而无法存储在类似SIM卡这种存储容量小、处理速度有限的小容量存储设备上。但是,由于手机这种移动终端更新淘汰的频率很高,所以,当用户更换手机时,词库文件也会相应的丢失,给用户带来极大的不便。
发明内容
本发明实施例提供一种智能卡上实现电子词典的方法及智能卡,用以解决由于智能卡上资源有限而无法实现电子词典功能的问题。
一种智能卡上实现电子词典的方法,包括:
根据通过用不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同种类符号符号采用采用占用空间少的编码方式与其对应的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字多个词条,每一词条包括关键字及与其相应对应的第二类符号组成的解释部分;
将编码后的词典内容存储在词库文件中;
建立与所述词库文件相对应的索引文件;
将所述词库文件中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,所述预设规则与所述词库文件中词条的排序规则相对应。
一种实现电子词典的智能卡,包括:
编码单元,用于根据通过不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同类符号采用占用空间少的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字及与其相应的第二类符号组成的解释部分根据采用不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中不同种类符号采用与其对应的编码方式进行编码,所述词典内容包括多个词条,每一词条包括关键字及其对应的解释部分;
第一存储单元,用于将编码后的词典内容存储在词库文件中;
索引单元,用于建立与所述词库文件相对应的索引文件;
第二存储单元,用于将所述词库文件中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,所述预设规则与所述词库文件中词条的排序规则相对应。
本发明实施例中实现电子词典的方法和智能卡,通过根据采用不同编码方式对词典内容编码时所需占用的存储空间,对词典内容的不同种类的符号采用占用空间少的编码方式,使具有多个语种的符号的词典内容的编码不再采用单一编码方式,而可以灵活采用混合编码,从而提高了编码效率,节约了存储空间。
附图说明
图1为本发明实施例中实现电子词典的方法流程图;
图2为本发明实施例中实现电子词典的智能卡结构图。
具体实施方式
本发明实施例提供了一种智能卡上实现电子词典的方法和智能卡,可以在存储容量小、处理速度慢的存储设备如SIM上实现电子词典功能,从而节约存储空间,提高查找效率。
本发明实施例提供了一种智能卡上实现电子词典的方法,如图1所示,包括以下步骤:
S101:根据通过不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同类符号采用占用空间少的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字及与其相应的第二类符号组成的解释部分;
S102:将编码后的词典内容存储在词库文件中。
词典内容是由多个词条组成的,因此该步骤实现了将编码后的词条存储在词库文件。
为了方便的查找所述词库文件中的词条,该方法还可以进一步包括下述步骤:
建立与所述词库文件相对应的索引文件,存储所述词条的索引信息。
本发明上述方法在实现词典内容的存储功能时,由于词典内容包括多个类型的符号,例如对于具有语言翻译功能的词典来说,词典内容包括多个语种相应的符号,而现有标准中规定了各种编码方式所适用的符号种类及编码时占用的比特数,本发明实施例中通过比较不同编码方式对词典内容中不同种类的符号编码时占用的存储空间,对不同种类的符号编码采用相应的占用存储空间较小优选时最小的编码方式,不必拘泥于均采用UCS2这种长的单一编码方式,因此可以提高编码效率,从而节约存储空间。
具体实现时,选择的编码方式与词典内容的符号种类有关,可根据需要选择两种或两种以上的编码方式,只要能够提高编码效率,节约存储空间即可。
优选地,对所述词典内容中属于英文类符号,通过美国信息交换标准代码(american standard code for information interchange,ASC)码编码方式进行编码;对所述词典内容中属于中文类符号,通过UCS2码编码方式进行编码。ASC码适于对字母符号进行编码,占用存储空间远小于采用UCS2码对字母编码占用的存储空间,UCS2码适于对属于中文的符号进行编码,因此,上述编码方式适于应用于词条包含中英文两个语种的符号的情况,也是最常用的场景。
具体地,对于具有英译汉、汉译英功能的词典,其词典内容包括属于中文的符号和属于英文的符号,对于词条来说,英译汉词典中,词条的关键字由属于中文的符号组成,词条中的解释部分由属于英文的符号组成。汉译英词典中,词条的关键字由属于中文的符号组成,词条的解释部分由属于英文的符号组成。采用上述编码方式实现词典内容存储时,对于英译汉词典内容来说,具体是对词条中的关键字采用ASC码编码,而对词条中的关键字采用UCS2码编码;对于汉译英词典内容来说,具体是对词条的关键字采用UCS2码编码,而词条中的解释部分采用ASC码编码。当然,也可以采用其他编码方式,例如除了英文单词采用ASC码之外,还可以将部分中文也采用ASC码来表示,其余中文采用UCS2码来表示,同样可以实现节约存储空间的目的。
较佳的,为了使词典内容存储时结构更加紧凑,从而节约存储空间,所述将编码后的词典内容存储在词库文件中,具体包括:
将编码后的词条以LLV格式存储,所述LLV格式顺序包括第一长度字段、第二长度字段和V字段,所述第一长度字段为编码后的词条中关键字和所述关键字对应的解释部分的总长度,所述第二长度字段为编码后的词条中关键字的长度,所述V字段为编码后的词条对应的编码信息。采用这样的存储方式,使得每个词条的词条结构体非常紧凑,没有浪费空间,另外还可以定位词条中各部分信息。
较佳的,为了使词库文件中的各个词条排列有序、便于存储,在所述词条中关键字由英文符号组成时,将编码后的词典内容存储在词库文件中,具体包括:按所述词条中关键字的英文字母顺序,将编码后的词条存储在词库文件中;在所述词条中关键字由中文符号组成时,按所述词条中关键字的拼音顺序,具体为拼音中字母的顺序,将编码后的词条存储在词库文件中。
较佳的,为了节约索引文件的存储空间,便于用户查找,所述索引信息包括该词条所在的词库文件标识以及该词条在词库文件中的偏移。为了便于查找,建立与所述词库文件相对应的索引文件,存储所述词条的索引信息的步骤,包括:将索引文件所包含的词条的索引信息的个数存储在所述索引文件的首部。
较佳的,建立与所述词库文件相对应的索引文件,存储所述词条的索引信息步骤,包括:将所述词库文件中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,所述预设规则与所述词库文件中词条的排序规则相对应:具体包括:所述词条中关键字由英文符号组成时,根据词条中关键字的ASC码大小,将词库文件中所有词条的索引信息排序后存储在索引文件中;所述词条中关键字由中文符号组成时,根据词条中关键字的UCS2码的大小,将词库文件中所有词条的索引信息排序后存储在索引文件中。
较佳的,所述建立与所述词库文件相对应的索引文件,存储所述词条的索引信息步骤后,还包括:设置索引文件中索引信息进行查找的索引方式,通过该索引方式查找到的索引信息找到对应的词库文件中的词条。
较佳的,在词典内容的编码采用了ASC码和UCS2码的编码方式时,还包括:将找到的所述词条在词库文件中对应的ASC码编码转换为UCS2码,转换后以UCS2码形式显示词条。
较佳的,在编码后的词条以LLV格式存储时,所述显示转换后的词条的步骤之前还包括:根据所述第一长度字段和第二长度字段,确定将词条中的ASC码转换为UCS2码之后,显示该词条所需的长度。在查找到用户输入的关键字,需要显示关键字所在的词条时,只需将以ASC码方式表示的单词转换为UCS2码方式即可,从而使得单词和解释都转换成UCS2码这种统一的编码格式,以便于显示,由于采用LLV格式存储,可以很方便的根据关键字和解释部分的总长度以及单词本身的长度得到转换为UCS2码之后进行显示时所需要的空间,即用总长度减去关键字本身的长度,得到解释部分的长度,该长度即为显示时解释部分的长度,另外,将关键字本身的长度换算为采用UCS2码编码所需的长度,得到显示时单词部分的长度,从而得到显示时所需的总长度,以便于显示设备显示。
下面以一个优选实施例详细介绍本发明中实现电子词典的方法,首先,要建立词库文件。将不同功能的编码后的词典内容存储在不同的词库文件中,如英译汉或汉译英等功能的词典内容可以分别对应一个词库文件,例如,可以针对英译汉这一功能,创建一个英译汉词库文件,在该词库文件中,存储包括由属于英文的符号组成的关键字及由属于中文的符号组成的解释部分的编码后的词条,关键字以a~z为首字母。其中,词库文件采用二进制文件存储。
英译汉词库文件中词条的排序规则为:首先按照词条中的关键字的首字母,即英文单词的首字母升序排列,首字母相同的按照第二个字母升序排列,前两个字母相同的按照第三个字母升序排列,依次类推。由于英文单词在字母表中的顺序与英文字母的ASC码的大小顺序一致,因此,上述排序方式其实也是按照英文单词的ASC码的大小顺序排序。当然,也可以按照其他顺序,例如降序排列。词库文件中的各个词条均采用LLV的格式进行存储:第一个L,即第一长度字段,指的是关键字即英文单词,以及对应的中文解释部分的总长度,第二个L,即第二长度字段,指的是关键字,即英文单词本身的长度,V这个字段指的是英文单词和对应的解释部分的编码内容,在具体编码时,英文单词采用ASC码进行编码,解释部分采用UCS2码进行编码,一个以LLV格式存储的词条构成一个词条结构体。
下面举例说明LLV编码的具体实现方式,以下述三个英文单词为例,假设要在词库文件中存储以下三个英文单词:
abandon    v.抛弃,放弃;
abandonment  n.放弃;
abbreviation    n.缩写。
单词“abandon v.抛弃,放弃”对应的词条结构体为:
15076162616E646F6E0076002E629B5F03FF0C653E5F03,其中,该结构体起始部分的“15”代表“abandon”对应的ASC码的长度以及解释部分“v.抛弃,放弃”对应的UCS2码的长度之和;后续的“07”代表“abandon”这个单词本身对应的ASC码的长度,不包括解释部分的长度;后续的“6162616E646F6E0076002E629B5F03FF0C653E5F03”代表“abandon”对应的ASC码的内容以及解释部分“v.抛弃,放弃”对应的UCS2码的内容。
单词“abandonment  n.放弃”对应的词条结构体为:
130B6162616E646F6E6D656E74006E002E653E5F03,
单词“abbreviation  n.缩写”对应的词条结构体为:
140C616262726576696174696F6E006E002E7F295199。
在词库文件中存储上述三个单词时,则会将采用LLV格式表示的各个单词的词条结构体的数据依次存储,即在词库文件中存储如下数据:15076162616E646F6E0076002E629B5F03FF0C653E5F03130B6162616E646F6E6D656E74006E002E653E5F03140C616262726576696174696F6E006E002E7F295199。每个词库文件的最后一个单词以FFFF结束,表示该文件结束。
该词库文件的设计基于以下两点:首先,按照词条中的关键字,即英文单词有序排列,即按首字母升序排列的方式存储各个单词;其次,按照LLV结构存储,先存储英文单词和中文解释部分的总长度,再存储英文单词本身的长度,最后存储英文单词和中文解释部分所对应的编码信息,在编码时英文单词采用ASC码的编码方式,中文解释部分采用UCS2码的编码方式,二者混合用,由于ASC码本身要比UCS2码占用的空间小,如字码a的ASC码是61,而其UCS2码是0061,因此,英文单词采用ASC码存储显然要节省空间,从而在类似SIM卡的存储设备有限的空间内能够存储更多的单词。
下面介绍一下汉译英词库文件的存储,其设计思路与英译汉词库文件基本相同,在汉译英词库文件中,关键字由属于中文的符号组成,本实施例称为汉字字词,相应的关键字的解释部分由属于英文的符号组成,本文称为英文解释部分。汉译英词库文件也是按照LLV格式进行存储,第一个L,即第一长度字段,代表汉字字词的UCS2码的长度以及对应的英文解释部分的ASC码的长度之和,第二个L,即第二长度字段指汉字字词本身的UCS2码的长度,V这个字段指该汉字字词UCS2码的编码内容以及对应的英文解释部分的ASC码的编码内容。
汉译英词库文件中的各个词条是按照关键字,即汉字字词对应的拼音字母的升序排列,即首先按照首字拼音首字母进行升序排列,首字母相同的按照第二个字的拼音首字母升序排列,前两个字拼音首字母都相同的按照第三个字的拼音首字母升序排列,以此类推。当然,也可以按照其他顺序,例如降序排列。这样排列的好处主要是为了在用户查询某个字词时,可以相应显示出后续的关联字词,例如,用户输入“你好”进行查询,则会显示出“你好”以及“你好吗”等一系列开头包含“你好”的词组。通过采用本发明实施例提供的实现电子词典的方法,将英译汉词库文件中词条的汉字字词和英文解释部分,分别采用不同的编码方式,利用了ASC码比UCS2码占用空间小的优势,从而节约了存储空间,并且,采用LLV结构的存储方式,使词条的存储结构更加紧凑,提高了存储效率,从而进一步节约了存储空间,因此,本发明实施例中实现电子词典的方法可以应用在智能卡,如手机的SIM卡这种小容量的存储设备上。本发明上述实施例提供的实现电子词典的方法中,对实现词典内容的存储进行了优化,词条存储时不再局限定长格式存储,在实现词典内容索引功能时,可以灵活利用现有的索引方法实现词条内容索引,优选地,采用下面本发明实施例中的下述方法实现词典内容索引。
首先,以上述实现词典内容存储功能中的英译汉词库文件对应的索引文件为例进行说明。
英译汉词库文件对应的索引文件中索引信息的排序规则和英译汉词库文件一致,也是以词条中的关键字,即英文单词中的英文字母升序排列的方式存储各个词条,不过,在索引文件中,并不存储英文单词本身,而是按顺序存储每个英文单词所在的词条在词库文件中对应的偏移,词条索引结构体由词条中的关键字,即英文单词所在的词库文件名称和该词条在该词库文件中的偏移这两部分内容组成。
下面以上述词库文件中的三个单词为例说明索引文件的存储方式。例如,单词“abandon v.抛弃,放弃”所在的词库文件名称为C1,该单词是该词库文件中的第一个单词,因此偏移为0000,所以,该单词的索引结构体为“C10000”,单词“abandonment  n.放弃”是词库文件C1中的第二个单词,该单词在词库文件C1中的偏移为0017,所以该单词的索引结构体为“C10017”。单词“abbreviation  n.缩写”是词库文件C1中的第三个单词,该单词的索引结构体为“C1002C”。
下面是一个存有15个单词的索引文件:
000FC10000C10017C1002CC10042C1005AC10069C1007AC10098C100B8C100D2C100E9C10102C10114C10136C10152,其中,000F代表索引结构体的个数,也就是说在该索引文件中存储了15个包含英文单词和对应的中文解释部分的词条,后续是15个词条的索引结构体数据。由此可以看出,每个索引结构体的长度固定,即每个索引结构体占三个字节,由于索引文件中并不存储词条中的关键字等信息,因此,索引文件占用空间较小;并且,索引中包含词库文件名称,便于词库文件的扩充,若空间允许情况下,可以随时扩充单词量,增加词库文件,计算新的索引后写入索引文件即可,方便移植和扩展。
采用上述索引结构,可以减少索引文件占用的存储空间,并且,配合相应的算法,可以提高查询效率。本发明实施例中可以采用“二分查找法”来提高查找效率,采用该查找法的前提是索引文件中的索引结构体要有序排列,因此,在索引文件中按照索引结构体对应词条中的关键字,即英文单词在英文字母表中的升序方式排列。英文字母的ASC码的大小和英文字母在字母表中的顺序一致,因此,该排列方式其实也是按照英文字母的ASC码的大小顺序排列。
采用二分查找法时,如果用户输入单词“a”这一关键字,则首先在索引文件中找到索引文件中间位置的索引信息,即如果该索引文件中有十一个索引信息,则首先找到第六个索引信息,并根据该索引信息中的偏移量找到词库文件中对应的词条,比较对应的词条中的关键字和用户输入的关键字的ASC码的大小,若用户输入的关键字的ASC码比找到的对应的词条中的关键字的ASC码要小,则在索引文件中向前折半,即找到前六个索引信息中的中间位置的索引信息在词库文件中对应的词条,根据该词条中的关键字和用户输入的关键字的ASC码的大小继续向前或向后折半查找该词条,直至找到要找的词条为止。假设用户输入“my”,则会显示以下词条:“my pron.我的;myselfpron.我自己;myth n.神话”直到显示到不匹配的单词为止。若折半查找时,直到折半位置到达词库文件头或文件尾,仍没有匹配词条,则提示用户“无该单词”即可。
下面介绍一下汉译英索引文件,其设计思路与英译汉索引文件基本相同,汉译英的索引文件中同样也不存储词条中的关键字,即汉字字词本身,而是存储每个汉字字词所在的词条在词库文件中对应的偏移,汉字索引结构体同样由汉字所在的词库文件名称和该汉字所在的词条在该词库文件中的偏移这两部分内容组成,但是,由于汉字本身有一定的特殊性,即汉字不像英文字母那样有大小,因此为了满足二分查找法的要求,汉译英索引文件可以按照汉字的UCS2码的码字大小进行升序排列,例如,词组“食物food;nutrient”对应的词条结构体为130498DF7269666F6F64203B206E75747269656E74,词组“知道cognition;knowledge;noesis”对应的词条结构体为220477E59053636F676E6974696F6E203B206B6E6F776C65646765203B206E6F65736973。由于词条中的关键字,即“食物”的UCS2码“98DF7269”大于“知道”的UCS2码“77E59053”,所以在索引文件中,“食物”的索引结构体要排在“知道”的索引结构体的后面。假设“食物”的索引结构体为“C20000”,“知道”的索引结构体为“C20014”,其中,C2代表这两个词条的词库文件名称,“0000”和“0014”分别代表这两个词条在词库文件中的偏移,由于“食物”的拼音首字母排在“知道”的前面,所以“食物”在词库文件中排在“知道”的前面,因此,在词库文件中,“食物”的偏移量小于“知道”的偏移量。假设一个索引文件中只存储这两个数据,则索引文件中存储的数据如下:0002C20014C20000,其中,起始部分的0002代表索引结构体的个数为两个。由此可见,索引文件按照汉字UCS2的大小对索引结构体进行有序排序,以满足二分查找法,可以实现快速查找。具体查找流程同“英译汉”的查找流程。
通过采用本发明实施例提供的实现电子词典的方法,在索引文件中仅存储词条所在的词库文件名以及词条在词库文件中的偏移量,并结合二分查找法,从而节约了索引文件的存储空间,提高了查找效率。
本发明实施例可以在智能卡上实现英汉互译功能,此外,将用户查找到的关键词汇添加到另外的存储文件,即可实现“背单词”功能。若词库文件有更新,如“添加单词”等,需要同时更新词库和索引文件即可。
基于同一发明构思,本发明实施例中还提供了一种实现电子词典的智能卡,由于该智能卡解决问题的原理与实现电子词典的方法的相似,因此实现电子词典的智能卡的实施可以参见方法的实施,重复之处不再赘述。
本发明实施例提供了一种实现电子词典的智能卡,如图2所示,包括:
编码单元20,用于根据通过不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同类符号采用占用空间少的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字及与其相应的第二类符号组成的解释部分;
第一存储单元21,用于将编码后的词典内容存储在词库文件中。
较佳的,为了方便用户查找,该智能卡还可以进一步包括:索引单元,用于将编码后的词典内容存储在词库文件中。
通过对电子词典中词条的不同种类的符号,从能够对该种类符号进行编码的编码方式中,根据各编码方式占用的存储空间,选择编码方式对该种类的符号进行编码的方式,提高了编码效率,从而节约了存储空间。
较佳的,为了节约存储空间,所述编码单元20具体用于对所述词典内容中属于英文类符号,通过ASC码编码方式进行编码;对所述词典内容中属于中文类符号,通过UCS2码编码方式进行编码。当然,也可以根据需要采用其他的编码方式,只要能够提高编码效率,节约存储空间即可。
较佳的,为了使词条存储时结构更加紧凑,从而节约存储空间,所述第一存储单元21,用于将编码后的词条以LLV格式存储,所述LLV格式顺序包括第一长度字段、第二长度字段和V字段,所述第一长度字段为编码后的词条中关键字及其解释部分的总长度,所述第二长度字段为编码后的词条中关键字的长度,所述V字段为编码后的词条对应的编码信息。采用这样的存储方式,使得每个词条的词条结构体非常紧凑,没有浪费空间。
较佳的,为了使词库文件中的各个词条排列有序、便于存储,所述第一存储单元21,用于在所述词条中关键字由英文符号组成时,根据所述关键字的英文字母顺序对所述关键字进行排序后,将编码后的词典内容存储在词库文件中;在所述词条中关键字由中文符号组成时,根据所述关键字的拼音顺序对所述关键字进行排序后,将编码后的词典内容存储在词库文件中。
通过采用本发明实施例提供的实现电子词典的智能卡,将词条中的中文和英文分别采用不同的编码方式,利用了ASC码比UCS2码占用空间小的优势,从而节约了存储空间,并且,采用LLV结构的存储方式,使词条的存储结构更加紧凑,提高了存储效率,从而进一步节约了存储空间,因此,本发明实施例中的存储电子词典的智能卡可以作为手机的SIM卡这种小容量的存储设备。
所述第一存储单元21具体用于将编码后的词典内容存储在不同的词库文件中,则在图2中的该智能卡还包括:
第二存储单元,用于对于每一词库文件,将该词库中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,在所述词条中关键字由英文符号组成时,根据词条中关键字的ASC码大小,将词库文件中所有词条的索引信息排序后存储在索引文件中;所述词条中关键字由中文符号组成时,根据词条中关键字的UCS2码的大小,将词库文件中所有词条的索引信息排序后存储在索引文件中,其中,每个词条的索引信息包括该词条所在的词库文件名以及该词条在词库文件中的偏移。
通过建立索引,且采用上述仅存储词条偏移量的索引方式,可以节约索引文件的存储空间,便于用户查找。
较佳的,为了提高查找效率,所述索引单元还用于:设置索引文件中索引信息进行查找的索引方式,通过该索引方式查找到的索引信息找到对应的词库文件中的词条。
较佳的,在词典内容的编码采用了ASC码和UCS2码的编码方式时,所述索引单元,还用于将找到的所述词条在词库文件中对应的ASC码编码转换为UCS2码,转换后以UCS2码形式显示词条。
通过采用本发明实施例提供的实现电子词典的智能卡,在索引文件中仅存储词条所在的词库文件名以及词条在词库文件中的偏移量,并结合一定的查找方式,从而节约了索引文件的存储空间,提高了查找效率。
本发明实施例提供的在智能卡上实现电子词典的方法和智能卡,采用ASC码与UCS2码混合使用的方式存储词库文件数据,并配合简洁的索引文件,以二分查找法查找数据,减少了存储空间,提高了处理速度,从而可以在智能卡,如SIM卡这种小容量存储设备上存储更多的单词,实现电子词典的功能。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (16)

1.一种智能卡上实现电子词典的方法,其特征在于,包括:
根据通过不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同类符号采用占用空间少的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字及与其相应的第二类符号组成的解释部分;
将编码后的词典内容存储在词库文件中;
建立与所述词库文件相对应的索引文件;
将所述词库文件中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,所述预设规则与所述词库文件中词条的排序规则相对应。
2.如权利要求1所述的方法,其特征在于,对词典内容中不同种类符号采用与其对应的编码方式进行编码,具体包括:
对所述词典内容中属于英文类符号,通过美国信息交换标准代码ASC码编码方式进行编码;
对所述词典内容中属于中文类符号,通过通用字符集UCS2码编码方式进行编码。
3.如权利要求1所述的方法,其特征在于,所述将编码后的词典内容存储在词库文件中,具体包括:
将编码后的词条以LLV格式存储,所述LLV格式顺序包括第一长度字段、第二长度字段和V字段,所述第一长度字段为编码后的词条中关键字及其解释部分的总长度,所述第二长度字段为编码后的词条中关键字的长度,所述V字段为编码后的词条对应的编码信息。
4.如权利要求1所述的方法,其特征在于,所述索引信息包括:
该词条所在的词库文件标识以及该词条在词库文件中的偏移。
5.如权利要求1所述的方法,其特征在于,建立与所述词库文件相对应的索引文件,存储所述词条的索引信息的步骤,包括:
将索引文件所包含的词条的索引信息的个数存储在所述索引文件的首部。
6.如权利要求1~5任一所述的方法,其特征在于,所述将编码后的词典内容存储在词库文件中的步骤之前,还包括:
将所述词条根据其关键字按照预定规则进行排序,具体包括:
如果所述词条中关键字由英文符号组成,则根据所述关键字的英文字母顺序对所述关键字进行排序;
如果所述词条中关键字由中文符号组成,则根据所述关键字的拼音顺序对所述关键字进行排序。
7.如权利要求6所述的方法,其特征在于,将所述词库文件中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,所述预设规则与所述词库文件中词条的排序规则相对应:具体包括:
所述词条中关键字由英文符号组成时,根据词条中关键字的ASC码大小,将词库文件中所有词条的索引信息排序后存储在索引文件中;
所述词条中关键字由中文符号组成时,根据词条中关键字的UCS2码的大小,将词库文件中所有词条的索引信息排序后存储在索引文件中。
8.如权利要求1所述的方法,其特征在于,所述建立与所述词库文件相对应的索引文件,存储所述词条的索引信息步骤后,还包括:
设置索引文件中索引信息进行查找的索引方式,通过该索引方式查找到的索引信息找到对应的词库文件中的词条。
9.如权利要求8所述的方法,其特征在于,在词典内容的编码采用了ASC码和UCS2码的编码方式时,还包括:
将找到的所述词条在词库文件中对应的ASC码编码转换为UCS2码,转换后以UCS2码形式显示词条。
10.一种实现电子词典的智能卡,其特征在于,包括:
编码单元,用于根据通过不同编码方式对词典内容编码时所需占用的存储空间,对词典内容中依据不同类符号采用占用空间少的编码方式进行编码,所述词典内容包括多个词条,每个词条包括第一类符号组成的关键字及与其相应的第二类符号组成的解释部分;
第一存储单元,用于将编码后的词典内容存储在词库文件中;
索引单元,用于建立与所述词库文件相对应的索引文件;
第二存储单元,用于将所述词库文件中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,所述预设规则与所述词库文件中词条的排序规则相对应。
11.如权利要求10所述的智能卡,其特征在于,所述编码单元具体用于对所述词典内容中属于英文类符号,通过ASC码编码方式进行编码;对所述词典内容中属于中文类符号,通过通用字符集UCS2码编码方式进行编码。
12.如权利要求10所述的智能卡,其特征在于,所述第一存储单元,具体用于将编码后的词条以LLV格式存储,所述LLV格式顺序包括第一长度字段、第二长度字段和V字段,所述第一长度字段为编码后的词条中关键字及其解释部分的总长度,所述第二长度字段为编码后的词条中关键字的长度,所述V字段为编码后的词条对应的编码信息。
13.如权利要求10所述的智能卡,其特征在于,所述第一存储单元,具体用于在所述词条中关键字由英文符号组成时,根据所述关键字的英文字母顺序对所述关键字进行排序后,将编码后的词典内容存储在词库文件中;在所述词条中关键字由中文符号组成时,根据所述关键字的拼音顺序对所述关键字进行排序后,将编码后的词典内容存储在词库文件中。
14.如权利要求10所述的智能卡,其特征在于,所述第二存储单元,用于对于每一词库文件,将该词库中的所有词条的索引信息按预设规则进行排序后存储在索引文件中,在所述词条中关键字由英文符号组成时,根据词条中关键字的ASC码大小,将词库文件中所有词条的索引信息排序后存储在索引文件中;所述词条中关键字由中文符号组成时,根据词条中关键字的UCS2码的大小,将词库文件中所有词条的索引信息排序后存储在索引文件中,其中,每个词条的索引信息包括该词条所在的词库文件名以及该词条在词库文件中的偏移。
15.如权利要求10所述的智能卡,其特征在于,所述索引单元还用于:
设置索引文件中索引信息进行查找的索引方式,通过该索引方式查找到的索引信息找到对应的词库文件中的词条。
16.如权利要求10所述的智能卡,其特征在于,在词典内容的编码采用了ASC码和UCS2码的编码方式时,所述索引单元,还用于将找到的所述词条在词库文件中对应的ASC码编码转换为UCS2码,转换后以UCS2码形式显示词条。
CN2010102965468A 2010-09-28 2010-09-28 一种智能卡上实现电子词典的方法及智能卡 Expired - Fee Related CN101963957B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102965468A CN101963957B (zh) 2010-09-28 2010-09-28 一种智能卡上实现电子词典的方法及智能卡

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102965468A CN101963957B (zh) 2010-09-28 2010-09-28 一种智能卡上实现电子词典的方法及智能卡

Publications (2)

Publication Number Publication Date
CN101963957A CN101963957A (zh) 2011-02-02
CN101963957B true CN101963957B (zh) 2012-08-22

Family

ID=43516830

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102965468A Expired - Fee Related CN101963957B (zh) 2010-09-28 2010-09-28 一种智能卡上实现电子词典的方法及智能卡

Country Status (1)

Country Link
CN (1) CN101963957B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103595415A (zh) * 2012-08-16 2014-02-19 中兴通讯股份有限公司 一种编码方法、解码方法及编码系统、解码系统
CN106959970B (zh) * 2016-01-12 2022-04-19 北京搜狗科技发展有限公司 词库、词库的处理方法、装置和用于处理词库的装置
CN111897775A (zh) * 2020-07-28 2020-11-06 厦门亿联网络技术股份有限公司 一种嵌入式系统翻译方法、装置、设备及可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055554A (zh) * 2007-01-31 2007-10-17 昆明南珠电子工程有限公司 一种电子词典
CN101674552A (zh) * 2009-09-25 2010-03-17 中兴通讯股份有限公司 一种短信编码方法与终端

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003232388A1 (en) * 2003-06-04 2005-01-04 Jurgen Van Gucht A method and system to compress and to decompress data
TWM301452U (en) * 2006-06-20 2006-11-21 Chao-Chang Chen Memory card and assembly thereof

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101055554A (zh) * 2007-01-31 2007-10-17 昆明南珠电子工程有限公司 一种电子词典
CN101674552A (zh) * 2009-09-25 2010-03-17 中兴通讯股份有限公司 一种短信编码方法与终端

Also Published As

Publication number Publication date
CN101963957A (zh) 2011-02-02

Similar Documents

Publication Publication Date Title
US8401838B2 (en) System and method for multilanguage text input in a handheld electronic device
US7277029B2 (en) Using language models to expand wildcards
CN100594470C (zh) 用于对用户输入的多义性输入序列进行多义性消除的系统和方法
US7512533B2 (en) Method and system of creating and using chinese language data and user-corrected data
CA2579052C (en) Multi language text input in a handheld electronic device
CN101315639A (zh) 搜索方法及系统
CN101398830B (zh) 词库模糊查询方法及词库模糊查询系统
CN101963957B (zh) 一种智能卡上实现电子词典的方法及智能卡
CN104572685A (zh) 数据排序方法
JP2007042146A (ja) 中国語データおよびユーザ修正データの作成し、かつ、使用する方法およびシステム
CN101359257B (zh) 一种利用数字键盘进行字词输入的方法和装置
KR20100021817A (ko) 텍스트 데이터 압축 방법
CN101331483A (zh) 用于操纵数据文件的方法和设备
CN102567768B (zh) 基于智能卡实现电子词典的方法和装置
CN117290523B (zh) 基于动态索引表的全文检索方法及装置
CN1269542A (zh) 联想汉字输入系统
EP1665009A2 (en) Apparatus and method for input of ideographic korean syllables from reduced keyboard
CN1120437C (zh) 文字转码通讯方法及装置
US20040143568A1 (en) Search method implemented with a search system
CN1404289A (zh) 手机中的名字和号码查找方法
CN102103610A (zh) 一种检索信息、信息处理的方法及装置
CN115544967A (zh) 文字转拼音的方法、装置、计算机设备和存储介质
CN114625935A (zh) 场景化搜索的方法及系统
CN1900884A (zh) 数据搜寻方法与相关装置
JP2005275880A (ja) 字句をデータに変換する装置、方法及びプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: 100015 Beijing city Chaoyang District Dongzhimen West eight Street No. 2 room Wanhong Yan Dong Business Garden

Patentee after: BEIJING WATCHDATA Co.,Ltd.

Address before: 100015 Beijing city Chaoyang District Dongzhimen West eight Street No. 2 room Wanhong Yan Dong Business Garden

Patentee before: BEIJING WATCH DATA SYSTEM Co.,Ltd.

CP01 Change in the name or title of a patent holder
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20120822

Termination date: 20210928

CF01 Termination of patent right due to non-payment of annual fee