CN1588279A - 利用数字与字母对应关系实现中文信息快速检索的方法 - Google Patents
利用数字与字母对应关系实现中文信息快速检索的方法 Download PDFInfo
- Publication number
- CN1588279A CN1588279A CN 200410051330 CN200410051330A CN1588279A CN 1588279 A CN1588279 A CN 1588279A CN 200410051330 CN200410051330 CN 200410051330 CN 200410051330 A CN200410051330 A CN 200410051330A CN 1588279 A CN1588279 A CN 1588279A
- Authority
- CN
- China
- Prior art keywords
- character
- chinese
- digital
- record
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明是涉及一种文字信息检索方法,特别涉及一种利用数字键盘普遍使用的英文字母对应规则,以汉语拼音为依据,实现中文信息快速检索的方法。本发明公开了一种中文信息检索方法,用2、3、4、5、6、7、8、9分别表示ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ八组拼音字母,中文检索只需要顺序输入汉字拼音第一个字母对应的数字代码,则检索出信息载体上相符的记录。本发明克服了现有检索方法中输入、挑选汉字慢的缺点,实施简单,能让产品的使用者以简单明了的操作,迅速检索中文资料,能广泛用于移动通信产品中。
Description
技术领域
本发明是涉及一种文字信息检索方法,特别涉及一种利用数字键盘普遍使用的英文字母对应规则,以汉语拼音为依据,实现中文信息快速检索的方法。本发明属于IPC国际专利分类中的G06F 17/30。
背景技术
个人通信产品(如手机、小灵通等)已相当普及,随着通信与计算机技术的日益融合,越来越多的信息可以通过这些产品检索。这些产品的存储空间越来越大,必须要有一种快速的检索方法才能使这些功能充分地发挥作用。
目前中文检索大部分都只停留在输入完整的汉字后检索,高级一点的增加联想功能,而中文输入的特点又注定了使用者必须多次按键,并从屏幕显示的候选汉字中挑选,不仅输入速度慢,而且操作复杂。
黄宏权的发明专利申请“一种文字信息数字码检索方法和使用该方法的数字键盘信息设备”(申请号:01103295),公开了一种“英文检索仅输入字母对应的数字代码,汉字检索仅输入每一个汉字的第一和第二笔画对应的数字代码”的检索方法。不足之处是:人们查找信息(特别是姓名)时往往先在脑里产生读音,具体是同音字中的哪一个汉字往往记不清;而且大部分字典都是偏旁、拼音查找的,以笔顺检索的极罕见,所以各人书写的笔顺难求一致、规范。
陈爱军的发明专利申请“中英文电话簿中记录的检索方法”(申请号:02115623),公开了一种“汉字检索仅输入每一个汉字拼音首字母”的检索方法。该法虽大大减少了按键次数、简化了操作,不足之处是:仍然要选几次才能挑出对应的拼音字母,而且目光要在按键、屏幕间转换;该发明采用以忽略字符替代多音字位置的方法解决多音汉字的问题,此方法并不能完善地解决多音汉字的问题。
发明内容
本发明克服了现有检索方法中的缺点,提供了一种利用数字键盘普遍使用的拼音字母对应规则,以汉语拼音为依据的检索方法。该法减少了键盘输入的次数,有效减少了候选记录,实现对中文信息的快速检索。本发明的技术方案是(方法0):
0.a、用2、3、4、5、6、7、8、9分别对应ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ八组拼音字母;
0.b、中文检索只需要顺序输入汉字第一个拼音字母对应的数字代码;
0.c、系统按0.a的对应规则,检索出信息载体上符合检索要求的记录。
对应每条记录的代码是否存储在载体内、如何生成代码,可以有如下的几种方法:
方法1.1:
1.1.a、系统通过一套字符-数字转换程序,顺序地将记录中检索字段的字符转换成数字代码,与输入的数字代码序列的相应位置数字比较;若相同,则该字符与该数字匹配;
1.1.b、若该字符是多音字,且相应发音的第一位拼音字母的数字代码不同,则从字符-数字转换程序获得不同的数字代码,其中一个与输入的数字代码序列的相应位置数字相同,则认为该字符与该数字匹配;
1.1.c、若连续的字符都与对应输入的数字代码匹配,则该位置的字符串符合检索要求。
方法1.2:
1.2.a、系统通过一套字符-数字转换程序,自动地将记录中常用于检索的字段的字符转换、生成对应的数字串,并存在载体中,与相应记录建立对应关系;
1.2.b、若该常用检索的字段含有多音字,且相应发音的第一位拼音字母的数字代码不同,则从字符-数字转换程序获得相应的信息,并在保存在载体时作相应的标示;
1.2.c、若数字串与输入的数字代码序列相同,或数字串前几位的子串与输入的数字代码序列相同,则认为该数字串与输入的数字代码序列相符;
1.2.d、检索比较时,若载体内对应于记录中常用检索字段的数字串,与输入的数字代码序列相符,或将记录中多音字的数字代码替换该数字串对应位置后与输入的数字代码序列相符,则该记录符合检索要求。
方法1.3:
1.3.a、系统通过一套字符-拼音转换程序,自动地将记录中常用于检索的字段的字符转换、生成对应的第一位拼音字母串,并存在载体中,与相应记录建立对应关系;
1.3.b、检索比较时,系统将记录的常用检索字段第一位拼音字母串,根据用2、3、4、5、6、7、8、9分别对应ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ的原则,转换成相应的数字串,并与输入的数字代码序列比较,若相符,则该记录符合检索要求。
若同时使用汉字拼音第一个字母检索方法(类似专利申请号:02115623的检索方法),则可以考虑采用此方法。
方法1.4:
1.4.a、在以拼音输入、修改记录时,系统自动顺序地记录了常用于检索的字段中每一字符输入时的第一个数字代码,生成对应常用检索字段的数字串,存在载体中,与相应记录建立对应关系;
1.4.b、检索比较时,若载体内对应于记录中常用检索字段的数字串,与输入的数字代码序列相符,则该记录符合检索要求。
方法1.1、1.2所述的字符-数字转换程序的规则也可以采用不同的方法建立,转换程序按照这些规则把汉字转换成对应的数字。
方法2.1:
2.1.a、对于内码按拼音排序的那段汉字,系统有相应判定哪一段内码的汉字分别对应数字2至9的规则;
2.1.b、对于不按拼音排序的那段汉字,系统内建立了一个“汉字数字列表”,按汉字内码的排列顺序,列出这些汉字最常用发音的第一位拼音字母对应的数字代码;
2.1.c、对于第一位拼音字母的数字代码不同的多音汉字,系统内另建立了一个有汉字内码字段,以汉字内码为索引的“多音字-数字对应列表”,将多音汉字内码与该汉字非2.1.a或2.1.b读音中第一位拼音字母的数字代码一一对应。
该方法是一种较优化的方法,不但提高检索速度,又能节省空间。
方法2.2:
2.2.a、系统内建立了一个有汉字内码字段,以汉字内码为索引的“汉字-数字对应全列表”,将汉字与该汉字所有第一位拼音字母的数字代码对应;
2.2.b通过在该表检索汉字内码的位置,系统获得与汉字对应的所有数字代码。
方法2.3:
2.3.a、系统内建立了一个“汉字数字全列表”,按汉字内码的排列顺序,列出系统支持的所有汉字的所有第一位拼音字母对应的数字代码;
2.3.b、另建立了一个“多音字指针列表”,指出了所有多音字在“汉字数字全列表”中第一个对应数字代码的位置,有汉字内码字段、位置指针字段,以汉字内码为索引;
2.3.c、转换时,系统首先检索汉字内码在“多音字指针列表”的位置,如果出现在表里,通过该记录和下一个记录的内码、位置指针的值计算出该汉字数字代码数量,从“汉字数字全列表”对应该记录的位置指针处,连续获得与该汉字对应的所有数字;
2.3.d、如果不出现在表里,则找出最接近该内码,且大于该内码值的记录,由字符内码,以及该“多音字指针列表”记录的汉字内码字段、位置指针字段,算出在“汉字数字全列表”中的位置,从该位置获得与字符对应的一个数字。
方法2.4:与方法2.3类似,
2.4.a、系统内建立的“汉字数字全列表”,对有三个或三个以上数字与之对应的汉字,只收录该汉字最常使用读音对应的其中两个数字;根据1992年重排本的《新华字典》,只有“魄”、“单”、“矜”和“龟”四个汉字与三个数字对应,没有与三个以上数字对应的汉字;
2.4.b、建立的“多音字指针列表”,与方法2.3.b相同;
2.4.c、转换时,系统首先检索汉字内码在“多音字指针列表”的位置,如果出现在表里,则在“汉字数字全列表”对应的位置指针处及其随后的一个记录,获得与该汉字对应的两个数字;
2.4.d、如果不出现在表里,获得该汉字对应数字的方法与方法2.3.d相同。
方法3、本发明上述基础上,还可以进一步扩展:
3.a、数字字符对应相应的数字;
3.b、英文字母按2、3、4、5、6、7、8、9分别对应ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ八组英文字母的规则;
3.c、检索时,顺序输入与字符对应的数字代码;
3.d、系统根据载体上字符的类型(数字、英文、汉字),分别按3.a、3.b和0.a的对应规则,检索出信息载体上符合检索要求的记录。
这样,使检索的字符无论是数字、英文、汉字,或是多种字符混杂,都用同样的规则检索。
该中文检索方法还可以进一步完善,以便更实用:
扩展功能1、系统提供相应的程序,让用户自行编辑记录的常用于检索的字段对应的检索数字串,系统把该自定义检索数字串保存在载体中,与该记录建立一一对应关系;系统将记录的自定义检索数字串,与输入的数字代码序列比较;若匹配,则该记录符合检索要求。
扩展功能2、系统将输入按键中除2、3、4、5、6、7、8、9外的某一按键定义为忽略键;查找时,对记不清的中文和英文,或不能确定读音的中文,可按忽略键代替;系统在检索过程中,对输入忽略键的那一位自动不比较。
实施效果
增加了本发明功能的数字按键产品在检索姓名等信息时,会获得如下的效果:
1、由于只需要连续地输入各汉字对应第一个拼音字母的数字代码,比起输入完整的汉字、汉字的前两个笔画或汉字第一个拼音字母等检索方法,都可以大大地减少了按键的次数。
2、由于有各汉字对应第一个拼音字母数字代码的限定,比起分组等检索方法,大大减少了候选记录的数量,方便使用者挑选。
3、使用者可以把注意力先集中在键盘顺序输入对应的数字,再关注屏幕按上下键挑选检索出的记录。这样,有利于使用者方便、迅速地检索信息。
由于国家多年来都将拼音作为语文的普及教育内容,所以40岁以下的中国人基本上都能较准确地使用拼音,准确区分汉字对应的第一个拼音字母就更不在话下了,数字按键产品一般都把数字对应的拼音(英文)字母印在按键上,所以本发明的方法是非常容易掌握的。而16-40岁的人是移动通信产品(包括手机、小灵通等)的消费主力,他们喜欢追时尚、比功能、交际广泛。所以该发明的应用对促进移动通信产品的销售是有帮助的。
具体实施方式
实施方案一、综上所述的各种方式,综合方法1.1、方法2.1和方法3的方案较优,既节约了存储空间,又保持记录间的连贯关系。
以下是在此方案基础上,再结合扩展功能1、扩展功能2,应用在手机或小灵通上的电话簿上,建立“快速拼音检索”功能的具体实施方式。
1、系统参考国标汉字库GB-2312排列出数字字符、英文字母和汉字的连续内码。
2、字符-数字转换程序按如下规则建立:
2.1、数字字符直接与其数字值对应;
2.2、英文字母ABC的内码对应2、DEF的内码对应3、GHI的内码对应4、JKL的内码对应5、MNO的内码对应6、PQRS的内码对应7、TUV的内码对应8、WXYZ的内码对应9;
2.3、按拼音进行排序的一级字库,分别查找出第一位拼音字母是ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ的区段,以此为基础建立一级字库汉字内码与对应数字的逻辑判断关系。
2.4、对于二级字库,系统内建立了一个“汉字数字列表”,按汉字内码的排列顺序,列出这些汉字最常用发音的第一位拼音字母对应的数字代码;
2.5、系统保存有“多音字-数字对应列表”,该表由汉字内码、对应数字两个字段组成,以汉字内码为索引。“汉字内码”存储第一位拼音字母数字不同的多音字内码,“对应数字”存储多音字中不在上述2.3、2.4中出现的第一位拼音字母对应数字。
3、考虑到各地方言的差异,以及目前通信产品姓名等字段的长度受限制,一些用户希望能存特殊信息。系统提供相应的程序,让用户自行编辑记录姓名字段的数字代码序列,系统把数字代码序列保存在电话簿的“自定义检索键”字段中。
4、系统将输入按键“*”键定义为忽略键;查找时,对记不清的中文和英文,或不能确定读音的中文,可按忽略键代替;系统在检索过程中,对输入忽略键的那一位自动不比较。
5、记录中的自定义检索键、姓名字段(合称为被检索内容)与输入数字序列比较有三种结果:“完全符合”——被检索内容与输入数字序列匹配,而且两者的数目相同;“符合”——被检索内容前几位与输入数字序列匹配,被检索内容字符数目多于输入的数字序列;不属于上述两种情况的“不符合”记录中又分为“小于”和“大于”两种情况,“小于”——对应记录中的姓名的字符类型,分别按“字符-数字转换程序”中的规则2.1-2.4返回的数字,所得的数字串小于输入的数字序列;“大于”——按上述规则所得的数字串大于输入的数字序列。
例如,电话簿中有“李四民”、“小明”、“赵宁手机”、“张宁云”、“张三风”这几个姓名的记录,他们分别对应“快速拼音检索”系统的“576”、“96”、“9675”、“969”和“973”,输入“96”检索时,“小明”是“完全符合”的记录,“赵宁手机”、“张宁云”是“符合”记录,“李四民”是“小于”记录,“张三风”是“大于”记录。
6、系统有存储显示记录单元,其记录数与显示屏的显示行数相同,该单元包括记录在电话簿位置、比较结果2个字段。其中比较结果存“完全符合”、“符合”、“不符合”三种结果。
7、进入“快速拼音检索”后,电话簿记录按姓名索引。对检索出的记录按如下顺序显示:
7.1、以专有的颜色1先显示“完全符合”的记录;
7.2、以专有的颜色2显示“符合”的记录;
7.3、之后,显示搜索出的第一个“大于”记录(假设为记录A),及其后的“不符合”记录;
7.4、若在第一个“完全符合”记录位置再按上移键,则倒序显示在记录A前的“不符合”记录。
8、对应本发明的检索功能,该产品有如下模块:
8.1、比较判断模块:用于判断记录中的自定义字段或姓名是否符合输入的数字代码序列的检索要求,返回的结果有四种情况——完全符合、符合、小于、大于。本模块采用如下步骤比较:
8.1.1、屏蔽掉“*”键的相应位置,比较“自定义检索键字段”,若是“完全符合”或“符合”,则返回该结果;
8.1.2、若步骤8.1.1的比较结果“不符合”,对应输入数字序列非“*”位置顺序地抽取姓名字符,按照该字符的类型(数字、英文、一级字库汉字、二级字库汉字)转换对应数字,与输入数字序列的对应位置比较,判断该字符属于匹配、小于、大于中哪种情况;
8.1.3、若步骤8.1.2的比较结果匹配,则取下一位字符,返回步骤8.1.2比较;
若比较结果为“小于”或“大于”,且该字符为汉字,则检索“多音字-数字对应列表”是否有该汉字,若有,比较对应数字是否匹配。若匹配,改写比较结果,取下一位字符,返回步骤8.1.2;否则返回比较结果;
8.1.4、若输入数字序列所有数字都顺序与姓名字符匹配,且字符数目与输入数字序列的数目相同,则为“完全符合”,若字符数目大于输入数字序列的数目,则为“符合”。
8.2、检索定位模块:调用比较判断模块,从电话本中检索出第一个和最后一个“完全符合”记录的位置,第一个和最后一个“符合”记录的位置,第一个“大于”记录的位置,以及之前的最后一个“不符合”记录的位置。并按照上述的7的顺序填写“显示记录单元”。
8.3、选择定位模块:对应用户按“↑”“↓”键,参照当前记录的位置,“显示记录单元”相应“电话簿位置”、“比较结果”字段的内容,以及由“检索定位模块”得出的各特征位置值,定位新的当前记录位置,并改写“存储显示记录的单元”内容。
实施方案二、综合方法1.2、方法2.4和方法3的方案,再结合扩展功能1,应用在手机或小灵通上的电话簿上,建立“快速拼音检索”功能的具体实施方式。
1、系统参考国标汉字库GB-2312排列出数字字符、英文字母和汉字的连续内码。
2、系统内建立了一个“汉字数字全列表”,按汉字内码的排列顺序,列出系统支持的所有汉字的第一位拼音字母对应的一个或两个数字代码,多音字按常用发音顺序排列(最常用发音对应的数字放在最前面),对有三个以上数字与之对应的多音汉字,“汉字数字全列表”只收录该汉字最常使用读音对应的其中两个数字;
3、另建立了一个“多音字指针列表”,有汉字内码字段(C)、位置指针字段(P),以汉字内码为索引,其中位置指针指示该汉字内码对应“汉字数字全列表”中的第一个位置。其中最后一个记录C=字库中最后一个汉字内码+1,P=“汉字数字全列表”中该汉字的位置+1
4、电话簿记录包含“姓名”、“姓名数字串”及其他相应字段。
5、系统另有一个“含多音字姓名表”专门记录电话簿中“姓名”有多音字的情况,该表包含有“记录位置”和“多音字数字串”两个字段。
“记录位置”标示记录在电话簿中的位置;
“多音字数字串”第一个十六进制位(以下6-9.6简称为第一位)标示该姓名是否有多个多音字,若电话簿记录的“姓名”中没有多音字,则该记录的位置不出现在“含多音字姓名表”中;若只有一个多音字的,该位值为′0H′(十六进制表示法,以下同);若有多个多音字的,该位值为′1H′。接着顺序排列多音字对应的数字,若对应位置是多音字则该位就是对应多音字的数字,否则为′0H′。
如:姓名“解小东”,由于三个汉字中只有“解”为多音字,且其读音“jie”较“xie”常用,所以该姓名在“含多音字姓名表”中对应记录的“多音字数字串”为′0900′。
6、用户增加、修改电话部记录后,系统自动顺序提取“姓名”中的字符,根据字符的不同属性,转换成“姓名数字串”内容,若其中有多音字,则在“含多音字姓名表”添加相应记录。步骤如下:
6.1、系统初始化寄存单元N=′2H′,用于识别该姓名的多音字情况;同时清空记录中“姓名数字串”内容。抽取“姓名”第一个字符。
6.2、若该字符是数字,直接对应数字本身,把该数字添加到“姓名数字串”;并在寄存单元N后添加′0H′。
6.3、若该字符是英文字母,ABC的内码对应2、DEF的内码对应3、GHI的内码对应4、JKL的内码对应5、MNO的内码对应6、PQRS的内码对应7、TUV的内码对应8、WXYZ的内码对应9,把该数字添加到“姓名数字串”;并在寄存单元N后添加′0H′。
6.4、若该字符是汉字,先检索“多音字指针列表”;
6.4.1、如果出现在表里,则提取“汉字数字全列表”对应的位置指针(P)处记录的数字,把该数字添加到“姓名数字串”;“汉字数字全列表”P+1处记录的数字添加在寄存单元N后;
若N的第一位=′2H′,则N的第一位改为′0H′;若N的第一位=′0H′,则N的第一位改为′1H′;若N的第一位=′1H′,不作改动;
6.4.2、如果不出现在“多音字指针列表”里,则找出最接近该内码,且大于该内码值的记录,由字符内码,以及该记录的汉字内码字段、位置指针字段,算出在“汉字数字全列表”中的位置,从该位置获得与字符匹配的一个数字代码。
具体的计算方法如下:
当该汉字的内码C没出现在“多音字指针列表”,但表中的Cn、Cn+1最接近该内码,则该汉字的指针
P=Pn+1-(Cn+1-C)
由此,在“汉字数字全列表”的P位置,就是对应该汉字的数字代码,把该数字添加到“姓名数字串”对应位置;并在寄存单元N后添加′0H′。
6.5、取“姓名”下一个字符,重复上述6.2-6.4步骤,直至把姓名所有字符都转换完毕;若N的第一位=′2H′,则不在“含多音字姓名表”添加记录;若N的第一位=′0H′或′1H′,则在“含多音字姓名表”添加对应的记录——“记录位置”标示记录在电话簿中的位置,“多音字数字串”=N。
7、考虑到各地方言的差异,以及目前通信产品姓名等字段的长度受限制,一些用户希望能存特殊信息。系统对常用于检索的字段——姓名提供相应的程序,让用户自行编辑“姓名数字串”字段,而不影响“姓名”字段的显示内容。用户修改后,系统自动删除“含多音字姓名表”中与该电话簿记录相关的记录。
8、结合电话簿中“姓名数字串”和“多音字数字串”对应记录运算出来的数字序列,与输入数字序列比较有三种结果:
“完全符合”——“姓名数字串”字段或利用“姓名数字串”和“多音字数字串”对应记录运算出来的数字串(具体步骤参照下述9的内容),与输入数字序列相同,而且两者的数目相同;
“符合”——“姓名数字串”字段或利用“姓名数字串”和“多音字数字串”对应记录运算出来的数字串前几位的子串,与输入数字序列相同,“姓名数字串”字符数目多于输入的数字序列;
不属于上述两种情况的为“不符合”记录。
9、检索“含多音字姓名表”中出现的记录哪些符合检索要求的步骤:
9.1、“含多音字姓名表”按“多音字数字串”索引。
9.2、首先在索引后的“含多音字姓名表”中第一位为′0H′的记录中,顺序检索与“输入数字序列”(K)各位字符对应的数字;
例如,“输入数字序列”为“397”,则在“含多音字姓名表”顺序检索“多音字数字串”分别为“03”、“009”、“0007”的记录。
9.3、“含多音字姓名表”中通过9.2检索出来的记录,取电话簿中“记录位置”的“姓名数字串”,屏蔽多音字的位置,与“输入数字序列”比较,得出“完全符合”、“符合”或“不符合”三种结果。
9.4、对“含多音字姓名表”中第一位为′1H′的记录(姓名中有多个多音字),寄存器N=“多音字数字串”左移4个二进制位;
9.5、N=N-K,若结果中没有一位为′0H′,则取“含多音字姓名表”下一记录,继续步骤9.4的运算、比较。
9.6、若N中有个别位为′0H′,取电话簿中“记录位置”的“姓名数字串”,屏蔽N中等于′0H′的位置,与“输入数字序列”比较,得出“完全符合”、“符合”或“不符合”三种结果。
10、进入“快速拼音检索”后系统将电话簿按“姓名数字串”索引。对检索出的记录按如下顺序显示:
10.1、以专有的颜色1先显示按索引顺序“完全符合”的记录,假定按此检索的第一个记录为A;再显示通过“姓名数字串”和“多音字数字串”对应记录运算、比较后的“完全符合”记录;
10.2、以专有的颜色2先显示按索引顺序“符合”的记录,假定按此检索的最后一个记录为B;再显示通过“姓名数字串”和“多音字数字串”对应记录运算、比较后的“符合”记录;
10.3、之后,显示按索引顺序紧跟在B后的记录;
10.4、若在第一个“完全符合”记录位置再按上移键,则倒序显示在记录A前的记录。
实施方案三、综上所述的各种方式,方法1.4,结构最简单,实现最容易。
以下是在此方案基础上,再结合方法3、扩展功能1,应用在手机或小灵通上的电话簿上,建立“快速拼音检索”功能的具体实施方式。
1、电话簿有“数字代码串”字段,对应“姓名”字段的数字代码;
2、系统只提供拼音输入的汉字输入方式;
3、在以拼音输入、修改汉字记录或输入、修改数字、英文记录时,系统自动顺序地记录了“姓名”字段中每一字符输入时的第一个数字代码,生成对应的数字代码序列,存储在“数字代码串”字段中;
4、考虑到各地方言的差异,以及目前通信产品姓名等字段的长度受限制,一些用户希望能存特殊信息。系统提供相应的程序,让用户自行编辑“数字代码串”字段;
5、检索比较时,系统将电话簿的记录按“数字代码串”字段索引,与输入的数字代码序列比较;从而检索出符合检索要求的记录。
Claims (10)
1、一种中文信息检索方法,用2、3、4、5、6、7、8、9分别对应ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ八组拼音字母,其特征在于:
a、中文检索只需要顺序输入汉字第一个拼音字母对应的数字代码;
b、系统按该对应规则,检索出信息载体上符合检索要求的记录。
2、根据权利要求1的中文信息检索方法,其特征在于:
系统通过一套字符-数字转换程序,顺序地将记录中检索字段的字符转换成数字代码,与输入的数字代码序列的相应位置数字比较,若相同,则该字符与该数字匹配;
若该字符是多音字,且对应发音的第一位拼音字母的数字代码不同,则从字符-数字转换程序获得不同的数字代码,其中一个与输入的数字代码序列的相应位置数字相同,则认为该字符与该数字匹配;
若连续的字符都与对应输入的数字代码匹配,则该位置的字符串符合检索要求。
3、根据权利要求1的中文信息检索方法,其特征在于:
a、系统通过一套字符-数字转换程序,自动地将记录中常用于检索的字段的字符转换、生成对应的数字串,并存在载体中,与相应记录建立对应关系;
b、若该常用检索的字段含有多音字,且相应发音的第一位拼音字母的数字代码不同,则从字符-数字转换程序获得相应的信息,并在保存在载体时作相应的标示;
c、若数字串与输入的数字代码序列相同,或数字串前几位的子串与输入的数字代码序列相同,则认为该数字串与输入的数字代码序列相符;
d、检索比较时,若载体内对应于记录中常用检索字段的数字串,与输入的数字代码序列相符,或将记录中多音字的数字代码替换该数字串对应位置后与输入的数字代码序列相符,则该记录符合检索要求。
4、根据权利要求2和3的中文信息检索方法,其特征在于:
所述的字符-数字转换程序如下规则建立:
a、对于内码按拼音排序的那段汉字,系统有相应判定哪一段内码的汉字分别对应数字2至9的规则;
b、对于不按拼音排序的那段汉字,系统内建立了一个“汉字数字列表”,按汉字内码的排列顺序,列出这些汉字最常用发音的第一位拼音字母对应的数字代码;
c、对于第一位拼音字母的数字代码不同的多音汉字,系统内另建立了一个有汉字内码字段,以汉字内码为索引的“多音字-数字对应列表”,将多音汉字内码与该汉字非a或b读音中第一位拼音字母的数字代码一一对应。
5、根据权利要求2和3的中文信息检索方法,其特征在于:
所述的字符-数字转换程序如下建立:
a、系统内建立了一个有汉字内码字段,以汉字内码为索引的“汉字-数字对应全列表”,将汉字与该汉字所有第一位拼音字母的数字代码对应;
b、通过在该表检索汉字内码的位置,系统获得与汉字对应的所有数字代码。
6、根据权利要求2和3的中文信息检索方法,其特征在于:
所述的字符-数字转换程序如下建立:
a、系统内建立了一个“汉字数字全列表”,按汉字内码的排列顺序,列出系统支持的所有汉字的所有第一位拼音字母对应的数字代码;
b、另建立了一个“多音字指针列表”,指出了所有多音字在“汉字数字全列表”中第一个对应数字代码的位置,有汉字内码字段、位置指针字段,以汉字内码为索引;
c、转换时,系统首先检索汉字内码在“多音字指针列表”的位置,如果出现在表里,通过该记录和下一个记录的内码、位置指针的值计算出该汉字数字代码数量,从“汉字数字全列表”对应该记录的位置指针处,连续获得与该汉字对应的所有数字;如果不出现在表里,则找出最接近该内码,且大于该内码值的记录,由字符内码,以及该“多音字指针列表”记录的汉字内码字段、位置指针字段,算出在“汉字数字全列表”中的位置,从该位置获得与字符对应的一个数字。
7、根据权利要求2和3的中文信息检索方法,其特征在于:
所述的字符-数字转换程序如下建立:
a、系统内建立了一个“汉字数字全列表”,按汉字内码的排列顺序,列出系统支持的所有汉字的第一位拼音字母对应的数字代码;
b、对于第一位拼音字母的数字代码只有一个或两个的,“汉字数字全列表”列出所有对应的数字代码;对于第一位拼音字母的数字代码有三个或三个以上的多音汉字,“汉字数字全列表”只收录该汉字最常使用读音对应的其中两个数字;
c、另建立了一个“多音字指针列表”,指出了所有多音字在“汉字数字全列表”中第一个对应数字代码的位置,有汉字内码字段、位置指针字段,以汉字内码为索引;
d、转换时,系统首先检索汉字内码在“多音字指针列表”的位置,如果出现在表里,则在“汉字数字全列表”对应的位置指针处及其随后的一个记录,获得与该汉字对应的两个数字;如果不出现在表里,则找出最接近该内码,且大于该内码值的记录,由字符内码,以及该“多音字指针列表”记录的汉字内码字段、位置指针字段,算出在“汉字数字全列表”中的位置,从该位置获得与该汉字对应的一个数字。
8、根据权利要求1的中文信息检索方法,其特征在于:
a、系统通过一套字符-拼音转换程序,自动地将记录中常用于检索的字段的字符转换、生成对应的第一位拼音字母串,并存在载体中,与相应记录建立对应关系;
b、若数字串与输入的数字代码序列相同,或数字串前几位的子串与输入的数字代码序列相同,则认为该数字串与输入的数字代码序列相符;
c、检索比较时,系统将记录的常用检索字段第一位拼音字母串,根据用2、3、4、5、6、7、8、9分别对应ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ的原则,转换成相应的数字串,并与输入的数字代码序列比较,若相符,则该记录符合检索要求。
9、根据权利要求1的中文信息检索方法,其特征在于:
a、在以拼音输入、修改记录时,系统自动顺序地记录了常用于检索的字段中每一字符输入时的第一个数字代码,生成对应常用检索字段的数字串,存在载体中,与相应记录建立对应关系;
b、若数字串与输入的数字代码序列相同,或数字串前几位的子串与输入的数字代码序列相同,则认为该数字串与输入的数字代码序列相符;
c、检索比较时,若载体内对应于记录中常用检索字段的数字串,与输入的数字代码序列相符,则该记录符合检索要求。
10、根据权利要求1或2或3或8或9中任何一种的中文信息检索方法,其特征在于:
a、数字字符对应相应的数字;
b、英文字母按2、3、4、5、6、7、8、9分别对应ABC、DEF、GHI、JKL、MNO、PQRS、TUV、WXYZ八组英文字母的规则;
c、检索时,顺序输入与字符对应的数字代码;
d、系统根据载体上字符的类型,分别按相应的对应规则,检索出信息载体上符合检索要求的记录。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410051330 CN1588279A (zh) | 2004-09-06 | 2004-09-06 | 利用数字与字母对应关系实现中文信息快速检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200410051330 CN1588279A (zh) | 2004-09-06 | 2004-09-06 | 利用数字与字母对应关系实现中文信息快速检索的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1588279A true CN1588279A (zh) | 2005-03-02 |
Family
ID=34602432
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200410051330 Pending CN1588279A (zh) | 2004-09-06 | 2004-09-06 | 利用数字与字母对应关系实现中文信息快速检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1588279A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101888427A (zh) * | 2009-05-12 | 2010-11-17 | 中国移动通信集团公司 | 拨号姓名匹配方法及终端 |
CN102833380A (zh) * | 2012-07-26 | 2012-12-19 | 北京小米科技有限责任公司 | 通信终端中的联系人查找方法及装置 |
CN104123295A (zh) * | 2013-04-25 | 2014-10-29 | 上海联影医疗科技有限公司 | 一种病人姓名模糊语义查询的方法 |
CN102833380B (zh) * | 2012-07-26 | 2016-11-30 | 小米科技有限责任公司 | 通信终端中的联系人查找方法及装置 |
CN108595584A (zh) * | 2018-04-18 | 2018-09-28 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
-
2004
- 2004-09-06 CN CN 200410051330 patent/CN1588279A/zh active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101888427A (zh) * | 2009-05-12 | 2010-11-17 | 中国移动通信集团公司 | 拨号姓名匹配方法及终端 |
CN101888427B (zh) * | 2009-05-12 | 2015-03-11 | 中国移动通信集团公司 | 拨号姓名匹配方法及终端 |
CN102833380A (zh) * | 2012-07-26 | 2012-12-19 | 北京小米科技有限责任公司 | 通信终端中的联系人查找方法及装置 |
CN102833380B (zh) * | 2012-07-26 | 2016-11-30 | 小米科技有限责任公司 | 通信终端中的联系人查找方法及装置 |
CN104123295A (zh) * | 2013-04-25 | 2014-10-29 | 上海联影医疗科技有限公司 | 一种病人姓名模糊语义查询的方法 |
CN104123295B (zh) * | 2013-04-25 | 2018-08-31 | 上海联影医疗科技有限公司 | 一种病人姓名模糊语义查询的方法 |
CN108595584A (zh) * | 2018-04-18 | 2018-09-28 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
CN108595584B (zh) * | 2018-04-18 | 2022-06-07 | 卓望数码技术(深圳)有限公司 | 一种基于数字标记的汉字输出方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1258132C (zh) | 用于进行字母符号输入的小键盘布局 | |
CN1607491A (zh) | 使用操纵杆输入中文的系统和方法 | |
CN1941805A (zh) | 通信终端 | |
CN1648828A (zh) | 去多义性语音输入系统和方法 | |
CN1550966A (zh) | 去多义性的简化键盘系统 | |
CN101038508A (zh) | Gb拼音输入法 | |
CN1237435C (zh) | 中文字形输入法 | |
CN1737739A (zh) | 基于英文键盘的藏文输入法 | |
CN1588279A (zh) | 利用数字与字母对应关系实现中文信息快速检索的方法 | |
CN1472979A (zh) | 移动通信终端设备的日语输入装置和方法 | |
CN1217257C (zh) | 数字键盘定档英文输入法和汉语拼音字母汉字输入法 | |
CN1556452A (zh) | 数字键盘智能拼音汉字输入方法 | |
CN1679023A (zh) | 创建和使用中文语言数据和用户自纠正数据的方法和系统 | |
CN1379342A (zh) | 汉语输入变换处理装置以及汉语输入变换处理方法 | |
CN100347645C (zh) | 数字键盘汉字拼音输入法 | |
CN1348125A (zh) | 文本输入方法和设备 | |
CN1293449C (zh) | 数字键盘上选择式中文拼音输入法 | |
CN100342310C (zh) | 二分汉字编码小键盘输入及其显示方法 | |
CN100342311C (zh) | 根拆式汉字输入及其显示方法 | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN1391157A (zh) | 一种文本输入方法及装置 | |
CN1722067A (zh) | 用于输入中文汉字的方法 | |
CN1194391A (zh) | 具有键多义性的文本输入设备和方法 | |
CN1290306C (zh) | 一种键盘及其汉字输入法 | |
CN1556459A (zh) | 基于数字键盘的拼音汉字输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |