CN1116647C - 采用译码的汉字检索方法 - Google Patents

采用译码的汉字检索方法 Download PDF

Info

Publication number
CN1116647C
CN1116647C CN 99113849 CN99113849A CN1116647C CN 1116647 C CN1116647 C CN 1116647C CN 99113849 CN99113849 CN 99113849 CN 99113849 A CN99113849 A CN 99113849A CN 1116647 C CN1116647 C CN 1116647C
Authority
CN
China
Prior art keywords
chinese character
character
chinese
search method
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN 99113849
Other languages
English (en)
Other versions
CN1248024A (zh
Inventor
汪文虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN 99113849 priority Critical patent/CN1116647C/zh
Publication of CN1248024A publication Critical patent/CN1248024A/zh
Application granted granted Critical
Publication of CN1116647C publication Critical patent/CN1116647C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种采用译码的汉字检索方法:在中文平台上不需调用汉字输入法,而根据某种常用和简便的编码原则从键盘输入ASCII基本码字符,生成一个字符串。另一方面,将被检索的数据按汉字内码和与输入字符串所用相同的编码原则译码,返回一个字符串。将两个字符串进行比较,如果相等或被检索字符串蕴含检索字符串,则判别为“真”;否则,为“假”,从而达到进行汉字检索的目的。

Description

采用译码的汉字检索方法
本发明涉及一种计算机应用技术领域中采用编码和译码方式进行信息检索的方法,尤其是指一种采用译码方式的应用于计算机系统上的汉字检索技术。
如今世界已经进入一个信息时代,信息处理包括信息检索已经越来越成为广大普通百姓日常必需之事。例如,一个大型图书馆的藏书多达几百万甚至上千万册,想要找到自己需要的书籍必须首先进行检索;如今的一张电脑光盘容量达几个G以上,可以存储数亿汉字,或是存储上万首MIDI音乐,其数量超过了大多数人毕生阅读过的书籍或欣赏过的乐曲,要是不进行检索人们会觉得无从下手;在邮市上,集邮爱护者面对的是几万种的邮品及其价格,他也必须通过检索,才能找到自己喜欢并且价格合适的邮品。所以,没有优良的检索手段,想要查找到需要的信息如同海底捞针。
此外,广大的华人电脑用户也要求电脑软件能使用汉字。经过二十多年的不懈努力,汉字的输入输出方法都已相当完善,可是汉字的检索尚待改进。解决汉字检索的困难便显得极为紧迫。
如图1所示,现在的汉字检索流程是:在中文平台上选一种汉字输入法,输入检索字的“模板”字符串,然后将被检索的数据字符串逐段取出,如若其中有一段和模板的字符串完全相等,则判别为“真”。现在的汉字检索方法必须调用汉字输入法并按照汉字方式输入,而且一般在检索字段中不能含有符号或西文,否则往往无法识别。
然而,在实际中上述的汉字检索碰到了各种各样的困难,如:
1.有些电脑软件运行时在汉字平台上可以输出汉字却不能输入汉字,因此难以用汉字作为检索字;
2.有些电脑软件运行时尽管允许输入汉字,但当输入中既包含汉字又有西文、符号时会遇到麻烦或因为切换而使操作相当繁琐;
3.在信息发达的当今社会,许多文化水平尚不甚高的普通中国民众掌握汉字输入方法有困难,但也有大量的信息需要选择和检索,这就要求有简易的汉字检索方法与之适配。
针对上述情况,本发明的目的在于提供一种采用译码的汉字检索方法。操作者可以不必调用汉字输入法,甚至不必掌握汉字输入法,即能进行汉字检索。
本发明的另一目的在于使用简捷的编码,使操作简单、使用方便,提高了汉字检索的效率,达到简便、高速、高效的目的。
电子计算机是处理信息的机器,它所处理的信息不仅有数字还有文字、图形,声音以及其它可以转换成电信号的物理量。在电子计算机的内部无论数据、地址,运控都使用二进制,因此计算机对于信息的输入输出都要进行编码和译码,使用的是美国标准信息代码ASCII码。ASCII码事实上已为国际公认,中国国标GB 1988《信息交换用的七位编码字符集》基本上等同ASCII基本码。GB 2311《信息处理交换用于七位编码字符集的扩充方法》,GB 11383《信息处理信息交换用八位代码结构和编码规则》规定了扩展码的使用方法。GB 15273(等同ISO 8859)规定了多种非英文的拼音字母的扩展码编号。
汉字等文字数较多的文种则使用两个毗连的ASCII码,即双字节形式,便可在电脑中存储。这种双ASCII的形式,称为内码。所以汉字是以内码的形式在电脑中储存的。
汉字字符集只是内码和汉字的映射关系表,是电脑储存汉字的规范。内码存储在电脑中,它符合一字一码、一码一字的原则。
目前电脑用的汉字库主要有两类:一.基本库:①GB 2312标准《信息交换用汉字编码字符集 基本集》国标区位码,简称GB码。共94区94位,其中一级汉字3755个,二级汉字3008个,共6763个简体汉字。②GB/T 12345“信息交换用汉字编码字符集 辅助集”简称GBFT,包含6866个繁体汉字。GB/T12345尽管称为辅助集,实际却是基本库,其中一二级汉字库和GB 2312相同,只是增加了103个60年代汉字简化时被精简掉的汉字。二.扩展库:汉字的单字个数甚多,为满足编写整理古籍需求,中国国家标准局制订了:
   GB 7578《信息交换用汉字编码字符集  第二辅助集》
   GB 13131《信息交换用汉字编码字符集 第三辅助集》
   GB 7590《信息交换用汉字编码字符集  第四辅助集》
   GB 13132《信息交换用汉字编码字符集 第五辅助集》
第三、第五辅助集乃是第二、第四辅助集的繁体字。以上几个辅助集尽管是强制性标准,却似乎很少有人使用。也许和这些字符集都使用了94区94位,要通过ESC控制命令“转义”完成字符集转换,编电脑程序有点麻烦有关系。除了要扩大字库外,针对以往的汉化软件只能简繁体切换不能同时使用的局限性,又制订了允许简繁日韩汉字同时使用的ISO/IEC 10466.1/GB 13000.1《CJK统一汉字编码 字符集》,简称CJK即“中、日、韩”,收集了20902个汉字。而在港台则使用CNS 11643标准,俗称大五码BIG 5的字符集,含有13053个繁体汉字。目前国内电脑汉字大字库用《汉字扩展内码规范》GBK,它涵盖CJK汉字以及BIG 5非汉字库,另加80个汉字部首和构件。
汉化的关键是输入输出的编码和译码。它们都分两个步骤进行:对于输入,首先是把汉字按照某种规则编成外码,然后将外码转换为双ASCII码的内码储存;对于输出,首先是读出存储着的ASCII内码,再调用汉字字符集输出内码相对应的汉字。从键盘连续按一些键来输入汉字,这类汉字输入法的编码叫做外码,外码未必符合一码一字。电脑操作输入汉字时先用易于记忆、编码较短的外码键入汉字,再由电脑自动转换为内码存储。用任何方法输入汉字,都得经过编码录入电脑,本发明的检索法只和汉字内码有直接联系,和外码以及汉字输入方式无直接关系。反过来说,用任何方式方法输入的汉字,都可以用本发明的译码法检索。
电脑软件的汉化并非要求全部使用汉字,而是根据需要可以中西文、阿拉伯数字、符号混用,以取得最佳效果为目标。检索汉字实质上就是作字符串比较,当被检索字符串和检索字符串比较判别为相等时为“真”。
本发明的技术方案如下:
一种采用译码的汉字检索方法,包括下述步骤:
(1)加载汉字检索系统,
(2)选择字符集的类型,
(3)从系统输入设备输入检索字,
(4)按检索字的输入顺序和界定符生成“检索字符串”,
(5)读出被检索的数据,
(6)对被检索数据译码生成“别称字符串”,
(7)比较“检索字符串”和“别称字符串”
(8)做被检索数据的逻辑运算和关系运算,以判别适配,
(9)检查数据是否终了,
(10)进入下一个数据区,
(11)检索完毕。
本发明改变了汉字检索的思路和运行流程:在中文平台上不调入汉字输入法,而根据某种常用和简便的编码原则从键盘输入ASCII基本码字符,组成一个字符串。另一方面,将被检索的数据字符串按汉字内码和与输入字符串所用相同的编码原则译码,返回一个字符串。将两个字符串进行比较,如果相等或被检索字符串蕴含检索字符串,则判别为“真”。
前述的用来从键盘输入由ASCII基本码字符组成的检索字符串的常用和简便的编码方法是这样的:通常采用汉语拼音首字符的方法,即采用输入检索字的每一个汉字的汉语拼音的第一个字母(不管它是声母还是韵母)的方式来进行检索,因为这种方式不需背诵编码规则,击键次数较少,易学好懂、操作简便,只要会汉语拼音即可。
由于本汉字检索方法提出的方法不需要汉字输入模块,因而可以应用于不能输入汉字,但能输出汉字的场合;可以避免中西文和符号输入切换时的操作困难;而且,实际上配合本发明的是简短的编码法,能用较少的键入来进行检索,从而节省机时。于是,不会使用汉字输入法的用户,利用本发明也能检索汉字;会用汉字输入法的用户,利用本发明可以提高检索效率。
归纳起来,本发明相比传统的汉字检索方法,有如下的显著效果:
1.检索的汉字可以不必调用汉字输入法,甚至检索者可以不懂汉
字输入法;
2.采用本汉字检索方法,可以简化检索词的输入,操作非常方便;
3.在信息量庞大的系统中进行汉字检索,比传统方法要快;
4.不需规定检索的格式,检索字符可以是首字符、中间字符或者
尾字符。
附图说明:
图1    常见的汉字检索方法流程示意图;
图2    本发明的汉字检索方法流程示意图;
图3    本检索方法的计算机程序流程图
下面结合附图详细描述本发明。
如图2所示,本发明改变了汉字检索的思路和运行流程:在中文平台上不调入汉字输入法,而根据某种常用和简便的编码原则从键盘输入ASCII基本码字符,组成一个字符串。另一方面,将被检索的数据字符串按汉字内码和与输入字符串所用相同的编码原则译码,返回一个字符串。将两个字符串进行比较,如果相等或被检索字符串蕴含检索字符串,则判别为“真”。
图2中的各步详细揭示如下:一、加载汉字检索系统
将本发明所形成的汉字检索方法安装在所需的计算机系统中,本汉字检索方法可适合于各种操作系统和应用软件,如DOS、CCDOS、WINDOWS等。本汉字检索方法只是用来扩展操作系统的功能,而不是替代原有的操作系统。二、选择字符集的类型
本汉字检索系统启动后,将自动判断字符集的类型。要实现此种判断,其具体操作可以是这样的:读取原汉字输入系统所配带的字库中若干个固定位置的字符及内码,同程序中己设定用来作为标准的内码相比较,选择内码相同的那一个设定即代表了原字符集的类型。
本汉字检索系统采用的译码法可以用于各种电脑双字节字符编码集,如:GB 2312《信息交换用汉字编码字符集基本集》;GB/T 12345《信息交换用汉字编码字符集辅助集》;台湾CNS 11643标准BIG 5大五码;ISO/IEC 10646的CJK字库,以及GB 12052朝鲜文字,GB 8045蒙古文字,GB 12050维吾尔文字,和其他国家其他民族的双字节字符。其中以GB2312,GB 12345,CNS 11643汉字编码字符集最为常用。在启动本汉字检索系统后,它应识别电脑中字符编码集的类型,并与之相匹配,是个自适应系统。
三、输入检索字
本汉字检索方法中采用的译码,原则上可以将任何输入法、检字法逆转。以汉字输入法为例,各种独特的编码法尽管各有所长,但是绝大多数输入法不能为广大用户所认同,而难以付诸实用。本发明以汉字词组的汉语拼音首字符作为作为输入检索词的输入字符,只要操作者具备普通话的拼音基础,就不必预先学习训练,而且击键数少,最容易被广泛接受。除了前述的用汉字拼音首字符输入检索字,本发明也可采用各种现在已有的输入法来输入检索字,如采用双拼输入法、全拼输入法、注音输入法、五笔字型输入法、郑码输入法、王码输入法等。
本汉字检索方法还可以采用缩码或缩键(针对电话之类的少键键盘采用较少的键码)的输入方式。如果希望减少键入的次数,可以采用缩码。典型的代表是使用汉语拼音首字符,一个汉字缩码为一个码,用一个声母和一个韵母的双拼也是缩码。现在的双拼字母声韵不分,只能用两个字母代表一个汉字,考虑到汉语拼音首字符共要使用23个拼音字母,余下i、u、v中的i、u为韵母,此外以@、1、0分别代表a、e、o(@、o为形似,i为声似),便可以声韵分开,用一声一韵或一声或一韵来检索,声韵检索对于被检索对象字数短的有些优点。
改进后的声韵输入法的具体对应如下:
拼音首字母:a o e b p m f d t n l g k h j q x z c s r wy(z、c、s含zh、ch、sh)。
键盘:a o e b p m f d t n l g k h j q x z c s r w y。
声韵字:a e i o v u,
键盘:@ I i o u v。
对于硬件键数少的,如电话、遥控器等,可以使用缩键方法。
不过,缩键的适用场合不会很多,遥控器23键以上的已经很普遍。四、按译码法生成“检索字符串”
根据程序,将输入的信息转化成可以进行比较的“检索字符串”。
本汉字检索方法可以用于中西文及符号的混合检索,能识别中西文、大小写及符号等。例如:①用小写字母代表汉字,大写字母代表英文,英文检索不区分大小写,这是汉字输入常用的方法;②用大写字母表示汉字,小写字母表示英文,英文检索不区分大小写;③英文区分大小写,中文统一用小写(或大写)字母映照;④英文不区分大小写,中文统一用小写(或大写)字母映照。由于中文检索首字符排序和英文字母排序常有显著差别,③、④方式检索出的冗余对象也不会很多。
例如:被检索对象“汉化Qbasic语言”
在汉字检索方法中,数据转换过程如下:
    数    据 字符串内容 GB汉字,十六进制码
原始数据 汉化Qbasic语言 BABA  BBAF  5142   617369  63D3  EFD1   D4
将英文转化为大写字母 汉化QBASIC语言 BABA  BBAF  5142   415349  43D3  EFD1   D4
将汉字转化为拼音首字符 hhQBASICyy 68  68  51  42  4153  49  43  79  79
检索字可取“hhQB*”,此格式表示首段匹配,*号是一个标记,表示其后无要求。被检索字生成的别称字符串为“68 68 51 42 4153 49 43 79 79”,而检索字符串生成的检索字符串为“68 68 5142”,字符串比较时截取前4字节,皆为
          68 68 51 42                吻合!检索成功。
中西文混合检索,其中所谓的符号是ASCII码基本码符号,占一个字节,和一个英文字母相仿。汉字字符集中的双字节符号,不能作为检索字母内容,检索时跳过,但允许在被检索字中存在。五、读出被检索的数据
根据程序命令,计算机自动从内存、硬盘、软驱、光盘或者网络、数据光缆甚至于大型数据库等读取被检索的数据。六、按译码法生成“别称字符串”
在检索汉字时,对于被检索字符串以两个字符为一组逐一判断和处理,经过译码构成一个“别称字符串”,以配合GB 2312和GB/T12345字符集为例办法是:①汉字库以外的字符,即ASCII码小于161的字符,原样照抄;②对于一二级汉字,根据译码字符库转换为相应的编码字符;③对于汉字库范围内的非汉字部分,即16区以前和87区(或GB/T 12345的90区)以后的部分,放弃。
被检索的字符串,可以预先自动转换成的“别称字符串”存储起来。也可以在检索时临时生成。采用何种形式,取决于被检索对象的长度和是否相对稳定。如果被检索对象总长度小于10万字节,译码花费的时间与键入字符的时间相比可以忽略,不需要存储别称。如果被检索对象变动甚多,比如网络信息或读取光盘,则没有可能事先转换。反之,例如图书目录之类量大又稳定的字符可以预先转换成别称存储起来,节省每次检索的机时。并且将别称字符串按照大小顺序排列,如若检索的是首字段,便可以用对分法快速查取。
被检索的对象,以程序设计角度看待,均属于资料文件,其结构可以分成:非格式化顺序文件、格式化顺序文件、随机文件。预先存储“别称字符串”的方法视对象的格式而定:对于格式化顺序文件,转换为字符串二维数组;对于非格式化顺序文件,转化为字符串简单变量或字符串一维数组;对于随机文件转化为记录变量数组。把这些数组存储在电脑内存中,检索匹配的元素,根据它的下标和原始数据的映照关系就能确定匹配的原始数据。
本汉字检索方法所用的译码和以词组为单位的汉字输入法不同,它不包含固定和可扩展的词库。它属于自适应系统,能和被检索字符串自动寻找匹配。
本汉字检索方法的译码需要有一个和内码配套的译码字符库,产生键盘和被检索字符的映照。译码字符库相当于一个二维数组,其中的一维对应于汉字编码字符集的区,另一维对应于位。当译码采用定长字符串,例如使用一个字符时,译码字符库可以改用一维数组,一个数组单元相应于一个区。采用一维数组占用的存储单元较少,加载速度较快。附录一列出用小写拉丁字母对GB 2312《信息交换用汉字编码字符集基本集》的汉字汉语拼音首字符译码字符库,用PII-300微机从硬盘读入内存的时间约2.6毫秒,占用内存不到8K,消耗资源甚少。译码的程序也不很复杂,很容易固化到芯片中用于智能仪表和家用电器。七、比较“检索字符串”和“别称字符串”
将“别称字符串”和“检索字符串”进行比较,如果匹配的话,判别为真,如有需要可以记下匹配的位置,把匹配的部分以不同颜色或字体表示,以便识别;并可以将原字符串显示或打印出来。如果不匹配的话,判别为“假”。
本汉字检索方法,可以结合逻辑运算。最常用的是“与”计算,对几个检索字段综合判断。在文件检索时通常用“*”作为分隔符来分隔检索字段,表示对这些字段作“与”运算。例如,被检索对象“汉化Qbasic语言”可以用“hh*yy来检索。对于关键词或者主题,逻辑检索更有价值。以化学催化剂查询为例,比如要寻含白金加氢裂化催化剂,用汉语拼音首字符检索词应为“*bj*jq*lh*chj*”。如果把检索词改为“*bj*jq*chj*”,适配的范围就扩大了,不局限于加氢精制、加氢改制、油脂加氢硬化等等所用的包金催化剂。
此外,对于字段还可以要求“全匹配”、“首字段匹配”、“末字段匹配”、“中间字段匹配”。中间字段又可以要求“顺序匹配”或“非顺序匹配”。从而满足各种检索需要。这些前题可以在包含译码检索的程序中反映出来。八、其它步骤
如果比较以后判别为真,则显示或打印原被检索的数据,把匹配的部分以不同的颜色或字体表示出来,以便识别。同时,可做其它相关的运作,如运行该程序等。然后检查被检索的数据是否已经终了,若终了,则检索完成;若未终了,则进入下一个数据区,进行新一轮循环。
如果比较以后判别为假,则确定是否还要作进一步的检索,若不是,则检索完成;若是,则进入下一个数据区,进行新一个检索。
另外,本汉字检索方法的兼容性和内码的兼容性一致。例如:GBK涵盖CJK,CJK涵盖GB 2312。GB 12345的一二级字符集又和GB2312相同只是改用繁体显示,于是GB 2312内码的译码便可以用来检索GBK、CJK、GB 2312、GB 12345,只是只能用GB 2312内码的译码作检索字,其它汉字可以作为被检索字的成份,显示和打印出来。
反之,GBK的译码法也可以向下兼容用于CJK、GB 12345、GB2312内码检索。只是对GB 12345、GB 2312而言,不能同时将ISO4873/GB 11383的C1集八位码用于非英文的西文单字节字符,这并不会对实际使用造成困难。
应用例1
WIN 95操作系统推出了最长可达255个字符的长文件名,彻底解决了PC机8.3文件名缺乏文件标题识别能力的缺陷;改进了文件检索功能,适应了计算机存储量急速扩大,信息量速增带来的困扰;配置了多种文件驱动方式,方便了操作;但是,在WINDOWS下检索的资信不够完善,在DOS下用DIR命令检索需要具备DOS中文平台。兹将汉字检索译码法编成可执行程序,用于检索汉字和英文的路径名和文件名,达到不调入汉字系统即能方便地查寻路径和文件的目的。
查寻路径名时只使用一个首字段,将磁盘或光盘中的路径名读入内存,然后用和GB 2312《信息交换用汉字编码字符集 基本集》配套的汉语拼音首字符数据库转换成别称,再和键盘输入的检索字进行字符串比较,查得匹配的路径名。如果符合要求的路径名是唯一的,自动进入文件名查寻;如果和检索字符串匹配的路径名不止一个,则列出全部匹配的路径名及其序号,供选择确认。
检索文件名使用同样的方法,只是由于文件名较长,因此允许分若干检索字段作逻辑检索,检索格式能反映检索字段是首字段还是尾字段或是中间字段,中间字段可以指定是否要求顺序匹配。如果检索结果是唯一的,自动运行文件;否则将匹配的文件名全部显示出来,并将匹配的部分以醒目的颜色显示,以供挑选。
该软件可以选择“包含子目录”和“不包含子目录”两种检索模式。比如,WIN 95中有贝多芬《给艾丽丝》的乐曲,在国内的唱片上多大译为“爱丽丝”,用本发明的技术,只要键入als,便能将该文件自动挑选和显示出来,配上驱动程序即便演奏该乐曲。
以读取硬盘为例,C盘中约1000个路径,P II-300微电脑查找匹配的中文路径名花费的时间约为磁盘机械运行时间的10至20%。若从软盘、光盘、通信电缆读取数据速度更慢,检索时间所占比例更低。电脑键盘是“轻磅”的,输入速度不可能超过400键/分钟,大多数人输入速度达不到250键/分钟,况且键入时动脑的时间比动手的时间多,本发明免除了调入汉字输入法以及键入操作较为简便节省了时间,从而缩短了检索耗费的总机,是一种高效的检索方法。
本方法克服了WINDOWS下运行目标程序难以输入汉字,因而也难以检索汉字的困难,也可以避免输入字符串包含汉字、西文、符号同时出现的操作麻烦。具有高度的适应性和灵活性。
应用例2
对于图书检索、专利检索、电话号码检索、海关关税检索等等,这些对象的数据结构大凡比较简单,可以用一张表格来表达,表格中的每一行有若干个数据项,反映被检索对象的特征。因此,象图书检索、专利检索、电话号码检索、海关关税检索等等只是此类表格数据查询的例子。比如,拿名片作例子,名片上通常包含:姓名、职务、单位、单位地址、电话、传真、网址等项目,这些数据既是检索的对象,又是检索的依据。一般情况是将知道的一项或数项输入,要求输出全部数据。检索系统允许用户选择输入项,本发明的特点是检索中的汉字部分可以在西文输入状态下进行,并且键入的内容可以简化。现在要查找一个名叫“发明者”的人的名片,只需键入“fmz”即可,比键入“famingzhe”要简便;若要缩小搜索范围,可以在公司一栏键入公司名称拼音首字符。反过来,要是想在名片中查找“专利商标代理”,只要在公司栏目中键入*zlsbdl*,便能查到这一行业所有公司的人员名片。
综上所述,本发明可以使汉字的检索非常易学、好用,不需调用汉字输入法,也不必记忆繁杂的汉字输入规则,而且在进行中西文混合检索时更为简便、快捷。上述的实施例对本发明作了更进一步的描述,但这并不以此为限。

Claims (16)

1.一种采用译码的汉字检索方法,其特征在于包括下述步骤:
(1)加载汉字检索系统,
(2)选择字符集的类型,
(3)从系统输入设备输入检索字,
(4)按检索字的输入顺序和界定符生成“检索字符串”,
(5)读出被检索的数据,
(6)对被检索数据译码生成“别称字符串”,
(7)比较“检索字符串”和“别称字符串”,
(8)做被检索数据的逻辑运算和关系运算,以判别适配,
(9)检查数据是否终了,
(10)进入下一个数据区,
(11)检索完毕。
2.根据权利要求1所述的采用译码的汉字检索方法,其特征在于所述的第(3)步输入检索字的方法可以采用声韵输入法,即只取检索字的汉语拼音首字符,既可以是声母,也可以是韵母,其拼音和通用键盘上的键的对应关系如下:
拼音首字母:a o e b p m f d t n l g k h j q x z c s r w y,
      键盘:a o e b p m f d t n l g k h j q x z c s r w y。
3.根据权利要求1所述的采用译码的汉字检索方法,其特征在于所述的第(6)步的译码法针对下列各种汉字、韩文、蒙文、维吾尔文字以及其他国家和民族制订有计算机字符集的双字节字符编码集:GB 2312《信息交换用汉字编码字符集基本集》、GB/T 12345《信息交换用汉字编码字符集辅助集》、台湾CNS 11643标准BIG5大五码、ISO/IEC 10646的CJK字库、GB 12052朝鲜文字、GB8045蒙古文字、GB 12050维吾尔文字,特别适用于汉字系统。
4.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,所述的选择字符集的类型,能自动判断字符集的类型并与之匹配,是个自适应系统。
5.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,所述的汉字检索方法只和计算机内码相关,和外码无关,即不管汉字用何种输入法输入,第(6)步的译码法均可以将其逆转,如:双拼输入法、全拼输入法、注音输入法、五笔字型输入法、郑码输入法、王码输入法、汉语拼音首字符输入法。
6.根据权利要求1或2所述的采用译码的汉字检索方法,其特征在于,所述的第(3)步输入检索字可以采用缩键和缩码的输入方式。
7.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,所述的第(3)步在输入检索字时可以同时输入中西文和符号以及它们的混合组合。
8.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,所述的第(6)步按译码法生成“别称字符串”后可以存储该“别称字符串”。
9.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,所述的第(6)步的译码法可以结合逻辑运算,最常用的是“与”。
10.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,所述的第(6)步的译码法可以对检索率段要求“全匹配”、“首字段匹配”、“中间字段匹配”、“末字段匹配”。
11.根据权利要求1所述的采用译码的汉字检索方法,其特征在于,第(5)步的被检索数据可以是:计算机文件目录、文件名称、文件内容和关键词;报表和数据库的表格数据:如人名、地名、单位名、货品名、内容摘要等;含汉字或其他双字节文字的网络通信资信;图书、专利、文献资料、电话号码、海关关税等标题;以及各种含汉字或其他双字节文字的家用电器和智能化仪表中存储的信息,特别是光盘存储的大量节目信息。
12.根据权利要求1所述的采用译码的汉字检索方法,其特征在于本汉字检索方法在执行检索过程中可以不必调用原中文平台的汉字输入法。
13.根据权利要求4所述的采用译码的汉字检索方法,其特征在于所述的汉字检索方法不包含固定和可扩展的词库。
14.根据权利要求10所述的采用译码的汉字检索方法,其特征在于所述的“中间字段匹配”可分为“顺序匹配”和“非顺序匹配”。
15.根据权利要求11所述的采用译码的汉字检索方法,其特征在于所述的汉字检索系统可以以磁盘、光盘或其他外部记录材料为媒体,用于电子计算机或电脑化智能设备,也可以固化入ROM、EPROM半导体材料用于各类电器及电信设施。
16.根据权利要求1所述的采用译码的汉字检索方法,其特征在于所述的第(9)步可以在检索完成后显示或打印被检索的数据,或者把匹配的部分以不同的颜色或字体表示出来,还可以做相关数据的运算或执行程序。
CN 99113849 1999-07-06 1999-07-06 采用译码的汉字检索方法 Expired - Fee Related CN1116647C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 99113849 CN1116647C (zh) 1999-07-06 1999-07-06 采用译码的汉字检索方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 99113849 CN1116647C (zh) 1999-07-06 1999-07-06 采用译码的汉字检索方法

Publications (2)

Publication Number Publication Date
CN1248024A CN1248024A (zh) 2000-03-22
CN1116647C true CN1116647C (zh) 2003-07-30

Family

ID=5276995

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 99113849 Expired - Fee Related CN1116647C (zh) 1999-07-06 1999-07-06 采用译码的汉字检索方法

Country Status (1)

Country Link
CN (1) CN1116647C (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2003232839A1 (en) * 2003-05-28 2005-01-21 Leonardo Badino Automatic segmentation of texts comprising chunsks without separators
CN101201829B (zh) * 2006-12-15 2011-06-15 英业达股份有限公司 一种汉字库系统及其字码显示方法
KR101334154B1 (ko) * 2012-06-27 2013-11-28 (주)신명시스템즈 중국어 단어 입력 장치 및 방법
CN105426389A (zh) * 2015-10-26 2016-03-23 武汉微创光电股份有限公司 一种基于ui界面树型目录视图的模糊检索定位方法
CN113760246B (zh) * 2021-09-06 2023-08-11 网易(杭州)网络有限公司 应用程序文本语言处理方法、装置、电子设备及存储介质
CN115391495B (zh) * 2022-10-28 2023-01-24 强企宝典(山东)信息科技有限公司 在中文语境中检索关键词的方法、装置及设备

Also Published As

Publication number Publication date
CN1248024A (zh) 2000-03-22

Similar Documents

Publication Publication Date Title
US8401838B2 (en) System and method for multilanguage text input in a handheld electronic device
CN100334530C (zh) 简化键盘多义性消除系统
US5873111A (en) Method and system for collation in a processing system of a variety of distinct sets of information
US20020165707A1 (en) Methods and apparatus for storing and processing natural language text data as a sequence of fixed length integers
CN1008016B (zh) 输入处理系统
CA2579052C (en) Multi language text input in a handheld electronic device
CN1095560C (zh) 修改汉字转换结果的系统
CN101770291B (zh) 输入系统语意分析数据散列存储和分析方法
CN1116647C (zh) 采用译码的汉字检索方法
CN100476826C (zh) 中文字型排序检索方法和装置以及一种信息系统
CN101021828A (zh) 汉语电子大字典
CN101331483A (zh) 用于操纵数据文件的方法和设备
CN102722527B (zh) 一种支持含有缺失符号的查询请求的全文检索方法
CN1679023A (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN101206665B (zh) 一种多语种文字信息搜索方法
CN1466039A (zh) 可以进行中文和多种文字输入的电子遥控器
TWI230341B (en) Kanji searching method using codes
CN1269542A (zh) 联想汉字输入系统
CN101034403A (zh) 一种小键盘电子字典的智能检索方法
CN1975643A (zh) 一种互联网网址搜索器
CN1058342C (zh) 汉字编码的计算机输入方法
CN102103610A (zh) 一种检索信息、信息处理的方法及装置
CN1318784A (zh) “一字加四笔”中文词语手写输入方法
CN1248014A (zh) 按部件首尾码的计算机汉字输入方法及其键盘
JPH10162126A (ja) 文書の電子化装置

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee