CN100476826C - 中文字型排序检索方法和装置以及一种信息系统 - Google Patents

中文字型排序检索方法和装置以及一种信息系统 Download PDF

Info

Publication number
CN100476826C
CN100476826C CNB2007100007509A CN200710000750A CN100476826C CN 100476826 C CN100476826 C CN 100476826C CN B2007100007509 A CNB2007100007509 A CN B2007100007509A CN 200710000750 A CN200710000750 A CN 200710000750A CN 100476826 C CN100476826 C CN 100476826C
Authority
CN
China
Prior art keywords
chinese font
stroke
font
infosystem
coding
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2007100007509A
Other languages
English (en)
Other versions
CN101000625A (zh
Inventor
劳英杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CNB2007100007509A priority Critical patent/CN100476826C/zh
Publication of CN101000625A publication Critical patent/CN101000625A/zh
Priority to PCT/CN2008/000109 priority patent/WO2008089654A1/zh
Application granted granted Critical
Publication of CN100476826C publication Critical patent/CN100476826C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)
  • Controls And Circuits For Display Device (AREA)

Abstract

本发明提供了一种用于信息系统的中文字型排序检索方法,信息系统的内容包含中文字型,中文字型排序检索方法包括以下步骤:按照预定的编码规则将中文字型映射到由字母数字构成的编码;以及按照编码的顺序将中文字型排序。本发明还提供了一种用于信息系统的中文字型排序检索装置,以及提供了应用该排序检索方法或装置的信息系统。

Description

中文字型排序检索方法和装置以及一种信息系统
技术领域
本发明涉及用于信息系统的中文字型排序检索方法和装置,以及应用该中文字型排序检索方法或装置的信息系统,例如数据库或分页编排的字库(即字型数据库)等。
背景技术
在现代社会管理中,大量应用了计算机技术,尤其是数据库技术。数据库的应用已经渗透到了当今社会的每一个角落。在利用数据库等信息系统管理资料时,很多资料是以自然语言的方式进行输入或者检索的。人们通常使用键盘向计算机输入文本。计算机键盘一般是基于西文字母表而设计的。键盘起源于打字机,这些打字机在使用印欧语系语言以及使用拉丁字母的国家非常普及。因为这些键盘所用于输入的语言中的字符中的每个字(即单词)都是由字母表中的字母组成,所以这些键盘都有一种相同的结构。因此,由于字母表固定,并且字母数量相对较少,所以可用常规的键盘输入来自固定字母表的语言中的任何字。
然而,人们对于语言的使用并不仅限于英文,除英文之外,还存在着一些由复杂的部首或者笔画构成单字的语言系统,例如,汉语、韩语、和日语中的汉字。在汉语体系中包括繁体字和简体字,但是,无论繁体字或简体字都是由不同数量的部首或笔画组成,每个字型基本上都有所属的部首,字体结构千变万化,不易与键盘直接建立起对应关系,因此,使用标准计算机键盘直接输入汉字就比较困难。
应用了数千年的汉字系统,汉字字型本身其实是一种唯一性的表义符号,到目前为止,中文字型并没有一套完整的标准、以及唯一字型的排序及编纂方法,原因在于字数以及字型的不断变化。在以中文字型为内容的数据库例如字型数据库(简称为字库)中,当需要输入或处理资料时,为了提高效率,人们通常将资料按照中文字型进行排序。由于键盘的缘故,中文字型若需要有系统地排序,必须要把字型以数字或字母的编码方式进行排序,以唯一字型排序就能用直观方式进行检索。应用范围包括任何信息系统例如数据库中。
下面的信息系统将以数据库来进行举例说明。
中文字型排序的方法,到目前为止,主要有两种方法,第一、是按照部首归类方法排序,然后在该部首的相同笔画数量内顺序寻找。但此方法的最大缺点是使用部首分类及笔画数量,并未有一套共同标准,排序时若不能确定部首所属,会浪费大量的排序时间,甚至无从入手,由于一般用户对于中文字型的笔画不能完全掌握,通常在排序时,都需要在该部首内的加减二笔画的顺序排列位置查找排序位置,这样就耗掉大量查找时间。在大量部首相同但笔画数量接近的中文字型内进行排序查找时,对于排序时的判断效率,更会带来极大负担。
第二、是按照字型的拼音标准进行排序,其方式是在相同的字库内,添加一个拼音目录,需要在大量的同音字的目录内排序出所需的中文字型,目录编排时通常按照声母、声韵再声调的字母序列进行。在同音字内排序时,在不同部首的中文字型的大量排序内费力的进行判断查找,若遇上发音错失,那查询就有很大障碍。
两种排序检索方法,都需要先在字型数据库的索引内排序出字型的页码,然后按照页码位置查找,这些过程都会耗掉大量时间。其实这两种都是沿用中文字型以部首分类的方式置放字型。同时这两种都只是属于目录索引式的排序方法,这种中文字型的编排位置都相同的方式,并不能提高任何效率。中文字型需要以严密的逻辑重新置放位置,才能以更高效率的方式进行排序,问题是在于以往字型编排的位置并不利于有效的逻辑查询。
中文字型目前是全世界最多人学及应用及学习的文字之一,而每种文字的应用及学习过程都需要应用于数据库或纸质印刷的字库(例如辞典)等,其作用是对于陌生的中文字型在数据库内进行排序,查考字型的理解。但到目前为止,仍未有一套快速及准确的中文字型的排序检索方法,原因是中文字型在所有的文字系统内最复杂的。其他绝大部分的文字都由数十个的拼音文字组成,各拼音文字都有固定的排序型式,而所有拼音文字的数据库通常按照该排序编排而成。
中文数据库的结构理念为对于大量汉字的系统编排及对应编排的字型系统进行认知排序。众所周知,汉字系统的结构,是由不同的部首及部件组成,一般而言,部首是管辖汉字系统的类别,但部首本身在字型上,因为要应用在不同的汉字时,出现或多或少的变化,遂引致在部首目录索引的字型集合内以及在数据库上出现大量的混淆不清,甚至大部分数据库运用的部首在分类及数量上都还未有一套标准。
众所周知,在信息系统中存在以下的规律:数据的字节越少,处理速度就越快,所以每个中文字型以最少及固定的位元量进行排序,速度将是最快的。对于非固定长度的较多字节的数据只能运用顺序的排序算法,而固定数据却能同时运行顺序及逆序排序算法,或切分后进行顺序及逆序算法。
发明人在实现本发明的过程中发现:上述信息系统用到的编码数量都比较多,并且有可能编码数量不固定。信息系统中采用这样的编码方案进行排序检索,必须采用较多位来表示中文字型的编码,例如,拼音规则就是非固定长度数据,一般以2字节至6字节组成,每字节8bit,从而导致排序检索的速度较慢。
发明内容
本发明旨在提供用于信息系统尤其是数据库的中文字型排序检索方法和装置,以及应用该中文字型排序检索方法或装置的信息系统,以实现对中文内容的检索、编排、输入等。
本发明的一个方面,提供了一种用于信息系统的中文字型排序检索方法,信息系统的内容包含中文字型,中文字型排序检索方法包括以下步骤:按照预定的编码规则将中文字型映射到由字母数字构成的编码;按照编码的顺序将中文字型排序;其中,编码规则如下:按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,笔画与编码基本上一一对应,其中,预定笔画集合包括:“、”,代表中文字型中的点类笔画;“丿”,代表中文字型中的短撇及短捺类笔画;代表中文字型中的长撇及长捺类笔画;“-”,代表中文字型中的短横及短竖类笔画;以及“—”,代表中文字型中的长横及长竖类笔画;以及使用包括字母键和数字键的输入装置在信息系统中按照编码的顺序检索中文字型,其中,编码至少对应于字母键和数字键中的任意5个。
在上述的中文字型排序检索方法中,编码至少包括5个数字,中文字型排序检索方法还包括以下步骤:使用输入装置的数字键在信息系统中按照编码的顺序检索中文字型。
在上述的中文字型排序检索方法中,“、”对应数字“1”;“丿”对应数字“2”;
Figure C20071000075000111
对应数字“3”;“-”对应数字“4”;“—”对应数字“5”,中文字型排序检索方法还包括以下步骤:使用数字键1、2、3、4、和5在信息系统中按照编码的顺序检索中文字型。
在上述的中文字型排序检索方法中,在中文字型的形式分类上,分为横排和竖排两种,皆以两组数字组合进行编码;在中文字型的结构上,分为单体字和合体字,皆以两组数字组合进行编码;若字型笔画不足序列数字组合,就均以数字“0”表达。
在上述的中文字型排序检索方法中,在使用输入装置的数字键在信息系统中按照编码的顺序检索中文字型时,只分别输入两组数字的前三位。
在上述的中文字型排序检索方法中,信息系统是用于查询特定中文字型的分页编排的字库,中文字型排序检索方法还包括以下步骤:将中文字型排序后依次编排到字库的各页面中,并相应地得到各页面的页码;如果要检索字库中的预定中文字型,则先将预定中文字型转换成编码,然后对应到页码,然后从页码对应的页面中检索中文字型。
在上述的中文字型排序检索方法中,预定笔画顺序是中文字型的书写笔顺。
根据本发明的另一方面,提供了一种用于信息系统的中文字型排序检索装置,信息系统的内容包含于中文字型中,该排序检索装置包括:编码模块,用于按照预定的编码规则将中文字型映射到由字母数字构成的编码;排序模块,用于按照编码的顺序将中文字型排序;检索模块,用于按照编码的顺序从信息系统中检索中文字型;其中,编码规则如下:按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,笔画与编码基本上一一对应,其中,预定笔画集合包括:“、”,代表中文字型中的点类笔画;“丿”,代表中文字型中的短撇及短捺类笔画;
Figure C20071000075000121
代表中文字型中的长撇及长捺类笔画;“-”,代表中文字型中的短横及短竖类笔画;及“—”,代表中文字型中的长横及长竖类笔画;输入装置,其包括字母键和数字键,用于在信息系统中按照编码的顺序检索中文字型,其中,编码至少对应于字母键和数字键中的任意5个。
根据本发明的另一方面,提供了一种信息系统,其内容包含中文字型中,中文字型被按照预定的编码规则映射到由字母数字构成的编码;中文字型被按照编码的顺序排序;其中,编码规则如下:按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,笔画与编码基本上一一对应,其中,预定笔画集合包括:“、”,代表中文字型中的点类笔画:“丿”,代表中文字型中的短撇及短捺类笔画;代表中文字型中的长撇及长捺类笔画;“-”,代表中文字型中的短横及短竖类笔画;以及“—”,代表中文字型中的长横及长竖类笔画;以及信息系统还包括输入装置,其包括字母键和数字键,用于在信息系统中按照编码的顺序检索中文字型,其中,编码至少对应于字母键和数字键中的任意5个。
该信息系统可以是数据库。
该信息系统可以是用于输入中文字型的字库。
该信息系统可以是用于查询特定中文字型的分页编排的字库。
该用于查询特定中文字型的分页编排的字库可以是字典或辞典。
该信息系统中编码至少包括5个数字。
该信息系统中,“、”对应数字“1”、“丿”对应数字“2”、
Figure C20071000075000131
对应数字“3”、“-”对应数字“4”、“—”对应数字“5”,输入装置包括数字键1、2、3、4、和5。
该信息系统,在中文字型的形式分类上,可以分为横排和竖排两种,皆以两组数字组合进行编码;在中文字型的结构上,可以分为单体字和合体字,皆以两组数字组合进行编码;若字型笔画不足序列数字组合,就均以数字“0”表达。
该信息系统,输入装置的数字键可以用于在信息系统中按照编码的顺序检索中文字型时,只分别用于输入两组数字的前三位。
该信息系统可以用于查询特定中文字型的分页编排的字库,其包括:多个页面,其中将中文字型排序后依次编排到字库的各页面中,并相应地得到各页面的页码;输入装置用于如果要检索字库中的预定中文字型,则先将预定中文字型转换成编码,然后对应到页码,然后从页码对应的页面中检索中文字型。
该信息系统,预定笔画顺序可以是中文字型的书写笔顺。
根据以上所述,本发明实现了对信息系统的中文字型的排序,从而可实现快速便捷的输入、检索等。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分从说明书中显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1示出了根据本发明实施例的用于信息系统的中文字型排序方法;
图2示出了根据本发明实施例的用于信息系统的中文字型排序方法;
图3示出了根据本发明实施例的中文字型编码规则;
图4示出了根据本发明实施例的首部件对应页码分区索引;
图5示出了根据本发明实施例的中文字型横排与竖排分示例;以及
图6示出了根据本发明实施例的横式和竖式字型对应两组主次页码的示例。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
汉字以方块字的形态出现,其可以通过部首或部件组成方向将汉字分为两种形态:一种是横式,一种是竖式,即左右排列的是横式的,上下排列的是竖式的。换句话说,汉字基本上可以用横、竖两种方式分开,其分开的比例约是一半。同时,也可将每个汉字分为单体字和合体字,单体字是指整个汉字是由笔画组成的,合体字是指整个汉字是由部首或部件组成的,汉字中超过95%的是合体字,另外,也可将汉字的部件分为表意部件和表音部件(即,形音字)。
按照上述分类方法,设想将汉字笔画基本分为五组,并且每组笔画与键盘中的键存在一一对应的映射关系,在需要输入汉字时,仅需通过将横式汉字或竖式汉字中的每个部件的前三笔画在对应的键上敲出,就可实现汉字的检索及输入。那么仅仅依靠在键盘上进行的少数几次敲击就可以完成汉字的检索及输入,这样就会大大提高汉字检索及输入的速度。
图1示出了根据本发明实施例的用于信息系统的中文字型排序检索方法,其包括以下步骤:
步骤12,按照预定的编码规则将中文字型映射到由字母数字构成的编码;以及
步骤14,按照编码的顺序将中文字型排序。
其中,编码规则如下:按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,笔画与编码基本上一一对应,其中,预定笔画集合包括:“、”,代表中文字型中的点类笔画;“丿”,代表中文字型中的短撇及短捺类笔画;
Figure C20071000075000151
代表中文字型中的长撇及长捺类笔画;“-”,代表中文字型中的短横及短竖类笔画;及“—”,代表中文字型中的长横及长竖类笔画。
本发明还提供了一种用于信息系统的中文字型排序检索装置,该信息系统的内容包含中文字型。如图2所示,该中文字型排序装置20包括:
编码模块22,用于按照预定的编码规则将中文字型映射到由字母数字构成的编码;以及
排序模块24,用于按照编码的顺序在信息系统中检索中文字型;
其中,编码规则如下:按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,笔画与编码基本上一一对应,其中,预定笔画集合包括:“、”,代表中文字型中的点类笔画;“丿”,代表中文字型中的短撇及短捺类笔画;代表中文字型中的长撇及长捺类笔画;“-”,代表中文字型中的短横及短竖类笔画;及“—”,代表中文字型中的长横及长竖类笔画。
图3是根据本发明的实施例的用于系统的中文字型排序方法,以下将结合图3介绍本发明的中文字型的编码规则。
为了实现中文字型的排序,以方便用户的检索,如图3所示,首先将中文字型进行分类,按照字型的结构可以有两种分类方式:
(步骤31)将汉字分为横式和竖式两种,其原则是以部首或部件组成方向决定,左右排列的是横式的,上下排列的是竖式的,所以汉字基本上可以用横竖两种形式分开,其分开的比例约是一半;以及
(步骤32)将汉字分为单体字和独体字两种,其中,单体字是指整个字型只有单一部件,而合体字是由两个或多个部首或部件组成。
尽管如图3所示的步骤31及步骤32的分类方式不同,但是其分类后的汉字结构是相同的,即大致都为两部分的结构。
此时,取字型的两部分的首笔画特征(步骤33);
将其编为对应五组笔画编码,该五组笔画码包括“、”点、“丿”短撇及短捺、
Figure C20071000075000171
长撇及长捺、“-”短横及短竖、以及“—”长横及长竖(步骤34);
接着,进行如图3所示的步骤35,按照上述的编码规则将所述中文字型映射到由字母数字构成的编码,在本实施例中,字母数字编码是指“0-5”之间的数字构成的编码,例如,“、”代表点,对应首数字1;“丿”代表短撇及短捺,对应次数字2;
Figure C20071000075000172
代表长撇及长捺,对应第三数字3;“-”代表短横及短竖,对应第四数字4;“—”代表长横及长竖,对应第五数字5,此外,如果单体字只有一组数字或笔画数不足,就全以“0”数字代替;
根据上述的映射及编码,在系统中,可以进行步骤36,将汉字编纂为系统内的序列索引,可以以直观方式进行检索;
如果所要解决的是编纂字库中汉字所属页码,则情况更加简单。进行步骤37检索字型时,以字型的两组数字在序列页码直接翻页检索。这样,省却了翻查部首索引页,以及省却了在大量同部首字内的寻找,从而省却了大量时间。
如果该字库是用于输入法的字库,显然应用本发明就可以轻易地实现汉字检索及输入。
信息系统可以是用于查询特定中文字型的分页编排的字库,中文字型排序方法还可包括以下步骤:将中文字型排序后依次编排到字库的各页面中;如果要检索字库中的预定中文字型,则先将预定中文字型转换成编码,然后对应到字库的页面码,然后从该页码的页面中检索中文字型。
可选地,编码至少包括字母数字中的任意5个,中文字型排序方法还包括以下步骤:使用包括字母键和数字键的输入装置按照编码的顺序在信息系统中检索中文字型。这可以应用于计算机及印刷媒介等。
可选地,编码至少包括5个数字,中文字型排序方法还包括以下步骤:使用包括数字键的输入装置按照编码的顺序在信息系统中检索中文字型。还可以有效地应用于移动电话、PDA等手持设备中。可选地,“、”对应数字“1”、“丿”对应数字“2”、对应数字“3”、“-”对应数字“4”、“—”对应数字“5”,中文字型排序方法还包括以下步骤:使用数字键1、2、3、4、和5按照编码的顺序在信息系统中检索中文字型。
可选地,预定笔画顺序是中文字型的书写笔顺。
例如,如上所述,“、”对应数字“1”、“丿”对应数字“2”、对应数字“3”、“-”对应数字“4”、“—”对应数字“5”,图4是根据该规则的中文字型首部件对应序列页码索引。中文字型的编纂,先以横竖方式分类,再决定首部件的特征位置,该首数笔画顺序对应所述的“、”点、“丿”短撇及短捺、
Figure C20071000075000183
长撇及长捺、“-”短横及短竖及“—”长横及长竖五组笔画码,转换为所属数字组,各不同首部件按不同数字序列组别置放在不同区域。42是“、”点的数字序列组别内的按笔画多少排列的首部件、部件。44是“丿”短撇的数字序列组别内的首部件、部件按笔画多少排列。46是
Figure C20071000075000184
长撇的数字序列组别内的首部件、部件按笔画多少排列。48“-”短横的数字序列组别内的首部件、部件按笔画多少排列。49“—”长横的数字序列组别内的首部件、部件按笔画多少排列。
下面以字库为例,参照图5到图6来详细描述根据本发明实施例的编码表。图5示出了根据本发明实施例的首部件对应页码分区索引;图5示出了根据本发明实施例的中文字型横排与竖排分示例;以及图6示出了根据本发明实施例的横式竖式字型对应主次页码示例。
图5是区分中文字型的横排及竖排的类别示例。51是数量最多的一种形音字,主要是由表意部件即部首及表音部件组成,两个部件以并排的方式排列;字例有“林”、“桂”、“枝”等。52是三个部件以并排的方式排列;字例有“速”、“赶”、“延”等。53是横向的大部件包围小部件的方式;字例有“匡”、“匠”、“匧”等。54是横向的大部件承载小部件且三个部件并排的方式;字例有“捌”、“掰”、“衡”等。55是汉字数量不多的单体字,都属于竖排方式;字例有“我”、“不”、“车”等。56是两个部件以下方式排列组成;字例有“字”、“符”、“芝”等。57是竖向的大部件包围小部件;字例有“固”、“同”、“国”等。58是竖向的小部件放在大部件左下角或右下角;字例有“展”、“疫”、“屏”和“哉”、“载”、“栽”等。59是三个部件上下组成的排列方式;字例有“品”、“淼”、“森”等。
图6是中文字型是横式及竖式对应主次的页码编码示例。中文字型“忙”及“忘”的部首在分类上是相同的,但字型因为排列方式不同而出现部首的表意部件以不同形貌出现,即对应不同的笔画码数字组合,出现不同的所属页码。401横式的“忙”字,其首部件是“忄”字,对应的笔画码顺序是“、”点、“—”长竖及“、”点,转换的数字组序列是《151》(参阅图4);次部件是“亡”字,对应的笔画码顺序是“、”点、“—”长横及“-”短竖,转换的数字组序列是《154》(参阅图4),“忙”字的页码位置是《151·154》。402竖式的“忘”字,其首部件式“亡”,对应的笔画码顺序是“、”点、“—”长横及“-”短竖,转换的数字组序列是《154》(参阅图4),次部件是“心”字,对应的笔画码顺序是“、”点、
Figure C20071000075000201
长撇及“、”点,转换的数字组序列是《131》(参阅图4),“忘”字的页码位置是《154·131》。
可选地,在中文字型的形式分类上,分为横排和竖排两种;在中文字型的结构上,分为单体字和合体字,皆以两组数字组合进行编码;若字型笔画不足序列数字组合,均以数字“0”表达。例如,“土”是单体字,“土”字的页码位置是《455·000》。
可选地,在使用包括数字键的输入装置在信息系统中按照编码的顺序检索中文字型时,只分别输入两组数字的前三位。例如,“呕”字拆分成两个部分后,每个部分(“口”和“区”)的笔画数都多于三划,但根据该规则,得到的页码位置是《444·454》。再例如,“眼”字拆分成两个部分后,每个部分(“目”和“艮”)的笔画数都多于三划,但根据该规则,得到的页码位置是《545·444》。
本发明还提供了一种信息系统,其内容包含中文字型中,中文字型按照上述的中文字型排序方法进行排序,或使用上述的中文字型排序装置进行排序。
上述的信息系统可以是数据库。可选地,还可以是用于输入中文字型的字库。上述的字库还可以是用于查询特定中文字型的分页编排的字库,例如也可包括纸质印刷的字典或辞典。
根据以上所述,本发明实现了对信息系统的中文字型的排序,从而可实现快速便捷的输入、检索等。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明。对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (19)

1.一种用于信息系统的中文字型排序检索方法,所述信息系统的内容包含中文字型,其特征在于,所述中文字型排序检索方法包括以下步骤:
按照预定的编码规则将所述中文字型映射到由字母数字构成的编码;
按照所述编码的顺序将所述中文字型排序;其中,所述编码规则如下:
按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,所述笔画与所述编码一一对应,其中,所述预定笔画集合包括:“、”,代表所述中文字型中的点类笔画:“丿”,代表所述中文字型中的短撇及短捺类笔画;“丿”,代表所述中文字型中的长撇及长捺类笔画;“-”,代表所述中文字型中的短横及短竖类笔画;以及“-”,代表所述中文字型中的长横及长竖类笔画;以及
使用包括字母键和数字键的输入装置在所述信息系统中按照所述编码的顺序检索所述中文字型,其中,所述编码至少对应于所述字母键和数字键中的任意5个。
2.根据权利要求1所述的中文字型排序检索方法,其特征在于,所述编码至少包括5个数字,所述中文字型排序检索方法还包括以下步骤:使用所述输入装置的数字键在所述信息系统中按照所述编码的顺序检索所述中文字型。
3.根据权利要求2所述的中文字型排序检索方法,其特征在于,“、”对应数字“1”、“丿”对应数字“2”、“丿”对应数字“3”、“-”对应数字“4”、“-”对应数字“5”,所述中文字型排序检索方法还包括以下步骤使用数字键1、2、3、4、和5在所述信息系统中按照所述编码的顺序检索所述中文字型。
4.根据权利要求3所述的中文字型排序检索方法,其特征在于,在中文字型的形式分类上,分为横排和竖排两种,皆以两组数字组合进行编码;在中文字型的结构上,分为单体字和合体字,皆以两组数字组合进行编码;若字型笔画不足序列数字组合,就均以数字“0”表达。
5.根据权利要求4所述的中文字型排序检索方法,其特征在于,在使用所述输入装置的数字键在所述信息系统中按照所述编码的顺序检索所述中文字型时,只分别输入两组数字的前三位。
6.根据权利要求1所述的中文字型排序检索方法,其特征在于,所述信息系统是用于查询特定中文字型的分页编排的字库,所述中文字型排序检索方法还包括以下步骤:
将所述中文字型排序后依次编排到所述字库的各页面中,并相应地得到各页面的页码;
如果要检索所述字库中的预定中文字型,则先将所述预定中文字型转换成所述编码,然后对应到所述页码,然后从所述页码对应的所述页面中检索所述中文字型。
7.根据权利要求1所述的中文字型排序检索方法,其特征在于,所述预定笔画顺序是所述中文字型的书写笔顺。
8.一种用于信息系统的中文字型排序检索装置,所述信息系统的内容包含中文字型,其特征在于,包括:
编码模块,用于按照预定的编码规则将所述中文字型映射到由字母数字构成的编码;
排序模块,用于按照所述编码的顺序将所述中文字型排序;
检索模块,用于按照所述编码的顺序从所述信息系统中检索所述中文字型;
其中,所述编码规则如下:
按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,所述笔画与所述编码一一对应,其中,所述预定笔画集合包括:“、”,代表所述中文字型中的点类笔画;“丿”,代表所述中文字型中的短撇及短捺类笔画;“丿”,代表所述中文字型中的长撇及长捺类笔画;“-”,代表所述中文字型中的短横及短竖类笔画;及“-”,代表所述中文字型中的长横及长竖类笔画;
输入装置,其包括字母键和数字键,用于在所述信息系统中按照所述编码的顺序检索所述中文字型,其中,所述编码至少对应于所述字母键和数字键中的任意5个。
9.一种信息系统,其内容包含中文字型,其特征在于,
所述中文字型被按照预定的编码规则映射到由字母数字构成的编码;
所述中文字型被按照所述编码的顺序排序;其中,所述编码规则如下:
按照预定笔画集合和预定笔顺将中文字型拆分成至少一个笔画,所述笔画与所述编码一一对应,其中,所述预定笔画集合包括:“、”,代表所述中文字型中的点类笔画:“丿”,代表所述中文字型中的短撇及短捺类笔画;“丿”,代表所述中文字型中的长撇及长捺类笔画;“-”,代表所述中文字型中的短横及短竖类笔画;以及“-”,代表所述中文字型中的长横及长竖类笔画;以及
所述信息系统还包括输入装置,其包括字母键和数字键,用于在所述信息系统中按照所述编码的顺序检索所述中文字型,其中,所述编码至少对应于所述字母键和所述数字键中的任意5个。
10.根据权利要求9所述的信息系统,其特征在于,其是数据库。
11.根据权利要求10所述的信息系统,其特征在于,其是用于输入中文字型的字库。
12.根据权利要求9所述的信息系统,其特征在于,其是用于查询特定中文字型的分页编排的字库。
13.根据权利要求12所述的信息系统,其特征在于,所述用于查询特定中文字型的分页编排的字库是字典或辞典。
14.根据权利要求9至13任一项所述的信息系统,其特征在于,所述编码至少包括5个数字。
15.根据权利要求14所述的信息系统,其特征在于,“、”对应数字“1”、“丿”对应数字“2”、“丿”对应数字“3”、“-”对应数字“4”、“-”对应数字“5”,所述输入装置包括数字键1、2、3、4、和5。
16.根据权利要求15所述的信息系统,其特征在于,在中文字型的形式分类上,分为横排和竖排两种,皆以两组数字组合进行编码;在中文字型的结构上,分为单体字和合体字,皆以两组数字组合进行编码;若字型笔画不足序列数字组合,就均以数字“0”表达。
17.根据权利要求16所述的信息系统,其特征在于,所述输入装置的数字键用于在所述信息系统中按照所述编码的顺序检索所述中文字型时,只分别用于输入两组数字的前三位。
18.根据权利要求9至13任一项所述的信息系统,其特征在于,所述信息系统是用于查询特定中文字型的分页编排的字库,其包括:
多个页面,其中将所述中文字型排序后依次编排到所述字库的各页面中,并相应地得到各页面的页码;
所述输入装置用于如果要检索所述字库中的预定中文字型,则先将所述预定中文字型转换成所述编码,然后对应到所述页码,然后从所述页码对应的所述页面中检索所述中文字型。
19.根据权利要求9至13任一项所述的信息系统,其特征在于,所述预定笔画顺序是所述中文字型的书写笔顺。
CNB2007100007509A 2007-01-19 2007-01-19 中文字型排序检索方法和装置以及一种信息系统 Expired - Fee Related CN100476826C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2007100007509A CN100476826C (zh) 2007-01-19 2007-01-19 中文字型排序检索方法和装置以及一种信息系统
PCT/CN2008/000109 WO2008089654A1 (fr) 2007-01-19 2008-01-16 Dispositif et procédé d'extraction et classement de type de caractères chinois et systèmes d'information

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2007100007509A CN100476826C (zh) 2007-01-19 2007-01-19 中文字型排序检索方法和装置以及一种信息系统

Publications (2)

Publication Number Publication Date
CN101000625A CN101000625A (zh) 2007-07-18
CN100476826C true CN100476826C (zh) 2009-04-08

Family

ID=38692597

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2007100007509A Expired - Fee Related CN100476826C (zh) 2007-01-19 2007-01-19 中文字型排序检索方法和装置以及一种信息系统

Country Status (2)

Country Link
CN (1) CN100476826C (zh)
WO (1) WO2008089654A1 (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN100476826C (zh) * 2007-01-19 2009-04-08 劳英杰 中文字型排序检索方法和装置以及一种信息系统
CN101408873A (zh) * 2007-10-09 2009-04-15 劳英杰 全范围语义信息综合认知系统及其应用
CN103399756A (zh) * 2013-08-21 2013-11-20 苏州换游信息科技有限公司 冒泡法排序软件
CN117633143A (zh) * 2023-11-29 2024-03-01 雅昌文化(集团)有限公司 一种中文词条多条件复合的排序方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724031A (en) * 1993-11-06 1998-03-03 Huang; Feimeng Method and keyboard for inputting Chinese characters on the basis of two-stroke forms and two-stroke symbols
CN1193139A (zh) * 1997-03-07 1998-09-16 梅保全 简拼简划汉字编码及输入方案
CN1584798A (zh) * 2004-05-26 2005-02-23 成巨才 汉字输入方法及键盘
CN1584806A (zh) * 2004-06-09 2005-02-23 倪国章 字根首笔划汉字数码输入法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1219701A (zh) * 1997-12-09 1999-06-16 王仁富 汉字笔划笔顺拼音部首数字输入法
CN100476826C (zh) * 2007-01-19 2009-04-08 劳英杰 中文字型排序检索方法和装置以及一种信息系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5724031A (en) * 1993-11-06 1998-03-03 Huang; Feimeng Method and keyboard for inputting Chinese characters on the basis of two-stroke forms and two-stroke symbols
CN1193139A (zh) * 1997-03-07 1998-09-16 梅保全 简拼简划汉字编码及输入方案
CN1584798A (zh) * 2004-05-26 2005-02-23 成巨才 汉字输入方法及键盘
CN1584806A (zh) * 2004-06-09 2005-02-23 倪国章 字根首笔划汉字数码输入法

Also Published As

Publication number Publication date
CN101000625A (zh) 2007-07-18
WO2008089654A1 (fr) 2008-07-31

Similar Documents

Publication Publication Date Title
US5197810A (en) Method and system for inputting simplified form and/or original complex form of Chinese character
CN101408873A (zh) 全范围语义信息综合认知系统及其应用
CN100462901C (zh) Gb拼音输入法
CN100476826C (zh) 中文字型排序检索方法和装置以及一种信息系统
CN85100837A (zh) 优化五笔字型编码法及其键盘
CN1427325A (zh) 数字小键盘笔画王多功能汉字自然输入法
CN1097766C (zh) 汉字五键输入法
CN102368177B (zh) 新汉字声韵输入方法及输入键盘
CN1116647C (zh) 采用译码的汉字检索方法
CN105912139A (zh) 一种模块化笔画编码汉字对应识别的方法
CN1274883A (zh) 简化拼音-触摸屏鼠标式汉字输入方法
CN85100094A (zh) 汉字拼音联想编码及双拼键盘
CN102053718B (zh) 用于生成汉字的方法以及键盘输入设备
CN1472626A (zh) 嵌入式智能文字输入解决方法和装置
CN1035083C (zh) 面向词的中文文字处理输入装置
CN1072785A (zh) 无理序号数字综合编码法及其键盘
CN1196057C (zh) 一码二形数字编码汉字输入方法
CN1027839C (zh) 中华双拼汉字编入的计算机键盘
CN101034403A (zh) 一种小键盘电子字典的智能检索方法
CN1243300C (zh) 计算机汉字三笔数码输入法
CN1288187B (zh) 计算机汉字输入方法及其键盘
CN85104831A (zh) 头腹尾数码和声韵母码组合式简便汉字编码法和多功能汉字输入中型键盘
CN1024227C (zh) 汉字电脑手写模拟输入法
CN100511111C (zh) 双码联合输入法
CN101135934A (zh) 手机汉字输入法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20090408

Termination date: 20110119