CN104765837B - 汉字字首排检及信息处理方法 - Google Patents
汉字字首排检及信息处理方法 Download PDFInfo
- Publication number
- CN104765837B CN104765837B CN201510179371.5A CN201510179371A CN104765837B CN 104765837 B CN104765837 B CN 104765837B CN 201510179371 A CN201510179371 A CN 201510179371A CN 104765837 B CN104765837 B CN 104765837B
- Authority
- CN
- China
- Prior art keywords
- stroke
- prefix
- chinese character
- section
- pen
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明实施例公开了一种汉字字首排检及信息处理方法,其中,所述方法包括:预先建立笔段特征库,确定待处理的汉字集合,对各个汉字的组成结构进行图形检测,确定所述汉字所具有的笔段,并将各个笔段的图形检测结果与所述特征库中的图形特征进行比对,将所述获取到的字首相同的汉字进行分组,根据分组以及排序结果生成汉字信息数据库。通过本申请提供的方法能够将所有汉字按照统一的标准进行归纳总结,解决了传统汉字排序方法存在的笔形位置不固定、重码多以及添加附加码后重码验证等问题,使汉字的排检更加简洁方便,显著提高检索速度。为了提高处理的效率以及准确度,本发明通过计算机辅助的方式实现自动化的汉字信息处理。
Description
技术领域
本发明涉及汉字排检技术领域,特别的涉及一种汉字字首排检及信息处理方法。
背景技术
目前最常用的汉字排检法分为三类:一、义序排检法,二、音序排检法,三、形序排检法。
义序排检法按字词的意义进行排列和检索;音序排检法通过汉字读音转写成的注音符号或拼音字母及相关符号对汉字进行排列和检索;形序排检法按汉字的字形进行排列和检索,严格意义的形序法应与字的音、义无关。
当代主要的形序排检法有笔画法、部首法、四角号码法。笔画法的排列原则是单字按笔画数从少到多进行排列,同画数的按笔顺起笔的笔画形状排列,在进行排检时需要首先要数清需要排检的汉字的笔画数,应用不方便,而且由于汉字中相同笔画数的汉字很多,也为排检造成了麻烦。所谓部首法排列原则是先分析汉字结构中的偏旁,把偏旁相同的字归于一个部首之下,再按笔画来排列。查字前,首先分析字形结构,熟悉部首的位置,查出部首后,再按部首以外的笔画数查字。目前虽然对取部位置有了明文规定,但部位仍是忽上忽下忽左忽右,检索者必须对300个形态了如指掌,否则很容易把部首判错。所谓四角号码法是将汉字按照笔形分为十种并编号,每个汉字定有左上、右上、左下、右下四个角,每个角按笔形分配一个阿拉伯数字,共四位数字,成为“四角号码”,四角号码排检法出现于上个世纪二三十年代,因查起来比部首法快而异军突起、风靡数十年,但由于归纳的笔形及取角方式不合汉字固有性质、加附码后重码仍多等原因,虽经不断修改却难成主流排检法。
随着计算机的普及人们越来越多的借助计算机对文字进行处理,然而现有技术中排序方法存在的各种不确定的因素,会使得在使用计算机处理排序过程时计算机无法完全准确的将所有汉字按照预定的规律进行排序。当出现计算机无法按照预先设置的数据库中排序方法进行排序的汉字时,需要工作人员进行手动排序,使得整个排序过程费时费力。
发明内容
基于上述问题,本发明公开一种汉字字首排检及信息处理方法。技术方案如下:
一种汉字字首排检及信息处理方法,其特征在于,包括:
预先建立笔段特征库,所述特征库中保存有各个笔段的名称以及对应的图形特征信息,所述笔段根据汉字笔画单元的形状确定;
确定待处理的汉字集合,所述汉字集合中的各个汉字具有相同的字体以及字号;
对各个汉字的组成结构进行图形检测,确定所述汉字所具有的笔段,并将各个笔段的图形检测结果与所述特征库中的图形特征进行比对,确定所述汉字笔画位次,生成汉字笔画位次表,所述笔画位次表根据笔段排列;
确定汉字的笔序,所述笔序为单字笔画的先后次序;确定各个汉字的字首以及字身,所述字首为所述汉字根据所述笔序开头笔画的结合体,所述字身为除去字首笔画以外的部分;
将所述获取到的字首相同的汉字进行分组,并获取所述字首起始笔画,按照所述字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;其中,当所述获取到的字首起始笔画相同时,获取所述字身起始笔画,根据所述字身起始笔画在所述笔画位次表中的排列顺序,将所述字首相同的汉字进行排序;
根据分组以及排序结果生成汉字信息数据库。
可选的,还可以包括:所述笔段特征库中,各个笔段的名称以及对应的图形特征信息包括:
横,形状特征是自左而右,或稍斜向右上方,两端粗细相同,可自成笔画,也可作为折笔的首段、中段或末段;
提,形状特征是自左下而右上、由粗而细提为尖,可自成笔画,也可作为折笔的首段或末段;
竖,形状特征是自上而下,或稍斜向左下方,两端粗细一样,可自成笔画,也可作为折笔的首段、中段或末段;
撇,形状特征是自上而下再向左偏收尖,或自上而左下斜收尖、或平斜收尖,可自成笔画,也可作为折笔的首段、中段或末段;
点,形状特征是自尖而顿圆,或向右下,或向左下,可自成笔画,也可为折笔的首段或末段;
捺,形状特征是自左上起尖渐粗,然后平拖或向右下斜拖,独自成画时收为尖,可自成笔画,也可作为折笔的前段、中段或末段;
左弯,形状特征是自上尖细而左弯垂粗、或自右上粗左斜弯,只能作首段,与钩合成折笔;
钩,形状特征是一个尖,或朝左,或朝上,只能作折笔的末段;
圈,形状特征为圆形,本身是个笔画,不能构成别的笔画。
可选的,还可以包括:所述开头部分为所述汉字书写时的前三笔笔画,当单个汉字全部笔画数不足三笔的,取其全部笔画构成字首。
可选的,还可以包括:所述字首包括:分段字首、方位字首、示意字首、并列字首、单笔字首、前位字首、引字字首、引首字首。
可选的,还可以包括:同时获取所述字首起始笔画,按照所述字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;包括:
当获取的起始笔画相同时,取下一笔画,前面皆同、笔画已尽的在前。
可选的,还可以包括:所述笔段分为九种,分别以从1到9数字为码,生成笔段码,横为1,提为2,竖为3,撇为4,点为5,捺为6,左弯为7,钩为8,圈为9;笔画三十五种,分别以每种笔画的前两个笔段的段码组成,生成笔画码;
根据所述生成的笔段码以及笔画码对各个汉字进行编码,生成字码,并按照所述字码进行排序。
可选的,还可以包括:根据确定的笔段码以及笔画码将所述获取到的各个汉字的字首以及字身进行编码,生成字首码以及字身码。
根据本申请提供的具体实施例,本申请公开了以下技术效果:
通过本申请实施例,可以实现一种汉字字首排检及信息处理方法,在一种实现方式下,该方法可以包括,预先建立笔段特征库,所述特征库中保存有各个笔段的名称以及对应的图形特征信息,所述笔段根据汉字笔画单元的形状确定;确定待处理的汉字集合,所述汉字集合中的各个汉字具有相同的字体以及字号;对各个汉字的组成结构进行图形检测,确定所述汉字所具有的笔段,并将各个笔段的图形检测结果与所述特征库中的图形特征进行比对,确定所述汉字笔画位次,生成汉字笔画位次表,所述笔画位次表根据笔段排列;确定汉字的笔序,所述笔序为单字笔画的先后次序;确定各个汉字的字首以及字身,所述字首为所述汉字根据所述笔序开头笔画的结合体,所述字身为除去字首笔画以外的部分;将所述获取到的字首相同的汉字进行分组,并获取所述字首起始笔画,按照所述字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;其中,当所述获取到的字首起始笔画相同时,获取所述字身起始笔画,根据所述字身起始笔画在所述笔画位次表中的排列顺序,将所述字首相同的汉字进行排序;根据分组以及排序结果生成汉字信息数据库。通过本申请提供的汉字排序方法能够将所有汉字按照统一的标准进行归纳总结,并根据归纳进行统一的排序,解决了传统汉字排序方法存在的笔形位置不固定、重码多以及添加附加码后重码验证等问题,使汉字的排序更加简洁方便。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的方法的流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,提供了一种新型的汉字排序方式,可以按照该方式对字典、数据库等中的汉字进行排序。为了提高处理的效率以及准确度,本发明实施例通过计算机辅助的方式实现自动化的汉字信息处理。
下面对具体的实现方式进行如下介绍。
参见图1所示,图1是本实施例提供的一种汉字排检及信息处理方法的流程图,如图1所示,该方法包括以下步骤:
S101:预先建立笔段特征库,所述特征库中保存有各个笔段的名称以及对应的图形特征信息;所述笔段根据汉字笔画单元的形状确定;
本实施例笔画表按笔段排列位次,单笔段笔画排在各自的复笔段笔画之前,复笔段笔画按同序笔段的笔段位次排列;前笔段相同且笔段已尽的笔画在前。各笔段的形状如下(按位次排列):
1.横,形状为‘一’,形状特点是自左而右,或稍斜向右上方,两端粗细相同。可自成笔画,也可作为折笔的首段、中段或末段,如‘乛乀’(首段)、‘乚’(中段)、‘ᆫ’(末段)。
2.提,形状为形状特点是自左下而右上、由粗而细提为尖,可自成笔画,也可作为折笔的首段或末段,如(首段)、(末段)。
3.竖,形状为‘丨’,形状特点是自上而下,或稍斜向左下方,两端粗细一样,可自成笔画,也可作为折笔的首段、中段或末段,如‘乚’(首段)、‘乙’(中段)、(末段)。
4.撇,形状为‘丿’,形状特点是自上而下再向左偏收尖,或自上而左下斜收尖、或平斜收尖,可自成笔画,也可作为折笔的首段、中段或末段,如(首段)、(中段)、(末段)。
5.点,形状为‘丶’,形状特点是自尖而顿圆,或向右下(水点),或向左下(火点),可自成笔画,也可为折笔的首段或末段,如(首段)、(末段)。
6.捺,形状为形状特点是自左上起尖渐粗,然后平拖或向右下斜拖,独自成画时收为尖,可自成笔画,也可作为折笔的前段、中段或末段,如(前段)、‘’(中段)、‘乁乀’(末段)。
7.左弯,形状为形状特点是自上尖细而左弯垂粗、或自右上粗左斜弯,只能作首段,与钩合成折笔,如
8.钩,左钩形状为垂钩形状为形状特点是一个尖,或朝左,或朝上,只能作折笔的末段,朝左的如‘亅’,朝上的如‘乚乙’。
9.圈,形状为‘○’,本身是个笔画,不能构成别的笔画。
S102:确定待处理的汉字集合,所述汉字集合中的各个汉字具有相同的字体以及字号;
S103:对各个汉字的组成结构进行图形检测,确定所述汉字所具有的笔段,并将各个笔段的图形检测结果与所述特征库中的图形特征进行比对,确定所述汉字笔画位次,生成汉字笔画位次表,所述笔画位次系根据笔段排列;
所述画位或笔画位次特指笔画(标宋体;下同)在本申请实施例中笔画表(表一)中的前后位次。
表一
S104:确定汉字的笔序,所述笔序为单字笔画的先后次序;确定各个汉字的字首以及字身,所述字首为所述汉字根据所述笔序开头笔画的结合体,所述字身为除去字首笔画以外的部分;
笔序特指本申请实施例中的单字笔画的先后次序,具体的笔序规定如表二所示。
表二
有一种笔序规定无法约束的笔序现象,如‘再’字:上横后,下横因系交笔横而为先,接着是‘冂’,于是中间的短横便成了倒数第二笔,可称之为“自然滞后”。
以下为综合检索字例:
【正】(上为先)一(左1为先)(左2或中为先)(右)(底横)正
【位】(左侧上下2笔)亻(右侧上2笔)(右侧中之左、右)(右侧底横)位
【匡】(上)一(下兼左侧笔)匸(右侧之上、中兼交笔横)(即交)(右侧底横)匡
【世】(交笔组横先)一(即交)()右侧2笔(右侧共底横)世
【婁】(交笔横先)一(即交1兼左笔)(右笔)(下兼横)(即交2,因下方横折为非连续横笔)(左,中竖的自然滞后笔画)(右)(底横)(交笔横先)(即交3和连交)婁
【再】(上为先)一(交笔横为先)二(即交1)(第二交笔组之横)(即交2)再注:□冉
【快】(左侧笔画组:左中右3笔)忄(右侧笔画组:交笔二连横)(即交兼左笔)(右笔)快
【坐】(有共同横底的左右笔画组)(共同横笔兼交横笔)(即交)(底横)坐
【器】(有共同横底的左右笔画组)(共同底横)(即交兼左笔)(右侧上下2笔)(下方左右笔画组)器
【数】(左上笔画组,注意有共同底横)(左下笔画组)娄(右侧笔画组之上方左右二笔)(下方交笔组,先撇)数
【黽】(上方2笔为左右结构,左竖为先笔画组)(左侧最上方短横)(下方左右结构中左侧短竖为先)(右侧3横随其后)(再右是竖折、长竖)(最右侧的上横和横折)(横折下方2笔)黽
【登】(上下2对1结构,上方左组:横折为上先、点随后)(上方右组,捺以左居先、右两撇居后)癶(下组最上笔)(中间也是综合结构)(共同底横)登
【凸】(左右结构加共同横底,左为3连笔)……
【鼎】(上下1对2结构,上组)(下方左组,长折以其横段在上而为先)(长折之下方2笔)(三连笔以居上和居左而为先)(横折在三连笔的下方和右方,自然为后)鼎
【走】(上下结构,上组)土(下组左1)(下组左2、右)(捺因起端低于竖、横而为下笔)走
【出】(上方左笔兼交横)(中笔兼即交)(右1)(下方左右结构之左笔)(右2)出
字首是字的开头部分的意思,特指字的共同起始笔画(可为一笔或多笔)或加上共有的非起始的共同笔画,也指该共同笔画围以外框合成的标识。例如‘司’的横折、‘指’的左偏旁或和两个标识都可以叫做字首;又如字首的第三笔底横,在‘圑团圓圆’四字及其他四方外围字中都不是第三笔,但因是共同笔画,也可为字首的一部分。
字首(标识)的作用是引领拥有该共同笔画的所有字(称为字列)。
排序时,字首等同一个单字(有的字首本身就是一个单字,可称为字首字,字列便由它们共同引领,如‘八兮分岔贫貧忿盆坌公翁瓮’)。
字身是除去字首笔画的部分,如‘司指圑团圓圆’的‘旨’(字首是和)和‘專才員员’(字首是),又如‘寿邦春泰’的(字首是)。
每字只有一个字首;字中有两个字首形状的,第一个是字首,其余的属字身,如‘咒哈啥品噪’除去第一个‘口’外的‘口’是字身。字首引领范围的合理后延
字首引领拥有相同字首的字,有的也引领字首末笔画位超出本标识、但未达到下一标识引领区域的字,例如字首列‘栞亓开邢刑型形井元黿鼋无頑顽示輦辇替賛規鬶槼规鬶天夫吞蚕忝云动魂叆叇戋盏划武鵡鹉妻…’中,自‘云’字起至列末字‘鹉’,第三笔已不再是上的撇而是撇折和捺折了,但第二笔的横仍在下一标识的第二笔的画位之前,可称为引领范围的合理后延。分段字首
把同一字首的字列截为数段,除第一段外,后面每段再立一个字首,称为分段字首或后分段字首。后分段字首的标识外框加为双线,同时在标识的副位(右方、下方或内部)添加字身起始笔画,如分段字首组
前分段字首即第一分段字首外框仍为单线,不加副位笔画,引领范围默认为:①字身笔画为零的字、②③④字身依次只有一横、二横、三横的字、⑤除字身的起始笔画三横外还有别的笔画的字、⑥除字身的起始笔画二横外还有别的笔画字。
后分段字首标识副位为一横的,引领字身为一横并且有别的笔画的字;字首副位为一竖的,引领字首为一竖及一竖加上别的笔画的字,依此类推(参见上段字首引领范围的合理后延)。
字首分段的目的是为避免有的字首引领字数过多不便检索。字首可以分为分段字首、方位字首、示意字首、并列字首、单笔字首、前位字首、引字字首、引首字首。
方位字首是能够体现字首在字中所占方位的字首,设立的目的也是为拥有相同起始笔画的字列分流。根据在字中占据的位置,方位字首有左上方位字首(如引领字有‘鄂鹗鶚颚顎郢’等)、左方位字首(如引领字有‘啡喫囓唪嗷嗉味吁呋呒’等)和上方位字首(如引领字有‘吴呈呆号虽员員黾邑兄’等)三种。不区别所占据方位的字首,字首的位置不限。
方位字首可以是引首字首(见下面引字字首和引首字首)。
示意字首
示意字首指仅表示字首有哪些笔画及其先后次序而不代实际构形的字首,这样的字首可以引领多于一个形状特点的字(例如既可引领‘非韭輩棐辈翡’等包含‘非’的笔画相接的字,也可引领‘丰彗慧砉’等包含‘丰’的笔画相交的字;又如除引领‘甘邯…某’等第三横封口的字外,还可引领‘其基甚’等第三横尚未封口的字),也能引领起笔不构成字首的特征部分但整字仍具共同特征的字,如‘ 再’。
并列字首
并列字首是将笔形仅有細小(如长短)差别的两个字首并列,以便集中较多的字(如)。当各字首分别引领的字不少时,二字首可不并列(如和)。并列的字首算一个。
单笔字首是只有一个笔画的字首,引领单笔字和难以提取复笔字首的字(如)。
前位字首
前位字首是指画位在除单笔字首外所有别的相同起笔字首之前的字首,可引领后位字首皆不引领的字,如2笔字首。
2笔字首是有两个笔画、追加笔画后即为一个扩展字首的字首,引领超出后面扩展字首引领范围的字(如,追加笔画后成为字首)
引字字首和引首字首
引字字首引领单字字列,引首字首只引领字首而非单字,主要引领多方位字首或扩形字首以方便前后检索,视需要在有关标识的右下角标以序号,如‘鄂鹗鶚颚顎郢鄙戢…蹟踌…’。‘蹟踌…’的是方位引首字首。
S105:将所述获取到的字首相同的汉字进行分组,并获取所述字首起始笔画,按照所述字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;其中,当所述获取到的字首起始笔画相同时,获取所述字身起始笔画,根据所述字身起始笔画在所述笔画位次表中的排列顺序,将所述字首相同的汉字进行排序。
单字排序通过字首排列和字身排列实现,排列的基本方法是按笔序画位排列,即按同序笔画的画位从前到后排列:画位在前的排列对象在前,画位在后的排列对象在后,笔画相同的按下一笔,前面皆同、笔画已尽的在前。
当基本方法不足以确定排列对象的前后时,按以下附加条件区分前后(附加条件视排列的需要而采用):
(1)笔序画位皆同而构形不同的异形排列对象,按笔画的‘离-接-交’次序排列(如‘八人乂’、‘工土’);同为相接的按‘端端接-端身接’次序排列(如‘-勹’),同为端身接的按‘左右接-上下接’的次序排列(如‘芈下’)。
(2)构形基本相同但笔画的相对长度不一样的,按‘末笔短-末笔长’的次序排列(如‘士-土’)。
(3)构形基本相同但字的肥瘦或大小不一样的,按‘字窄-字宽’(如‘日曰’)、‘字小-字大’(如‘口’)的次序排列。
(4)构形没有以上区别、但在字中所占方位不同的,按所占的‘全-左上-左-上’方位的次序排列(如‘王玉琹琶琵琴瑟弄’、‘碧玤琲琫瑃瑧玮玕璱’)。
(5)领首字首排在被领字首之前,与不被领的不分段字首和第一分段字首(皆为单线框)一起按笔序画位排列,被领的不分段字首(也是单线框)不参与字首排序。
字身在本申请实施例中的具体排序方式为:①字身为零的字和字首占全方位的字(如‘王玊玉’),②字身三横以内字(如‘仁仨’),③字身三横加别的笔画字(如‘椿沣’)、④字身二横加别的笔画字(如‘玩汫’),⑤字身一横加别的笔画字(如‘过江’),⑥字身起笔依次为横折、竖、竖折、撇、撇折、点、捺折的字。
本申请实施例还可以提供词语排序方法,词语按第二字起的笔序画位排列(只按笔画不管字首):画位在前的字在前,字同的按下一字,前面相同而字先尽的在前,如表三所示:
表三
为了使本申请实施例提供的汉字排序方法更加数字直观化,本申请实施例还可以提供将笔段以及笔画进行数字编码,所述笔段分为九种,分别以从1到9数字为码,生成笔段码,横为1,提为2,竖为3,撇为4,点为5,捺为6,左弯为7,钩为8,圈为9;笔画三十五种,分别以每种笔画的前两个笔段的段码组成,生成笔画码;如表四所示:
表四
需要使用折笔第三或第三、四笔段时,可以借助小数点追加需要使用的笔段的段码,例如和‘冂’的字码分别为‘3013’和‘3013.8’。
需要对同形或异形对象排先后时也可使用小数点,例如把大口编作‘301310.1’、把小口编作‘301310.2’、把左上方位字首编作‘301310.3’、把的引首字首编作‘301310.4’等。对异形对象排前后的如→103010.1→103010.2→103010.3。
当字的前面笔画足以区别邻字时,后面的笔画可以省编,例如字首列‘寿焘邦帮幚奉奏春蠢惷秦舂泰’的‘泰’,笔画码配到就够了。
根据所述生成的笔段码以及笔画码对各个汉字进行编码,生成字码,并按照所述字码进行排序。根据确定的笔段码以及笔画码将所述获取到的各个汉字的字首以及字身进行编码,生成字首码以及字身码。字码可以不直接由笔画码构成,而是由字首码以及字身码结合而成。如表五所示:
表五
*字首不取‘马’的末笔是为能包含末笔为提的斜马旁。
由于词语由各个不同的汉字组成,因此本申请实施例还可以对各个词语进行编码生成词语码,理论上,词语码系依次由各字字码接合而成;实际上,能决定词语顺序后的字码可以省去。(词语字只按笔画不管字首),如表六所示:
表六
S106:根据分组以及排序结果生成汉字信息数据库。
总之,通过本申请提供的汉字排检及信息处理方法能够将所有汉字按照统一的标准进行归纳总结,并根据归纳进行统一的排序,解决了传统汉字排序方法存在的笔形位置不固定、重码多以及添加附加码后重码验证等问题,使汉字的排序更加简洁方便。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述方法实施方式中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机可读取存储介质中,这里所称得的存储介质,如:ROM/RAM、磁碟、光盘等。
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
对于系统或装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
Claims (6)
1.一种汉字字首排检及信息处理方法,其特征在于,包括:
预先建立笔段特征库,所述特征库中保存有各个笔段的名称以及对应的图形特征信息,所述笔段根据汉字笔画单元的形状确定;所述笔段特征库中,各个笔段的名称以及对应的图形特征信息包括:
横,形状特征是自左而右,或稍斜向右上方,两端粗细相同,可自成笔画,也可作为折笔的首段、中段或末段;
提,形状特征是自左下而右上、由粗而细提为尖,可自成笔画,也可作为折笔的首段或末段;
竖,形状特征是自上而下,或稍斜向左下方,两端粗细一样,可自成笔画,也可作为折笔的首段、中段或末段;
撇,形状特征是自上而下再向左偏收尖,或自上而左下斜收尖、或平斜收尖,可自成笔画,也可作为折笔的首段、中段或末段;
点,形状特征是自尖而顿圆,或向右下,或向左下,可自成笔画,也可为折笔的首段或末段;
捺,形状特征是自左上起尖渐粗,然后平拖或向右下斜拖,独自成画时收为尖,可自成笔画,也可作为折笔的前段、中段或末段;
左弯,形状特征是自上尖细而左弯垂粗、或自右上粗左斜弯,只能作首段,与钩合成折笔;
钩,形状特征是一个尖,或朝左,或朝上,只能作折笔的末段;
圈,形状特征为圆形,本身是个笔画,不能构成别的笔画;
确定待处理的汉字集合,所述汉字集合中的各个汉字具有相同的字体以及字号;
对各个汉字的组成结构进行图形检测,确定所述汉字所具有的笔段,并将各个笔段的图形检测结果与所述特征库中的图形特征进行比对,确定汉字笔画位次,生成笔画位次表,所述笔画位次表根据笔段排列;
确定汉字的笔序,所述笔序为单字笔画的先后次序;确定各个汉字的字首以及字身,所述字首为所述汉字根据所述笔序开头笔画的结合体,所述字身为除去字首笔画以外的部分;
将获取到的字首相同的汉字进行分组,并获取所述字首起始笔画,按照所述字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;其中,当所述获取到的字首起始笔画相同时,获取所述字身起始笔画,根据所述字身起始笔画在所述笔画位次表中的排列顺序,将所述字首相同的汉字进行排序;
根据分组以及排序结果生成汉字信息数据库。
2.根据权利要求1所述的汉字字首排检及信息处理方法,其特征在于,所述字首为所述汉字根据所述笔序开头部分笔画的结合体。
3.根据权利要求1所述的汉字字首排检及信息处理方法,其特征在于,所述字首包括:分段字首、方位字首、示意字首、并列字首、单笔字首、前位字首、引字字首、引首字首。
4.根据权利要求1所述的汉字字首排检及信息处理方法,其特征在于,同时获取所述字首起始笔画,按照所述字首起始笔画在所述笔画位次表中的排列顺序,将组别中的各个汉字进行排序;包括:
当获取的起始笔画相同时,取下一笔画,前面皆同、笔画已尽的在前。
5.根据权利要求1所述的汉字字首排检及信息处理方法,其特征在于,还包括:
所述笔段分为九种,分别以从1到9数字为码,生成笔段码,横为1,提为2,竖为3,撇为4,点为5,捺为6,左弯为7,钩为8,圈为9;笔画三十五种,分别以每种笔画的前两个笔段的段码组成,生成笔画码;
根据所述生成的笔段码以及笔画码对各个汉字进行编码,生成字码,并按照所述字码对汉字进行排序。
6.权利要求5所述的汉字字首排检及信息处理方法,其特征在于,还包括:
根据确定的笔段码以及笔画码将所述获取到的各个汉字的字首以及字身进行编码,生成字首码以及字身码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510179371.5A CN104765837B (zh) | 2015-04-16 | 2015-04-16 | 汉字字首排检及信息处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510179371.5A CN104765837B (zh) | 2015-04-16 | 2015-04-16 | 汉字字首排检及信息处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104765837A CN104765837A (zh) | 2015-07-08 |
CN104765837B true CN104765837B (zh) | 2019-09-13 |
Family
ID=53647666
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510179371.5A Active CN104765837B (zh) | 2015-04-16 | 2015-04-16 | 汉字字首排检及信息处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104765837B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20230117279A (ko) * | 2022-01-28 | 2023-08-08 | 존 추 | 검색 라이브러리 생성 방법, 장치, 전자 기기 및 매체 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1148198A (zh) * | 1995-10-13 | 1997-04-23 | 邓仁 | 一种普及型汉字编码输入法 |
CN1262474A (zh) * | 1999-01-22 | 2000-08-09 | 曾昭化 | 二十四部首汉字排序编码法及其键盘 |
CN1400110A (zh) * | 2002-04-03 | 2003-03-05 | 李军章 | 汉字首部件检字法 |
CN1487397A (zh) * | 2002-08-12 | 2004-04-07 | 宁绍洲 | 电子、手工处理汉字快易通用法 |
CN1744006A (zh) * | 2004-08-30 | 2006-03-08 | 黄金富 | 手机码汉字输入法 |
CN102360265A (zh) * | 2011-09-29 | 2012-02-22 | 中兴通讯股份有限公司 | 一种手写输入中确定待选字的方法及装置 |
-
2015
- 2015-04-16 CN CN201510179371.5A patent/CN104765837B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1148198A (zh) * | 1995-10-13 | 1997-04-23 | 邓仁 | 一种普及型汉字编码输入法 |
CN1262474A (zh) * | 1999-01-22 | 2000-08-09 | 曾昭化 | 二十四部首汉字排序编码法及其键盘 |
CN1400110A (zh) * | 2002-04-03 | 2003-03-05 | 李军章 | 汉字首部件检字法 |
CN1487397A (zh) * | 2002-08-12 | 2004-04-07 | 宁绍洲 | 电子、手工处理汉字快易通用法 |
CN1744006A (zh) * | 2004-08-30 | 2006-03-08 | 黄金富 | 手机码汉字输入法 |
CN102360265A (zh) * | 2011-09-29 | 2012-02-22 | 中兴通讯股份有限公司 | 一种手写输入中确定待选字的方法及装置 |
Non-Patent Citations (1)
Title |
---|
"字形结构(转)";sirwolf;《http://blog.sina.com.cn/s/blog_4b150b270102e6ob.html》;20130529;第2页 * |
Also Published As
Publication number | Publication date |
---|---|
CN104765837A (zh) | 2015-07-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103995600B (zh) | 一种盲文汉字转换装置及其方法 | |
CN104765837B (zh) | 汉字字首排检及信息处理方法 | |
CN108919978B (zh) | 计算机和手机的汉字音形输入方法 | |
CN1019424B (zh) | 音形笔画综合编码汉字高速输入法及所用键盘 | |
CN102023717A (zh) | 三五首次音码及其键盘 | |
CN1010989B (zh) | 一种汉字输入方法及其输入键盘 | |
CN105607752A (zh) | 形易汉字输入法 | |
CN100428118C (zh) | 汉码系列输入法 | |
CN110879668A (zh) | 大字库扩充笔画汉字输入方法 | |
CN108008834B (zh) | 一种汉字输入法 | |
CN105892708A (zh) | 三维数码输入法及其键盘代码 | |
CN106293130B (zh) | 中文字音字形笔画笔顺快捷手写输入法 | |
CN1166997C (zh) | 汉字免拆分快速输入法 | |
CN1256644C (zh) | 一种偏旁部首汉字输入方法 | |
CN1694046A (zh) | 一种计算机编码汉字键盘输入方法及信息码 | |
CN1204487C (zh) | 根声码汉字输入法 | |
CN1058342C (zh) | 汉字编码的计算机输入方法 | |
CN1056007C (zh) | 一种以汉字音角特征为信息元的计算机汉字输入方法 | |
CN106155349B (zh) | 中文音形组合笔画名称快捷键盘输入法 | |
CN1328649C (zh) | 汉字“三形联想”形码输入法 | |
Belhe et al. | Annotation tool and XML representation for online Indic data | |
CN1455317A (zh) | 汉模输入法 | |
CN1077303C (zh) | 一种汉字计算机输入方法 | |
CN1108551C (zh) | 优化赋音形码计算机汉字输入方法 | |
CN1175722A (zh) | 计算机中文通用输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |