CN103049096A - 移置三类汉字信息字码表实现字词句的随机编码方法 - Google Patents
移置三类汉字信息字码表实现字词句的随机编码方法 Download PDFInfo
- Publication number
- CN103049096A CN103049096A CN 201210536574 CN201210536574A CN103049096A CN 103049096 A CN103049096 A CN 103049096A CN 201210536574 CN201210536574 CN 201210536574 CN 201210536574 A CN201210536574 A CN 201210536574A CN 103049096 A CN103049096 A CN 103049096A
- Authority
- CN
- China
- Prior art keywords
- word
- code
- key
- sentence
- coding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种移置三类汉字信息字码表实现字词句的随机编码方法,该方法选用三类不同汉字信息(部件、拼音、笔划)的字码表移置系统设定的特征码键位列表中。人们只需按系统设定的随机取码规则输入字、词、句信息,不论是单一类信息还是混合类信息,也不论什么码长,电脑都可以从字、词、句库中采样相关编码信息和判别编码条件来自动生成每一类编码操作,不仅能保留原有三类信息的字、词、句编码,且能实现它们之间的互补编码,无需作切换。这种个性化自主编码操作,就是中文随机编码方法。
Description
技术领域
本发明涉及计算机中文信息处理领域,提出了一种新的系统信息结构和新的编码规则以及实现字、词、句随机编码的技术方案。
背景技术
当今信息技术日新月异,唯独汉字输入技术三十年没有根本性突破,症结在哪里?
汉字是一类多信息(形、音、笔划等)文字,选择信息的多样化是其输入优势,构字缺乏规律性又是其输入劣势。输入法的出路就是扬长避短。对多信息文字来说,任何一类单信息编码方案都是不可取的。当前普遍采用的码表技术是一种单信息编码技术,因而至今也摆脱不了难学难用的困境。中文输入若要走出困境,不在创建更多的编码方案,而是要创建一种适应汉字特点的编码方法。最理想的输入方法无疑是用户自主编码操作。也就是说,最好是一个因人而异、因字(或词或句)而异、随机应变、包罗万象,又各取所需的综合型汉字输入系统,这样的系统不仅让人们充分利用自己熟悉的各类汉字信息,又能回避其中不熟悉的成分,从而面对不同知识层面的全体华人。这就是中文随机编码方法。
本人二年前申请过一项专利技术“中文信息数字化处理方法和汉字随机编码方法”(申请号:201010274141.4)曾提出一种分列式特征码列表结构,在系统中建立三类不同信息(部件、拼音、笔划等)的分列表,虽然实现了字、词、句随机编码操作。但是这种分列表,结构较松散和繁琐,其中部件类信息的键位列表就有26个,拼音信息要建立23个声母和35个韵母列表,如此多的列表会给实施和推广这项技术带来不便和困扰。它的优点是执行速度较快。
发明内容
针对上述现有技术的不足,本发明提出一种集成式特征码列表结构。同样的三类汉字信息(部件、拼音、笔划等),只需建立三个列表就可实现同类和不同类信息的字、词、句随机编码操作,其结构紧湊、直观,而且可直接移植当今通用的任何三类不同编码方案中的字码表(无需词、句码表),但这里的字码表不是用作搜索编码汉字,而是用作字、词、句随机编码的数字化信息源。与集成式列表结构相配套的随机处理技术还包括一套“随机编码规则” 和“信息比对编码法”,构建字、词、句随机编码的三项技术支柱。
优选地,移置三类汉字信息字码表实现字词句的随机编码方法包括如下步骤:设置部件、拼音、笔画三类字码表于特征码列表中作为系统信息源;设置字、词、句随机取码规则作为随机编码的操作规范;采用“信息比对编码法”作为随机编码实施方案,其中包括设置字、词、句三个编码缓冲区、字、词、句编码信息采样和储存方法、建立字词句编码特征数据及其字词句编码判别方法等。这是完整配套措施,缺一不可。
优选地,字的随机编码方法,当输入第一键时,先判断输入信息类型,然后选择同类型的特征码列表,将该列表中每个汉字特征单元的首键序与输入信息比对,比对一致者,置字编码缓冲区同一汉字的数据项D0位为“1”,比对不一致的汉字,保持D0=0;输入第二键,若和第一键属相同类型,则要和该类特征码中每个汉字的第二键序比对,若和第一键为不同输入类型,则要和异类特征码的第一键序比对,比对结果置字编码缓冲区同一汉字数据项(国标单元)的D1位为“1”,第三、四键与第二键相同,不过与特征码比对的键序位和储入字缓冲区的数据位不同;当输入字结束键,去字缓冲区搜索每个字数据项中的储入数据,在码长内为全“1”的即为编码字。
优选地,词编码只与字的第一第二键序有关,所以每压一键,输入信息要同时与特征码列表中的第一第二键序作比对。输入第一键,根据输入信息类型与其同类特征码列表中每个汉字的首、次键序码作比对,首键序比对一致,置词编码缓冲区同一汉字数据项(国标单元)的D0位为“1”,比对不一致则不变;次键序比对一致,置词缓冲区同一汉字数据项的D1位为“1”,比对不一致则D1位不变;压第二、三、四键,效法处理,不过置入词缓冲区的是D2D3位、D4D5位、D6D7位;词结束键后,逐条检出词库中词语,根据其词长在词缓冲区构建词编码判别单元,并与词编码特征数据作比对,词编码特征数据不仅与词长有关,也与输入信息类型的异同有关,符合词编码特征数据的词属编码词。
优选地,句编码只与字的第一键序有关;输入第一键,压键信息与其同类特征码列表中每个汉字的第一键序码作比对,比对一致,置句编码缓冲区同一汉字数据项(国标单元)的D0位为“1”,比对不一致则不变;输入第二键,根据输入信息类型与其同类特征码列表中每个汉字的第一键序码作比对,比对一致者储入句编码缓冲区同一汉字数据项的D1位,重复上述步骤输入第三、四、五直至末键,去句库检出与压键数相关句长句子,依次搜索句中每个字在句缓冲区中的相应数据位是全“1”的句子属编码句。
优选地,三类字码表移置系统集成式特征码列表,集成式列表结构分做汉字的国标地址和特征单元二部份,其中国标地址与字库中的汉字一一对应,特征单元标示每个汉字分解后的各个信息代码;部件码的特征单元分别标记首部件、次部件、第三部件和末部件等四码;拼音码标示声、韵母等二码;笔划码标示第一二笔、第三四笔和第五末笔等三码。
优选地,所述字、词、句三个编码缓冲区的结构包括国标地址和国标单元二部分;结束键之前,三个缓冲区的国标单元分别用于储存字、词、句相关的编码信息;结束键之后,用于判别字、词、句编码条件。
优选地,字、词、句随机编码设置了一套自己独特的取码规则:同类信息编码,一般沿用字码表移置前的字、词、句传统编码规则;传统字、词、句编码输入中遇到不同汉字容许输入不同类汉字信息;字、词输入过程中难以辩识的同类信息次键序或后键序,可用异类信息首键序取代;不论输入同类信息或异类信息,在码长范围内均按各类信息的分解次序取码。
当人们输入任何一个字或词或句时,在系统制定的随机取码规则下,可随意变换各类汉字信息和码长,包括三类不同信息间互补的上百个不同编码组合,每一个编码组合均为实时操作,无需作切换、无需建码表、也无需额外记忆。因此公开本发明将给实施和推广随机编码技术带来方便。人们在输入字、词、句过程中,输入了首部件不清楚次部件如何被拆分时,即可输入该汉字的声母以取代。输入了声母分不清韵母时,可输入该汉字的首部件以取代。当你连首部件和声母都搞不定时,便可变换笔划输入。当你不能或不想完整分解一个字时,也可变换码长来输入。提供给用户充分个性化的自主编码操作,便是提出随机编码输入法的理念。
说明书附图
图一是实施本发明的设计流程图
具体实施方式
用集成式列表结构实施随机编码操作,本发明创建三项技术支柱:
1,集成式特征码列表结构是随机编码的信息基础
集成式特征码字元表(以下简称YG表)
集成式特征码列表分为字元表和键位表二种,前者用于编码设计,后者用于编码操作。字元表又分部件、拼音和笔划等三类。直接引入国家颁布的“汉字部件规范”、“汉语拼音方案”和“汉字笔划规范”等信息标准,作为随机编码设计的规范化信息源。建立特征码字元表与建立码表方案中的字元码一样。以汉字部件码为例,首先设定200多个规范化部件信息的代码表,据此分解汉字库(如GB2312)中的每个汉字。集成式特征码包括国标地址及特征单元二部份,国标地址与汉字国标码(为了区别于单字节字符,系统中常用机内码替代国标码)一一对应。无论上面涉及的三类特征码列表和还是下面将要涉及的字、词、句编码缓冲区,都包含有一组映射整个字库的地址码,这里称之谓国标地址,它们的高位地址部份存在区域差,而低位部份的地址码则完全相同,另外设置有一个地址转换器,其中的操作数存放字库中每个汉字的国标码。这样采用间接寻址方法可找到国标地址在字库中映射的汉字国标码,同样从汉字的国标码也能找到国标地址。采用国标地址可以简化和加速程序处理速度。
集成式列表中特征单元标示汉字分解后的各个字元。按部件码为例,依次标示每个汉字的首部件、次部件、第三部件和末部件等四个部件信息。因为四码长的部件列表同时可兼用于三码长、二码长的部件编码。因而每个汉字特征单元设置为32Bits(四个字节),汉字不足四个部件的,其后标记“00”。集成式列表的部件代码及其字元表结构见示例一。
汉语拼音设置二个字节的特征单元,分别标记声母和韵母代码(二码长)。只具韵母的汉字其声母标示“00”。
五个不同笔划组成25组双笔划组合,二个笔划合为一码。特征单元用三个字节分别标记第一、二笔划、第三、四笔划及第五、末笔划等三个双笔划码(三码长)。奇数笔划(如三、五笔划)的汉字末笔标示“0”。本系统采用双笔划列表,单笔划操作。
集成式特征码字元表就是部件、拼音和笔划三类字表的集合。
集成式特征码键位表(以下简称JG表)
为了实施有效的键盘输入操作,要在上述字元表(YG表)基础上进行编码设计,即要对部件、拼音(声、韵母)进行键盘定位,把字元码(如部件)改换为所属键位码(如ASCII码),电脑自动把YG表转换为JG表。因此JG表与YG表的结构形式完全一样,只不过特征单元中的字元代码转换为键位代码而已。上述YG表及其键位设计只是用来实现个性化的键盘设计,并非必要步骤。
一种优选方案,也是最简单易行的实施方案即是把现有三类不同码表方案中的字码表(无需词、句码表)按集成式键位表的结构形式直接移置随机系统设定的JG表中。汉字部件定位设计后的键位代码及其特征码键位表结构见示例二。
拼音中声母(23个)按其辅音定位(ZH、CH、SH用i、u、v定位)。韵母较多(35个),有键位兼并问题。汉字拼音(声韵母)代码及其键位表结构见示例三。
笔划码定位于1~5数字键,无兼并问题。汉字笔划代码及其键位表结构见示例四。2,随机取码规则是实现随机编码的操作规范
随机系统中人们输入信息和电脑解读信息建立在人机“共识”基础上,本发明为此创建一种简单有效易记的随机取码规则:
(1),同类信息编码,一般沿用传统(即当前码表系统)的字、词、句编码规则;
(2),字、词、句编码输入中不同汉字容许输入不同类汉字信息;字、词输入过程中难以辩识的同类信息次键序(或后键序),可用异类信息首键序取代。
(3),不论输入同类或异类信息,在码长范围内均按各类信息的分解次序取码。这样的取码规则符合人的思维习惯,又极大地扩展了不同类信息间的互补性,使字、词、句的编码输入变得十分容易。字编码规则:
在码长范围内,无论同、异类信息,总是先取它们的首键序,后取次键序。如:首部件、次部件、声母(三码长);第一二笔、声母、韵母、第三四笔(四码长)。当输入异类信息时,前面已输入了部件信息,后面再输入第一二笔划,一般为无效操作。为此人机达成共识:若前面没有部件码出现,用第一二笔划;有部件码出现,改换为“末前笔、末笔划”代之,也可以改换为“第一、二笔划/字型结构、末笔划”选项,汉字字型结构包括:左右型--1、上下型--2、内外型--3、单体型--4,其中的数字为字型键位代码。
词编码规则:
二字词:根据传统取码规则,取首尾字的首、次键序,第二键信息若与首键序同类,电脑将辨认为同类信息的次键序(如次部件或韵母或第三四笔划);若与首键信息(如部件)异类,电脑将辨认为异类信息首键序(如声母)。
三字词:取首、次字的首键序(首、次二字的信息取同类或异类均可)和尾字的首、次键序。尾字取码规则同二字词。
四字及四字以上词语:取第一、二、三字及尾字的首键序,各字信息类型可任取。
句编码规则:
采集句中每个字的首键序(各字的信息类型任取)作句编码,16字以上的句子取前15字与尾字的首键序。句子较长的或信息模糊的可用系统设定的替代键替补。
这样的取码规则,符合人的常规思维,用户按随机规则取码,电脑按随机规则解读。虽说不同类信息和不同码长之间的字、词、句编码组合有上百个之多,并不需要记忆。随机编码规则不限定码长。字编码除传统四码长处理外,若输入三码(同类或异类信息)加SP键(字结束键),系统则按三码长处理,若三码均为部件信息需作末键序调整(后叙);二码加SP键,即按二码长处理(不作末键序调整)。它们都是不同码长的字编码操作,与二、三级简码的输入模式不同。由于字编码的码长随机可变,系统只设置一级简码。
随机编码中除四码长的传统词编码外,扩展了不等码长的词编码操作(后叙)。
熟悉部件信息的用户输入部件压字符键,输入声韵母压Shift+字符键,而熟悉拼音信息的用户压键相反,输入笔划用数字键,因此三种信息类型可兼容输入,无需作切换。
为保留原有键盘的英数输入功能,系统设置“英/中”切换键,这里说的都是“中”模式。当要回归“英”的键盘功能,压此切换键。
3,“信息比对编码法”是实施字、词、句随机编码的核心技术
实施随机编码的一个重要举措是设立字、词、句三个编码缓冲区。
一,缓冲区的第一个作用是储存字、词、句各自所需的编码信息。
压结束键之前,电脑尚不清楚输入的是字或词或句,要储存各自所需的随机编码信息。
字、词、句三个缓冲区的结构是相同的。缓冲区中的汉字库同样用相应的“国标地址”来标示。根据人机间的“约定”,各缓冲区中的数据项将分别记录字、词、句编码各需的输入信息,简称“国标单元”,形式上相似于上述特征码键位表(JG表)中的特征单元,但二者作用不相同,特征单元是预先设定的系统信息源,与压键输入无关,而国标单元则是输入操作决定的,并按字、词、句编码规则从输入信息中摄取各自所需的编码信息。
当录入字缓冲区国标单元的数据时,只需标示JG表中的键序代码与输入键位代码是否一致,只需记录“是”与“否”(1Bit)。需要注意的是,当有混合类信息输入时,首先要鉴别当前压键信息在同类信息中的键序(不同于当前的压键数),接着从同类JG表中取出每个字特征单元的相同键序码与当前所压键位代码进行比对,比对一致,根据当前压键数(即“第几键?”),在字缓冲区同一汉字国标单元的相应数据位录入“1”,不一致,该数据位保持 “0”。因而字缓冲区的有效数据位仅4Bits。
由于词编码往往涉及其中汉字的首、次键序(如二、三字词),因此在录入词缓冲区时,当前压键代码与同类JG表中每个字特征单元的首、次键序都要作比对。
第一键,输入键位代码与同类特征码中每个汉字的首、次键序比对,若首键序比对一致,置词缓冲区该字国标单元D0=1,首键序比对不一致,保持D0=0;若压键信息与次键序比对不一致,置D1=0(与次键序的比对可省略,但仅限第一键操作,因任何词长的词编码,其首字取码都取首键序)。
第二键,若某字的首、次键序与压键代码比对都一致,根据当前所压第二键,则在词缓冲区该字国标单元的相应偶数位(D2)置“1”,奇数位(D3)也置“1”。比对不一致者置“0”。第三、四键同上所述,只不过置入偶数位是D4、D6,奇数位是D5、D7。这里词编码设定码长为四码,因而词缓冲区的有效数据位也只8位(1Byte)。
句编码为不等码长,句编码缓冲区的数据位(句国标单元)取16位为宜。录入句缓冲区时,当前压键代码只需与同类JG表中每个字特征单元的首键序作比对,比对一致,根据当前所压“第几键”(如第六键),在句缓冲区同一汉字国标单元的相应数据位(D5)录入“1”,不一致在该数据位保持“0”。
字、词、句三个缓冲区可各自分开,也可将三个不同数据段兼并在一个32位缓冲区。每键入一个字或词或句之前,各缓冲区国标单元必须清零。
下面将分别叙述录入字、词、句缓冲区的处理步骤:
1,储存键入信息于字编码缓冲区
若四键均为同类信息(如部件):
压第一键时,属部件类信息,在部件类JG表的字特征单元中搜索首键序与输入键位信息相一致的汉字(相应于国标地址),并置字缓冲区同一汉字国标单元D0=1。若字单元中的首键序与输入键位信息比对不一致,则保持国标单元中的原数据,即D0=0。
压第二键时,部件类信息,在同一JG表中搜索字特征单元中次键序与输入键位信息相一致的汉字,并置字缓冲区该汉字国标单元D1=1。二者比对不一致,保持D1=0。
压第三键时,部件类信息,在同一JG表中搜索字特征单元中第三键序与输入键位信息相一致的汉字,并置字缓冲区该汉字国标单元D2=1。二者比对不一致,保持D2=0。
若用户接着压的是字结束键(SP键),说明上述第三键输入的是末键位(三码长部件码), 三码长的末键位与第三键序位是不同的,所以要对字缓冲区中第三键储入数据作出调整,只需对四部件或以上的汉字作补充,搜索JG表字特征单元中的第四键序与输入键位信息相一致的汉字,并调整字缓冲区同一字国标单元D2=1(注意不是D3)。若比对不一致的汉字,调整该字国标单元D2=0,说明该字的码长是四码。若该字特征单元第四键序为“00”代码,不需要重置,说明该汉字不足四码长,不需要作调整。
若第四键压的是一般字符键(末键位),输入的汉字属四码长部件编码,搜索JG表中末键序与输入键位相一致的汉字,并置字缓冲区同一汉字国标单元D3=1。如表一所示。
若四键中有异类信息(如部件后伴有拼音和笔划信息):
第一键是部件类,在部件类JG表的特征单元中搜索首键序与输入键位信息相一致的汉字(相应于国标地址),并置字缓冲区同一汉字的国标单元D0=1。若不一致,保持D0=0。
若第二键是拼音,与首键的部件信息不同类,根据人机“约定”,电脑辨认为声母,在其拼音JG表中搜索特征单元中的首键序(声母)与输入信息相一致的汉字(相应于国标地址),并置字缓冲区同一汉字国标单元的D1=1。
如果第三键又是部件,根据上述“约定”的取码规则,它在首部件之后,电脑辨认为次部件,在其部件JG表中搜索字特征单元中的次键序(次部件)与输入键位信息相一致的汉字,并置字缓冲区同一汉字国标单元的=D21。
如果第四键是笔划,因首次出现笔划信息,电脑本应该辨认为第一二笔,但前面曾输入过汉字的首部件,此时若选择第一二笔对字编码输入一般为无效操作,因此电脑搜索双笔划JG列表中每个汉字首键序的另一选项(即汉字的“末前笔、末笔代码”选项),并与输入的双笔划代码作比对,检出比对相一致的汉字,并置字缓冲区同一汉字国际单元的D3=1。比对不一致的汉字,保持D3=0。如表二所示。
接着压字结束键(SP键),开始字编码判别过程。
表一:储存同类信息(部件)于字缓冲区:
表二:储存异类信息(部件、拼音、笔划)于字缓冲区:
2,储存键入信息于词编码缓冲区
假定输入的词信息是下面的四键:部件、声母、部件、第一二笔划。储入过程如下:压第一键(部件)时,部件类信息,在部件类JG字表中搜索每个字的首键序与输入键位信息相一致的汉字,置词缓冲区同一汉字国标单元D0=1,若不一致,缓冲区数据不变,即D0=0。保持国标单元D1=0,因为无论二字词、三字词或多字词的取码规则都只取首字的首键信息,跟次键序无关,所以无需搜索每个汉字的次键序作比对。
第二键为拼音,电脑识别为声母。在其拼音JG表中搜索每个字的首键序(声母)与输入键位信息相一致的汉字,并置词缓冲区同一汉字国标单元的D2=1,接着还要搜索同一JG表中每个字的次键序(韵母)与输入键位信息相一致的汉字,置词缓冲区同一汉字国标单元的D3=1。压第三键和末键,同第二键所述,只是比对一致(或不一致)的汉字,储入词缓冲区同一汉字国标单元的D4D5和D6D7中的相应位为“1”(或“0”)。如表三所示。
接着压词结束键,开始词编码判别过程。
表三:储存键入信息于词缓冲区(同类或异类信息)
3,储存键入信息于句编码缓冲区
不论是同类还是异类信息,储入句缓冲区只涉及句中各字的首键序:压第一键时,从该类信息的JG表中搜索每个字特征单元的首键序与输入键位信息相一致的汉字,并置句缓冲区同一汉字国标单元的D0=1,不一致的汉字,保持D0=0。
压第二键时,同样从该类信息的JG表中搜索每个字特征单元的首键序与输入键位信息相一致的汉字,并置句缓冲区同一汉字国标单元的D1=1。不一致的汉字,保持D0=0。
压第三、四...末键时,储入句缓冲区的操作同上所述,只不过储入句缓冲区各个汉字国标单元的数据位不同。若比对一致,储入相应的D2、D3...为“1”,不一致则保持“0”(如果压的是替代键,储入句缓冲区国标单元中的相应数据位均为“1”)。如表四所示。
接着压句结束键,开始句编码判别过程。
表四:储存键入信息于句缓冲区(同类或异类信息):
二,缓冲区的第二个作用是判别字、词、句的编码条件。
当键入字(或词或句)结束键后,接着要判别字(或词或句)库中哪些字(或词或句)符合编码条件,这将有赖于字(或词或句)库中采集的相关编码字及这些字在各自缓冲区中的储存信息是否符合字(或词或句)的编码特征。
1,采集字编码信息并判别字编码条件
由于字编码缓冲区中的国标地址本身就是一个标准字库(如GB2312),而且储入国标单元中的信息是经字取码规则判别后储入的(见表一、表二),不论键入的是同类或异类信息,如压的是四键+SP键(字结束键),搜索字缓冲区国标单元的D0D1D2D3是全“1”的汉字(其国标地址在字库中映射的汉字国标码或机内码)就是输入码长为四码的编码汉字。如果压的是三键+SP键,搜索D0D1D2是全“1”的汉字为码长三码的编码汉字。同样,如果压的是二键+SP键,搜索D0D1是全“1”的汉字为码长二码的编码汉字。入文本的是字频最高的汉字,其余为重码字入提示行。假如压的是一键+SP键,输入文本的将是一级简码。
检出编码字的同时去词库搜索以该字为首字的二字词,一一列出它们的尾字作为字编码的“联想方式”。
2,采集词编码信息并判别词编码条件
储入词缓冲区中的信息只是相关汉字的首、次键序(见上述表三),所有词语的编码信息不是取其中汉字的首键序就是次键序(如二字词、三字词涉及到取次键序),都已包含在词缓 冲区中。因此不论什么词长的词语都可直接到词缓冲区中采集词编码信息。只是判别不同词长的词条和输入不同类信息时,其编码特征数据不同而在已。
二字词:
从词库中找出二字词,并去词缓冲区中搜索该词的首尾二字,把首字的D0D1D2D3位和尾字的D4D5D6D7位合成一个词编码判别单元。该二字词的编码信息一定包含其中。如果首字(或尾字)所压的二个键位都属同类信息(首尾二字的信息可以不同类),它的词编码特征数据是“99”,即D7D4D3D0均为“1”(其中D0D3、D4D7分别标示二字词首字和尾字的首、次键序),即在程序处理时用词编码特征数据与构建的词编码判别单元进行“与”操作。符合此特征数据条件的为编码二字词,否则不是;如果首字所压的二个键位属异类信息,而所压尾字的二个键位属同类信息,该词的编码特征数据为“95”。相反,首字所压的二个键位属同类信息,而尾字的二个键位属异类,该词的编码特征数据为“59”。如果首字和尾字的二个键序都属异类信息,它的编码特征数据为“55”。接着采集和判别词库中的第二个二字词作同样处理,直至最后一个二字词判别完毕。
三字词:
从词库中找出三字词,并去词缓冲区中搜索该词的首字、第二字和尾字,把首字的D0D1位、次字的D2D3位和尾字的D4D5D6D7位合成一个三字词的编码判别单元。如果尾字的二个键序(首、次键序)属同类信息,那末该三字词的编码特征数据为“95”(首、次字的信息类型无关),即D7D4D2D0均为“1”,其中D0D2标示首、次字的首键序,D4D7标示尾字的首、次键序。如果尾字的二个键序属异类信息,那末该三字词的编码特征数据为“55”。符合此特征数据的三字词为编码词。接着采集和判别词库中的第二个三字词,直至最后一个三字词判别完毕。
四字(或多字)词:
从词库中找出四字(或多字)词,并去词缓冲区中搜索该词的首字、第二字、第三字和尾字,把首字的D0D1位、第二字的D2D3位、第三字的D4D5位和尾字的D6D7位合并成一个词编码判别单元。因为每个字只取一码(首键序),无论四字取的是同类信息还是异类信息,这些词的编码特征数据均为“55”,即D6D4D2D0均为“1”。符合此条件的四字(或多字)词为编码词,否则不是。接着,采集和判别词库中的第二个四字(或多字)词,直至最后一个四字(或多字)词判别完毕。如表五所示。
表五:词编码的判别:
3,采集句编码信息并判别句编码条件
根据句结束键前的压键数,在句库中找出相应句长(字数)的句子逐一判别,由于句编码缓冲区储入的都是汉字的首键序(见表四),依次取出句中的每个汉字,并去句缓冲区判别这些汉字的相应键序位。例如取出句子的第一个汉字,入句缓冲区中搜索同一汉字的D0位,如果是“0”,则该句子一定不是编码句,说明句中第一个汉字的首键序与所压第一键的键位代码不一致。接着取出第二句,如果D0位是“1”,说明句中第一个汉字的首键序与所压第一键的键位代码一致。接着取出该句的第二个汉字,入句缓冲区中搜索同一汉字的D1位,同样道理,如果D1位是“0”则该句不是编码句。如果还是“1”,接着取出该句的第三个汉字入句缓冲区中搜索同一汉字的D2位,作上述同样的判别,直至该句的最后一个汉字判别完毕,如果句中的每个字在句缓冲区中的判别结果都是“1”,该句便是编码句,只要句中一个汉字在句缓冲区中的相应判别位是“0”,该句不是编码句。接着采集句库中下一句,作同样的句编码判别,直至最后一句同样句长的句子判别完毕。如表六所示。
表六:句编码的判别:
句库取出相应字长句子,逐字进行判别 | 第一字 | 第二字 | 第三字 | 第四字 | 第五字 | 第六字 | ...... | 句末字 |
这些字在句缓冲区国标单元相应键序位 | D0 | D1 | D2 | D3 | D4 | D5 | ...... | D末 |
每个字在国标单元中是全1的为编码句 | 1 | 1 | 1 | 1 | 1 | 1 | ...... | 1 |
[0105] 字、词、句随机编码生成处理及其示例
1,输入同类信息的字编码自动生成处理
假定我们要输入“系”这个字,压键操作是“丿(C)、糸(E)”,二(部件)码长,不涉及末键位操作,无需对键位列表作调整。电脑程序处理如下:
第一键C:属部件类,在部件类JG字表中搜索首键序为“C”的所有汉字(相应国标地址),置字缓冲区中这些汉字的国标单元D0=1。首键序不为“C”的汉字其国标单元数据不变。第二键E:搜索同类JG表中次键序为“E”的汉字,置字缓冲区这些字的国标单元D1=1。如果二键后系统检测到是字结束键(SP键),电脑将按二码长字编码处理。系统扫视字缓冲区中的每一个字国标单元,判别其中的D0D1位是否均为“1”,若是,该字即属编码汉字。如果扫视结果有重码字出现,将列入提示行,进入文本的是字频最高的汉字。若输入的是三码长(部件码)字输入时,因涉及第三键为末键,所以要对JG表中的末键序作调整。如键入汉字“动”的部件:“二(D)”、“厶(E)”和“力(G)”。程序处理如下:首键序D:扫视JG表特征单元中首键序为“D”的每个字,置这些字国标单元D0=1。次键序E:扫视JG表中次键序为“E”的每个字,置这些字国标单元D1=1。
当键入第三部件“力”的键位G时,电脑尚不知是否为末键操作,仍然要把字表中符合第三键序G的每个汉字在其字缓冲区中的国标单元置D2=1。
若三键后检测到字结束键,电脑要把第三键序调整为末键序,电脑要接着搜索JG表中第四键序的所有汉字,有三种情况要分别处理:第四键序(末键序)是“G”的汉字,重置字缓冲区国标单元D2=1(注意不是D3);第四键序不是“G”的汉字,重置字缓冲区国标单元D2=0(之前有可能曾置过“1”);第四键序是“0”的汉字(不足四码的汉字),其国标单元中的原数据不变。
接着,电脑将判别字缓冲区每个汉字国标单元的D0D1D2,若均是“1”,即为编码汉字。若有重码,进入文本的将是最高字频的那个汉字。D0D1D2中有“0”的不是编码字。
若输入“纟(C)、亠(D)、厶(F)、儿(G)”,符合编码键序(D0D1D2D3均为“1”)的汉字“统”将被检出。若有重码,进入文本的是字频最高的汉字。因为信息列表本是为四码长设计,无需对字缓冲区中储入信息作任何调整。汉字部件字编码自动生成见示例五。
2,输入异类信息的字编码自动生成处理
键入“系”的混合类信息:首部件“丿(C)”、声母“x(Sh+X)”和韵母i(Sh+I), 三码长混合类信息字编码。
第一键C,部件类信息,在其JG表中搜索首键序为“C”的所有汉字(相对应的国标地址),并在字缓冲区同一汉字的字国标单元中置D0=1。其余汉字保持D0=0。
第二键,电脑检测是拼音声母x(Sh+X),便扫视拼音JG表中首键序为“x”的汉字,并在字缓冲区这些字的国标单元中置D1=1。
第三键,电脑检测到是拼音,由于在声母之后,电脑鉴别为韵母,从拼音JG表中找出韵母是“i”的汉字,并在字缓冲区将这些字国标单元置D2=1。
字结束键(SP)后,扫视字编码缓冲区,“系”的字国标单元中D0D1D2位均为“1”,检出编码汉字“系”及其重码字。
若键入“统”的第一二笔划“乙(5)、乙(5)”、声母t(Sh+T)和韵母ong(Sh+B)三码:
第一键:双笔划“乙(5)、乙(5)”,从双笔划JG表的首键序中找出双笔划“乙、乙”的所有汉字,并在字缓冲区将这些字国标单元置D0=1。
输入第二、三键序时,与第一键序信息不同类,电脑分辨出是声母t(“Sh+T”)和韵母ong(“Sh+B”),搜索拼音JG表中首键序(声母)为“t”的汉字,并将字缓冲区中这些字国标单元置D1=1。再搜索拼音JG表中次键序(韵母)为“ong”的汉字,并将字缓冲区中这些字的国标单元置D2=1。字结束键后,字缓冲区中D0D1D2均为“1”的字为编码汉字,其中必有“统”字。异类(混合类)信息字编码自动生成见示例六。
3,输入同类信息(如部件)的词编码自动生成处理
词编码只涉及汉字的首、次键序,不涉及末键位,无需考虑末键位信息的调整问题。这里设定词编码为传统的固定四码。如果我们输入二字词“系统”,将键入“丿(C)、糸(E)、纟(E)、亠(D)”四键,电脑程序处理如下:
第一键C:部件类信息。在其JG表中搜索每个汉字的首、次键序与输入键位“C”进行比对:若首键序与“C”比对一致,置词缓冲区该汉字国标单元的D0=1,不一致保持D0=0。压第一键时,次键序无需作比对,因为无论什么词长的词编码,其首键取码必定是取首字的首键序,与次键序无关,保持D1=0。
第二键E:在同类JG表中搜索每个字的首、次键序,并都要与输入键位“E”进行比对,若首键序与“E”比对一致,置词缓冲区同一汉字国标单元的D2=1,不一致保持D2=0。
接着次键序与“E”比对,比对一致置词缓冲区该字国标单元D3=1,不一致保持D3=0。
第三键E:同上所述。若首、次键序比对都一致者,置词缓冲区字国标单元D4和D5为“1”。
第四键D:若首键序比对一致,次键序比对不一致,置词缓冲区字国标单元D6=1、D7=0。
四键后系统检出到词结束键,开始词编码判别,词码的判别过程要复杂一些。为了加速词码的判别过程,词库中的词条最好按词长排列:二字词、三字词、四字词和多字词,这可以免除逐条检测其词长(字数);或者在每条词语前加入一个字节的词长码,这样,词库中的词条排列就不受词长限制,可随意排列。当系统检测到词输入后,开始扫视词缓冲区中的字国标单元。词编码判别过程如下:
(1),找出词编码缓冲区中第一个汉字(相应国标地址),如果该字国标单元D0=0,则不必处理以下各步骤。因为D0=0表示首键信息不是该汉字的第一键序码,而词编码规则规定,不论二字词、三字词或多字词,它们的首键取码必定取其首字的第一键序码(如首部件)。所以接着取下一个汉字(相应国标地址),如果词缓冲区该字国标单元中D0=1,则表示首键信息属于该字的第一键序码,则在词库中找出以该汉字为首字的全部词条,并逐条地进行词编码特征判别。
(2),取出第一条词语,先根据词长找出与之相关的编码汉字,如二字词的相关编码字是其首字和尾字,并在词缓冲区中找出这些汉字的国标单元。根据词条的不同词长分别作编码判别:
二字词:
根据二字词取码规则,在词缓冲区取首字国标单元前四位D0D1D2D3和尾字国标单元的后四位D4D5D6D7,组成词编码判别单元。二字词编码特征数据是“99”,即判别单元中的D7D4D3D0均为“1”,它们分别代表首字的第一键序(D0)、第二键序(D3)和尾字的第一键序(D4)、第二键序(D7),符合上述特征数据的二字词是编码词。三字词:
词缓冲区中取出首字的国标单元D0D1位,次字的D2D3位和尾字的D4D5D6D7位,依次合成一个词编码判别单元。它的编码特征数据是“95”,即判别单元中的D7D4D2D0均为“1”,它们分别代表首字、次字的第一键序(D0、D2)和尾字的第一、第二键序(D4、D7)。如果我们改变三字词的取码规则,取首、尾字的第一键序和中间字的第一、第二键序,我们只需改变编码判别单元的合成方式,取首字国标单元的D0D1位、次字的D2D3D4D5位和尾字的D6D7位,编码特征数据改为“65”(即D6D5D2D0位为“1”),其 它一切均不变。符合上述特征数据的三字词是编码词。
四字词或四字以上词语:
词缓冲区中取出第一、第二、第三和尾字的国标单元的D0D1、D2D3、D4D5和D6D7合成词编码判别单元。它的编码特征数据是“55”,即判别单元中D6D4D2D0位为“1”,分别代表词语中第一、第二、第三和尾字的第一键序,符合此条件为编码词。
(3),接着按相同的方法判别同一首字的第二条词语的编码特征,直到最后一条词语判别完毕。至此仅判别了词国标单元D0=1的第一个汉字为首字的全部词条。
(4),接着取出词缓冲区国标单元D0=1的第二个汉字,并在词库中找出以该汉字为首字的全部词条,作上述同样的词编码判别处理。直到取出词缓冲区国标单元D0=1的最后一个汉字,并以此为首字的全部词条判别完为止。
由于固定四码长的词编码要处理词库中全部词条,所以整个词编码的处理过程较长,尤其词库容量很大时,因此在程序设计时要考虑到加快程序的执行速度。
汉字部件词编码自动生成见示例七。从该示例中可看出,二字词“系统”的词编码决定于缓冲区中“系”的国标单元D1D3位和“统”的国标单元D4D7位是否均为“1”,这相当于其词编码判别单元特征数据“99”,若是,一定符合“系”字的第一、二键序和“统”的第一、二键序,二字词“系统”即为编码词语。
如果我们键入三字词“自动化”的编码信息“丿(C)、二(D)、亻(C)、匕(G)”,它的词编码判别单元由“自”的国标单元D0D1位、“动”的D2D3位和“化”的D4D5D6D7位合成,它的编码特征数据是“95”,即D7D4D2D0为“1”,符合三字词首、次字的第一键序和尾字的第一、二键序,因此三字词“自动化”为编码词。
同样道理,键入“纟(E)、石(A)、丿(C)、纟(E)”,符合四字词“编码系统”的编码键序(编码特征数据“55”),当然还会有一些重码词出现。
4,输入异类信息的词编码自动生成处理
键入二字词“系统”的混合信息:“系”的声母“x(Sh+X)”、韵母“i(Sh+I)”、“统”的首部件“纟(E)”、次部件“亠(D)”。电脑程序处理如下:
第一键x:辨认为声母“x”。在拼音JG表中搜索每个汉字的首、次键序与输入键位“x”进行比对,其中首键序(声母代码)与“x”比对一致的汉字,置词缓冲区该字国标单元D0=1,比对不一致,保持D0=0。该字次键序(韵母代码)与“x”比对同法处理,若不一致,保持D1=0。 第二键i:也是输入拼音的第二键,在拼音JG表中仍然搜索每个字的首键序(声母代码)与输入键位“i”进行比对,若比对一致,置词缓冲区该字国标单元的D2=1,不一致则保持D2=0(若“i”键上没有定位声母,则保持每个字国标单元D2=0)。与此同时,词缓冲区中每个汉字的次键序(韵母代码)也要与“i”比对,若比对一致,则置该字国标单元D3=1。
第三键E:部件类信息,在部件JG表中搜索每个汉字的首、次部件与“E”键代码作比对,若首部件比对一致,置词缓冲区该字国标单元D4=1,若次部件比对不一致,保持D5=0。
第四键D:同上所述。在部件JG表中搜索每个汉字的首、次部件与“D”进行比对,若二者比对都一致者,置词缓冲区该字国标单元的D6和D7位为“1”。
四键后,根据上述词编码的判别过程,从词库中逐条检测词语,依据不同词长的取码规则采集其中的编码汉字,并返回词缓冲区构建词编码判别单元,符合其编码特征数据的词语为编码词。拿上述二字词来说,它的词编码判别单元由“系”的国标单元的D0D1D2D3位和“统”的国标单元的D4D5D6D7位构成,其编码特征数据“99”(首次键和第三四键为同类信息)。符合上述特征数据的二字词是编码词,其中必有“系统”。
若二字词“自动”的键入信息:“自”的首部件“丿(C)”、声母“z(Sh+Z)”,“动”的第一二笔划“一(1)、一(1)”和声母“d(Sh+D)”,它的判别过程以及构建的判别单元都和上述“系统”是相同的,但首、尾二字采集的二个信息(首次键序)都为异类信息。虽然二者都是二字词,但判别词编码特征数据不相同,这里的词编码特征数据是“55”(D6D4D2D0均为“1”)。同样,当输入二字词“编码”:“编”的声母“b(Sh+B)”、韵母“ian(Sh+C)”,“码”的第一二笔划“一(1)、丿(3)”及声母“m(Sh+M)”,判别该二字词的编码特征数据是“59”,因为输入“编”用的是都是拼音(同类),而“码”字用的笔划和拼音(异类)。
若输入的四键:“自”的声母“z(Sh+Z)”、“动”的声母“d(Sh+D)”、以及“化”的首、次部件“亻(C)、匕(G)”,同样三字词“自动化”,其编码特征数“95”(D7D4D2D0为“1”)。因为尾字“化”的二个信息属同类。
四字及四字以上词语的混合类信息编码只涉及汉字的首键序,并不牵涉第二键序,所以判别它们的编码特征数据与键入的信息类型无关,如“自动编码”、“编码系统”或“自动编码系统”,它们的词编码特征数据都是“55”(D6D4D2D0为“1”)。
异类(混合类)信息词编码自动生成见示例八。
5,不等码长词语的随机编码自动生成处理(系统增设的词编码功能):
那么能否在保留固定码长(四码)的词编码输入条件下扩展不等码长的词输入呢?当然可以。只要在系统中增添相关不等码长的词编码规则:
二字词可以设计为压二键(取首、尾字的首键序),也可以压三键(取首字的首键序和尾字的首、次键序);三字词压三键(分别取三个字的首键序);四字及四字以上词语取码与传统词编码相同。若二键后是“词结束键”,首键代码与同类JG表中的首、次键序代码比对,接着将次键代码与同类JG表中的首、次键序代码比对,系统把二键比对结果分别储入词缓冲区国标单元D0D1和D2D3中,词结束键后去词库中取出全部二字词,逐条搜索其首、尾二字,并返回词缓冲区采集首字的D0D1位和尾字的D2D3位,构建其二字词的编码判别单元为D3D2D1D0(D7~D4均为“0”)。符合特征数据“05”(D2D0为“1”)的二字词为编码词(不论二者是同类或异类)。由于二字词的数量较大,择取的编码信息较少,出现的重码会较多。三字词的总量较少,因此设定三键后的“词结束键”,不仅要处理三字词编码,同时也要处理二字词编码。处理不等码长词语,其信息比对及其储存词缓冲区国标单元的方法与前面所述固定码长的词编码是相同的。词结束键后,在词缓冲区中构建词编码判别单元的方法也大致相同,二字词的编码判别单元为首字的D0D1和尾字的D2D3D4D5位。三字词编码判别单元为首字的D0D1、次字的D2D3和尾字的D4D5。所不同的是它们的编码特征数据。若二字词尾字的首、次键序为同类信息,其编码特征数据是“25”(第三键是尾字的次键序,即D5D2D0位都是“1”)。若二字词尾字的首、次键序是异类信息,其特征数据为“15”(第三键是尾字异类信息的首键序,即D4D2D0位都是“1”)。符合上述条件的二字词是编码词,否则不是。若是三字词,其编码特征数据是“15”(三字的首键序,同类异类无关,即D4D2D0位为“1”)。
系统设计者要注意的是四字词的编码应该按固定码长的词编码来处理呢?还是按不等码长的词编码来处理?因为四码后的“词结束键”电脑无法识别二者的不同,存在不确定性。本人建议四键后单击“词结束键”,保持固定四码的传统词编码操作,即在词编码缓冲区处理词库中全部词条。若四键后双击“词结束健”,则在词缓冲区中只处理四字及四字以上的词编码操作(不对二、三字词作编码处理),这样处理可提高四字及四字以上词语的编码效率。
扩展不等码长的词处理将扩大词输入的随意性,并可分离重码词,降低编码词的重码率。
6,句子的随机编码自动生成处理
按传统句编码规则,依次采集句中每个字的首键序(首部件或声母或第一二笔划)来实施句编码。句编码为不等码长,有的句子往往有二、三十字之多,但键入过多的字信息往往会造成误打。设置句缓冲区数据位为16位(bits)较为适宜,多于16字的句子取前15字和尾字的首键序信息。前15字中难以辨认的首键序也可用替代键替补。为了加速句编码的判别过程,在句库中每条句子前加入一个字节的句长码,或按不同句长排列句库。这样一来,当句输入结束时,电脑就能检测到输入的句长(字数),在句库中搜索编码句子时只需针对相同句长(字数)的句子,可以省去许多无谓的判别时间。当实施句编码输入时,用户也可以采用随机编码方式,句中各字的首键序也可选用不同类信息。
若在句库中加入新句“人们都用自动编码”。我们随机采样句中每个字的首键序,如:“人”的首部件“人(C)”;“们”的首部件“亻(C)”;“都”的声母“d(Sh+D)”;“用”的第一二笔划“丿(3)、乙(5)”;“自”的声母“z(Sh+Z)”;“动”的声母“d(Sh+D)”;“编”的首部件“纟(E)”;“码”的第一二笔划“一(1)、丿(3)”。每压一个键位信息,根据它的信息类型在其相应JG表的首键序中检出与输入键位信息相一致的汉字,并在句缓冲区国标单元的D0~D7(因为该句长是8位)相应数据位上置“1”。
压第一键“人(C)”时,搜索部件JG表首键序与压键信息一致的汉字,置句缓冲区同一汉字国标单元D0=1,不一致的汉字保持“0”。第二键“亻(C)”,搜索JG表首键序与压键信息一致的汉字,置句缓冲区同一汉字国标单元D1=1。直至第八键“一(1)、丿(3)”,置D7=1。
压句结束键后,从句库中检出全部8字长句子,逐句地进行句编码判别:找出该句的首字“人”,并在句缓冲区中找出该字国标单元的D0位,接着找出该句第二字“们”的国标单元D1位,直到找出句子尾字“码”的国标单元的D7位。若上述检出D0~D7均为“1”,则该句便是编码句,若其中有一位是“0”,则该句不是编码句,立刻转入下一条8字长句子的编码判别,直至最后一句8字长句子判别完毕。
判别16字以上句编码,取句缓冲区前15个汉字和尾字的录入结果作判别。
句编码自动生成见示例九。
随机编码技术的手机模式(简述):
手机上一般只设置十个数字键(0~9)和二个功能键(*、#)以及移位键、选择键等。为了实施三类不同信息的互补输入,便要用双数字来完成声韵母和部件信息的代码功能:
功能键“*”将被设计为“电话/中文”的切换键。压此键即进入上述显示页面,“#”键和“选择键”替代“Space”和“Enter”键。“移位键”设计为翻页键。手机模式下,词句操作合二为一。若是一般手机,先击数字1,再击数字2,即输入汉字的声韵母或部件信息。若是触模屏应设计为直接点击。手机模式的随机原理及设计流程与电脑类同。
以上对本发明“移置三类汉字信息字码表,实现字、词、句随机编码方法”进行了详细介绍,对于本领域的一般技术人员,依据本发明实施例的设计思想,在具体实施方式及应用范围上可能会有改变之处,因此,本说明书内容不应理解为对本发明的限制。所有与输入文字有关设备(如电脑、手机、办公设备等)中涉及到多信息类文字的处理,不仅包括中文,也包括亚洲文字如日文、韩文等,只要是在本发明“说明书”设计思想基础上实施的随机编码输入法,即使所用名称不同或操作方式上的改变(包括触摸式屏幕操作),都应列入本专利的保护范围之内。
示例一:
汉字部件信息及其代码
汉字特征码部件表结构
注:1,汉字特征码部件表中的国标地址标示汉字库中的全部汉字(如GB 2312),与汉字GB码一一对应。
2,汉字特征单元用来标示汉字被分解后的第一、二、三及末部件的代码,不足四码的空格为“00”标示。
3,汉字部件信息一般采纳200~250个,相应代码在01~FF之间,00码专用于标示“空缺信息”。
4,上述汉字特征码中的国标地址和特征单元的数据只是示例而已,非实用数据。
5,所谓国标地址,它涉及到部件、拼音、笔划的特征码列表和字、词、句编码缓冲区以及一个字库转换器中的全部地址码部份,它们的高位部份存在区域差,而低位部份则相同,用来映射字库中的每个汉字,为此字库转换器中的操作数存放每个汉字的国标码。这样特征码列表或编码缓冲区采用间接寻址方法可找到国标地址在字库中映射的汉字,同样从汉字的国标码也能找到国标地址。采用国标地址将加速寻址速度。
示例二:
汉字部件的键盘定位及其键位代码
汉字部件特征码键位表结构
注1,汉字特征码键位列表中的国标地址标示一、二级国标汉字(如GB 2312),与汉字GB码一一对应。
2,汉字特征单元用来标示汉字被分解后的第一、二、三及末键位代码,不足四码的空缺用“00”标示。
3,200多个部件兼并于26个字符键,兼并原则一般根据部件的音托或形托定位键盘以及尽量少的兼并重码。
4,上述汉字特征码中的国标地址和特征单元的数据只是示例而已,非实用数据。
示例三:
汉字拼音信息(声韵母)及其代码
汉字拼音特征码键位表结构
注1,汉字拼音键位列表中包含声母和韵母键盘定位后的键位列表。
2,汉字特征码拼音列表中的国标地址标示一、二级国标汉字(如GB 2312),与汉字GB码一一对应。
3,23个声母一般按其辅音定位(zh、ch、sh定位于i、u、v键),韵母35个,定位在26个字符键,所以有键位兼并问题,兼并原则是避免产生兼并重码。
4,上述汉字国标地址和特征单元中的数据只是示例而已,非实用数据。
示例四:
汉字笔划信息及其代码
汉字笔划特征码键位表结构
注:1,笔划信息划分:横、竖、撇、点(捺)、钩等五类。实际输入用单笔划(1~5五个数字键)操作,双笔划列表。
2,汉字笔划特征码键位(笔划)列表中的国标地址标示一、二级国标汉字(如GB 2312),与汉字GB码一一对应。
3,汉字笔划特征单元用来标示该汉字被分解后的第一、二笔划、三、四笔划及五、末笔划的双笔划代码。特征单元不足四码用“00”作代码。
4,同样,三、五笔划数的汉字尾码标记为“X0”,如末笔为“丿”的三(或五)笔划汉字尾码为“30”。
5,汉字笔划特征单元中的首键序“第一、二笔划/汉字末前笔、末笔”是个选项。当输入汉字的异类(混合类)信息时,如果电脑检测到前面已键入了首部件,后面若输入该字的第一、二笔划(对分离重码)往往是无效的,此时应该采用(电脑也将默认为)该字的末前笔、末笔代之,这对进一步分离重码字有好处。此选项仅限于字输入。词、句编码操作的首笔划码均取第一、二笔划。
6,汉字笔划特征单元中的首键序“第一、二笔划/汉字末前笔、末笔”选项也可改为“第一、二笔划/汉字字型结构、末笔”选项。字型结构包括:左右型--1、上下型--2、内外型--3、单体型--4,其中数字为其代码。
示例五:
汉字部件字编码自动生成
注:1,上述字编码缓冲区(也包括后面的词、句编码缓冲区)国标单元中的空格均为“0”
2,实际字编码缓冲区中的汉字GB码(相应于国标地址),应为字库(如GB2312)中全部汉字。
3,上述括弧中的字符为汉字拆分部件所属键位,该键位上可能还有其它一些与之兼用的部件(见示二)。
4,上述字编码缓冲区的国标单元中的浓黑数字构建该汉字编码的检测数据:
二码长的编码汉字检测数据为:D0、D1均为“1”。
三码长的编码汉字检测数据为:D0、D1、D2均为“1”。
四码长的编码汉字检测数据为:D0、D1、D2、D3均为“1
示例六:
输入异类(混合类)信息的字编码自动生成
注:1,上述括弧中的字符为汉字拆分部件所属键位(见示例二)或汉语拼音声、韵母所属键位(见示例三)或汉字笔划所属键位(见示例四)。同样在部件及韵母所属键位上还可能兼并其它的部件和韵母。
2,习惯于部件输入操作的用户输入部件信息用字符键,声、韵母信息用SHIFT+字符键习惯于拼音输入操作的用户输入声、韵母信息用字符键,部件信息用SHIFT+字符键输入笔划信息压1~5五个数字键(代表横、竖、撇、点、钩五类不同笔划),二个笔划为一码。
3,异类信息字编码,当前面输入了一个字的部件信息,后面输入该字的笔划信息时,应考虑输入该字的末前笔和末笔来取代该字的首、次笔划。这一判别与替换将由系统程序来执行。
4,上述缓冲区中字国标单元中的浓黑数据位用于字编码检测数据:
二码长的编码汉字检测数据为:D0、D1均为“1”。
三码长的编码汉字检测数据为:D0、D1、D2均为“1”。
四码长的编码汉字检测数据为:D0、D1、D2、D3均为“1”。
示例七:
汉字部件词编码自动生成
注:1,上述缓冲区词国标单元中浓黑数据位构建词编码判别单元,用于判别汉字部件词编码的自动生成:
二字词编码特征数据:99(即二字词构建的词编码判别单元中的D0、D3、D4、D7位均为“1”)
三字词编码特征数据:95(即三字词构建的词编码判别单元中的D0、D2、D4、D7位均为“1”)
四字及四字以上词的编码特征数据:55(即四字及四字以上词构建的词编码判别单元中的D0、D2、D4、D6位均为“1”)。
2,上述词编码特征数据的操作:特征数据与词编码判别单元的数据作“与”操作后仍为特证数据者为编码词。
3,每个词判别单元中的另一并列位(如二字词编码判别单元中的D1、D2、D5、D6位)为无效位,示例中都被标记为“0”,实际不一定如此,也可能有的储入是“1”,视不同键位设计可能会有不同。
示例八
异类信息词编码自动生成
注:1,上述词缓冲区国标单元中的浓黑数据位构建词编码判别单元,用于判别词编码:
二字词编码特征数据:99(首字第一、二键序信息属同类,尾字第一、二键序信息也属同类)
95(首字第一、二键序信息属异类,尾字第一、二键序信息属同类)
59(首字第一、二键序信息属同类,尾字第一、二键序信息属异类)
55(首字第一、二键序信息属异类,尾字第一、二键序信息也属异类)
三字词编码特征数据:95(尾字第一、二键序信息属同类,与首、次字的键入信息类别无关)
55(尾字第一、二键序信息属异类,与首、次字的键入信息类别无关)
四字及四字以上词语的编码特征数据:55(与键入信息类别无关)
示例九:
句编码自动生成
注:1,实际应用的句编码缓冲区的数据位长度为16位,多于16字长的句子取前15字及尾字的首键序信息(不限信息类型)作句编码检测。
2,句编码为不等码长,只需判别句库中与输入字数相同句长(相应于句的压键数)的编码句子(16字以上句子的句编码判别同16字句长的句子)。
3,判别句编码的特征数据是全“1”。若判别句中的每个字在句编码缓冲区的相应标记位D0、D1、D2......至最末的数据位均为“1”,该判别句为编码句。若其中有一位或几位是“0”,则不是编码句。
Claims (7)
1.一种移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于,包括如下几个方面:移置当前三类不同编码方案的字码表于随机系统中的特征码键位列表中;设置字、词、句随机取码规则;采用信息比对编码法;设置字、词、句三个编码缓冲区;由于字、词、句的随机取码规则是不同的以及前后输入信息类型也会经常变化,每次输入信息时,选择比对特征码中的键序也是不同的,因此储入各编码缓冲区的数据也将不同;字结束键后,选择字词句编码的特征数据也因码长不同及前后信息类型变化有所差别,对于字随机编码,当输入第一键时,首先判断输入信息类型,取压键信息与同类特征码列表中每个汉字的首键序比对,比对一致的汉字在字编码缓冲区同一汉字的数据项D0置“1”,不一致保持“0”;输入第二键时,同样先判断输入信息类型,若所压二键信息是同类,则压键信息与其同类特征码列表中次键序比对;若二键异类则与异类信息特征码列表中首键序比对;如此重复上述步骤直至检出编码字。
2.根据权利要求1所述的移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于:输入信息之前,三个缓冲区清零;字随机编码:输入第一键,选择同类特征码列表中每个汉字的首键序与压键信息比对,比对一致者,置字编码缓冲区同一汉字的数据项D0位为“1”,比对不一致的汉字,保持D0=0;输入第二键,若和第一键属同类型,则要和该类特征码中每个汉字的第二键序比对,若和第一键为不同输入类型,则和该异类特征码的第一键序比对,比对结果置字编码缓冲区同一汉字数据项的D1位;第三、四键效法第二键处理,不过与特征码比对的键序位和储入字缓冲区的数据位是不同的,储入的是字缓冲区中D2、D3位;当输入字结束键,去字缓冲区搜索每个字数据项中的储入数据,在码长内为全“1”的即为编码字。
3.根据权利要求1所述的移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于:词编码只与字的第一第二键序有关,输入第一键,根据当前压键信息与其同类特征码列表中每个汉字的首、次键序码作比对,首键序比对一致,置词编码缓冲区同一汉字数据项的D0位为“1”,比对不一致则不变;次键序比对一致,置词缓冲区同一汉字数据项的D1位为“1”,比对不一致则D1位不变;压第二、三、四键,效法处理,不过置入词缓冲区数据项的是D2D3位、D4D5位、D6D7位;词结束后,逐条检出词库中词语,根据其词长在词缓冲区构建词编码判别单元,并与词编码特征数据作比对,词编码特征数据不仅与词长有关,也与输入信息类型的异同有关,与词编码特征数据比对一致的词属编码词。
4.根据权利要求1所述的移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于,句随机编码只与字的第一键序有关。输入第一键,根据输入信息类型,选择同类特征码列表中每个汉字的第一键序与当前压键信息作比对,比对一致,储入句编码缓冲区同一汉字数据项的D0位为“1”,比对不一致则不变;输入第二键,根据输入信息类型,选择同类特征码列表中每个汉字的第一键序与当前压键信息作比对,比对一致者储入句编码缓冲区同一汉字数据项的D1位;重复上述步骤输入第三、四、五直至末键;句结束键后,去句库检出与压键数相关句长句子,依次搜索句中每个字在句缓冲区中的相应数据位是全“1”的句子属编码句。
5.根据权利要求1所述的移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于:三类字码表移置系统特征码列表,列表分为国标地址和特征单元二部份,其中国标地址与字库中的汉字一一对应,特征单元标示每个汉字分解后的各个键序代码。部件码的特征单元分别标记首部件、次部件、第三部件和末部件等四码,用字符键作代码;拼音码标示声、韵母等二码,用Shift+字符键作代码,熟悉拼音的用户可切换为用字符键作代码;笔划码标示第一二笔、第三四笔和第五末笔等三码,用数字键1~5作代码;三类信息可兼容操作。
6.根据权利要求1所述的移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于:所述字、词、句三个编码缓冲区的结构包括国标地址和国标单元二部分;三个缓冲区中的国标地址与特征码中的国标地址一致,都与汉字库中的汉字国标码一一对应;结束键之前,三个缓冲区的国标单元分别用于储存字、词、句各自相关的编码信息;结束键之后,用于判别字、词、句编码条件。
7.根据权利要求1所述的移置三类汉字信息字码表实现字词句的随机编码方法,其特征在于:字、词、句的随机编码规则,包括同类信息编码,一般沿用字码表移置前的字、词、句编码规则;传统字、词、句编码输入中遇到不同汉字容许输入不同类信息;字、词输入过程中难以辩识的同类信息次键序或后键序,可用异类信息首键序取代;不论输入同类信息或异类信息,在码长范围内均按各类信息的分解次序取码。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210536574 CN103049096A (zh) | 2012-12-13 | 2012-12-13 | 移置三类汉字信息字码表实现字词句的随机编码方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201210536574 CN103049096A (zh) | 2012-12-13 | 2012-12-13 | 移置三类汉字信息字码表实现字词句的随机编码方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103049096A true CN103049096A (zh) | 2013-04-17 |
Family
ID=48061765
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201210536574 Pending CN103049096A (zh) | 2012-12-13 | 2012-12-13 | 移置三类汉字信息字码表实现字词句的随机编码方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103049096A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182520A (zh) * | 2014-08-26 | 2014-12-03 | 严永亮 | 利用部件自动生成汉字字库的实现方法 |
CN105825141A (zh) * | 2016-02-02 | 2016-08-03 | 上海健晴信息技术有限公司 | 一种基于互补映射的数据库汉语姓名脱敏方法 |
CN109308130A (zh) * | 2018-07-19 | 2019-02-05 | 李焌坚 | 一种用于数码设备的文字输入及编辑方法 |
-
2012
- 2012-12-13 CN CN 201210536574 patent/CN103049096A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104182520A (zh) * | 2014-08-26 | 2014-12-03 | 严永亮 | 利用部件自动生成汉字字库的实现方法 |
CN104182520B (zh) * | 2014-08-26 | 2017-08-08 | 严永亮 | 利用部件自动生成汉字字库的实现方法 |
CN105825141A (zh) * | 2016-02-02 | 2016-08-03 | 上海健晴信息技术有限公司 | 一种基于互补映射的数据库汉语姓名脱敏方法 |
CN109308130A (zh) * | 2018-07-19 | 2019-02-05 | 李焌坚 | 一种用于数码设备的文字输入及编辑方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101408873A (zh) | 全范围语义信息综合认知系统及其应用 | |
CN100462901C (zh) | Gb拼音输入法 | |
CN103049096A (zh) | 移置三类汉字信息字码表实现字词句的随机编码方法 | |
CN101825955A (zh) | 八韵拼音输入法 | |
CN100451926C (zh) | 基于笔画和汉字基本部件的汉字输入法 | |
CN101692190A (zh) | 九格拼音输入法 | |
CN101739142A (zh) | 五笔输入系统及方法 | |
CN100476826C (zh) | 中文字型排序检索方法和装置以及一种信息系统 | |
CN100520684C (zh) | 一种中文注音输入方法及其系统 | |
CN104850240A (zh) | 一种基于手机20键位输入法的显示键盘及其输入方法 | |
CN102750009B (zh) | 一种无切换汉字输入法及键盘 | |
CN102346558A (zh) | 笔画结构输入方法和系统 | |
CN100458668C (zh) | 首音汉字输入法 | |
CN101587374A (zh) | 一种输入键盘及其拼音输入方法 | |
CN101930300A (zh) | 中文信息数字化处理方法和汉字随机编码方法 | |
CN102184032A (zh) | 电子设备写入印度语的方法 | |
CN101630310A (zh) | 一种具有容错功能的文字处理系统及方法 | |
CN101587381A (zh) | 音形汉字无重码输入法 | |
CN102177511A (zh) | 汉字排序检索方法 | |
CN1072785A (zh) | 无理序号数字综合编码法及其键盘 | |
CN1472626A (zh) | 嵌入式智能文字输入解决方法和装置 | |
CN103744538A (zh) | 一种具有超低全拼重码率的九宫格键盘字母映射方法 | |
CN102043471A (zh) | 二十五偏旁部首字根中华形码输入法 | |
CN107894851A (zh) | 一种滑拼汉字输入法 | |
CN102637077A (zh) | 用于计算机汉字输入的音、形、调混合编码方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20130417 |