CN101692188A - 一种音形码汉字输入法 - Google Patents

一种音形码汉字输入法 Download PDF

Info

Publication number
CN101692188A
CN101692188A CN200910170159A CN200910170159A CN101692188A CN 101692188 A CN101692188 A CN 101692188A CN 200910170159 A CN200910170159 A CN 200910170159A CN 200910170159 A CN200910170159 A CN 200910170159A CN 101692188 A CN101692188 A CN 101692188A
Authority
CN
China
Prior art keywords
code
word
character
chinese
sign indicating
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN200910170159A
Other languages
English (en)
Inventor
曾新民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN200910170159A priority Critical patent/CN101692188A/zh
Publication of CN101692188A publication Critical patent/CN101692188A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

本发明公开了一种音形码汉字输入法。该音形码汉字由字的音码、字的声调、字的形码及字结构形态的标注符号共同组成。音码的读音是根据字的声母、韵母的代码及声调共同拼成。所述音形码中的形码的取码分两种情况,即对于详形码而言,取字的核心部件1码或2码,其余部件为4码以下,共取6码以下;对于简形码而言,取字的核心部件1码或2码,其余部件取2码或1码,共取3码以下。先按声母、韵母、声调顺序去敲击西文键盘上的对应字母或数字,然后顺序输入任意选择的一种形码代码所对应的字母、数字。

Description

一种音形码汉字输入法
技术领域
本发明为语言文字学中新一种以字母、数字来表示的汉字,名为“音形码汉字”。
背景技术
汉字是我国几千年来一直在发展、一直在使用的统一文字。汉字是形声方块字,汉字在计算机信息时代如何去处理信息这一课题一直被人们所关心,从1974年8月由国家计委批准列入国家科学技术发展计划以来,经过20年的组织实施至1974年已基本完成,实现了汉字进入电子计算机的重大突破。其中,在电子计算机编码方面也有重大突破,电子计算机编码方案多达500多种,从大类来说,主要有3类,一是按字音编码,多数以汉语拼音方案为基础进行设计;二是按字型编码,有笔划编码、部首编码、四角编码等各种方案;三是音形结合编码;现在比较通用的“微软拼音输入法”、“智能ABC输入法”、“王码五笔字形输入法”等,这些编码在使用过程中,都展现各自的优越性,但总感到好学不好用,或者好用不好学的问题存在,不管怎样的情况,总算基本上解决计算机的汉字输入输出的“字处理阶段”的瓶颈问题;现在对自动分词问题就成为计算机中文信息处理技术发展的又一热点,成为另一个“瓶颈”,对这个瓶颈问题一定要想方设法给予解决。关于对进入计算机汉字进行信息处理,是指用计算机对词、句进行分析、理解就必须在分词的基础上进行,为此,中文信息处理界在七五期间制定了《信息处理用现代汉语分词规范》,对现代汉语分类词的分词原则作了详细规定,作为计算机自动分词的规范依据,经过十几年的努力,汉语自动分词技术已有了较大的突破。在目前我国已推出十几个自动分词系统,根据1995年12月在北京举行的评测会的评测结果,分词正确切分率已基本上解决自动分词的瓶颈问题,但最后要解决这10%的问题要比解决那90%的问题难度大得多,而解决10%的问题关健不在计算机技术,而在语言文字学。因此在我国尚未有象外文用字母拼写的文字来处理计算机信息的情况下,只有用人为的对汉字进行编码,而编码的结果又不能真正解决信息处理的要求,为了实现计算机自动处理信息,投入了更多的人力、物力、财力对处理中文信息的深入探讨研究,克服和弥补目前对计算机各种编码本身存在着难于克服的缺陷。
发明内容
本发明的目的是一种新造音形码汉字的架构法,并使之直接成为计算机输入汉字的一种新的输入码,或者成为直接用于计算机自动分词,或用于计算机自动检索信息过程提供决定性条件的方法。
为了实现上述目的的所要解决的技术问题,要发明是通过以下技术方案去实现的:
1、本发明新造一种音形码汉字,它由字音码、字的声调、字形码及字结构形态的标注符号共同组成。书写的形式为上、下两层,上层为字的音码及字的声调,下层为字的形码(详码)。
音码的读音是根据字的声母、韵母的代码及声调共同拼成,声调的代码1、2、3、4、5分别表示“阴平、阳平、上声、去声、轻声”。
汉字拼音的声母zh、ch、sh、中的h、用1去替代,即写成Z1、C1、S1。
详形码取码方法,是根据字的核心部件取1码至3码,其余部件取4码或3码。
已经取了固定码的字,按固定码码数取码。
详形码取码步骤,从字的第一笔画本身或与第一笔画有关联的其它部件所构成另一种部件(包括固定码的部件或字)取下第一码,依据笔顺取第二部件码,(第二部件不能含有第一部件的笔形)按此方法,取至最后一个部件止。
一个字的详形码数在1至6码之间组合。
详形码独立作为一种汉字输入码使用,它与音码组合,也能作为一种汉字输入码。
简形码取码步骤,取该字核心部件2码,在其余部件中取该字最后部件最后一个码,共3码,音码与简形码一起,作另一种输入法使用。
音形码汉字输入法是怎样在计算机上输入一个字的,有两种方法,一种是用详形码,另一种是音形码简码,任选其中一种,用其码按顺序敲入西文键盘上的对应字母键入其字。
音形码汉字输入法是怎样在计算机上输入2个字的词的,办法是:从第一个字开始,取各字的声母、韵母的代码,按顺序去敲击西文键盘上的对应字母键输入其词,若输入结果不成功,再取其词的区分字头尾形码,按字母顺序敲击西文键盘上对应字母键输入其词。
音形码汉字输入法是怎样在计算机上输入3个字以上的词的,办法是:从第一个字开始,按顺序取各字的声母,超出7个字的词,取最后字的声母作为第6码,然后把编出来6位码的词码,按顺序敲击西文键盘上对应字母键输入其词,如果输入不成功,先删除原码第6位码,再从最后的字顺序逆向逐个取未取过字的声母键入西文键盘上对应字母键输入其词,输入结果不成功,最后通过计算机搜索该词的区分字码(此时帮助键提示区分字)。输入区分字形码前要先从尾码向前删除与区分字码相同的码位。
2、本发明新造一种音形码汉字,用于计算机自动分词提供条件。音形码汉字本身就是一种直接当作输入汉字的输入码,乃是音形码汉字本身实现一字一码、一词一码的字母化汉字就能直接用字与字、字与词、词与词之间按语义用空格隔开,从而给计算机提供自动辨认、自动分词的自然条件。
3、本发明新造一种音形码汉字,用于计算机自动检索信息过程中提供条件,这就必须事前对每条检索词目进行检索信息的处理工作。第一步,以一个字为检索单位,从词头到词尾,每次取一个字,逐字取其限制音形码;第二步,又从词头至词尾,每次取2个字,并按前后、后前交递往后直取得分段信息词都编上限制音形码;然后,再从词头至词尾,每次取3个字作第三步,按第二步的办法取其限制音形码;接下来,仍按上述分段取码的办法直至最后的一步,并对所有分段信息词限制音形码(包括区分字码、类别、作者、出版日期、期刊名等)一并存入词库,实现每条词目都能全方位、全角度进行计算机在自动分词工作过程中再进行自动检索信息的工作提供条件。
4、本发明新造一种音形码汉字,文中所提及的“核心部件”、“固定码”、“区分字码”等术语,所谓“核心部件”,是依据原本是汉字作为中文工具书(如,新华字典、汉语大字典)按照字形的结构特点作排检部首,这种排检部首在计算机信息处理过程中也作为取码对象,这个对象,在信息处理过程中也作为取码对象,这个对象,在信息处理过程中称之为核心部件。含有核心部件的固定字码,称之为核心部首固定码。所谓“固定码”,为了使音形码输入法所取的字、词之中不产生同码,对字的单笔画、笔形(包括字形)给予一个恰当的输入码,而这个输入码对其它字取码过程中始终保持不变的参照模码,称为固定码。音形码汉字输入法分别设计一码、二码、三码等三种固定码。所谓“区分字码”,乃是为了解决对某信息处理的词实现编出唯一码的效果而采取的一种规则,即在词语中对其中的一个字或二个字原先的音形码取出其中一部分或全部的字码作为决定该词的编码结果是唯一码为目的,这个唯一码就是区分字码。其实,详形码字,音形码简码字就是地道的区分字码,在信息处理过程中发挥唯一的区分作用。
具体实施方法
音形码汉字,就是汉字用音与形共同组合为码文的一种新造的文字。
1、音形码汉字的音含声母、韵母及字声调三部分组成。
2、音形码汉字读音中的声母就是汉字拼音的声母,两者的写法、读音都相同。其中声母Zh、Sh、Ch、中的“h”用1代替、即Z1、S1、C1。
3、音形码汉字读音中的韵母就是汉字拼音中的韵母,它只用一个字母为一个韵母作代码(韵母代码表四)。对没有声母的字直接用韵母替代,如,“烟”的拼音为ian,它没有声母,直接用代码“d”表示。
Figure G2009101701597D0000061
4、音形码汉字采用上、下两层和横排两种书写形式。上下两层书写的称音形码详码,简称详码,上层称音码,下层称详形码。如:“石”详码为:
Figure G2009101701597D0000071
横排书写的称音形码简码,简称简码。前半部码称为音码,后半部码称简形码。如:“石”的简码为:S12※q6。
详码上层书写内容是音码;下层书写内容为详形码;音码包括字的声母、韵母、声调;详形码是对字的全部件取码结果,即核心部件取2码或1码,其余部件取4码以下;无核心部件的字,从头至尾往下取6码以内。详码主要用作书面文字使用,上层为字音,下层为辨字,当然,下层形码是对字形态全面取码结果,因此能独立成为一种汉字输入码。
简码的内容包括音码和简形码。音码包括字的声母、韵母、声调;简形码最多为3码(即核心部件2码,其余1码)。经核对,用简码的音码及简形码前面一个码,共4码,就容易输入汉字常用字,因此,简码也可作为一种汉字输入码使用。
详码中的详形码是这样取码:利用表一“笔形代码表”,表二“核心部首固定码表”表三“偏旁字固定码表”,表五“二码固定字表”表六“三码固定字表”,表七“无音部件固定码表”所提供有关笔画、部件、实字的基础上,按取码规则进行取码。每字取应包括有字头码、字尾码在内总码数不超过6位为准,对上下、左右、内外结构的字,如果核心部首是1码时,其余的部件可取1至5码;核心部首是2码时,其余的部件可取1至4码;对综合的、独体的字按笔画、部件顺序取6码或6码以内。
对某些字或某些部件是有着结合在一起的多个相同部件的字.如,磊,森,
Figure G2009101701597D0000072
等,编码时,用其中一个部件的形码,后面带上相同部件的数量,并注上表示数量符号“+”,如,磊的详形码为q6+3,
Figure G2009101701597D0000073
的详形码为P5+3,输入计算机时不用符号“+”。
Figure G2009101701597D0000091
Figure G2009101701597D0000101
Figure G2009101701597D0000111
Figure G2009101701597D0000121
Figure G2009101701597D0000131
Figure G2009101701597D0000141
表七:无音部件固定码表七
(按部件起头笔划码排)
Figure G2009101701597D0000151
简码中的简形码是这样取码:核心部件取其固定码1至3码。余下部件取最后部件最后的一个码;如果其为繁体字取其尾形码;简体字取其头码;属于 旧字形字的,取其头码,属于新字形的,取其尾码;如,彔、
Figure G2009101701597D0000161
、晉、等为旧字形,录、显、晋等为新字形;对同字变异形的字,原字取尾形码,新变异字取头形码,如,“
Figure G2009101701597D0000162
”同“呼”,“
Figure G2009101701597D0000163
”同“靈”,“
Figure G2009101701597D0000164
”同“嚚”。
5、2个汉字输入规则,第一步,按顺序取每个字的声母、韵母,如果输入不成功,第二步,选择区分字,首先取第二个字的前、尾形码,输入再不成功,换取第一个字的前、尾形码,即成功输入,或者键入帮助键,直接找到区分字,输入其前、尾形码。如果区分字为3码时,先删除多余的韵母,再输入区分字码,共6码。(此方法,3个字以上的输入遇到上述情形,依法应用)。
3至6个汉字输入规则,第一步,取每个字的声母,如果输入不成功,第二步直接输入区分字形码,共6码。
7个字以汉字输入规则,第一步,输入第1至第5字的声母及最尾字的声母,如果输入不成功,删除尾声母后,从尾字逆向逐字试取声母,若输入还不成功,这时键入帮助键搜索出区分字后,按区分字的码数相应删除,词尾的原声母,输入区分字码后,直至成功输入,
6、关于表二核心部首码设计要点,把现代汉语大词典作为检索用的部首用2码(即第一笔形码及最后笔形码),1码或3码把部首的编码给予固定下来,是实现一字一码编码效果的一个措施,取码的时候,采取无同码的原则,就必须在取码上既要有规定性,也要有多样性,才能创造更多条件去实现一字一码的目的,在编码时,字的第一笔画能作为一个码外,还可以从跟第一笔画有关联的笔画所组成新部件后就可以取码作为其字的另一个第一个输入码。
这种取码方法叫做关联取码法,其中要注意的是,已经用过的笔画,再不能用来组合新部件的材料,如,“石”的第一笔画为“一”,而与“一”有关联的另一部件为“丆”,那么,“石”的第一个码可用“一”(h),或用“丆”(q),“石”的最后笔画为“一”,而与“一”有关联所能形成的部件有
Figure G2009101701597D0000165
(7),(z),“口”(6),那么,石的编码可有“——”(he)、“-
Figure G2009101701597D0000167
”(h、7)、“-
Figure G2009101701597D0000168
”(h.Z)、“-凵”(h、7)、“丆一”(q、e)、“丆
Figure G2009101701597D0000169
”(q、7)、“丆
Figure G2009101701597D00001610
”(q、Z)、“丆口”(q、6),在决定取码时,就要考虑那一码才不与其它部件码发生同码,结果最后按“丆口”作为石的固定码。
在表二核心部首固定码表中有,木、瓦、止、日、水、女、毛、火、目、田、比、羊、见、鸟、羽、马、束、朿、隹、鬼、等部首,用它所在字的位置来安排它特有的固定码,即处在字的上边或下边情况下,第一码取部首第一个部件形码,第二码为字部首声母;部首处在左右边位置,取部首头部件、尾部件的形码。如:“木”(上下:4m,左右:4a),以上各字取一码时,一般取后码。
7、表三“偏旁字部首取码要点,偏旁字部首每个字取3码,繁体字先取其声母、再取字的头、尾形码;简体字先取字的头、尾形码,第三码取字的声母,如,愛(asc)爱(sca)。
在对字编码时,偏旁字部码要根据字的取码总数来安排本身的取码数,可从头往下取3码、2码、1码,如:“漸“3CX”中“C”是车(C44)第一码。
在对字编码时,规定某一部件只取一码时,如果这一部件含有偏旁字部首(无论在何位置)也不管这一部件共有多少个小部件,取一码时只能取偏旁字部件的前一码,如,“赣”“3、W”(、贝)而不是取“贝”(wsb)中的b。
8、音形码汉字输入法如何为计算机提供自动分词创造基础条件,音形码汉字输入法对汉字编码的最大特点,也是最大优势在于用音形码汉字按规则把字、词存入词库时都是于一码一字、一码一词的唯一字码,唯一词码输入的,而这些唯一字码,唯一词码都是在分清字义、词义情况下自先切分好后,才输入计算机的,并且在输入计算机时,把字与字、字与词、词与词之间关系用空格隔开,计算机对用空格隔开的字,词当然能自动切分,如1.把手伸出来,2.把手伸出来。
这两句在空格的作用下,计算机就能自动辨认,如果输入“把手”绝不会把第一句匹配出来。
9、音形码汉字输入法如何使计算机自动对题名进行检索。
9.1首先建立一个按实际需要的应用题库,事先把题名及其它资料,如区分字码、作者、类别、出版日期等能限制题名范围的内容输入计算机存储后,计算机要对题名的编码信息处理有以下工作:
a.对题名进行分段词切分,从1个字,2个字,3个字,直至全名止。
b.对分段信息词进行编码工作,首先按顺序取其声母,得出的检索码后,在码前面加上一个该分段信息词的第一个字在原题名中排序的位置,另外,在码最后位置上再加上一个该题名的总字数,计算机对该码进行匹配扫描,检查库内是否有同码。如果没有同码,这一检索码就成立,存入库中备用,如果有同码,计算机再取题名中每个字的韵母,当然,中间遇到已能证实作为唯一码的时候,就不必再往下取韵母,计算机会自动辨认,如果不是同码,接下来就是从题名第一个字开始进行区分字码的检索,一定有一个别的题名没有的区分字码,就一定检索成功,如果检索不成功,说明是同名的,例如:有两本相同的书,如:
     新华字典
     x7hczidd
输入 1xhzd4  不成功
输入 1xhzd7cid4  (不成功)
输入 1xhzd7cid4 0x  (新的区分字码)
                或z4h(华的区分字码)
                或s3(字的区分字码)
                或w8(典的区分字码)(不成功)
分别输入作者、期次、版次、时间等
        ↓
        商务印书馆sq u 7s1u gz。
对于完全相同题名的编码工作,在包括总书名,作者,出版期次,出版时间,类别、区分字码等区别内容都相同的情况下,采用调换题名的字的位置来解决,方法是,首先把题名的第一个字调到题名的最后面的位置,并在其前面添加大写字母“D”,表示该题名为调头题名,在新调头题名的最后位置标注相同题名的序号,第一个题名为1,对新的调头题名取检索码,并进行计算机检索,如果检索到的资料不是所需要的内容,再从新调头题名中,按第一次方法进行取码,在新的检索码后面标注相同题名顺序为2,按如此方法检索下去,一定能检索到所需要的资料。
对于相同的一个字为题名,并且在其它的附加区别内容都相同的情况下,取码的区分方法是在第一个题名下添加大写“A”(表示单字题名),并紧接标注上数字1(表示第一个相同的题名的顺序号),第二个相同题名的顺序号为2,以此方法接连不断地标注相同题名不同序号的方法,使之在有区别的情况下取码,最后达到检索的目的。
以上所有的工作程序都要通过计算机命令来完成。
上述检索题名的编码方法,对任何语句、语段、篇章的检索都适用。
以下为词条分段理解示意,上层为字的排序号,下层为虚拟字模,
序号1  2  3  4  5  6  7            1字分段信息检索模拟码
1字 × × × × × × ×           1    1    7
                                   2    2    7
                                   3    3    7
                                   4    4    7
                                   5    5    7
                                   6    6    7
                                   7    7    7
Figure G2009101701597D0000191
Figure G2009101701597D0000201
Figure G2009101701597D0000202
Figure G2009101701597D0000203
Figure G2009101701597D0000204
9.2另外,如何应用音形码汉字输入法去解决分段词取码方法来获取信息查全率的最大化。
首先建设调头题名检索码题库
调头题名分解示意
字的位置序号1  2  3  4  5
模拟题名    × × × × ×
调头题名模拟检索码(1)2  3  4  5    1
                     × × × × D ×
(第一个调头字前加字母D,表示开始的调头题名)
调头题名模拟检索码(2)3  4  5    1  2
                     × × × D × ×
调头题名模拟检索码(3)4  5    1  2  3
                     × × D × × ×
调头题名模拟检索码(4)5    1  2  3  4
                     × D × × × ×
(调头题名前后分别标注带头字的原题位置以及最后数字所表示题名的总字数,就是调头题名检索码)
a.已知条件为题名,依据题名分段码编码方法编出该题名的检索码,进行计算机搜索调出该题名的资料,查得该题名的分类号,然后对题名中的关键词或主题词的检索码(不含前后数字限制码)以及分类号一起输入计算机,就能检索到与该题名相类似内容的题名。
b.已知条件为分段词,找出具有分段词的题名检索码的方法;第一步,编出分段词限制检索码。第二步,进行题名搜索,题名搜索时,已知的分段词始终放在最前面,限制数始终为1,每搜索一次,最后的限制数就要增加1,每次搜索的结果,题名就会增加一个字,直到串成一个完整的题名(包括调头题名在内),按上述已知条件为题名的检索方法,就会搜索出与该题名相类似内容的题名。
如:“专利申请须知”只记得“须知”两字要从“须知”查找有关专利申请基本知识的书,首先编出“须知”的检索码为X2 Z1i.前面数何持为1,后面数字为Z(即2个字的意思)
以下工作程序为:
(1)1×2 Z1i2(须知)
(2)1×2 Z1i3(须知D专),这一步一定会出现调头题名,不是调头题名要排除。
(3)1×2 Z1i4(须知D专利)此题没有“申请”的内容,再往下搜索。
(4)1×2 Z1i5(须知D专利申)
(5)1×2 Z1i6(须知D专利申请)此题包含3检索的内容。
最后按正式题名“专利申请须知”搜索,按11.1a搜索码进行搜索的结果就会提取出更多的“专利申请”方面的书。
9.3最后,如何应用音形码汉字输入法去解决分段词取码方法来获取信息查准率的绝对化。
a.已知条件为题名,首先取题名各字的声母,加上前后数字限制码,输入计算机进行搜索。(按现绝大多数的搜索应该是马到成功)若不成功,在检索码各声母后添加各字的韵母,输入计算机检索。若成成功,再按题名一个个的区分字码进行一次次的搜索,最后还是不成功,说明是同名,再分别按作者,类别,期次,日期区分字码进行检索,仍不成功,则按完全相同题名办法进行检索。(从以第一个区分字码进入检索程序开始到检索终止,都是指令计算机进行自动搜过核准)。
b.已知条件为分段词,人们在日常检索,信息资料工作中,模糊地对题名进行追忆,但又说不请题名,只记得题名中2个字“须知”,如何检索出“专利申请须知”这本书。方法按上述11.1a从分段词查出具体的题名,当检索出“专利申请须知”的时候,脑子就十分清楚地确认“专利申请须知“就是要检索的题名。
10、音形码汉字要成为计算机汉字输入对象,用什么方法输入为好,从音形码的编码设计来看,要输入现代汉语的字与词,应以词输入为主,以字为辅的输入方法为最佳方案,它不需要运用众多的形码,虽然有些时候遇到中间同码(中间同码指的是一个词编码为6个码称为全码,5码以下称为简码,输入简码时产生的同码称中间同码)。可以不用输入形码来解决同码,而是直接键入提示框中输入词的对应序号输入其词,其次,以词为主的输入法,也用不到拼音的声调;另外,只所以能以词为主来输入音形词码,是事前所建立的以公共词汇为主轴,各个专业词汇为支轴的既集中又分散的联合库容,就能满足各种类型的使用者的需求。
11、本法研究的范围是由电子工业部科技质量司和国家监督局标准化司于1995年12月颁布的指导性规范《汉字内码扩展规范-CTBK》所包含2万多个汉字的编码法的结果,而对于这样的编码方法,其它汉字照样套用来编码。

Claims (8)

1.一种音形码汉字输入法,其特征在于:
该音形码汉字由字的音码、字的声调、字的形码及字结构形态的标注符号共同组成,音形码汉字采用上、下两层和横排两种书写形式,上下两层书写的称音形码详码,简称详码,上层称音码,下层称详形码;横排书写的称音形码简码,简称简码,前半部码称为音码,后半部码称简形码;
a、音码的读音是根据字的声母、韵母的代码及声调共同拼成,
a-1,声母就是汉字拼音的声母,除声母Zh、Sh、Ch、中的“h”用1代替、即Z1、S1、C1;
a-2,韵母是用字母、数字来替代拼音中的韵母,一个字母或一个数字代表一个韵母,
a-3,用数字1、2、3、4、5、分别替代汉字拼音的声调:“阴平”、“阳平”、“上声”、“去声”、“轻声”,声调位置是紧写在韵母后面,
b、所述音形码中的形码的取码分两种情况,即对于详形码而言,取字的核心部件1码或2码,其余部件为4码以下,共取6码以下;对于简形码而言,取字的核心部件1码或2码,其余部件取2码或1码,共取3码以下;
c、输入规则:先按声母、韵母、声调顺序去敲击西文键盘上的对应字母或数字,然后顺序输入任意选择的一种形码代码所对应的字母、数字。
2.根据权利要求1所述的音形码汉字输入法,其中详形码是这样取码:利用“笔形代码表”、“核心部首固定码表”、“偏旁字固定码表”、“二码固定字表”、“三码固定字表”、“无音部件固定码表”所提供有关笔画、部件、实字的基础上,按取码规则进行取码,每字取应包括有字头码、字尾码在内总码数不超过6位为准,对上下、左右、内外结构的字,如果核心部件是1码时,其余的部件可取1至5码;核心部件是2码时,其余的部件可取1至4码;对综合的、独体的字按笔画、部件顺序取6码或6码以内,其中所述取码规则为:从字的第一笔画本身或与第一笔画有关联的其它部件所构成另一种部件(包括固定码的部件或字)取下第一码,依据笔顺取第二部件码,(第二部件不能含有第一部件的笔形)按此方法,取至最后一个部件止,已经取了固定码的字,按固定码码数取码;
简形码是这样取码:核心部首取其固定码1至3码,余下部件取最后部件的最后一个码;如果其为繁体字取其尾形码;简体字取其头码;属于旧字形字的,取其头码,属于新字形的,取其尾码;对同字变异形的字,原字取尾形码,新变异字取头形码。
Figure F2009101701597C0000031
Figure F2009101701597C0000041
Figure F2009101701597C0000051
Figure F2009101701597C0000061
8.根据权利要求2所述的音形码汉字输入法,其中无音部件固定码表如下:
Figure F2009101701597C0000101
9.根据权利要求1所述的音形码汉字输入法,其中当输入对象为一般计算机输入输出的2个字的词时,从第一个字开始,取各字的声母、韵母的代码,按顺序去敲击西文键盘上的对应字母键输入其词,输入结果不成功,再追加该词的区分字码,按顺序敲击西文键盘上对应字母键输入其词,所述区分字码通过帮助键进行提示;
当输入对象为一般计算机输入输出的3个字以上的词时,从第一个字开始,按顺序取各字的声母,超出7个字的词,取最后字的声母作为第6码,把编出来的词码,按顺序敲击西文键盘上的对应字母键输入其码,如输入结果不成功,先删除第6位码,再从最后的字顺序逆向逐个取未取过字的声母键入西文键盘上的对应字母键;输入结果仍未成功,最后追加该词的区分字码,在输入区分字码前先从尾码删除与区分字码相同的码位,所述区分码字通过帮助键进行提示。
10根据权利要求1所述的音形码汉字输入法,其中所述韵母的代码为:
Figure F2009101701597C0000121
11.根据权利要求1所述的音形码汉字输入法,其中所述的字结构形态标注符号为:“·”表示字的结构为左右形;“:”表示字的结构为上下形;“∧”表示字的结构为三边形;“=”表示字的结构为三层形;“/”表示字的结构为4边形;“\”表示字的结构为4层形;“[”表示字的结构为二边或三边包围形;“{”表示字的结构为全包围形;“※”表示字的结构为独体字。
12.根据权利要求1所述的音形码汉字输入法,其中所述音形码汉字的详形码部分可单独作为计算机汉字输入码。
13.根据权利要求1所述的音形码汉字输入法,其中所述的音形码汉字输入法为计算机提供自动分词创造基础条件,输入计算机的字与字、字与词、词与词之间的语义关系用空格隔开它们之间的字码或词码,从而来解决计算机自动切分词语的问题。
14.根据权利要求1所述的音形码汉字输入法,其中所述的计算机信息处理词(如,题名、篇章)采用对分段切分的题名,调头的题名所编出的全方位的检索码办法,达到信息资源检索范围查全率的最大化以及查准率的绝对化。
CN200910170159A 2009-09-04 2009-09-04 一种音形码汉字输入法 Pending CN101692188A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200910170159A CN101692188A (zh) 2009-09-04 2009-09-04 一种音形码汉字输入法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200910170159A CN101692188A (zh) 2009-09-04 2009-09-04 一种音形码汉字输入法

Publications (1)

Publication Number Publication Date
CN101692188A true CN101692188A (zh) 2010-04-07

Family

ID=42080880

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200910170159A Pending CN101692188A (zh) 2009-09-04 2009-09-04 一种音形码汉字输入法

Country Status (1)

Country Link
CN (1) CN101692188A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184033A (zh) * 2011-05-24 2011-09-14 成都毕昇教育科技有限公司 有声注音输入法
CN102262683A (zh) * 2011-08-18 2011-11-30 何瑞芳 一种汉字信息处理方法及汉字拆分存储方法
CN105938402A (zh) * 2016-06-08 2016-09-14 魏万鸿 一种声形码汉字输入法及键盘
CN109085930A (zh) * 2017-06-14 2018-12-25 夏海峰 一种音形输入法和音形输入系统
CN112328095A (zh) * 2020-11-12 2021-02-05 苑颐萍 基本不用数字键选字的四用音形码汉字输入法及输入平台

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102184033A (zh) * 2011-05-24 2011-09-14 成都毕昇教育科技有限公司 有声注音输入法
CN102262683A (zh) * 2011-08-18 2011-11-30 何瑞芳 一种汉字信息处理方法及汉字拆分存储方法
CN102262683B (zh) * 2011-08-18 2014-09-24 何瑞芳 一种汉字输入方法
CN105938402A (zh) * 2016-06-08 2016-09-14 魏万鸿 一种声形码汉字输入法及键盘
CN105938402B (zh) * 2016-06-08 2019-01-22 魏万鸿 一种声形码汉字输入法及键盘
CN109085930A (zh) * 2017-06-14 2018-12-25 夏海峰 一种音形输入法和音形输入系统
CN112328095A (zh) * 2020-11-12 2021-02-05 苑颐萍 基本不用数字键选字的四用音形码汉字输入法及输入平台
CN112328095B (zh) * 2020-11-12 2024-01-02 苑颐萍 基本不用数字键选字的四用音形码汉字输入法及输入平台

Similar Documents

Publication Publication Date Title
CN1023916C (zh) 简繁五笔字根汉字输入系统
CN101131689B (zh) 汉语外语句型转换双向机器翻译方法
CN102693222A (zh) 基于实例的甲骨文释文机器翻译方法
CN101692188A (zh) 一种音形码汉字输入法
Erjavec The goo300k corpus of historical Slovene.
Born et al. Sign clustering and topic extraction in Proto-Elamite
CN102053719B (zh) 华文汉字输入法
CN1687877A (zh) 中英通双向汉字输入法
CN103164398A (zh) 汉维电子辞典及其自动转译汉维语的方法
Pal et al. Anubhuti--An annotated dataset for emotional analysis of Bengali short stories
CN101833376A (zh) 基于汉字拆分的智能语句级汉字输入系统
CN111027314A (zh) 一种基于语篇的人物属性抽取方法
CN103246354A (zh) 以通用语文字编码表达汉字的输入法及其键盘
Bora et al. Automatic word-level identification of language in assamese english hindi code-mixed data
Li et al. The first international ancient Chinese word segmentation and POS tagging bakeoff: Overview of the EvaHan 2022 evaluation campaign
CN101587381B (zh) 音形汉字无重码输入法
CN107391464A (zh) 新型汉语普通话信息ascii集合码
CN107315725A (zh) 汉语普通话信息ascii集合码
CN105278697B (zh) 组合式双拼类主副码汉字、词语编码输入法及其键盘
Li et al. PolyU at TAC 2008.
Streeter Doc, 1971: A Chinese dialect dictionary on computer
CN106959764A (zh) 一种有助于正确书写汉字的形码输入法
JP2958044B2 (ja) かな漢字変換方法及び装置
CN106951402A (zh) 新型汉语普通话信息ascii体系码
CN1043016A (zh) 汉字全息码

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20100407