CN1148700A - 计算机汉字拼音智能输入法 - Google Patents
计算机汉字拼音智能输入法 Download PDFInfo
- Publication number
- CN1148700A CN1148700A CN 95116414 CN95116414A CN1148700A CN 1148700 A CN1148700 A CN 1148700A CN 95116414 CN95116414 CN 95116414 CN 95116414 A CN95116414 A CN 95116414A CN 1148700 A CN1148700 A CN 1148700A
- Authority
- CN
- China
- Prior art keywords
- word
- character
- code
- phrase
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及一种音字结合的计算机汉字输入法,将25组声、韵母分设在25个英文键位上并根据重码双字词的计算机统计结果等定义出156个简码字和中文数字简码字,以一个英文字母与数字或与符号编码。用汉字的声韵母组合输入单、双、三、四字词,其中有简码的字则用简码输入。发明按编码、汉字、判断方式、特征词的基本结构设计判断词库,以输入字词与特征词的正常使用环境来解决重码字词,用智能化选择代替人工选择,好学易用速度快。
Description
本发明涉及一种计算机输入方法,更确切地说是涉及一种汉字的计算机输入法。
汉字的计算机输入方法,大体包括纯字型输入法、纯拼音输入法和字型与拼音相结合的输入法。纯字型输入法重码率较低,但记忆量较大,达到快速熟练地输入需花费相当的学习时间与精力,特别不适于非专职录入人员使用。纯拼音输入法易学易用,但重码率太高,辅以人工选择又严重影响输入速度,不适于专业录入员使用。字型与拼音相结合的输入法,由于仍存在字型因素,从整体性能上并未带来改观。目前,上述输入法虽又提供了联想以及改善输入环境以提高输入速度的措施,并有按词组输入的方法,但使用效果仍不十分理想,因为词组输入受词组库中词组数量的影响。
本发明的目的是设计一种计算机汉字拼音智能输入法,在纯拼音输入法的基础上,开发出一种符合汉语语言规则的智能化判断技术,既可充分发挥拼音输入易学易用的特点,同时又以不为输入人员察觉的智能化判断方法代替人工选择而解决重码问题,自动选择合适的同音字输入。
本发明的计算机汉字拼音智能输入法是一种完全不同于音形结合的“音字”结合输入法,包括:
取25组汉语拼音声母、韵母A IA ZH、B UN üN、C UAN、D IANGUAI、E、F EN UE、G ENG、H ANG、I CH、J AN、K AO、L AI、M UAIAO、NIN、P OU、Q IU、R UO、S ONG IONG、F UI、U SH、 üOUANG、EI W、XIAN、Y ING、ZIE,按组一一顺序分配到西文键盘除O以外的25个字母键位上,并以键名为其代码,按汉字的声母+韵母+音阶1或2或3或4编码输入单字词及按汉字的声母、韵母结合编码输入双字词、三字词和四字词,其特征在于:
还包括在有重码的双字词中按出现概率最高、彼此间关系及在单字词中的重码情况选择出156个汉字,以一个西文字母加一个数字或加一个符号的简码方式输入该汉字,包括
1或空格 2或, 3或 4或/ 5或; 6或′A 着 极 示 意 例 子B 不 按 还 手 节 气C 被 服 由 于 接 到D 的 倒 最 近 机 会E 而 编 限 见 工 地F 每 天 市 场 行 情G 个 越 假 期 起 止H 和 紧 直 至 前 任I 或 经 自 费 计 时J 及 侧 交 警 线 路K 可 长 只 身 进 出L 了 解 失 业 指 数M 没 感 主 要 难 题N 你 致 作 家 保 重O 有 望 相 同 事 迹P 评 势 完 整 合 并Q 其 它 正 负 全 清R 人 均 非 凡 成 就S 所 带 电 视 原 理T 他 曾 反 复 调 试U 是 明 生 化 中 心V 一 级 预 报 对 立W 为 使 限 制 流 速X 向 想 无 形 力 量Y 以 便 实 物 教 书Z 在 住 办 公 部 门
输入有简码的单字词时以其西文字母加数字的方式输入,组成双字词的字各有简码时,均以其西文字母加符号的简码方式顺序输入,组成双字词的字有一个有简码时,无简码的字按其声母+韵母编码输入,有简码的字按其西文字母加符号的简码方式输入;
还包括按各种可能的外部语言环境建立的词组的判断字库,字库基本结构为字或词组的编码+具有相同编码的一个字或一个词组+判断方式代码+参与判断基本为简码字的特征字或特征词+表示字段结束标志或几个有重码词组的分界标志,所述的判断方式包括按当前词单元前边一个字来判断、按当前词单元前边十个字范围内特定词组来判断、按当前词单元前边的词组来判断、按整个文章中特定词组判断、按当前字单元后边担子判断、按当前字单元后边词组判断、按当前词单元前边十个字范围内特定字来判断、按当前词单元的词性来判断和按当前词单元前边一个字或字符数字来判断,当输入字或词组的编码有重码时,以判断字库中所对应列举的特征字、词按判断方式代码的内容作相应方式的判断,取符合判断原则的字或词组输入。
汉字数字的输入方法为功能键Tab加对应的阿拉伯数字键。
十个汉语标点符号。.℃、×÷±¥°‰的输入方法为连击两个西文字母VV键再分别击数字键1至0输入。
本发明输入方法的特点是:以纯拼音方式输入汉字,并以词组输入为主,通过精心并科学地选择简码字,并以简码字为“钉子”,再利用这些钉子来判断、选择重码字或词,使本发明的“音字”结合输入法得以形成,从而使拼音输入法可在汉字的计算机输入领域内大有作为。
下面结合实施例进一步说明本发明的方法。
本发明所选择的声母、韵母及其在键位上的归类分布,可减少重码率,并将字母O键空出,使其作为功能键使用。
本发明将可一次输入到计算机内可由几个字所组成的字串称作字单元,从而形成四种字单元形式,分别为单字词、双字词、三字词和四字词。其分型原则是再不能分解出可以独立使用的双字词,如单字词“用、相”,双字词“北京、相互”,三字词“莫须有、阿根廷”,四字词“不了了之、澳大利亚”,而“社会主义”由于可分解成双字词“社会”与“主义”,因而不作四字词输入。
输入单字词的一般规律是声母+韵母+音阶,如“京”的编码为JYI,鱼的编码为YV2,如输入编码LG3,可输入“冷”字或其他同音的重码字,具体输入了什么字,则由智能化判断的结果决定或者说由文稿中的语言词法来决定。
当单字词是本发明所特别定义的简码字时(包括156个汉字和十个汉字数字),则必须按其第一种简码方式输入,即一个英文字母键加一个数字键输入。
本发明的简码字是依据计算机对重码双字词的统计结果选择的,对于解决重码率特别是解决常用字词的重码率起着举足轻重的作用,由于判断字库中的特征字、词通常用简码字,因而科学地选择简码字大大提高了输入方法中整体判断的能力。上述简码字的选择原则不同于常规的按使用频度的选择原则,如“能、好”,就没有定为简码字,因为前者无重码现象,后者的重码字“郝”使用频度低且与“好”的语言环境对比度太大。
为方便操作,可将前述简码表中第一列汉字着、不、被、的、而、每、个、和、或、及、可、了、没、你、有、评、其、人、所、他、是、一、为、向、以、在的简码,以字母键O代替其数字键输入。
输入双字词的一般规律是:第一个字的声母+第一个字的韵母+第二个字的声母+第二个字的韵母,如“管理”、“关系”的编码分别为GCLI、GCXI。
当双字词是地名或名牌上的一些特殊词时,以第一个字的声母+第一个字的韵母+字母O键+第二个字的声母+第二个字的韵母输入,如“北京”的编码可为BWOJY,“辽宁”的编码可为LMONY。
当组成双字词的两个字均为简码字或其中一个是简码字时,必须以其简码输入该字,但此时的简码字需以其第二种简码方式输入,即一个英文字母键加一个符号键,以区别简码单字输入的情况,双字词中不是简码字的字则以其声母+韵母输入。如“小时”,其中“时”为简码字,其编码为XMI′;“消失”,其中“失”为简码字,其编码为XML.;“动物”,其中“物”为简码字,其编码为DSY/;“事件”,其中“事”为简码字,其编码为O;JX;“时间”,其中“时”为简码字,其编码为I′JX;“实践”,其中“实”为简码字,其编码为Y.JX。
当按上述方法输入含有简码字的双字词后,汉字输入系统首先从简码表中提取已知的简码字(唯一性),同时提取该简码字相应的拼音编码(如物WU),再将其(如WU)与另一个字(非简码字)的拼音编码一起转到双字词的处理程序中,并设定输入方式标记,在原来的双字词处理程序中,如果判断为上述输入方式(含简码字),则系统在众多的重码词组中进行判断,但该判断已具有了一个相当有利的条件,即其中的一个字是已确定的字,使判断具有排他性,此时如果重码词组中有两个以上的该字,则系统会根据原来的智能化判断方式进行判断,但这种情况已大大减少了。
输入三字词的一般规律是;第1字的声母+第2字的声母+第3字的声母+回车。如“莫须有”的编码为“MXY空格”,“加拿大”的编码为“JND空格”。
输入四字词的一般规律是:字母O+第1字声母+第2字声母+第3字声母+第4字声母。例如“不了了之”的编码为“OBLLA”,“蔚然成风”的编码为“OWRIF”。
本发明实施例除了按常规技术建立单字字库、双字词库、三字词库、四字词库和特殊地名词库外,还建立了单字词判断字库和双字词词组判断字库。
单字词判断字库的基本结构是:编码 字 判断方式 特征字或词 判断方式特征字或词……A。如TX2甜01很不太挺03糖∧田03亩∧,其中01表示判断方式1,表示是按当前词单元前边一个字来判断;03表示判断方式3,表示是按当前词单元前边10个字范围内特定字来判断。上述判断结构表示甜的语言使用环境是:很甜、不甜、太甜、挺甜或甜字前十个字的范围内有糖字,田字前十个字的范围内有亩字(A为判断内容结束标记或几个重码字间的分隔符)。
双字词词组判断字库的基本结构是:编码 双字词 判断标记 特征字或词……∧,如JIDA击打01力地儿02我他她它∧极大02地∧,其中02表示判断方式2,表示是按当前字单元后边担子判断。上述判断结构表示*击打”的语言使用环境是:……力击打、……地击打、……儿击打、……击打我、击打他、击打她、击打它,“极大”的语言使用环境是“极大地”。
除了上述实施例中涉及的01、02、03方式外,本发明实施例还设定了05方式,表示按当前词单元的词性来判断,如形容词的前向特征字取“很、常、较、最、别、太、挺、多么”,一旦当前词前边的字为上述特征字中的一个,则该形容词可确定;06方式,表示按当前词单元前边一个字或字符数字来判断,如对众多量词的判断,其集中定义的特征数词有一、二、某、几等,一旦当前词前边的字为上述特征数词中的一个时,则该量词可确定;11方式,表示按当前单元前边的词组来判断,如11帮助学习进行01的……∧;13方式,表示按当前词单元前边十个字范围内特定词组(03方式为特定词)来判断,如判断“仁慈”与“人次”,“人次”判断库中的内容为:RFCI人次03议观∧,表示参加会议或参观展览等的人次,由于“仁慈”与“议”、“观”在同一句子中出现的机会太少,因而将“议、观”作为特征字;14方式,表示按整个文章中特定词组判断,如区别“疏松”与“诉讼”两重码词,采用14方式是把“法院”、“原告”、“被告”作为“诉讼”的特征词,而“疏松”与“诉讼”在同一文本中出现的机会相当少;22方式,按当前字单元后边词组判断。
此外,本发明实施例在处理使用频度对比度较大的两重码双字词时,尽量列举使用频度小的词组的所有判断条件,当在文本输入时,一旦出现该词组,就可立即确定,否则则为使用频度高的词组。如“公私”与“公司”,“公私”的判断库结构是:GSSI公私22分别兼顾合营∧。
上述方式01、11、02、22的选择原则是宁少勿滥,如果判断结果为“真”,则判断结果百分之百正确,方式03、13、14、05、06的判断结果为“真”,则判断结果百分之九十五以上正确。
判断词库中可以综合使用多种判断方式,以获得理想的判断结果。下面即以双字词的智能判断过程为例说明该判断技术。
本发明实施例以标志flagsL22定义为智能判断结果,当结果为1时表示肯定正确,当结果为2时表示无意义(未判断),当结果为3时表示95%程度以上正确。如输入JIDA,程序进入双字词智能判断程序,在双字词词组判断字库中查找到JIDA编码,将其第一个词组“击打”送到暂存字存贮器Z11和Z12中,再依次读入字库结构中的判断方式标志01,程序按该标志将文本中JIDA前的一个字读到DX寄存器中,若文本内容是“……用力击打”,则读入DX寄存器中的就是“力”字,然后程序将DX中的这个字与方式01中的每一个特征字进行比较,若特征字中有DX中的这个字,则flagsL22=1,说明输入的JDA是“击打”。若文本内容是“……极大地”,此时程序已按02方式判断过当前文本内容没有“击打地”,在∧符合后,程序将JIDA的下一个词组“极大”读到Z11、Z12中,并按02判断方式找到“极大地”,而获得判断正确的结果flagsL22=1,说明输入的JIDA是“极大”。
程序按02、22等后向判断方式作判断时,需将暂时省缺的词组放入暂存器中,而等待操作者输入下一个字单元后再判断。如下一个字单元是“地”(简码字),则按02方式可以肯定暂存器中的词组是“极大”。如下一个字单元是“他”(简码字),那么暂存器中的词组一定是“击打”。
本发明输入方法中将状态没有确定的字或词组(还包括英文字符)记录在状态记录器中,此外,在判断结果为95%以上肯定时,也需将该字单元记录在状态记录器中,实施例状态记录器的数据结构为:字单元类型或英文标记+编码+页+行+列∧。其中字单元类型或英文标记的类型码可规定为:单字词=01,双字词=02,三字词=03,四字词=04,而涉及的页、行、列为字单元第一个字在文本上所处的位置。当判断结果为95%以上肯定时,则相应字单元类型码中的O将改为5,如一个双字词的判断结果为95%以上肯定,则它的类型码为52。
本发明采用了自动扫描功能来最终确定状态,该扫描程序根据状态记录器中所记录的处于活动状态的字单元的先后次序,从文本内存的第一个字开始扫描,如果扫描光标与状态记录器中第一个不确定字单元中的光标位置页、行、列相同时,光标就定在这个位置上,并在屏幕上显示出相应页,在该状态下,如果文本内存中原有的被认为是不确定的字单元是正确的,操作者可利用>键接着扫描,每按一次>键程序均会自动挑选出那些不能肯定的字单元,而跳过肯定的字单元。对于找出的不肯定字单元,操作者可通过操作功能键跳到下一个不确定字单元或返回上个字单元或通过选择屏幕提示修改字单元,修改时可利用其他输入方法从CCDOS中提出汉字,此时所改动的词都会从该位置起一直替换到底,也可通过操作功能键将光标移动到输入中万一有遗漏的某个字词上,对其作强行修改。
本发明实施例在实施自动扫描功能时采用了“正快逆慢”的扫描方式,即在正向扫描中不予理睬95%以上判断肯定的字单元,如果这个很有可能是正确的字单元真是不正确的,则操作者有机会从逆向接近它对其进行修改。该扫描方式可加快扫描过程。
除了扫描功能外,本发明实施例还设计了现场造库、现场简笔、现场快速复制、中西文混合输入、上挡键转换等功能,从而形成了一个比较完善的中文输入系统。
本发明音字结合的输入方法,将技术重点放在解决音码的重码率问题上,特别是解决常用字词的重码率问题。简码字的确定及其使用可以弥补智能化判断功能可能出现判断不出来的情况,提高了系统的整体判断力,使至少2千对有重码的词组得以准确地判断出来。不仅如此,它还可以使剩下的重码词组的判断准确度得以提高,而学习掌握的难度并无本质上的增加。
本发明的智能判断功能,是对所有重码词均找出各种可能的判断特征词,从语法、词法、词性、在句子中的成份等作多层次、多方位的判定,使用户可不顾重码词的存在而只管一味地高速输入。本发明实施例经过一段时间的运行和对上百万字的科技文稿、报刊文字的输入,真正实现了拼音输入学习简单、智能化判断解决重码率的发明目的。
Claims (3)
1、一种计算机汉字拼音智能输入法,包括:取25组汉语拼音声母、韵母A IA ZH、B UN üN、C UAN、DIANG UAI、E、F EN UE、G ENG、H ANG、I CH、J AN、K AO、L AI、M UA IAO、N IN、P OU、Q IU、R UO、S ONG IONG、F UI、U SH、üO UANG、EI W、X IAN、Y ING、Z IE,按组一一顺序分配到西文键盘除O以外的25个字母键位上,并以键名各为其代码,按汉字的声母+韵母+音阶1或2或3或4编码输入单字词及按汉字的声母、韵母结合编码输入双字词、三字词和四字词,其特征在于:
还包括在有重码的双字词中按出现概率最高、彼此间关系及在单字词中的重码情况选择出156个汉字,以一个西文字母加一个数字或加一个符号的简码方式输入该汉字,包括
1或空格 2或, 3或 4或/ 5或; 6或′A 着 极 示 意 例 子B 不 按 还 手 节 气C 被 服 由 于 接 到D 的 倒 最 近 机 会E 而 编 眼 见 工 地F 每 天 市 场 行 情G 个 越 假 期 起 止H 和 紧 直 至 前 任I 或 经 自 费 计 时J 及 侧 交 警 线 路K 可 长 只 身 进 出L 了 解 失 业 指 数M 没 感 主 要 难 题N 你 致 作 家 保 重O 有 望 相 同 事 迹P 评 势 完 整 合 并Q 其 它 正 负 全 清R 人 均 非 凡 成 就S 所 带 电 视 原 理T 他 曾 反 复 调 试U 是 明 生 化 中 心V 一 级 预 报 对 立W 为 使 限 制 流 速X 向 想 无 形 力 量Y 以 便 实 物 教 书Z 在 住 办 公 部 门
输入有简码的单字词时以其西文字母加数字的方式输入,组成双字词的字各有简码时,均以其西文字母加符号的简码方式顺序输入,组成双字词的字有一个有简码时,无简码的字按其声母+韵母编码输入,有简码的字按其西文字母加符号的简码方式输入;
还包括按各种可能的外部语言环境建立的词组的判断字库,字库基本结构为字或词组的编码+具有相同编码的一个字或一个词组+判断方式代码+参与判断基本为简码字的特征字或特征词+表示字段结束标志或几个有重码词组的分界标志,所述的判断方式包括按当前词单元前边一个字来判断、按当前词单元前边十个字范围内特定词组来判断、按当前词单元前边的词组来判断、按整个文章中特定词组判断、按当前字单元后边担子判断、按当前字单元后边词组判断、按当前词单元前边十个字范围内特定字来判断、按当前词单元的词性来判断和按当前词单元前边一个字或字符数字来判断,当输入字或词组的编码有重码时,以判断字库中所对应列举的特征字、词按判断方式代码的内容作相应方式的判断,取符合判断原则的字或词组输入。
2、根据权利要求1所述的计算机汉字拼音智能输入法,其特征在于:汉字数字的输入方法为功能键Tab加对应的阿拉伯数字键。
3、根据权利要求1所述的计算机汉字拼音智能输入法,其特征在于:十个汉语标点符号。、℃、×÷±¥°‰的输入方法为连击两个西文字母VV键再分别击数字键1至0输入。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 95116414 CN1148700A (zh) | 1995-09-20 | 1995-09-20 | 计算机汉字拼音智能输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 95116414 CN1148700A (zh) | 1995-09-20 | 1995-09-20 | 计算机汉字拼音智能输入法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1148700A true CN1148700A (zh) | 1997-04-30 |
Family
ID=5080834
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 95116414 Pending CN1148700A (zh) | 1995-09-20 | 1995-09-20 | 计算机汉字拼音智能输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1148700A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101943953A (zh) * | 2010-08-25 | 2011-01-12 | 王金学 | 一种汉字及部首拼音首字母编码输入法 |
-
1995
- 1995-09-20 CN CN 95116414 patent/CN1148700A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101943953A (zh) * | 2010-08-25 | 2011-01-12 | 王金学 | 一种汉字及部首拼音首字母编码输入法 |
CN101943953B (zh) * | 2010-08-25 | 2012-11-07 | 王金学 | 一种汉字及部首拼音首字母编码输入法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1102714A (zh) | 基于两笔形与两笔符的汉字输入方法及键盘 | |
CN1262473A (zh) | 小型数字键盘拼音汉字输入方法 | |
CN1129838C (zh) | 自由式小键盘中文输入方法 | |
CN1148700A (zh) | 计算机汉字拼音智能输入法 | |
CN1834869A (zh) | 一种汉字简拼拼音输入键盘及方法 | |
CN1019425B (zh) | 中文输入装置及其键盘 | |
CN1119758C (zh) | 汉语盲文到汉字的自动转换方法 | |
CN103576891A (zh) | 一键快打字 | |
CN1928789A (zh) | 一种计算机汉字输入法 | |
CN1057624C (zh) | 一种汉字输入方法及其键盘设计 | |
CN102177511A (zh) | 汉字排序检索方法 | |
CN1928790A (zh) | 新拼音码 | |
CN1283807A (zh) | 笔记本电脑文字输入方法 | |
CN1612095A (zh) | 双拼输入法 | |
CN1111373A (zh) | 一种以汉语拼音为基础的计算机汉字输入方案 | |
CN1069420C (zh) | 文字式音形汉字输入方法 | |
CN1614539A (zh) | 声韵输入法 | |
CN1609762A (zh) | 新双拼 | |
Lehal et al. | Automatic Bilingual Legacy-Fonts Identification and Conversion System. | |
CN1026036C (zh) | 音调快速汉字输入法 | |
CN1316686A (zh) | 电子计算机汉字词语码编码技术 | |
CN1138714A (zh) | 基于词组的汉字输入方法 | |
CN1060725A (zh) | 拼音加偏旁部首代码汉字输入法 | |
Mollá et al. | Answerfinder at QAst 2007: Named entity recognition for qa on speech transcripts | |
CN1018774B (zh) | 形音符汉字、符号编码法及其键盘 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C01 | Deemed withdrawal of patent application (patent law 1993) | ||
WD01 | Invention patent application deemed withdrawn after publication |