CN101086689A - 利于“学”、“用”汉字的智能汉语输入系统 - Google Patents
利于“学”、“用”汉字的智能汉语输入系统 Download PDFInfo
- Publication number
- CN101086689A CN101086689A CN 200710052277 CN200710052277A CN101086689A CN 101086689 A CN101086689 A CN 101086689A CN 200710052277 CN200710052277 CN 200710052277 CN 200710052277 A CN200710052277 A CN 200710052277A CN 101086689 A CN101086689 A CN 101086689A
- Authority
- CN
- China
- Prior art keywords
- parts
- chinese
- input
- chinese character
- fractionation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
利于“学用”汉字的智能汉语输入系统,涉及智能汉语语句级输入,分为形码和音码两种基本系统,包括键盘输入、手写输入等五种输入方式,并可向语音输入延伸。形码基于合理的汉字编码方案,对包括现代汉语通用字在内的绝大多数汉字实行不相交拆分,尊重了汉字结构也使部件拆分容易。对部件取其读音首字母为码并归并,使部件易学易用。音码基于汉语拼音方案,在声韵相拼后的形体中将声母和韵母分开,统计出8组几乎互不共用声母的韵母以实现声韵简化。两种系统均利用在汉语语法知识基础上实现的封装语句单元来化解歧义分词,并通过汉语语法知识和模板语句单元搜索引擎以及语言模型来实现快速语句级输入。在“学”“用”汉字方面,两种系统互为补充。
Description
技术领域
本发明涉及中文信息处理领域,特别是涉及如何在有利于学习和运用汉字的前提下实现准确而高速的汉语语句级输入,从而促使人们更好地掌握汉语、使用汉语。
背景技术
上世纪七八十年代,随着计算机技术的快速发展,中文信息化处理成为当务之急。从1978年支秉彝公布中国大陆第一个小键盘汉字输入方案“见字识码”起,汉字输入方案曾如雨后春笋般涌现,并一度形成“万码奔腾”局面。然而,时至今日,形码输入速度快的最大优点已变得并不那么明显,难学难用性却依故,反而是音码不仅保持了易学易用的最大优点,在输入速度上也大有改观。
音码硕果累累,特别是微软拼音输入法和最近搜狗输入法的面世,可以说标志着汉语输入已经走过了字词输入阶段而进入了比较成熟的语句输入时代,其智能处理语句的效果十分理想。“汉字键盘输入法包括编码和软件两个层次。……,在软件层次已经可以为输入法提供比‘足够’还要多的支持,只要是符合‘逻辑’的功能要求,软件似乎都能实现。”这是对目前拼音输入法越来越强的根本解释。形码、音形码若想有所突破,不仅要有优秀的汉字编码方案,还必须吸收拼音输入系统的技术优势,在技术方面迎头赶上。
拼音输入法通过声母和韵母进行字和字的划分,所以软件可以识别用户是进行字输入还是词输入,进而可以识别整句话的输入。例如,用拼音输入法输入“今天是星期五”,可以全拼输入:jin’tian’shi’xing’qi’wu。软件通过对声母和韵母的划分可以判断出用户要输入多少个字,进而分词,再通过各词的使用频率进行运算,得出输入的句子。形码要实现语句级输入,也必须具有类似的区分字与词、词与短语等等的功能。
另外,即使是在像微软拼音输入法和搜狗输入法这类智能化的输入法中,在全拼输入到达语句末尾时,我们偶尔也会遇到语句中间的某个地方有转换错误的现象而不得不回头纠正,简拼输入的这种现象就更为明显。其原因在于,目前自动分词的准确度尚达不到100%,全拼难以达到,简拼就更达不到。因此它们无法根本解决语句输入“回头看”的问题,也难以缩短平均码长。这些都是亟待解决的问题。
发明内容
本发明所要解决的技术问题是提供一个汉语智能语句级输入系统,以同时解决汉字的字音、字形学习及准确而快速地进行汉语语句输入的问题。
影响输入精度的根本原因是分词精度,而在同等分词精度条件或同等软件技术条件下,输入速度又取决于输入取码方式与分词精度的有效结合度。简言之,要提高输入精度和输入速度,就要提高分词精度,找到一种更好的输入方式,并能使它们有机结合,这是一个问题的三个方面。
在提高分词精度方面,基于上下文关联的智能输入软件,如青月亮汉字通智能输入软件平台和二笔智能输入软件等,采用人工分词,有效降低了歧义分词错误。可见,在自动分词成为主流的时代,人工分词仍然有着重要的现实意义,在必要的情况下仍然可能成为自动分词结果后的一个重要而关键的补充。在输入方式方面,众所周知,常见的形码、音形码的平均码长较之音码要短得多,然而以往形码、音形码汉字难拆分,“块”的取码难记忆等带来的难学难用性使大多数用户望而却步,很难使其向语句输入的方向发展。因此,目前要真正提高输入的精度和速度,分词是难点,但找到一个能与之有机融合的输入方式则更为关键,只有这样才能在原有的输入精度的基础上很快地提高输入速度。
智能输入软件最直接的目的是由软件来识别和选定上屏的重码单元,使其符合于语句输入,并缩短输入平均码长以提高收入速度。另一方面,汉语输入有其最直接的两层意义,一是“学”汉字,二是“用”汉字。因此汉语智能输入软件必须具有促“学”汉字、易“用”汉字的特征。促进汉字学习,不仅在于字音,也在于字形;易用性不仅表现在容易利用方案进行汉语输入,还表现在利用方案容易快速进行汉语输入。
一、形码智能汉语语句级输入系统的必要条件
于汉字编码方案,我们需要辩证地分析汉字部件拆分与汉字编码的关系,从而得出汉字部件拆分的两条原则与方法,并给汉字部件定量。
众所周知,古今中外约95%的汉字是合成字,这使得汉字部件间相离和相接(特别是相离)的关系占据了绝对优势,客观上要求对汉字尽可能从部件相离和相接(两者概述为不相交)处拆分。另一方面,汉字编码最直接的功能是排序和检索,要求尽量用最少的码数反映汉字的全貌,这就要求使汉字拆分出的部件尽量少。尽量从不相交处拆分部件是尊重汉字结构的本质要求,使汉字拆分出的部件尽量少则是汉字经济编码的客观要求,后者必须以前者为前提。因此,在汉字部件拆分过程中,首先必须尽量从汉字不相交处拆分。依汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分叫汉字部件的不相交有理拆分,依汉字平面结构以其他结构从笔画不相交处进行部件拆分叫汉字部件的不相交无理拆分,两者概述为不相交拆分。部件不相交拆分中涉及的四种结构指的是汉子每一层级拆分时部件间的结构,因此称为汉字层级四大结构,简称四大结构。极少数不影响结构和笔数的笔画搭挂视为相接,按笔画相接拆分。
然而,若对所有汉字都进行不相交拆分,则必然导致汉字部件总量的增加,这就产生了一对矛盾:一方面,要始终尊重汉字结构,就必然增加部件总数,而另一方面,增加部件总数并无实际之必要。其一,占全部汉字比重不足10%的现代汉语通用字却占有约99.99%的现代汉语使用量,从它们中提取部件具有现实意义;其二,其他汉字中的绝大部分一般人一辈子都不可能用到,如果增加的部件仅是针对这些汉字,那么所增加的部件将不具有实用性和可接受性。要解决这个问题,就只有有目的地选择从笔画相交处拆分部件。依汉字平面结构从笔画相交处进行部件拆分叫汉字部件的相交无理拆分或相交拆分,其目的主要是经济编码,方便汉字排序与检索,它是对现代汉语通用字以外的部分汉字进行部件拆分的一个行之有效的辅助手段。现代汉语通用字之外的汉字分为两种,一种利用现代汉语通用字共有的部件能对其进行不相交拆分,另一种则利用这些部件不能对其进行不相交拆分。后一种在全部汉字中所占比重约为5%,因而对其进行相交拆分不会影响“尊重结构”的大局,较之增加部件总数也来得经济。
辩证地分析汉字部件拆分与汉字编码的关系,就可得出汉字部件拆分的两条原则与方法。
第一条:尊重结构少部件,先离后接大优先。此条适用于现代汉语通用字和现代汉语通用字之外可以不相交拆分的汉字。“尊重结构少部件”即尊重汉字结构,不从笔画相交处拆分而按汉字层级四大结构拆分部件,尽量使相邻的笔画组合在部件中,使拆分出来的部件尽量少。要注意四点:一是单笔不拆,即单一笔画不拆分成两个或多个笔画,这一点在汉字拆分的任何情况下都是成立的;二是相交不拆,即不从笔画相互交叉有交点的地方拆分部件;三是四大结构(即汉字层级四大结构),即尽量依照汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分;其次依照汉字的其他结构从笔画不相交处进行部件拆分;四是就近组合,即尽量使笔顺相邻的笔画组合成部件,这一点实际上是“四大结构”的内在要求。另外要注意,使拆分出来的部件尽量少,并不是说要使先拆分出来的部件笔画数尽量多。“先离后接大优先”是“尊重结构少部件”的具体操作,即“先离后接”和“大优先”。“先离后接”按汉字层级四大结构拆分部件,如果几种拆分都使汉字部件最少,则能从部件相离处拆分的不从相接处拆分;“大优先”指按汉字层级四大结构拆分部件,如果几种拆分都使汉字部件最少,并且都只从相离处拆分或都只从相接处拆分,则使先拆分出的部件笔画尽量多。
第二条:依照结构难拆分,相交强拆大优先。此条适用于现代汉语通用字之外需要相交拆分的汉字。“依照结构难拆分”指明拆分的对象是现代汉语通用字之外利用现代汉语通用字共有的基础部件无法进行不相交拆分的汉字。“相交强拆大优先”即“相交强拆”和“大优先”。“相交强拆”指,对用现代汉语通用字共有的部件进行不相交拆分但不能完成拆分的汉字,只考虑使该汉字部件最少而强行对其从笔画相交处拆分,并使相邻的笔画组合成部件;“大优先”指在保持该汉字部件最少的情况下,使先拆分出的部件笔画尽量多。
另外注意,汉字中可构成部件的几个部分有时会被其他笔画或部件隔离,拆分时要将其组合还原成一个部件,汉字部件排列顺序由部件的第一笔画的先后顺序决定。
部件拆分原则与方法的提出虽然为部件作了定量处理要求,但并不足以构成优秀汉字编码方案的充分条件,还必须就部件的取码方式作进一步探讨,使部件具有易用性。
部件的取码通常有三种作法,一是硬性地将部件主要分布在25或26个字母上,二是依照部件与字母的形似性将部件归并到字母,三是赋予部件一个读音,按部件读音首字母对部件进行取码与归并。硬性分布决定了部件和取码对应的无规律性,导致对部件取码记忆的困难。形似归并虽有一定的逻辑依据,但相似的部件间经常出现取码“客串”现象,且相似性并没有必然性,只是人为赋予一种想象而将字母和部件联系在一起,时间久了,联系记忆的链条也会断裂。按部件读音首字母对部件进行取码与归并则不同,这些部件具有字的读音而在本质上成为了或本就是构成其他汉字的基础汉字,其音和形早已融为一体。只要学会这些基础汉字,又有谁能轻易地将它们的音和形分开呢?由此,我们就可以对汉字基本部件的选择、取码与归并作如下安排。单笔根据汉字部件拆分的实际需要可成为单笔部件。利用大写字母AEIOU的书写首笔与汉字笔画“撇横竖点折”的形近联系,将“横竖撇点折”等单笔部件的取码相应定为EIAOU,对多笔部件(包括部件变体)则取部件读音首字母为码并按取码归并。
二、音码智能汉语语句级输入系统的必要条件
基于汉语拼音方案,我们按照汉语拼音声韵相拼后的形体,将声母和韵母分开,其中将音节开头的y、w定为声母,将y、w后的部分定位韵母,并根据声韵相拼规则统计可知:与韵母ang相拼的声母和与韵母iong相拼的声母之交集为空集;与韵母ia相拼的声母和与韵母an相拼的声母之交集为空集;与韵母ian相拼的声母和与韵母uang相拼的声母之交集为空集;与韵母ua相折的声母和与韵母iao相拼的声母之交集为空集;与韵母uai相拼的声母和与韵母ing相拼的声母之交集为空集;与韵母ui相拼的声母和与韵母in相拼的声母之交集为空集;与韵母o相拼的声母和与韵母uan相拼的声母之交集为{y,l},而韵母o与声母y相拼只有“哟唷”两字,韵母o与声母l相拼只有“咯”字;与韵母üe相拼的声母和与韵母en相拼的声母之交集为{n},而韵母en与声母n相拼只有“嫩恁”两字。这样,我们就可以将汉语拼音中字母个数大于l的声母或韵母以另一字母替代以作简化,并将上述成对出现的韵母置于同一个简化字母下,制作新的声韵简拼表,然后将其编成一个具有故事内容的助记口诀。
三、音形码两种智能汉语语句级输入系统实现的关键
即便是有了比较理想的编码方案,我们又如何在汉语语句输入中实现软件对语句单元(汉语字、词、短语等)的准确识别呢?
拼音全拼输入法通过声母和韵母进行字和字的划分,所以软件可以识别用户是进行字输入还是词输入,进而可以识别整句话的输入。形码、音形码以及上述提出的简拼输入系统输入时每个字或词的取码由1到4码不等,字和字、字和词、词和词的具体的取码之间通常被认为没有特征加以区分,因而一般不能根据输入的取码进行字词的识别,这也是限制以往形码、音形码输入法难以向语句输入发展的一个重要原因。但是我们应该看到,形码、音形码最主要以四码方式输入的特点,却是全拼输入无法比拟的潜藏优势特征。如果我们将键盘输入的汉字取码串从前往后(从左往右)依次以每四码作为一个节,实现四码封装,将具有语法知识的一个组合(语句单元)固定下来,也即是实现了最基本和较少歧义的汉语语法知识与其承载体(语句单元)的封装,那么软件就能将取码串由前往后以每四码为单位搜索其对应的语句单元,从而使形码也具有类似拼音全拼输入系统的区分功能,也就可以实现汉语语句级输入了。
新的形码输入系统在汉语输入上有其偏向性,即偏向于字形输入,重字形而不重字音,这对中小学电脑辅助汉语教学以及习惯于用拼音进行键盘输入的人是不利的。新的音码在汉语输入上也有其偏向性,即偏向于字音输入,重字音而不重字形。而它们的输入方式又几乎相同,那么在汉字音、形的掌握上,新的音码和形码两种汉语输入方式就可以齐头并进,相得益彰,从而成为人们学习汉字、使用汉语的有效工具。
与现有技术相比,新的音码和形码汉语输入系统具有三大技术优势:
一、将语句单元以四码封装,可降低平均码长,避免歧义分词,使所需语法规则简约化,降低键选率,易于知识表达。
二、将语句单元封装,利于整句处理。封装的语句单元越大,整句处理的能力越强,输入准确率越高,键选率越低,平均码长越短,输入速度越快。
三、对于已经搜索过模板语句单元的领域,系统的转换正确率很高。对于每个用户而言,在使用过程中,模板语句单元库不仅会维持最初的通用型,还会逐渐拥有符合该用户习惯的专用特征。
附图说明
附图1:汉字部件拆分原则与方法示意图
附图2:输入系统人工互动原理图
附图3:输入系统实现取码到语句转变的示意图
附图4:输入系统一键简码图
具体实施方式
一、形码智能汉语语句级输入系统必要条件的实现
(一)对汉字进行部件拆分
对汉字进行编码涉及汉字结构和汉字编码两个方面的问题,以“尊重汉字结构,实现经济编码”为原则对汉字进行部件拆分。尽量从相离和相接处拆分部件是尊重汉字结构的本质要求,使汉字拆分出的部件尽量少则是汉字经济编码的客观要求,后者须以前者为前提。
“相交”指笔画相互交叉有交点;“相接”指一笔画的首或尾与另一笔画首、腰、尾接触,反之亦然;“相离”指笔画不相交且不相接。
依汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分叫汉字部件的不相交有理拆分,依汉字平面结构以其他结构从笔画不相交处进行部件拆分叫汉字部件的不相交无理拆分,两者概述为不相交拆分。极少数不影响结构和笔数的笔画搭挂视为相接,按笔画相接拆分,如“孝”拆为“耂子”,“存”拆为“ナ丨子”,“在”拆为“ナ丨土”等。依汉字平面结构从笔画相交处进行部件拆分叫汉字部件的相交无理拆分或相交拆分,其目的主要是经济编码,方便汉字排序与检索,它是对现代汉语通用字以外的部分汉字进行部件拆分的一个行之有效的辅助手段。
辩证地分析了汉字部件拆分与汉字编码的关系,可得出汉字部件拆分的两条原则与方法:
第一条:尊重结构少部件,先离后接大优先。此条适用于现代汉语通用字和现代汉语通用字之外可以不相交拆分的汉字。
“尊重结构少部件”即尊重汉字结构,不从笔画相交处拆分而按汉字层级四大结构拆分部件,尽量使相邻的笔画组合在部件中,使拆分出来的部件尽量少。要注意四点:一是单笔不拆,即单一笔画不拆分成两个或多个笔画,如“串”不拆分为“中中”、“我”不拆分为“丿扌戈”,这一点在汉字拆分的任何情况下都是成立的;二是相交不拆,即不从笔画相互交叉有交点的地方拆分部件,如“甩”不拆分为“月乚”、“豖”不拆分为“豕丶”;三是四大结构(即汉字层级四大结构),即尽量依照汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分,如“昭”拆分为“日刀口”,第一层将“昭”拆为“日召”,第二层将“召”拆为“刀口”;其次依照汉字的其他结构从笔画不相交处进行部件拆分,如“尞”拆为“大丷日小”;四是就近组合,即尽量使笔顺相邻的笔画组合成部件,如“鳏”拆为“鱼罒丨”而非“鱼罒卜
丶”,这一点实际上是“四大结构”的内在要求。另外要注意,使拆分出来的部件尽量少,并不是说要使先拆分出来的部件笔画数尽量多,如“鼓”拆分为“十豆十又”而非“士口
十又”,虽然两种拆分都尊重了汉字结构,但前者使整个汉字的部件最少,后者首部件“士”的笔画虽比前者首部件“十”的笔画多,但并未使整个汉字的部件最少。
“先离后接大优先”是“尊重结构少部件”的具体操作,即“先离后接”和“大优先”。“先离后接”按汉字层级四大结构拆分部件,如果几种拆分都使汉字部件最少,则能从部件相离处拆分的不从相接处拆分,如“余”拆为“人于八”而非“人一ホ”,“主”拆为“丶王”而非“亠土”:“大优先”指按汉字层级四大结构拆分部件,如果几种拆分都使汉字部件最少,并且都只从相离处拆分或都只从相接处拆分,则使先拆分出的部件笔画尽量多,如“午”拆为“_十”而非“丿干”。
第二条:依照结构难拆分,相交强拆大优先.此条适用于现代汉语通用字之外需要相交拆分的汉字。
“依照结构难拆分”指明拆分的对象是现代汉语通用字之外利用现代汉语通用字共有的基础部件无法进行不相交拆分的汉字。
“相交强拆大优先”即“相交强拆”和“大优先”。“相交强拆”指,对用现代汉语通用字共有的部件进行不相交拆分但不能完成拆分的汉字,只考虑使该汉字部件最少而强行对其从笔画相交处拆分,并使相邻的笔画组合在部件中,如“單”拆分为“口口日十”而非“口口甲一”;“大优先”指在保持该汉字部件最少的情况下,使先拆分出的部件笔画尽量多,如“刄”拆为“刀、”而非“乚乂”。
另外注意,汉字中可构成部件的几个部分有时会被其他笔画或部件隔离,拆分时要将其组合还原成一个部件,汉字部件排列顺序由部件的第一笔画的先后顺序决定。如,“尞”拆为“大丷日小”,“兆”拆为“儿
”,“来”拆为“未丷”。
上述原则与方法换言之就是:在对汉字进行拆分时,首先判断用部件表中的部件能否将它按照四大结构拆分。能拆分则遵照“尊重结构少部件,先离后接大优先”的原则和方法对其进行部件拆分,以达到在尊重汉字结构的基础上实现经济编码的目的:不能按照四大结构拆分则遵照“依照结构难拆分,相交强拆大优先”的原则和方法对其进行部件拆分,以达到在无法尊重汉字结构的情况下实现经济编码的目的。如附图1所示。
(二)对汉字部件进行定量、取码与归并
汉字笔画指在汉字楷体书写过程中不间断的直线或曲线。汉字部件指构成汉字的单元或笔画块,既可以是单一笔画,也可以是多个笔画的组合。由一个笔画构成的部件叫单笔部件,单笔部件除汉字“一”“乙”外都为非成字部件(即不能单独作为现代汉字使用的部件)。由至少两个笔画组成的部件叫多笔部件,多笔部件可分为成字部件(能单独作为现代汉字使用的部件)和非成字部件。
单笔根据汉字部件拆分的实际需要可成为单笔部件。利用大写字母AEIOU的书写首笔与汉字笔画“撇横竖点折”的形近联系,将“横竖撇点折”等单笔部件的取码相应定为EIAOU,其中“一”“乙”两个部件的取码须具体对待。对多笔部件则取部件读音首字母为码并按取码归并为25类(字母V不参与编码,用作查询键),其中“长”“车(車)”“单”“乐”“龟(龜)”“鸟”“石”等部件的取码也须具体对待。另外,作为汉字部件使用的“子”在汉字书写中常受其他笔画或部件的影响而写成“孑”,与汉字“孑孓”的“孑”同形,故“孑”作为汉字的部件使用时取码为Z,而作为汉字“孑(jié)”单独使用时取码为J。如表1和2所示。
在汉字书写过程中,鉴于形体美观等因素,汉字的“竖钩”“竖折钩”受下方部件或笔画的影响演变为“竖”,如“哥”的第五笔和“雀”的第一笔、“園”的第十笔:部件如“亠土工王堇生正车鱼马立止业豆耳且”等中的“横”受右边部件的影响演变成“提”;部件如“木禾耒米束束夫乂夂”等中的“捺”受右边部件的影响演变成“点”;部件如“乚九几儿七毛
己”等中带有“竖弯钩”的笔画受右边部件的影响演变成“竖提”,如汉字“鸠鸩剜顾”等:“十”受下方部件或笔画的影响其中“丨”的上方会稍稍向右倾,如“直鄙南”等。另外。“月用”受上方部件的影响首笔通常变为竖,如“肖肓育肩肾肯背胃胄散”和“甬涌俑蛹踊”等。这些部件变体仍按变化前的部件取码及归并。
表1
同样,汉字在造形上偶尔也存在着笔画长短区别的现象,如“幸”拆为“土丷干”,“逹”的第四横虽比第三横短,但“辶”半包围的部分明显是一个“幸”,故该字拆为“土丷干辶”。
表2
类似的映射在汉字集中时有发生,如“櫮”拆为“木王口口口口”,“噩”虽三横等长,但参照“櫮”,仍拆为“王口口口”;“鳘”“繁”参照“敏”分别拆为“_母攵鱼”和“_母攵白水”,“瀿”参照“敏”“繁”拆分为“氵_母攵幺小”;同理,“園”“速”参照“袁”、“還”参照“袁”“寰”进行部件拆分。像“乗”这样的字也存在上述情况,
的第二横虽写得较短,但并不影响它与部件表中其他部件的区分,故该字拆为“禾
”
然而,部件并不应存在形似而神非的替代,要求严格区分有笔画长短区别或笔画出头、不出头区别的部件,不存在相似性替代,如不用“夕”替代“夂”,不用“七”替代“匕”或(化字边)”,不用“日”替代“曰”或“
”(“
”与两横相离,如“冒、帽、冕”)等。其中“口kǒu”和“□wéi”的区别在于,“□wéi”中间含有不与之相交的多个笔画。
(三)形码汉语语句级输入的取码方式
按上述汉字部件拆分的原则和方法对汉字进行拆分最大限度地降低了拆分的难度,对部件实行读音首字母取码与归并则使人们对部件取码的记忆有根深蒂固的汉语拼音知识依据,使它们具有不易被忘却的本质,两者结合就将汉字部件的易学易用性提升到了更高水平,从而为顺利进行汉语输入打下坚实的基础。
制作输入系统采取如下输入取码方式:单音字词中的部件字(指可整体作基础部件的汉字)的输入取码方式为部件字加其前三笔,少于三笔时取实际笔画数,单音字词中的非部件字的输入取码方式为前三部件加末部件(不足三部件时依次取前两部件首笔凑码);双音节词或短语的输入取码方式为两字前两部件(部件字取其首笔凑码);三音节词或短语的输入取码方式为前字前两部件加后两字首部件(部件字取首笔凑码);四及以上音节词或短语的输入取码方式为前四字首部件。如表3所示。
表3
二、音码智能汉语语句级输入系统必要条件的实现
(一)由全拼到简拼的转变
按照汉语拼音声韵相拼后的形体,我们将声母和韵母分开,其中将音节开头的y、w定为声母,将y、w后的部分定为韵母,那么根据声韵相拼规则统计可得出如下表4的结论。其中“声母集合1”表示能与栏1中的一个韵母相拼的所有声母的集合,“声母集合2”表示能与栏2中的一个韵母相拼的所有声母的集合,“交集3”表示一行中能与栏1中的韵母相拼的所有声母的集合和能与栏2中的韵母相拼的所有声母的集合之交集。不难看出,前六行中能与栏1中的韵母相拼的所有声母的集合和能与栏2中的韵母相拼的所有声母的集合之交集都为空。而与韵母o
声母集合1 | 声母集合2 | 交集3 |
ang | iong | _ |
ia | an | _ |
ian | uang | _ |
ua | iao | _ |
uai | ing | _ |
ui | in | _ |
o | uan | {y,l} |
üe(ue) | en | {n} |
表4
相拼的声母的集合和与韵母uan相拼的声母的集合之交集为{y,l),而韵母o与声母y相拼只有“哟唷”两字,韵母o与声母l相拼只有“咯”字;与韵母üe相拼的声母的集合和与韵母en相拼的声母的集合之交集为{n},而韵母en与声母n相拼只有“嫩恁”两字。这样,我们就可以将汉语拼音中字母个数大于l的声母或韵母以另一字母替代以作简化,并将上述成对出现的韵母置于同一个简化字母下,形成如下新简化声韵表(表5):
表5
助记口诀:羌-外-恶-儿-头,药-束-嗤-哦-砰,炸-丧-电-饭-锅,花-蕨-溃-零-纵,修-村-别-女-袂。
Qiang-wai-e-er-tou,yao-shu-chi-o-peng,zha-sang-dian-fan-guo,hua-jue-kui-ling-zong,xiu-cun-bie-nü-mei.
口诀内容:“塞外来了恶人头目,‘嗤-哦-砰’点燃了炸药,砸烂了家中的电饭锅,栽种的花儿草儿溃撒一地,女孩儿为了修复村庄也告别女装(而拿起斗争的武器)。”
(二)音码汉语语句级输入的取码方式
字符串 | 输入取码规则 | 举例 | |
单字输入 | 声母+韵母+声调 | 孔 | KZU |
双字输入 | 两字的“声+韵” | 孔子 | KZZI |
三字输入 | 首字的“声+韵”,后两字的“声”(后两字无“声”则取“韵”) | 尊孔子 | ZCKZ |
四字及以上输入 | 前四字的“声”(无“声”时取“韵”) | 尊崇孔子 | ZIKZ |
表6
三、音形码智能汉语语句级输入系统的实现
拼音全拼输入法通过声母和韵母进行字和字的划分,所以软件可以识别用户是进行字输入还是词输入,进而可以识别整句话的输入。例如,用拼音输入法输入“今天是星期五”,可以全拼输入:jin’tian’shi’xing’qi’wu。软件通过对声母和韵母的划分可以判断出用户要输入多少个字,进而分词,再通过各词的使用频率进行运算,得出输入的句子。形码或音形码输入时每个字或词的取码由1到4码不等,字和字、字和词、词和词的具体的取码之间通常被认为没有特征加以区分,因而一般不能根据输入的取码进行字词的识别,这也是限制以往形码、音形码输入法难以向语句输入发展的一个重要原因。但是我们应该看到,形码、音形码最主要以四码方式输入的特点,却是全拼输入无法比拟的潜藏优势特征。
如果我们将键盘输入的汉字取码串从前往后(从左往右)依次以每四码作为一个节,实现四码封装,将具有语法知识的一个组合(语句单元)固定下来,也即是实现了最基本和较少歧义的汉语语法知识与其承载体(语句单元)的封装,那么软件就能将取码串由前往后以每四码为单位搜索其对应的语句单元,从而避免不必要的歧义分词。当用户所要输入的语句单元对应的取码不足四码时,在该取码后加一个符号作为向软件系统发送的一个可供其识别的封装信号,以实现对不足四码的取码的封装。系统搜索到这一信号时,就从封装信号前后将取码串断开,向前推展至上一个封装节点,实现封装信号和上一节点间取码的封装,然后从封装信号后向后依次以每四码作为一个封装单元,搜索其对应的语句单元。这样,已知“在这个问题上zlrm”“我们的warb”“观点yjzk”“是s”“一致的yeeb”,在整句输入时就可以直接输入“zlrm warb yjzk sv yeeb(其中v作为封装信号)”来实现整句“在这个问题上我们的观点是一致的”的输入。
由此,我们可以将这种新的汉语输入系统的汉语输入实现原理描述为:软件系统利用在汉语语法知识基础上实现的封装语句单元(模板语句单元)来化解歧义分词,并通过汉语语法知识和模板语句单元搜索引擎以及语言模型来实现语句处理。
如附图2所示,其人机互动过程为:
第1步:利用自动分词标注及人工分词等技术根据取码规则对语句单元进行封装后,用户根据取码规则输入语句取码;
第2步:系统搜索开始,搜索候选路径清空;
第3步:搜索获得语句单元取码字母;
第4步:系统从前往后(从左往右)依次获得取码字母封装单元;
第5步:搜索获得取码字母封装单元对应的所有候选模板语句单元;如有必要,系统会先自动分词得到所有重码语句单元的集合,然后再搜索可能的模板语句单元;
第6步:根据句法规则进行匹配。如果匹配结果惟一,则直接进入第7步,否则语言模型(包括三元模型、二元模型和一元模型)对现有路径所添加的不同的候选语句单元分别进行路径打分,并对所有路径按概率值由高到低排序;
第7步:判断是否输入结束,是则继续第8步,否则转入第3步,继续第3~7步过程;
第8步:获得最高分语句候选;
第9步:用户确认候选的语句为所需。如果否,则用户进入编辑模块进行语句内部编辑:
键选确定模板语句单元,系统转入第6步,继续第6~9步的过程;重新输入取码,则系统转入第1步,继续第1~9步的过程。如果是,则一次语句搜索结束,同时系统自动搜索此句中新的语句单元,将其加入模板语句单元库。
第9步中,如果所输出的候选语句不为用户所需,用户可进入编辑模块进行句内编辑,此时候选语句消失,光标所到之处,待定语句单元上方出现候选重码语句单元,用户可键选确定模板语句单元;若需修改或删除并重新输入取码,按向前删除键则待定语句单元转换为其对应的取码(此时语句中的其他语句单元暂不作改变),用户可直接删除或覆盖以重新输入取码。
第9步中,新输入系统的模板语句单元库包括系统语句单元库、用户语句单元库及临时用户语句单元库。下面重点介绍用户语句单元库和临时用户语句单元库的使用。当某个语句被用户确定后,系统自动搜索此句中新的语句单元。如有新单元,则弹出一个标注框,提醒用户有字串不是系统语句单元,是否愿意将其设为新的语句单元并实现封装,以便四码输入。如,在一句话中出现“孔隆庄”,用户确定含有此字串的语句后,屏幕位于该字串的上方便会显示“是否将‘孔隆庄’设为新语句单元?Y/N”字样。用户点击Y键后,系统将该字串设为新的语句单元并对其四码封装,并长期保存到用户语句单元库,直至用户手工删除该单元。实现四码封装的目的一是要避免歧义分词,降低键选率,二是要缩短输入平均码长,提高输入速度。输入“孔隆庄”原来要输入“zuuu edes gtoe”,封装后只要输入“zueg”即可。如用户点击N键或置之不理,则系统自动将该字串设为新的语句单元并将其临时保存到临时用户语句单元库,此时用四码“zueg”无法实现该单元的输入,但按原输入方式输入“zuuu edes gtoe”时,假设“edes”同时对应着另一个语句单元,则系统将使“孔隆庄”优先上屏。用户对该标注框可以不予理睬,该框不会影响用户的正常输入、打印等操作,并在出现6秒钟后会自动消失。如果标注框自动消失后用户又想将该字串封装,则用鼠标或组合键选中该字串,用功能组合键直接将其封装,也可于其上单击鼠标右键,在弹出的菜单中选择“用户词库”,系统将重新弹出标注框,用户只要点击Y键即可将该字串封装。另外,系统还配备有新的语句单元手工制作工具,用户可任意增加自己想要的封装单元,同时在该工具中用户可以看到用户语句单元库中的所有语句单元,并可对其作删除操作。这样,对每个用户而言,在使用过程中,模板语句单元库不仅会维持最初的通用型,还会逐渐拥有符合该用户习惯的专用特征。
下面我们结合实例来说明输入系统实现取码到语句转变的步骤:
语句:在这个问题上我们的观点是一致的。(如附图3所示)
(1)智能拼音全拼输入系统全拼输入情况:
zai zhege wenti shang women de guandian shi yizhi de
(2)形码输入系统封装单元取码输入情况:
(a)在-这-个-问-题-上-我-们-的-观-点-是-一-致-的。
取码:zitv lczv riai mkoi resy siee waei rmao dv yjui zkov sv yev estw dv
(b)在-这个-问题-上-我们-的-观点-是-一致-的。
取码:zitv lcri mkre siee warm dv yjzk sv yees dv
(c)在-这个问题-上-我们的-观点-是-一致的。
取码:zitv lrmr siee warb yjzk sv yeeb
(d)在这个问题上-我们的-观点-是-一致的。
取码:zlrm warb yjzk sv yeeb
(3)新拼音四码封装输入系统输入情况:
(a)在-这-个-问-题-上-我-们-的-观-点-是-一-致-的。
取码:zwzv aezv gezv wjiv tiav uszv wouv mjav dv goev dduv sv yiev aiiv dv
(b)在-这个-问题-上-我们-的-观点-是-一致-的。
取码:zwzv aege wjti usiv dv womj dv godd sv yiai dv
(c)在-这个问题-上-我们的-观点-是-一致的。
取码:zwzv agwt usiv womd godd sv yiad
(d)在这个问题上-我们的-观点-是-一致的。
取码:zagw womd godd sv yiad
(其中v为封装信号;四句间还存在其他字、词、短语相互匹配的转变方式,在此省略)
从图中可以看到,新的拼音输入系统和新的形码输入系统几乎同样的优势。系统将用户由键盘输入的取码串从前往后(从左往右)依次取四码以获得取码字母封装单元对应的模板语句单元;相邻两个模板语句单元有可能对应着一个更大的模板语句单元:设x,y,z都是语句单元,x=yz,则x为更大的语句单元;而每两个模板语句单元之间的通路表示这两个单元相匹配:设xy,yz都为语句单元,则xyz为更大的语句单元。这样就可避免歧义分词,使所需语法规则简约化,降低键选率,易于知识表达。随着封装单元由小到大即由字到词再到短语的增长,其所要输入的取码数由原来的53个字母迅速下降到18个字母,降低了平均码长,并且系统自动分词的几率也越来越少,当达到一定程度时,系统自动分词数等于零,则系统在依次获得取码字母封装单元后直接搜索其对应的所有候选模板语句单元,根据句法规则进行匹配,语言模型再对现有路径所添加的不同的候选语句单元进行路径打分,从而能有效提高取码到语句的正确转换率。由此可见,新输入系统具有一个显著的优点:当输入取码对应的模板语句单元越大时,整句处理的能力越强,输入准确率越高,键选率越低,平均码长越短,输入速度越快。
四、音形码智能汉语语句级输入系统的简码输入
新的音形码智能汉语语句级输入系统将汉语通用字和非通用字分别建库,以减少单字词键盘输入的重码率。因单个汉字输入时形码较之音码更有助于汉字输入,故音码智能汉语语句级输入系统不含非统用字库。同时允许存在一~三键简码,一键简码字可按汉字部件拆分的原则和方式拆分、按汉字词的输入取码方式取码,而不影响由其构成的汉字词或短语的正常输入。如附图4所示。
五、音形码智能汉语语句级输入系统的应用范围
上述拼音形码两种输入系统的输入取码方式不仅适用于小键盘/数字键盘的便携式键盘输入设备如手机等一系列产品,也将给便携式输入手写平台带来新的革命:
1.按汉字部件取码规则手写部件即可输入语句单元。
按语句单元的取码规则手写取码部件,将系统由原来对整个汉字的识别转变为对其部件的识别,从而以手写部件的方式输入语句单元。这一过程的原理与键盘输入相同。
2.按汉字取码规则手写取码字母既可输入语句单元。
(1)按语句单元的部件取码规则手写部件对应的字母,将系统由原来对整个汉字的识别转变为对其部件对应的字母的识别,从而以手写部件对应的字母的方式输入语句单元。这一过程的原理与键盘输入相同。
(2)按语句单元的拼音取码规则手写字母,将系统由原来对整个汉字的识别转变为对语句单元对应的字母的识别,从而以手写字母的方式输入语句单元。这一过程的原理与键盘输入相同。
手写部件输入和手写字母输入这三种方式基于上述音形码输入系统的原理,适用于电脑、电子笔记本、手机等一系列手写平台。
Claims (10)
1.古今中外绝大部分汉字是合成字,这使得汉字部件间相离和相接(特别是相离)的关系占据了绝对优势,客观上要求对汉字尽可能从部件相离和相接处拆分。另一方面,汉字编码最直接的功能是排序和检索,要求尽量用最少的码数反映汉字的全貌,这就要求使汉字拆分出的部件尽量少。尽量从相离和相接处拆分部件是尊重汉字结构的本质要求,使汉字拆分出的部件尽量少则是汉字经济编码的客观要求,后者必须以前者为前提。
2.按权利要求1,在汉字部件拆分过程中,首先必须尽量从汉字相离和相接处拆分。依汉字的上(中)下、左(中)右、(半/全)包围结构对汉字进行每一级部件拆分叫汉字部件的不相交有理拆分,依汉字平面结构以其他结构从笔画不相交处进行部件拆分叫汉字部件的不相交无理拆分,两者可概述为不相交拆分;依汉字平面结构从笔画相交处进行部件拆分叫汉字部件的相交无理拆分或相交拆分。
3.按权利要求1和2,汉字部件拆分的原则与方法是:尊重结构少部件,先离后接大优先;依照结构难拆分,相交强拆大优先。前两句适用于现代汉语通用字和现代汉语通用字之外可以不相交拆分的汉字,后两句适用于现代汉语通用字之外需要相交拆分的汉字。“尊重结构少部件”即尊重汉字结构,不从笔画相交处拆分而按汉字层级四大结构拆分部件,尽量使相邻的笔画组合在部件中,使拆分出来的部件尽量少。“先离后接大优先”是“尊重结构少部件”的具体操作,即“先离后接”和“大优先”。“先离后接”指按汉字层级四大结构拆分部件,如果几种拆分都使汉字部件最少,则能从部件相离处拆分的不从相接处拆分:“大优先”指按汉字层级四大结构拆分部件,如果几种拆分都使汉字部件最少,并且都只从相离处拆分或都只从相接处拆分,则使先拆分出的部件笔画尽量多。“依照结构难拆分”指明拆分的对象是现代汉语通用字之外利用现代汉语通用字共有的基础部件无法进行不相交拆分的汉字。“相交强拆大优先”即“相交强拆”和“大优先”。“相交强拆”指,对用现代汉语通用字共有的部件进行不相交拆分但不能完成拆分的汉字,只考虑使该汉字部件最少而强行对其从笔画相交处拆分,并使相邻的笔画组合成部件;“大优先”指在保持该汉字部件最少的情况下,使先拆分出的部件笔画尽量多。
4.单笔根据汉字部件拆分的实际需要可成为单笔部件,利用大写字母AEIOU的书写首笔与汉字笔画“撇横竖点折”的形近联系,将“横竖撇点折”等单笔部件的取码相应定为EIAOU,对多笔部件则取部件读音首字母为码并按取码归并为25类,其中多笔部件的选择、取码及归并是:
丨竖刂
K_口
R
人(_亻彳)入日冉壬
U折 巜 巛
5.按照汉语拼音声韵相拼后的形体,将声母和韵母分开,其中将音节开头的y、w定为声母,
将y、w后的部分定为韵母,根据声韵相拼规则统计出ang和iong、ia和an、ian和uang、ua和iao、uai和ing、ui和in、o和uan、üe(ue)和en这8组几乎不共用声母的韵母,将它们分别置于一个字母下以实现声韵简化。
6.按权利要求1、2、3、4和5,将键盘输入的汉字取码串从前往后(从左往右)依次以每四码作为一个节,实现四码封装,将具有语法知识的一个组合(语句单元)固定下来,也即是实现最基本和较少歧义的汉语语法知识与其承载体(语句单元)的封装。当用户所要输入的语句单元对应的取码不足四码时,在该取码后加一个符号作为向软件系统发送的一个可供其识别的封装信号,以实现对不足四码的取码的封装。
7.按权利要求1、2、3、4和6制作成的形码智能汉语语句输入系统,单字词中的部件字的输入取码方式为部件字加其前三笔,少于三笔时取实际笔画数,单字词中的非部件字的输入取码方式为前三部件加末部件(不足三部件时依次取前两部件首笔凑码);双字词或短语的输入取码方式为两字前两部件(部件字取其首笔凑码);三字词或短语的输入取码方式为前字前两部件加后两字首部件(部件字取首笔凑码);四字或四字以上的词或短语的输入取码方式为前四字首部件。
9.按权利要求1、2、3、4、5、6、7和8制作成的音码和形码智能汉语语句输入软件系统,利用在汉语语法知识基础上实现的封装语句单元(模板语句单元)来化解歧义分词,并通过汉语语法知识和模板语句单元搜索引擎以及语言模型来实现语句处理。
10.按权利要求1、2、3、4、5、6、7、8和9,上述音形码两种输入系统包括两种键盘输入方式和可以衍生出的三种手写输入方式,共五种输入方式,不仅适用于小键盘/数字键盘的便携式键盘输入设备如手机等一系列产品,也适用于电脑、电子笔记本、手机等一系列手写平台,并可向语音输入延伸。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710052277A CN101086689B (zh) | 2007-05-28 | 2007-05-28 | 利于“学用”汉字的智能汉语输入系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN200710052277A CN101086689B (zh) | 2007-05-28 | 2007-05-28 | 利于“学用”汉字的智能汉语输入系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101086689A true CN101086689A (zh) | 2007-12-12 |
CN101086689B CN101086689B (zh) | 2012-10-10 |
Family
ID=38937672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN200710052277A Expired - Fee Related CN101086689B (zh) | 2007-05-28 | 2007-05-28 | 利于“学用”汉字的智能汉语输入系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101086689B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103105941A (zh) * | 2011-10-18 | 2013-05-15 | 王道平 | 一种汉字输入方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1357814A (zh) * | 2000-12-05 | 2002-07-10 | 梁晨 | 计算机汉语键盘及其汉语信息的输入和处理方法 |
CN1241101C (zh) * | 2001-11-30 | 2006-02-08 | 梁晨 | 一种基于汉语音节双读方案的信息输入方法 |
-
2007
- 2007-05-28 CN CN200710052277A patent/CN101086689B/zh not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103105941A (zh) * | 2011-10-18 | 2013-05-15 | 王道平 | 一种汉字输入方法 |
Also Published As
Publication number | Publication date |
---|---|
CN101086689B (zh) | 2012-10-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Guthrie | The classification of the Bantu languages bound with Bantu word division | |
CN103838392B (zh) | 高频词语并全部汉字快易的键盘、手写、语音输入法 | |
CN101833376A (zh) | 基于汉字拆分的智能语句级汉字输入系统 | |
Montgomery et al. | The New Encyclopedia of Southern Culture: Volume 5: Language | |
CN101086689A (zh) | 利于“学”、“用”汉字的智能汉语输入系统 | |
CN104951096A (zh) | 汉字编码八类笔形座标形码输入法 | |
Goddard et al. | Lexicographic research on Australian Aboriginal languages 1968-1993 | |
CN110188352A (zh) | 一种文本主题确定方法、装置、计算设备及存储介质 | |
CN105511636A (zh) | 全部汉字汉词简易无重码统一输入法改进 | |
CN103984420B (zh) | 一种基于拼音的藏文智能输入法 | |
CN100545790C (zh) | 计算机汉字信息猎头码输入法 | |
Lee | Warp and weft: Chinese language and culture | |
CN87105564A (zh) | 一种汉字输入方法及其输入键盘 | |
CN101303626A (zh) | 一种拼音输入法重码多的解决方法 | |
CN105607752A (zh) | 形易汉字输入法 | |
CN100375947C (zh) | 30键认知码汉字输入方法 | |
CN103760989A (zh) | 和码横竖加撇捺字形技术与输入法 | |
CN111381687A (zh) | 汉字形、音形两用码及音、形和音形码同台交叉输入汉字的平台 | |
CN112328095B (zh) | 基本不用数字键选字的四用音形码汉字输入法及输入平台 | |
CN103777771A (zh) | 易捷速录系列输入方法 | |
CN1328649C (zh) | 汉字“三形联想”形码输入法 | |
CN107256092A (zh) | 汉字数字形码快速输入法 | |
CN112083816B (zh) | 音义及音型码汉字输入法 | |
CN109358758B (zh) | 一种字源输入法及其键位安排方法 | |
CN106293130B (zh) | 中文字音字形笔画笔顺快捷手写输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
DD01 | Delivery of document by public notice |
Addressee: Wang Daoping Document name: Notification to Pay the Fees |
|
DD01 | Delivery of document by public notice |
Addressee: Wang Daoping Document name: Notification of Termination of Patent Right |
|
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20121010 Termination date: 20150528 |
|
EXPY | Termination of patent right or utility model |