CN101086689B

CN101086689B - 利于“学用”汉字的智能汉语输入系统

Info

Publication number: CN101086689B
Application number: CN200710052277A
Authority: CN
Inventors: 王道平
Original assignee: Individual
Current assignee: Individual
Priority date: 2007-05-28
Filing date: 2007-05-28
Publication date: 2012-10-10
Anticipated expiration: 2027-05-28
Also published as: CN101086689A

Abstract

利于“学用”汉字的智能汉语输入系统，涉及智能汉语语句级输入，分为形码和音码两种基本系统，包括键盘输入、手写输入等五种输入方式，并可向语音输入延伸。形码基于合理的汉字编码方案，对包括现代汉语通用字在内的绝大多数汉字实行不相交拆分，尊重了汉字结构也使部件拆分容易。对部件取其读音首字母为码并归并，使部件易学易用。音码基于汉语拼音方案，在声韵相拼后的形体中将声母和韵母分开，统计出8组几乎互不共用声母的韵母以实现声韵简化。两种系统均利用在汉语语法知识基础上实现的封装语句单元来化解歧义分词，并通过汉语语法知识和模板语句单元搜索引擎以及语言模型来实现快速语句级输入。在“学”“用”汉字方面，两种系统互为补充。

Description

利于“学用”汉字的智能汉语输入系统

技术领域

本发明涉及中文信息处理领域，特别是涉及如何在有利于学习和运用汉字的前提下实现准确而高速的汉语语句级输入，从而促使人们更好地掌握汉语、使用汉语。

背景技术

即使是在像微软拼音输入法和搜狗输入法这类智能化的输入法中，在全拼输入到达语句末尾时，我们偶尔也会遇到语句中间的某个地方有转换错误的现象而不得不回头纠正，简拼输入的这种现象就更为明显。其原因在于，目前自动分词的准确度尚达不到100％，全拼难以达到，简拼就更达不到。因此它们无法根本解决语句输入“回头看”的问题，也难以缩短平均码长。这些都是亟待解决的问题。

发明内容

基于汉语拼音方案，我们按照汉语拼音声韵相拼后的形体，将声母和韵母分开，其中将音节开头的y、w定为声母，将y、w后的部分定为韵母，并根据声韵相拼规则统计可知：与韵母ang相拼的声母和与韵母iong相拼的声母之交集为空集；与韵母ia相拼的声母和与韵母an相拼的声母之交集为空集；与韵母ian相拼的声母和与韵母uang相拼的声母之交集为空集；与韵母ua相拼的声母和与韵母iao相拼的声母之交集为空集；与韵母uai相拼的声母和与韵母ing相拼的声母之交集为空集；与韵母ui相拼的声母和与韵母in相拼的声母之交集为空集；与韵母o相拼的声母和与韵母uan相拼的声母之交集为{y，l}，而韵母o与声母y相拼只有“哟唷”两字，韵母o与声母l相拼只有“咯”字；与韵母üe相拼的声母和与韵母en相拼的声母之交集为{n}，而韵母en与声母n相拼只有“嫩恁”两字。这样，我们就可以将汉语拼音中字母个数大于1的声母或韵母以另一字母替代以作简化，并将上述成对出现的韵母置于同一个简化字母下，制作新的声韵简拼表，然后将其编成一个具有故事内容的助记口诀。

拼音全拼输入法通过声母和韵母进行字和字的划分，所以软件可以识别用户是进行字输入还是词输入，进而可以识别整句话的输入。上述提出的简拼输入系统输入时每个字或词的取码由1到4码不等，字和字、字和词、词和词的具体的取码之间通常被认为没有特征加以区分，因而一般不能根据输入的取码进行字词的识别，这也是限制以往形码、音形码输入法难以向语句输入发展的一个重要原因。但是我们应该看到，形码、音形码最主要以四码方式输入的特点，却是全拼输入无法比拟的潜藏优势特征。如果我们将键盘输入的汉字取码串从前往后(从左往右)依次以每四码作为一个节，实现四码封装，将具有语法知识的一个组合(语句单元)固定下来，也即是实现了最基本和较少歧义的汉语语法知识与其承载体(语句单元)的封装，那么软件就能将取码串由前往后以每四码为单位搜索其对应的语句单元，从而使形码也具有类似拼音全拼输入系统的区分功能，也就可以实现汉语语句级输入了。

与现有技术相比，新的汉语输入系统具有四大优势：

一、新的声韵简拼简单规律，易于学习和使用。

二、将语句单元以四码封装，可降低平均码长，避免歧义分词，使所需语法规则简约化，降低键选率，易于知识表达。

三、将语句单元封装，利于整句处理。封装的语句单元越大，整句处理的能力越强，输入准确率越高，键选率越低，平均码长越短，输入速度越快。

四、对于已经搜索过模板语句单元的领域，系统的转换正确率很高。对于每个用户而言，在使用过程中，模板语句单元库不仅会维持最初的通用型，还会逐渐拥有符合该用户习惯的专用特征。

附图说明

附图1：输入系统人工互动原理图

附图2：输入系统实现取码到语句转变的示意图

附图3：输入系统一键简码图

具体实施方式

按照汉语拼音声韵相拼后的形体，我们将声母和韵母分开，其中将音节开头的y、w定为声母，将y、w后的部分定为韵母，那么根据声韵相拼规则统计可得出如下表1的结论。其中“声母集合1”表示能与栏1中的一个韵母相拼的所有声母的集合，“声母集合2”表示能与栏2中的一个韵母相拼的所有声母的集合，“交集3”表示一行中能与栏1中的韵母相拼的所有声母的集合和能与栏2中的韵母相拼的所有声母的集合之交集。不难看出，前六行中能与栏1中的韵母相拼的所有声母的集合和能与栏2中的韵母相拼的所有声母的集合之交集都为空。而与韵母o相拼的声母的集合和与韵母uan相拼的声母的集合之交集为{y，l}，而韵母o与声母y相拼只有“哟唷”两字，韵母o与声母l相拼只有“咯”字；与韵母üe相拼的声母的集合和与韵母en相拼的声母的集合之交集为{n}，而韵母en与声母n相拼只有“嫩恁”两字。这样，我们就可以将汉语拼音中字母个数大于1的声母或韵母以另一字母替代以作简化，并将上述成对出现的韵母置于同一个简化字母下，形成如下新简化声韵表(表2)：

表1

表2

助记口诀：羌-外-恶-儿-头，药-束-嗤-哦-砰，炸-丧-电-饭-锅，花-蕨-溃-零-纵，修-村-别-女-袂。

Qiang-wai-e-er-tou，yao-shu-chi-o-peng，zha-sang-dian-fan-guo，hua-jue-kui-ling-zong，xiu-cun-bie-nü-mei.

口诀内容：“塞外来了恶人头目，‘嗤-哦-砰’点燃了炸药，砸烂了家中的电饭锅，栽种的花儿草儿溃撒一地，女孩儿为了修复村庄也告别女装(而拿起斗争的武器)。”

以下为新的拼音输入系统的四码输入取码规则，其中声调“ˉˊˇˋ”及轻声(暂以“˙”替代)因分别与EAUIO的外形相似或起笔相似，故将其以这5个字母表示(表3)：

表3

拼音全拼输入法通过声母和韵母进行字和字的划分，所以软件可以识别用户是进行字输入还是词输入，进而可以识别整句话的输入。例如，用拼音输入法输入“今天是星期五”，可以全拼输入：jin’tian’shi’xing’qi’wu。软件通过对声母和韵母的划分可以判断出用户要输入多少个字，进而分词，再通过各词的使用频率进行运算，得出输入的句子。

如果我们将键盘输入的汉字取码串从前往后(从左往右)依次以每四码作为一个节，实现四码封装，将具有语法知识的一个组合(语句单元)固定下来，也即是实现了最基本和较少歧义的汉语语法知识与其承载体(语句单元)的封装，那么软件就能将取码串由前往后以每四码为单位搜索其对应的语句单元，从而避免不必要的歧义分词。当用户所要输入的语句单元对应的取码不足四码时，在该取码后加一个符号作为向软件系统发送的一个可供其识别的封装信号，以实现对不足四码的取码的封装。系统搜索到这一信号时，就从封装信号前后将取码串断开，向前推展至上一个封装节点，实现封装信号和上一节点间取码的封装，然后从封装信号后向后依次以每四码作为一个封装单元，搜索其对应的语句单元。这样，已知“在这个问题上zagw”“我们的womd”“观点godd”“是s”“一致的yizd”，在整句输入时就可以直接输入“zagw womd godd sv yizd(其中v作为封装信号)”来实现整句“在这个问题上我们的观点是一致的”的输入。

由此，我们可以将这种新的汉语输入系统的汉语输入实现原理描述为：软件系统利用在汉语语法知识基础上实现的封装语句单元(模板语句单元)来化解歧义分词，并通过汉语语法知识和模板语句单元搜索引擎以及语言模型来实现语句处理。

如附图1所示，其人机互动过程为：

第1步：利用自动分词标注及人工分词等技术根据取码规则对语句单元进行封装后，用户根据取码规则输入语句取码；

第2步：系统搜索开始，搜索候选路径清空；

第3步：搜索获得语句单元取码字母；

第4步：系统从前往后(从左往右)依次获得取码字母封装单元；

第5步：搜索获得取码字母封装单元对应的所有候选模板语句单元；如有必要，系统会先自动分词得到所有重码语句单元的集合，然后再搜索可能的模板语句单元；

第6步：根据句法规则进行匹配。如果匹配结果惟一，则直接进入第7步，否则语言模型(包括三元模型、二元模型和一元模型)对现有路径所添加的不同的候选语句单元分别进行路径打分，并对所有路径按概率值由高到低排序；

第7步：判断是否输入结束，是则继续第8步，否则转入第3步，继续第3～7步过程；

第8步：获得最高分语句候选；

第9步：用户确认候选的语句为所需。如果否，则用户进入编辑模块进行语句内部编辑：键选确定模板语句单元，系统转入第6步，继续第6～9步的过程；重新输入取码，则系统转入第1步，继续第1～9步的过程。如果是，则一次语句搜索结束，同时系统自动搜索此句中新的语句单元，将其加入模板语句单元库。

第9步中，如果所输出的候选语句不为用户所需，用户可进入编辑模块进行句内编辑，此时候选语句消失，光标所到之处，待定语句单元上方出现候选重码语句单元，用户可键选确定模板语句单元；若需修改或删除并重新输入取码，按向前删除键则待定语句单元转换为其对应的取码(此时语句中的其他语句单元暂不作改变)，用户可直接删除或覆盖以重新输入取码。

第9步中，新输入系统的模板语句单元库包括系统语句单元库、用户语句单元库及临时用户语句单元库。下面重点介绍用户语句单元库和临时用户语句单元库的使用。当某个语句被用户确定后，系统自动搜索此句中新的语句单元。如有新单元，则弹出一个标注框，提醒用户有字串不是系统语句单元，是否愿意将其设为新的语句单元并实现封装，以便四码输入。如，在一句话中出现“孔隆庄”，用户确定含有此字串的语句后，屏幕位于该字串的上方便会显示“是否将‘孔隆庄’设为新语句单元？Y/N”字样。用户点击Y键后，系统将该字串设为新的语句单元并对其四码封装，并长期保存到用户语句单元库，直至用户手工删除该单元。实现四码封装的目的一是要避免歧义分词，降低键选率，二是要缩短输入平均码长，提高输入速度。输入“孔隆庄”原来要输入“kzuv lzav adev”，封装后只要输入“kzla”即可。如用户点击N键或置之不理，则系统自动将该字串设为新的语句单元并将其临时保存到临时用户语句单元库，此时用四码“kzla”无法实现该单元的输入，但按原输入方式输入“kzuvlzav adev”时，假设“kzla”同时对应着另一个语句单元，则系统将使“孔隆庄”优先上屏。用户对该标注框可以不予理睬，该框不会影响用户的正常输入、打印等操作，并在出现6秒钟后会自动消失。如果标注框自动消失后用户又想将该字串封装，则用鼠标或组合键选中该字串，用功能组合键直接将其封装，也可于其上单击鼠标右键，在弹出的菜单中选择“用户词库”，系统将重新弹出标注框，用户只要点击Y键即可将该字串封装。另外，系统还配备有新的语句单元手工制作工具，用户可任意增加自己想要的封装单元，同时在该工具中用户可以看到用户语句单元库中的所有语句单元，并可对其作删除操作。这样，对每个用户而言，在使用过程中，模板语句单元库不仅会维持最初的通用型，还会逐渐拥有符合该用户习惯的专用特征。

下面我们结合实例来说明输入系统实现取码到语句转变的步骤：

语句：在这个问题上我们的观点是一致的。(如附图2所示)

(1)智能拼音全拼输入系统全拼输入情况：

zai zhege wenti shang womende guandian shi yizhi de

(2)新拼音四码封装输入系统输入情况：

(a)在-这-个-问-题-上-我-们-的-观-点-是-一-致-的。

取码：zwiv aeiv geiv wjiv tiav usiv wouv mjav dv goev dduv sv yiev aiiv dv

(b)在-这个-问题-上-我们-的-观点-是-一致-的。

取码：zwiv aege wjti usiv womj dv godd sv yiai dv

(c)在-这个问题-上-我们的-观点-是-一致的。

取码：zwiv agwt usiv womd godd sv yiad

(d)在这个问题上-我们的-观点-是-一致的。

取码：zagw womd godd sv yiad

(其中v为封装信号；四句间还存在其他字、词、短语相互匹配的转变方式，在此省略)

从图中可以看到，新的拼音输入系统和新的形码输入系统几乎具有同样的优势。系统将用户由键盘输入的取码串从前往后(从左往右)依次取四码以获得取码字母封装单元对应的模板语句单元；相邻两个模板语句单元有可能对应着一个更大的模板语句单元：设x，y，z都是语句单元，x＝y z，则x为更大的语句单元；而每两个模板语句单元之间的通路表示这两个单元相匹配：设x y，y z都为语句单元，则x y z为更大的语句单元。这样就可避免歧义分词，使所需语法规则简约化，降低键选率，易于知识表达。随着封装单元由小到大即由字到词再到短语的增长，其所要输入的取码数由原来的53个字母迅速下降到18个字母，降低了平均码长，并且系统自动分词的几率也越来越少，当达到一定程度时，系统自动分词数等于零，则系统在依次获得取码字母封装单元后直接搜索其对应的所有候选模板语句单元，根据句法规则进行匹配，语言模型再对现有路径所添加的不同的候选语句单元进行路径打分，从而能有效提高取码到语句的正确转换率。由此可见，新输入系统具有一个显著的优点：当输入取码对应的模板语句单元越大时，整句处理的能力越强，输入准确率越高，键选率越低，平均码长越短，输入速度越快。

新的智能汉语语句级输入系统将汉语通用字和非通用字分别建库，以减少单字词键盘输入的重码率。同时允许存在简码，如附图3所示。

上述拼音形码两种输入系统的输入取码方式不仅适用于小键盘/数字键盘的便携式键盘输入设备如手机等一系列产品，也将给便携式输入手写平台带来新的革命：按语句单元的拼音取码规则手写字母，将系统由原来对整个汉字的识别转变为对语句单元对应的字母的识别，从而以手写字母的方式输入语句单元。这一过程的原理与键盘输入相同。

手写输入基于上述输入系统的原理，适用于一系列手写平台。

Claims

1.一种利于“学”、“用”汉字的智能汉语输入方法，其特征在于：

(1)按照汉语拼音声韵相拼后的形体，将声母和韵母分开，其中将音节开头的y、w定为声母，将y、w后的部分定为韵母，根据声韵相拼规则统计出ang和iong、ia和an、ian和uang、ua和iao、uai和ing、ui和in、o和uan、üe/ue和en这8组几乎不共用声母的韵母，将它们分别置于一个字母下以实现声韵简化；其具体分布如下表：

(2)单字词的输入取码方式为该字汉语拼音的声母加韵母再加声调，其中声调“ˉˊˇ｀”及轻声，轻声暂以“·”替代，分别用EAUIO这5个字母表示；双字词或短语的输入取码方式为两字的声母加韵母；三字词或短语的输入取码方式为前字的声母、韵母加后两字的声母，后两字无声母则取韵母；四字或四字以上的词或短语的输入取码方式为前四字的声母，无声母则取韵母；

(3)将键盘输入的汉字取码串从前往后依次以每四码作为一个节，实现四码封装，将具有语法知识的一个组合即语句单元固定下来，也即是实现最基本和较少歧义的汉语语法知识与其承载体即语句单元的封装；当用户所要输入的语句单元对应的取码不足四码时，在该取码后加一个符号作为向软件系统发送的一个可供其识别的封装信号，以实现对不足四码的取码的封装；

(4)利用在汉语语法知识基础上实现的模板语句单元来化解歧义分词，并通过汉语语法知识和模板语句单元搜索引擎以及语言模型来实现语句处理。

2.如权利要求1所述的利于“学”、“用”汉字的智能汉语输入方法，其特征在于，不仅适用于便携式键盘输入设备，也适用于手写平台，并可向语音输入延伸。