CN101008864A

CN101008864A - 一种数字键盘多功能、多语种输入系统和方法

Info

Publication number: CN101008864A
Application number: CN 200610002700
Authority: CN
Inventors: 王孝军
Original assignee: YOUNAI DIGITAL SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Current assignee: YOUNAI DIGITAL SCIENCE AND TECHNOLOGY Co Ltd BEIJING
Priority date: 2006-01-28
Filing date: 2006-01-28
Publication date: 2007-08-01

Abstract

一种数字键盘多功能、多语种输入系统和方法，以数码为中心，采用数字化对各种语言符号及其数字键盘键位之间对应关系进行编码，使各种语言符号的编码在输入层面达到统一，采用unicode使各种语言符号的计算机内码和输出层面得到统一，从而在单一引擎，同一界面下实现输入、翻译、计算等功能。实现该方法的系统包括有输入模块，判断模块，转换模块、分词自动切分模块、预测模块、联想模块、翻译模块、计算模块、添加电话号码模块和词汇生成模块，各模块之间由标准应用程序接口相连。

Description

一种数字键盘多功能、多语种输入系统和方法

技术领域

本发明涉及一种在计算机和手机数字键盘上进行多功能、多语种输入的系统和方法，特别是一种利用单一引擎、同一界面的设计思想，融输入、翻译、计算、电话号码添加等功能和操作为一体的人机交互系统。

背景技术

现代信息技术中所使用的数字键盘由于界面小、键位少、内存空间有限等软硬件特点，对文字输入技术提出了新的更高要求。

一、从技术层面上，现有数字键盘输入技术存在着许多不足，难以满足当今社会应用的需要，数字键盘输入技术具有很大的技术创新和发展空间。现有输入技术通常是一种语言使用一个核心引擎，一个引擎仅支持一种语言。由于不同的语言在编码和输入方法上有很大的差异，如汉字就有BG码、BIG5码之分。要输入不同的语言符号，必须切换到相应的模式下完成，无法实现在同一模式、同一界面的直接输入。这种切换的过程不仅给操作带来不便，多引擎、多种编码系统、多种输入方法也必然需要高性能、高成本的软硬件的支持。尽管个别技术方案对切换提出一些改良思想，支持不同语言之间的切换功能，也往往受到多引擎、多编码系统之间的局限性，只能在语言之间进行一对一的单向切换，无法实现多种语言之间滚动式的循环转换，同时难以使不同语言的特点得以充分的体现(如不同语言书写顺序从左至右与从右至左之间的矛盾等)。

二、从方法论上讲，现有输入技术是在西方语言的基础上发展起来的，基本设计思路的出发点是仿照PC输入，力求按键与编码之间的精细化和准确性。但是由于数字键盘一个键位对应多个字母，为了达到精细化和准确化的目的，采用在一个键位上通过多次按键挑选字母，或在编码方法和设计上增添一个中间环节，借用拼音组合、笔画组合、部件等中间环节，通过一步一步、一个层次一个层次的选择，进行精细化和筛选，以便查找和锁定候选目标。但是精细化的过程和中间环节的产生必然要求多层次的操作，增加按键次数，如中文拼音模式下输入“王”，需要先按拼音“w”对应的数字键9，由于数字键盘只有10个数字键位，必然出现一键包含多个字母的现象，如在数字键9上就对应有w、x、y、z四个拼音字母，就需要在输入编码9后在四个字母之间挑选w。按照同样的方式再输入字母“a”对应的编码2，并在字母a、b、c中选择字母a，候选行中就出现ya、za、wa、yan、zai、yao、zao、yang、zang、wang等拼音组合。然后再选择wang，这种逐步精细化的过程不仅多了一个选择相应拼音组合的环节，而且每步查找出的结果只能精确到与所选择的拼音相匹配，不能提前预测出编码较长的候选词语，难以使高频先见的特点和优势得到充分的发挥；

现有技术只支持单字输入、单字预测、单字联想、逐字确认上屏，要输入词组、短语、短句，需要分别逐字输入其中每一个单字或单词，没有实现短语、短句的快速输入、连续输入。由于语言中的完整意义表述单位是词组或短语，人脑对语义的理解是通过词组连接成语段、短句，逐字输入会破坏人们思维的连续性，违背人们使用和理解语言的习惯，必然增加人脑负担，影响输入速度；

拼音文字的一个显著构词特点是词根与词缀组合构成新的词汇或变体形式。在力求精细化指导思想的影响下，现有输入技术往往将单词的不同变体形式(如look，looks，looking，looked)作为独立的词全部放入系统词汇库中。这些变体形式需要占用系统词汇库的大量空间，导致系统词汇库的单词涵盖量降低。而要满足涵盖较丰富词汇内容的需要，又必然需要扩大词汇库的占用空间，导致增加重码率，影响输入速度。另外，现有技术允许不同的变体形式同时显示在预测和联想的候选行中，不仅会占用很大的显示空间，同时会阻碍其它符合匹配条件的高频词语出现；

翻译、计算是短信中的一种常见现象和必要功能，但现有技术或不支持翻译、计算功能，或是将其置于输入系统之外，无法将翻译或计算功能同输入系统置于同一界面上，在输入过程中直接翻译、直接计算，直接编辑、直接阅读；

在短信输入过程中，要将本机通信录(或地址本)中联系人的电话号码输入或编辑到短信中，往往需要先切换到地址本中查询，找到该条信息后，然后记下来，再将先前记下来的号码编辑到短信内容中去。操作过程繁琐，按键多，更不能实现在输入过程中和同一界面上完成号码的添加操作。

三、从应用层面上讲，在全球经济一体化的环境下，不同民族、不同语言之间交流的日益增多，不同语种的国际短信和含有不同语言符号的混合短信也越来越多，对数字键盘输入技术提出了更高的要求。创建和开发数字键盘上同一引擎、同一平台、同一界面、同一操作方法的人机交互方法和支持多语种输入的系统已成为必然的需求。因此，寻求一种自然的、共性的、适合多种语言特点的、直接的人机交互界面和方法就非常必要和迫切。

发明内容

本发明的目的是创新一种采用单一引擎，实现数字键盘多语种输入和翻译、计算、电话号码添加等多功能在同一界面上交互使用、直接完成。本发明的创新要点和特征在于：

1.创新单一引擎技术，实现多功能、多语种在数字键盘上直接输入和直接完成，克服现有技术中多引擎、多编码系统、存储方式不一致等缺点：

借用Unicode作为语言文字和相关数据在引擎内部的最基本的处理单元(编码字符)，使文字处理在单一引擎内部码之间进行不同语言的无缝转换成为可能。Unicode采用平面分层设计，使得不同语言可以统一编码，并且没有冲突，为不同语言之间创造出统一平面和编码关系。

采用模块化设计，使系统中各项功能都是单独的模块，模块之间通过接口相连。这种独特的功能模块机制，使系统可以根据要求将某些模块插入或从系统中移走，也根据设备的特性和个性需求量体裁衣。系统模块主要包括输入模块、判断模块、转换模块、翻译模块、计算模块、词汇生成模块等。

2.以数码为中心，采用数字化对全球语言符号及其同数字键盘键位之间对应关系进行编码，使全球语言符号与数字键位的对应关系，通过数字这一最直接、最形象的载体表现出来，实现不同语言符号的编码在输入层面(输入方法和编码)达到统一；采用Unicode使不同语言的计算机内部码(计算机内码、本地化编码)和输出层面得到统一。内部码和外部码的统一性为单一引擎、同一界面实现多功能、多语种的输入创造了必要条件。不论何种语言或者编码方案，输入均为数字编码串，输出均为Unicode编码所对应的语言文字符号。

3.利用同一界面的创新设计，实现输入、翻译、计算、电话号码添加，乃至数字直接上屏、大小写切换等功能能够在同一界面直接完成，克服现有技术中把这些功能分别归属不同系统，必须经过模式切换、界面切换、程序之间切换才能实现的缺点；

1)实现同一语言模式下都能完全依照所需语言文字的自身编码与数字键位的对应关系，直接通过按相应的数字键进行连续、直接输入，无需切换到不同语言的输入模式下完成；

2)使全球语言能够在输入部分(输入方法和编码)统一在数字上，当前编码提示显示部分统一为数码，操作方式统一为一次按键，统一使用同步预测、高频先见、智能联想等功能；

3)从单字(词)输入扩展到词组、短语、甚至短句的连续输入；

4)从单字(词)预测扩展到短语、短句的预测；从词汇意义的预测扩展到语法、上下文的预测；从语言学意义范围内的预测，扩展到数字对应关系、特殊符号等更大范围内的预测；

5)从单字(词)联想扩展到短语、短句的联想；从词汇意义的联想扩展到语法、上下文的联想；从语言学意义内的联想，扩展到数字对应关系、特殊符号等更大范围内的联想。

4.单一引擎、同一界面和编码的统一性节省了编码和存储中的部分“中间环节”，进节省设备性能要求，降低使用空间：

1)借用模糊理论，在设计理念上不是从精确化为唯一目标，不在一个键位几个字母之间进行挑选，而是用数字作为模糊理论的支点，以及数字与几种可能之间的关系，在输入中的预测和联想借用高频先见的基本原则，一次到位的预测和显示，省略了一个输入法编码的中间环节(拼音、笔画、部件等)。如要用中文拼音输入“王”，在输入编码92后，搜索模块不仅搜索同92相对等的内容，同时搜索并预测出以92开首的编码更长的内容，这些内容会按照高频先见的原则被预测出来“挖、雅、完、燕、王、杨、万”等，而不需要通过“ya、za、wa、yan、zai、yao、zao、yang、zang、wang”等拼音组合进行一步步的选定而预测。数字的模糊性特征，既可提高查找速度，简化操作过程，省去在多个字母中选择的环节，同时非常有助于“高频先见”原则的实现；

2)采用数字化编码使语言字符同键位之间对应关系之间产生一种模糊性特征，即一个数字可以同时代表同几个语言字符(字母)之间的对应关系。借助这种模糊性特征作为输入、显示、转换、数据存储等中介，并且用统一的数字化编码同系统中的Unicode编码进行连接，同时省去了数据库中的语言本地化编码(如GB编码、BIG5编码)的层面和环节，使全球语言能够在输入部分统一在数字上，在输出部分统一在Unicode编码上；

3)从数据存储的方式上讲，由于拼音文字的字母与数字键有明确的、直接的对应关系，拼音文字不需要存储与之对应的编码串，但表意文字就需要存储语言本地化的编码串，如中文的拼音和笔画编码。如中文需要首先按照发音规则和拼音字母建立对应关系，拼音字母和数字键盘之间建立映射关系，拼音字母编码串再同汉字建立对应关系。语言输入法编码同时受区域性限制，不同的语言存在不同的输入法编码，甚至同一语言也存在着不同的编码方案，如中文汉字在中国大陆通常采用GB码，而在台湾省则采用BIG5码。由于现有技术需要通过本地化的编码串逐步细化和选定候选内容，因此表意文字往往需要存储输入法编码串，如汉字的拼音、注音或笔画编码数据。在查找过程中需要先将本地化编码串转换为数字，然后再与内部码进行匹配。本发明利用数字化对汉字进行编码和存储，存储的是由语言个性编码串映射出的数字编码，而不存储语言个性编码串(拼音编码串、笔画编码串)。这样在存储上减少了语言个性本地化编码串的中间环节，在查找过程中，省去了将本地化编码串转换为数字的中间环节。

5.基于语言自身规律的创新

本着“语言为本”的理念，利用本发明的技术创新，实现语言与科技在数字键盘上自然和谐的完美交融，寻找数字键盘输入技术的通用性，使输入、翻译、计算的一体化。本发明中的单一引擎、同一界面和模块化设计，使语言规律和共性现象可以共享同一解决方案，使语言的内在规律能够得以最大限度的维护和发扬光大：

1)创新拼音文字词汇自动生成模块：借助拼音文字词根+词缀的构词普遍规律，使拼音文字构词的共性规律能够在单一引擎中共享同一技术模块，由系统引擎将数据库中有限的词根和后缀组合生成大量的词汇，既可节省数据库的存储空间，同时节省系统中原本多语种、多引擎、多个模块所需的软硬件支持，进而大量节省成本；

2)创新借用表意文字语音组合规律进行编码，实现词组、短语、短句混合输入、快速输入的方法。依据汉语拼音只能组合成417个有效音节的规律，创新数字键盘拼音快速输入中文短语、短句的方法，使汉字的全拼和简拼在单一引擎中、同一界面上混合使用，充分发挥语言的内在规律；

3)创新一种由系统引擎自动处理拼音文字中自动空格和自动不空格的规律和方法，减少空格键的操作程序；

4)创新对用户最新输入的内容进行分词自动切分的模块和功能，并将其收录和存储成为用户的自定义词，同时进行相关单字(词)的频率调整，以实现数据和频率的个性化，满足预测和联想过程中的高频先见；具有自动遗忘功能，自动删除长期不再使用的自定义词语；

5)创新实现英文和其它拼音文字的输入技术具备联想功能。

附图说明

图1为本发明的单一引擎结构示意图；

图2为本发明数字化编码和Unicode编码示意图；

图3为本发明同一界面工作流程图；

图4为本发明数字直接上屏流程图；

图5为本发明输入界面及键位设定示意图；

图6为本发明判断模块流程图；

图7为本发明转换模块流程图；

图8为本发明阿拉伯语、英语混合短信输入图解；

图9为本发明中英文混合短信输入图解；

图10为本发明分词自动切分模块流程图；

图11为本发明实时翻译流程图；

图12为本发明实时翻译图解；

图13为本发明部分、全文翻译流程图；

图14为本发明部分、全文翻译图解；

图15为本发明计算模块流程图；

图16为本发明计算功能实现步骤图解；

图17为本发明添加电话号码流程图；

图18为本发明添加电话号码实例图解；

图19为本发明词汇生成模块实例图解。

具体实施例

为了对本发明中单一引擎、同一界面、数字化编码、以及多功能、多语种输入等技术创新及其方法做进一步的阐述，下面结合附图和实例进行详细说明：单一引擎的创新和工作原理

图1是本发明中单一引擎的结构图，其主要技术特征表现在：

1)使用标准API(应用程序接口)和单一处理逻辑

无论什么语言，均可使用一组统一的标准API和单一处理逻辑，输入均为数字编码，输出均为Unicode编码，因此应用程序编程接口兼容不同语言，引擎的实现也只需要遵循统一的规则：处理数字编码串，在Unicode数据库中进行搜索，输出匹配的Unicode编码串。统一的处理逻辑和同一套标准API易于调用，并具有一致性；

2)程序和数据分离

无论何种语言，输入均为数字编码，输出均为Unicode编码，因此程序的实现仅与数字编码串和Unicode相关，与具体的语言无关。如果需要加入和支持一种新的语言，仅仅需要加入该语言相关的数据库即可，不需要改动程序。同样，如果需要进行程序升级，仅仅需要更新程序文件，不需要改变已有的数据结构。真正实现程序和数据分离，数据大小可裁剪。

3)模块化设计

API解决方案面向各种不同的软硬件平台，系统采用模块化设计，各项功能都是单独的模块，模块之间通过接口相连。这种独特的功能模块机制，使得系统可以根据要求将某些模块插入或从系统中移走，也根据设备的特性和个性需求量体裁衣。系统引擎与语言数据模块分离，数据大小可裁剪，经过优化的数据文件、程序文件及其他功能模块可进行拆解组合，根据不同的运行环境和要求做最佳的设计。本发明中系统模块主要包括有输入模块、判断模块、转换模块、翻译模块、计算模块、号码添加模块、词汇生成模块、自动分词模块、智能模块等。

单一引擎的工作原理，需要统一的内部编码和外部编码方案的支持。本发明采用数字化编码使外部编码(输入法编码、键盘对应关系等)和输入得到了统一，采用的Unicode编码使不同语言的计算机内部码(计算机内码、本地化编码)和输出得到了统一。具体表现在：

Unicode与内部编码的统一

编码可以分为内部码(语言文字在计算机系统内部的表现形式)、本地化编码(语言个性编码，如GB、BIG5、GCCS等)、特征信息编码(以下统称为输入法编码，如中文的全拼、简拼、笔画等)。通过输入编码，调出系统数据库中与该编码相对应的语言符号。

长期以来，计算机系统内部编码在全球不同语言中并不统一，存在着许多编码系统，如汉字就有GB、BIG5、日本用汉字、韩国用汉字等之分。这些系统之间缺乏相互联系。在程序的实现上，若要同时支持不同语言文字的输入，必须同时支持这些形式各异的编码系统，无形中增加开发难度、开发周期和开发成本。为了解决多样编码系统并存的问题，Unicode应运而生。Unicode按文字统一编码，而不是按语言、国度、地域编码，提供一个统一的编码空间，不同语言文字占用编码空间的不同部分，并且互不重叠。Unicode首次使拼音文字与表意文字体系在编码结构上相同，使拉丁文字的单文种，扩展到涵盖全球语言的多语种，使全球不同语言在信息处理内部编码上得到统一。

本地化编码是指语言自己的交换用码，如汉字的GB码、BIG5码等。受全球语言不同的编码系统的影响，不同的语言文字难以在同一系统进行有效的交互和转换。Unicode产生后，使语言文字的内部编码能够用一种编码体系统一起来。

输入法编码是依据语言文字的个性特点进行编码，因此产生了规则不同的输入法编码方案，如汉字中根据汉字字形结构原理用笔画组合对其进行编码，但这些编码方案不适用于以拼音文字为主的西方语言；同样，西方语言可以根据拼音字母组合对其进行编码，而这些编码方案同样不适用于以象形符号为基础的表意文字。

数字化与外部编码的统一

数字键盘的特点上其通用性和规律性。阿拉伯数字0-9被全球不同国家、不同民族、不同语言广泛采用；标准的数字键盘及其产品也通用于全球；数字键位的排列顺序和结构非常规范；无论是拼音文字还是表意文字，其语言字符或编码形式均同数字键盘的键位存在着一种有规律的对应映射关系，即键位上的数字与语言符号之间的对应关系。在输入过程中，通常是通过按相应的数字键来输入不同语言中的字母(符)。因此，数字就成为体现这种规律和对应关系的最直接、最形象的媒介和载体。

如图2所示，本发明主要依据语言符号同数字键盘键位之间对应关系，对不同语言文字的输入进行编码，通过数字来反映语言符号同数字键位之间的对应关系。编码数字化实现了输入编码与输入装置之间的一体化，如中文的每个拼音字母、每个笔画都可以用数字表示，每一个汉字的编码就是其拼音字母或笔画所对应的数字按照一定规则排列的组合；阿拉伯语的每一个字母同样可以依据其同键位之间的关系用数字表示。

数字化编码的意义：

1)根据各种语言文字与数字键盘之间的对应关系，对所有语言文字进行数字化的编码，使全球的外部编码统一在数字这一可以交互的载体上。编码数字化实现了数字编码与输入装置中的引擎、数据储存、搜索等过程的一体化、系统化，在任何一种语言模式下，都可以利用统一的标准引擎，支持全球多种语言文字在数字键盘上直接、连续的输入、预测、转换、翻译和计算等，都可以直接输入其它语言文字的数字编码，都可以在不同语言中交互使用，都可以借助功能键实现不同语言文字之间、任何系统、任何平台、任何界面之间无缝转换。

2)以数字为作为媒介，在应用层面还节省了一个输入法编码的中间环节(拼音、笔画、字母、部件)。相反，如果输入中有一个中间的环节，利用拼音、笔画、字母、其他符号作为提示，一方面需要从数字转换成语言字符的环节，另一方面因需要在有效组合中挑选，难以确定所需的有效组合，同时也必然限制了其他有效组合中高频字(词)的预测和出现；(参见图2)

3)数字化编码是一种模糊理论的具体体现，使一次按键的操作方式达到统一。无论一个数字键位上对应的是哪种语言文字符号，无论一个键位上有多少字母(符)，每个数字键都只需按一次，便以高频先见的原则在候选中显示与该数字编码相匹配的字词、短语、短句。统一数码显示和一次按键，有助于高频先见设计思想在技术上得到充分的实现。

4)统一数码显示是模糊理论的具体表现形式，有助于数字直接上屏，如果需要直接输入数字，可以借用功能键(*键)使当前编码提示行中的数字直接上屏。

本发明采用数字化编码使外部编码(输入法编码、键盘对应关系等)和输入得到了统一，采用Unicode使不同语言的计算机内部码(计算机内码、本地化编码)和输出得到了统一：

字符与键位的对应关系(数字) (数字化)

↓

输入法编码(拼音、笔画、字母、注音、数码) (数字化)

↓

本地化编码(GB、BIG5) (Unicode)

↓

计算机内部码 (Unicode)

↓

输出 (Unicode)

编码统一性与引擎结构、数据存储、数据搜索：

内部码和外部码的统一性为单一引擎、同一界面实现多功能、多语种的输入创造了必要条件。不论何种语言或者编码方案，输入均为数字编码串，输出均为Unicode编码所对应的语言文字符号。数字化编码和Unicode，贯穿于本发明的核心引擎结构、数据存储、数据搜索、输入、输出等全过程。具体表现在：

1)通过按数字键输入编码串，并被暂时记录在一个缓存(buffer)中，但编码串以什么形式显示，与输入法编码有直接关系。可以是以数字形式直接显示数字编码，也可以是将数字转换成语言字符(拼音、笔画、部件等)，以这些字符的编码串显示输入法的编码串。本发明中无论是哪种语言，都是以数字进行编码。因此，本发明省去了一个数字转换成语言字符的环节。(如图2所示，虚线箭头表示中间多了一个间接的数字转换为输入法(字符)编码串的环节)；

2)采用数字对语言进行编码，在搜索过程中，可以直接与所输入的数字编码相对应，查找与数字编码串相对应的以Unicode形式存储的数据，减少一个由数码串先转换成本地化编码串(拼音、笔画)，进而转换为Unicode的中间环节，提高搜索效率；

3)如附图2所示，按键输入的数字串首先进入缓存中，按#键启动转换模块后，数字串就会指令程序选择不同的数据库中进行搜索和查找。与此同时，系统中的其它模块也会对数据库中候选内容的形式和特征进行分析，以完成不同语言之间和各种输入模式之间的转换，使原本复杂的输入过程变得更加简单、方便、统一、直接，并真正做到程序和数据的分离；

4)数据库中的候选词汇以Unicode的形式存储。任何语言都统一在Unicode编码模式下，而不必为每个语言的个性编码进行考虑，既降低程序的复杂度，又能够被主流系统、硬件平台所支持。由于内部码直接使用Unicode的方式存储，因此输出的候选不需要通过中间环节转换，而是以Unicode编码串，直接输出并被系统显示出来。同一界面的创新和工作原理

图3是本发明中利用单一引擎、数字化编码，在同一界面上实现多功能、多语种直接输入的工作流程图。

单一引擎、同一界面、数字化编码是一套相互依存、相互支持、相辅相成、又相互独立的完整的创新方案。单一引擎是在同一界面中实现多功能、多语种输入的基本条件，同一界面又是单一引擎设计理念和技术创新得以实现和充分发挥其功能的具体操作和表现形式。同一界面的整体技术设计和实现方法主要表现在：

1)利用单一引擎的整体技术设计和方法，通过模块化的工作原理，使输入、翻译、计算、电话号码添加，乃至数字直接上屏等功能，能够得到计算机系统内部各种程序和模块的有力支持，使之在同一界面直接完成；

2)利用数字化编码，使多种语言能够在任何语言模式下完全依照所需数字、文字、符号等自身编码同数字键的对应关系，直接通过按数字键进行直接输入，无需切换到不同语言的输入模式下完成；使全球语言能够在输入部分(输入方法和编码)统一在数字上，实现直接的、连贯的、一步到位的多语种输入；

3)通过功能键的辅助，启动翻译、计算、电话号码添加、数字直接上屏等多功能的模块，实现多功能、多语种的直接输入；

4)利用友好的界面设计，支持短语、短句的预测、显示等，使实时翻译成为可能；

5)利用宽泛的预测和联想功能，使计算在同一界面上得以实现；

6)通过友好界面设计，使用户自学习、自定义的词语能够被快速预测和联想出来。

功能键的设定

为了帮助输入模块、搜索模块、计算模块、翻译模块、智能模块、数字上屏等等技术创新和多功能在同一界面上得以实现，本发明对数字键盘部分键位新增一些功能。借助这些新增设的功能键，可以启动判断模块中的相关程序和功能。

本发明中新增功能键的分类：

1)为#键新增转换功能，通过按键滚动式的转换和选择不同输入模式或不同的语言：

a.在开始输入前，通过按#键可以选定所需的(默认)输入模式和语言(如在拼音、笔画、短语、英文、阿拉伯、印地文等中滚动式选择)；

b.当“当前编码提示”中有“编码内容”时，通过功能键的滚动式转换和选择就处于待选状态，通过按#键的方式可滚动转变不同输入模式，同时候选行中的内容也随着模式的滚动转换而不断变换其与“当前编码提示”相匹配的内容，直到锁定所需的候选内容，确认并使转换后的内容上屏；

c.(b)中的输入模式转换功能是临时性的，所需内容被确认后，系统会自动恢复到原来的输入模式下。

2)为*键新增字母大小写转换键，在拼音文字中如果需要大小写，通过按*键的方式可滚动转变和选择功字母的大小写。具体操作方式是：首先通过下选键将光标移至候选行中，然后按*键，判断模块在收到指令后便启动大小写转换的功能。按*键一次将候选内容中的每个单词的首字母转换为大写；两次按键将候选内容中的每个单词的全部字母转换为大写；再次按键即可恢复到原有的小写状态，依次滚动式的循环转换；

3)为*键新增数字直接上屏的功能，在任何输入模式下，均可以通过按*键使当前编码直接以数字的形式上屏；(参见附图4)

4)为数字键1-0新增启动“词根+词缀”自动生成新词汇模块的功能。具体操作方式是：首先输入所需词的词根，通过下选键将光标移至候选行中，然后按被选词根所在的数字键，判断模块在收到按键指令后便启动系统中的词汇生成模块，生成其变体形式，并出现在候选行中待选上屏；

5)本发明中还新增翻译、计算等其它功能键，详细设定分别被列入在相关的章节之中。所有的新增功能键均可以根据需要重新定义。

图5是本发明中输入界面及键位设定示意图。图中标号为：

1.输入模式提示

2.文本编辑区

3.候选区

4.向后翻页标示

5.上选键

6.右功能键

7.右选键

8.删除键

9.下选键

10.#键(转换功能键)

11.候选序号

12.当前编码提示

13.向前翻页标示

14.左功能键

15.左选键

16.OK键

17.数字键

18.^*键(数字上屏、大小写切换、标点符号)

主要模块功能及其实现原理

模块化设计是本发明引擎结构的主要内容之一。本发明中系统模块主要包括有输入模块、判断模块、转换模块、翻译模块、计算模块、号码添加模块、词汇自动生成模块、用户自定义模块、智能模块等。

1.输入模块

输入模块包括输入界面部分的键位设定、功能键的设定、判断模块、转换模块等。其主要特点是：

1)数字显示编码：利用数字编码显示当前输入编码信息；

2)一次按键：输入时每个字符只按一次按键即可直接输入、连续输入，不必考虑键位上有几个字母，也不必在几个字母之间通过按键次数进行挑选，节省按键次数；

3)对部分功能键增添新的功能：通过使用这些功能键，启动和实现输入、判断、转换和多功能；

4)键位同字符(字母、笔画)映射关系的设定：形成一个数字键对应多个字符的关系，如：

a.中文拼音字母分别设在数字键2-9上：

b.汉字的5个基本笔画分别设在数字键1-5上；

c.英语26个字母分别设在数字键2-9上；

d.阿拉伯语的28个字母，分别对应数字键2-9；

2

3

4

5

6

7 8 9

但是，有些语言中的字母数量较多，如俄语有33个字母，泰语有40个元音字母和42个辅音字母。如果将这些字母全部设定在10个数字键上，必然形成同一数字键位上包含多达十个左右的字母，不仅难以在键面上排列和摆放，同时也会因字母多、面积小而难以分辨。于是有的方案就将字母设定在0-9数字键之外的功能键上，造成键位设定不标准、不友好，同时影响功能键的原有功能。

其实，许多语言中字母的排列顺序具有很强的规律性，如英文26个字母从A-Z很有规律，汉语拼音的BoPoMoFo等。依据这些常识性规律，本发明创新一种简便、实用的、解决字母在数字键盘排放问题的方式。具体为：在一个键位上字母之间省略中间的字母，使用破折号“-”符号表示其中有字母省略，或使用“.”表示省略字母的数量，一个点表示一个字母。以印地语为例，印地语有54个字母和5个复合音，按规律将其分别设定在数字键0-9上：辅音字母(1-7)、元音字母(8)、复合音(9和0)。形成三种不同的映射方式：

1.字母全部排列在数字键上：

2.使用破折号“-”符号表示其中有字母省略

3.或使用“.”表示省略字母的数量

注：数字键0上的字母之所以没有被省略，是因为这些字母的变化形式比较灵活，使用情况比较特殊，以体现灵活机动的设计原则。

2.判断模块

判断模块的主要功能是接收用户的按键指令，对不同按键的指令作出响应，以确定和启动相关的程序和模式。其响应机制为：在输入过程中，每次按键输入编码后，编码仍然以数字形式存放在缓存区中，同时查找模块以默认所在模式的形式，开始在相关模块和数据中进行运行和搜索，选择出与之相匹配的候选内容，等待选择。这样，在未确认上屏之前，已输入的当前编码和候选内容均属于缓存的状态。当使用功能键转换功能或模式后，原来的搜索状态就即刻停止，新指令指向的功能和模式就马上启动，系统将根据编码的规则搜索和判断出对应的词语内容

图6是本发明中判断模块的工作流程图。如图6所示，当用户按下某一功能键时，判断模块便对其作出判断，并根据按键功能向系统发出指令信息，然后系统就可以根据指令信息作出相应的反应。判断和反应是系统为了区分各种不同功能而设置的计算机系统可以直接识别的指令，是应用程序对用户的按键操作出响应的桥梁。应用程序接收指令后，首先对指令内容进行判断，根据指令的不同作出相应的响应动作，如显示输入结果、转换输入模式、数字上屏、翻译、计算、词汇生成、添加电话号码等。

3.转换模块

转换模块的必要性：包含不同语言、符号、数字等内容的混合短信是短信使用中的一种常见现象。现有技术在输入混合短信时，如“通知Jim 9点开会”，必须分别切换到相关模式下完成，操作繁琐，按键次数多。本发明实现在同一界面、任何模式下，都能依照所需数字、文字、符号等自身编码同数字键的对应关系，直接通过按数字键进行连贯的一体化输入，并借助转换模块，转换成所需的语言或模式中的候选内容。所以，转换模块包括功能模块之间的转换、语言之间的转换、或同一语言的不同输入模式之间的转换等。

转换模块的工作原理和实现方法：本发明中使用数字码作为“当前编码”提示和输入法编码存储的手段。在未确认上屏前，当前编码和候选内容均处于“缓存”状态，这就为不同语言、不同输入模式、不同符号等之间直接的、弹性的转换创造了机制。借助转换模块，将数字编码直接转换成所需的不同文字、短语、短句等。

转换的过程以系统数据库中不同模块之间的数字化转换为主，同时兼顾和使用其它模块(如词语属性、语义关系、翻译等)作为判断参考依据。输入某一种语言文字所对应的数字编码后，按下功能键#，判断模块立即对新的指令作出反应，启动引擎中的转换模块和程序，转换到另一种语言或输入模式下。与此同时，搜索模块开始寻找与所输数字编码相匹配的内容并显示在候选行中。

转换与切换是两个不同的概念，切换是一种输入模式的改变过程(change ofinput mode)，切换往往局限于单向和一对一之间；而转换(transformation)是人类自然语言的理解、生成过程中的一个步骤，转换可以是多向的、循环的。转换不仅仅是编码之间的替换，还可包含语言其它特征的变换。例如，转换模块的机制能使输入、转换、翻译等功能在同一界面上直接完成，使语言之间的翻译得以实现，而切换确难以实现不同语言之间的翻译。再如，阿拉伯语的书写顺序是自右向左，英语的书写顺序为自左向右，英语具有大小写之分等等，转换过程能够维护不同语言的个性特点。

转换模块的特点

a)转换是双向的或多向的，既可以从A转换到B，又可以从B转换到A，还可以是A、B、C之间的循环转换；既可以是同一语言中不同输入模式之间的转换，如拼音文字中的一次按键模式和多次按键模式之间的转换，中文中拼音、笔画、注音模式之间的转换，也可以在不同语言文字之间转换(中、英、俄、阿拉伯、印地等)；

b)转换功能是滚动式的，设定在一个键位上通过按键次数滚动式进行不同语言、不同输入模式之间的滚动转换、循环转换、自由转换；

c)转换功能是临时的，所需的内容被确认上屏后，便是这一转换过程的结束，系统自动恢复到原来的输入模式下；

d)用户可以根据自己的需求设定或定制转换输入模式以及各输入模式转换顺序和范围，使转换过程更加个性化，更加符合用户自己的实际需求。

图7是本发明中转换模块的工作机制流程图，同时结合图8，以阿拉伯语模式下输入混合短信“Sam

(他们询问Sam)”为例，说明转换的特点：

1)先输入(他们询问)并使之上屏

2)在阿语模式下直接输入Sam对应的数字键726；

3)候选行中出现了数字编码726相匹配的阿语词，这些词依照阿语本身从右向左的书写顺序显示；

4)按#键，转换到英文模式下，候选区出现与726相匹配的英文词，这些英文候选词则依照英文自身从左向右的书写顺序显示；

5)选择6即可使Sam直接上屏。

再以图9为例，说明中英文短信输入时的转换的特点。例如，输入混合短信例句：“通知Jim 9点开会”。如图中所示，其输入步骤为：1、拼音模式下输入“通知”编码86649；2、拼音模式下直接输入Jim对应的编码546；3、按#键转换到英文模式下，候选行显示；4、选择Jim上屏后出现联想词待选；5、输入数字9时系统自动恢复到拼音模式下；6、按*键使9上屏，出现联想候选；7、连续输入“开会”的拼音编码5244，预测并选择上屏。

4.分词自动切分模块

本发明中创立一个分词自动切分智能模块，该模块的主要功能包括：

1)自学习用户最新输入或自定义的内容，将这些内容按照一定的规则和方法进行分析、整理后，让系统记忆并储存在用户自定义词汇库中，以便今后使用；

2)对自学习或自定义的内容依据语法、语义、语境、语用、以及其它属性等进行分析和判断，自动切分出词组、短语等，并将切分结果收录和存储成在用户自定义词库中；

3)自动调整自学习、自定义词语中单字(词)的频率，提高其使用频率，以实现数据和频率的个性化，符合个人使用习惯，满足预测和联想中高频先见的要求；

4)自动遗忘和删除自学习、自定义数据中长期不再使用的词语，以便节省存储空间；

记忆、存储、预测、联想的方式

自学习、自定义词语的存储指通过系统的帮助，将用户先前输入的内容按照一定的规则和方法，让引擎记忆并储存在数据库中。自动记忆、存储以及再使用的方式包括：

1)整句的记忆，把最近使用的词语内容全部记忆或者说复制下来。在词库中没有“优耐数码”这个词，用户第一次输入时就需逐字输入“优”和“耐”，然后再输入“数”联想出“码”，系统会自动将“优耐数码”保存在用户自定义词库数据中，并自动分解出其全拼、简拼、混拼、甚至笔画等编码序列。再次输入“优耐数码”时，可以直接、连续输入其编码(包括全拼和简拼及其混合组合，如y、s、m或you nai shu ma甚至是yo na s m等组合)，便可以找到“优耐数码”一词；

2) 自学习的内容可以是单词、短语、甚至句子。例如，用户逐字输入“我们”、“周末”、“一起”、“去”、“爬山”、“好”、“吗”、“？”后，智能模块会将其“记忆”起来，再次输入该句子时，只需要输入“w m z m y q q p s h m”，整个句子“我们周末一起去爬山好吗(96969777746)”即可出现；

分词自动切分模块的机制和原理

图10是本发明中分词自动切分模块的流程图。

分词自动切分是对词语进行判断的一个步骤和程序。英文文本中靠空格进行区分词与词之间的关系，但是汉字中每个汉字与汉字之间没有空格，如何科学、合理、有效地将汉字串或汉字序列切分，就非常重要，因此，分词在汉字信息处理中具有重要的意义和价值。

依据本发明单一引擎和模块化的设计原理，在系统中设置一个自动分词模块，与输入、转换、联想等功能并存，并共享系统中的语法、语义、语用、语境、统计、查询、判断等相关模块。通过这些模块的支持、分析和判断，自动切分和确定自学习、自定义中内容的正确性、合理性。切分和判断新近输入的汉字串或汉字序列不仅需要依据语法、语义、语用、上下文等语言学之内的要素，同时需要单字的属性和搭配的合理性：例如，用户逐字输入“张”、“小”、“五”后，如何通过科学、合理、有效的分析这三个字，并将其存储在自定义的数据库中，以便再次使用，是分词模块的功能，也是本发明中创新自动分词模块的目的所在。智能模块学习后，再次输入时就会出现以下状况：

1)当输入数码999(z x w)时，“张小五”就作为候选出来；

2)但是，当输入数码99(x w)时，“小五”将优先于“张小”作为候选被预测出来，因为汉字人名的规律是姓氏在先，同时姓主要以单姓为主，汉字串“张小五”中“小五”的组合概率要大于“张小”，所以分词模块将“小五”预测出来；

3)当输入数码9时，“张”和“小”将优先于“五”作为候选被预测出来。

智能预测和联想

1)采用FIFO(先进先出)的方式调整数据，最近输入的内容优先；

2)根据语义、语法、语用等分析后最合理的组合优先；

3)重码时，自定义词汇库中的词语优先于系统数据库缩对应的词语；

4)搜索模块优先在用户词库中搜索和查找，并优先预测和联想出该库中的词汇；

5)当自定义词汇库中的第一个字(词)被输入后，剩余的部分将依据先进先出和高频先见的原则被联想出来。这种联想既可以是逐字(词)，也可以是部分，还可以是一次性被全部联想出现在候选行中；

自动遗忘

为了节省存储资源，自动切分模块中的自定义词库中采用FIFO(先进先出)的方式调整数据。基本方式是：时效性和合理性。一方面是最新输入的内容优先，组合合理的优先，另一方面是对于哪些自定义词汇库中长期不使用、被“遗忘”的内容，系统会实施淘汰和遗忘的功能，逐渐自动删除自造词库中哪些长期不用的词语。既能确保新词的进入和被记忆，同时能使空间得到整理和清理。

5.预测模块

本发明的预测方法基于模糊理论和高频先见的原则，预测是同步的、一次到位的，而不需要依靠一个“中间环节”帮助预测，不需要在字母和键位之间多种组合之间进行挑选。因此，预测的方法和范围不同于现有技术：

1)现有输入技术只支持单字预测、逐字联想、逐字上屏，如要输入短语“一切顺利”，需输出“一”后，联想出“切”；输出“顺”后联想出“利”，依此类推。另外，现有技术的联想只局限于在语言学的范围内，联想内容只局限于语言学意义上合法、有效的词或词组；

2)本发明中预测的范围大大拓宽，从单字(词)的预测，扩展到短语、短句的预测；从词汇意义的预测扩展到语法、上下文的预测；从语言学意义内的预测，扩展到数字对应关系、特殊符号等更到范围内的预测。如要输入I am working，当输入I am后，首先按其词根work进行输入，work对应的数字编码为9675，在输入数字编码967后，系统的预测模块会按高频先见次序预测出you，work，word等，系统的语义、语法等分析模块在分析其上下文中发现单词“am”，预测出最有可能输入的是动词的进行时形式，构词模块将把动词work构造为working作为优先的候选选择；

3)现行技术的预测通常是局限于语言的基本词汇意义上，采用的方式是依据数据库中的词汇与所输入的编码组合关系进行预测，预测的范围只限于数据库存储的词汇之间的搭配关系进行预测。本发明中的预测从词汇意义的预测扩展到语法、上下文的预测，如要输入I have finished...。首先输入I have，然后finished对应的数字编码，在输入3464时，系统的预测模块同其相匹配的候选finger，finish，diminish等词汇，语义、语法等分析模块根据上下文的have，判断出最合理的词汇应该为过去形式finished、diminished等，经过构造后的候选集合为，finger，finished，finish，diminish等词汇；

预测模块的工作原理

数据库中的数据是按使用频率排序的，每次按键都是一个依据指令进行判断、搜索的过程，同时也是一种排除和筛选的过程。预测模块中包含有智能分析和判断功能，通过每次按键，这些智能功能就依据高频先见、先预测的原则，将与所输信息相匹配的、出现概率最大的、根据语法、语义、语境等分析和分词切分最合理的词语预测出来。

6.联想模块

本发明也拓宽了联想的范围和内容：

1)从现有技术的单字联想扩展到词组、短语、短句的联想。如要输入“生日快乐”一词，当输入“生日”后，词组“快乐”就被联想出来；如要输入“请回电话”，“请”被输入并确认上屏后，依据语义、语法、语用和上下文的关联关系，可联想出“回电话、打电话”等语句；

2)从词汇意义的联想扩展到语法、上下文的联想，比如在英文中，动词有各种的时态变化形式，通过把用于标识时态变化形式的关键字词收入语义数据库，从而可以在输入中通过语义、语法、上下文信息等分析模块，智能分析、预测出接下来输入的词汇的最合理变化形式；

3)本发明中的联想模块和内容不仅仅局限于语言学意义上的关联关系，同时扩展到与数字有语义、语用、语法、上下文有关联关系的内容的联想，与数字对应关系、特殊符号等范围内的联想，与特殊符号有关联关系的联想等。如要输入“请在718路车站下车”时，当输入数字“718”后，借助*键使718直接上屏，而后会联想出与其有关联关系的“个、号、路、小时”等量词，或“％、@、：、#”等特殊符号。联想的符号不仅仅局限于语言符号，同时可扩大到如am、pm、.com、.net、.cn、.org、.ca、.eu、.hk等符号。当输入www后，可以联想出.sina.com等等。再如，要输入英文“I will get there at 10 am”，在输入数字10后，借助*键使数字10直接以数字上屏，与英文数字有关联关系的内容就会依照高频先见的原理，出现在候选行中“am，pm，times，days，&，@，％，#等等”，直接选择依附在“am”旁的数字即可使之上屏。

联想模块中包含有智能分析和判断功能，每当一个字(词)、或词组被确认上屏后，这些智能功能就依据高频先联想的原则，将与所确认的字词相匹配的、出现概率最大的、根据语法、语义、语境等分析和分词切分最合理的词语联想出来。联想的基本原则是：

1)高频优先；

2)最近使用的优先；

3)自定义、自学习的词语优先

4)自定义、自学习的词语中根据语法、语义、语境和分词切分最合理的优先；

5)用户当自定义词汇库中的第一个字(词)被输入后，剩余的部分将依据先进先出和高频先见的原则，被联想出来。这种联想既可以是逐字(词)，也可以是部分、部分，还可以是一次性被全部联想出现在候选行中。

7.翻译模块

翻译是短信使用过程中的一种常见的要求。但是现有数字键盘产品或不支持翻译功能，或是将其置于输入系统之外，无法使翻译功能同输入系统置于同一界面、同一系统之中，不能在输入过程中直接翻译、直接编辑、直接阅读，达到短信交流的流畅和无障碍。

本发明的创新要点之一是将翻译功能融于文字输入系统中，利用单一引擎，实现在输入过程中进行直接的实时翻译。单一引擎、同一界面和模块化设计理念，为在输入过程中进行翻译、计算等创造了条件。

翻译模块的工作原理

依据本发明单一引擎和模块化的设计原理，在系统中设置一个翻译系统模块，与输入、转换、计算等功能并存，并共享系统的语言数据库和其它诸如语法、语义、语用、语境、统计、查询等相关单元模块，借助功能键启动翻译模块、锁定翻译的范围等，实现在输入的同时可以进行翻译。所述语言数据库指系统中语言数据库至少包含两种以上语言。所述查询模块指根据输入或选定的内容在语言数据库中搜索目的语言所对应词汇的程序模块。所述分析模块指基于目的语言的语法、语义、语用、语境等规则，根据输入的多个词汇进行诸多方面分析，来调整翻译结果。显示模块则用于显示翻译后的信息。

上述分析模块包含概率统计分析模块、词汇分析模块、语法分析模块、语义分析模块、语用分析模块、语境分析模块。所述概率统计模块是指对翻译文字进行概率统计分析，拆分出词汇；所述词汇分析模块是指对拆分出来的词汇进行分析翻译；所述语法分析模块是指按照目的语言的语法规则对词汇进行组合或添加；所述语义分析模块是指按照目的语言的语义对词汇进行搭配分析；所述语用分析模块是指按照目的语言的特征对翻译结果进行词汇搭配的逻辑判断；所述语境分析是指根据使用者输入的上下文内容，分析语法的正确性、时态的合理性的过程。无论系统语言数据库中包含哪些语言，这些数据均采用优化的压缩技术，以便节约存储空间。

本发明的翻译功能包括三种翻译模式：

1)实时翻译

在输入过程中，在当前编码提示行中有编码时，将光标移至候选行中所需翻译的字词、短语及短句；按下翻译功能键启动翻译模块；查询模块便对语言数据库进行查询，找到与之相匹配的、最合理的目的词汇。例如：在中文模式下按数字键96，将光标移至汉字“我”，利用功能键(*键)启动翻译功能，选择目标语言为英语，查询模块便在语言数据库进行查询与被翻译内容相匹配的词汇，并将搜索结果I、me，myself等出现在候选行中。同样，当输入“工作”的编码4664986后，将光标移动到候选行中“工作”上，按翻译功能启动键(*键)，候选区出现该字词的翻译内容work、job、task、labor、employment等。Work上屏后，系统自动恢复到原来的输入模式和状态下。(参见图11和图12)

2)翻译所编辑的短信中部分或全部内容

在编辑短信过程中，如果要对其中的部分或全部内容进行翻译，可以采用如下步骤：

a.将光标移至被翻译的内容起始位置，按翻译功能键(OK键)，利用方向键将光标移动到被翻译内容的终止位置，再按翻译功能键(OK键)，完成选取被翻译的内容范围，并启动翻译功能；

b.搜索模块便对语言数据库进行搜索，依次经过词汇分析模块、概率统计分析模块、语法分析模块、语义分析模块、语用分析模块、语境分析模块，最终得到最为合理的翻译内容；

c.选中所需的词语，并使之上屏。(参见图13和图14a)

3)翻译接收的短信中的部分或全部内容

如果要将接收的短信中的部分或全部内容进行翻译，可以采用如下步骤：

a.首先将所接收的短信转换为可编辑状态(如通过转发模式使之进入编辑状态)；

b.将光标移至被翻译的内容起始位置，按翻译功能键(OK键)，利用方向键将光标移动到被翻译内容的终止位置，再按翻译功能键(OK键)，完成选取被翻译的内容范围，并启动翻译功能；

c.通过搜索模块对语言数据库进行搜索，并依次经过词汇分析模块、概率统计分析模块、语法分析模块、语义分析模块、语用分析模块、语境分析模块，最终得到最为合理的翻译内容，并显示在候选行中；

d.选中所需的词语，并使之上屏。(参见附图14b)

翻译中功能键的设定

为了帮助上述翻译目的的实现，本发明为以下功能键增添新的功能：

a.OK键：在当前编码提示行中无编码时，即对正在编辑的短信或接收的短信内容进行部分或全文翻译时，使用该键启动翻译模块；

b.^*键：在当前编码提示中有编码时，使用该键启动翻译模块，进行实时翻译；

c.方向键(上选键、下选键、左选键、右选键)：在启动翻译模块的状态下，使用方向键移动光标，选择和确定被翻译的内容；

8.计算模块

计算也是短信中的一种常见要求。但是现有数字键盘输入技术或不支持计算功能，或是将计算功能置于输入系统之外，无法使计算功能同输入系统置于同一界面上，不能在输入过程中直接计算，直接编辑计算的内容。本发明的目的是为了克服现有数字产品中计算与短信输入系统相脱离的缺陷，创新一种输入与计算享用同一引擎、同一界面、同一操作系统，在输入过程中，可以同时进行计算，使计算能够在同一编辑系统和界面上直接输入、直接计算，而不需要在短信编辑过程中为了计算另外打开计算器，实现输入和计算在同一界面上的一体化操作。完成计算后系统自动恢复到原来的输入模式下。(参见图15)

计算模块及其特点：

1)依据本发明单一引擎和模块化的设计原理，在系统中设置一个计算模块，该模块与输入、转换、计算等功能模块并存，互联系、相互兼容，共同融于输入系统之中，使计算与短信输入可同步、交叉在同一界面上完成；同时计算模块有具有一定的独立性；

2)计算范围和方式既可以是四则计算，也可以是包括函数、常用数学公式等高级计算，实现的方法可以采用多种方案；

3)借助本发明中定义的计算启动功能键，帮助启动计算模块并完成计算程序；

4)计算完成后系统会自动恢复到原来的输入模式下。

功能键设定

为了实现上述目的，本发明对部分功能键增添一些新的功能：

1)上选键：在输入数值编码后，使用该键启动计算模块；

2)右选键：在未输入数值编码时，使用该键启动计算模块；

3)OK键：表达式输入完毕后，使用该键进行计算，并显示计算结果；

4)*键：在启动计算模块后，可以按此键打开数学常数和符号表。

图15是计算模块的的操作步骤和方法，并结合实施例附图16，以输入短信“您好，您本月的存款利息为28500×0.45％＝128.25元为例”，描述输入和计算过程：

1)先输入文字部分“您好，您本月的存款利息为”；

2)输入数字编码“28500”，当前编码显示为28500，按上选键启动计算模块，在候选行中显示运算符；

3)选择符号×，并按OK键确认该符号，当前编码显示为28500×；

4)输入编码0。当前编码显示28500×0，联想出“.”；

5)在候选区中选择符号“.”，即小数点“.”。按OK键确认该符号，当前编码显示“28500×0.”。继续输入编码45，当前编码显示“28500×0.45”；

6)按*键打开数学常数和符号表，并选择符号％；

7)按OK键确认该符号，当前编码显示“28500×0.45％”；

8)按OK键，屏幕上显示出计算结果，编辑区显示为“您好，您本月的存款利息为28500×0.45％＝128.25”。

9.添加电话号码模块

在短信输入过程中，要将本机通信录(或地址本、电话簿)中联系人的电话号码输入或编辑到短信中，往往需要先切换到地址本中查询，找到该条信息后，然后记下来，再将先前记下来的号码编辑到短信内容中去。操作过程繁琐，按键多，更不能在输入的过程中在同一界面上完成。虽然目前有的手机中可以做到在编辑短信的时候，通过“插入”功能键，再选择要插入的内容，选择“联系人信息”，然后再进入通信录菜单下，选中需要的记录，再返回输入界面，才能完成在短信中添加号码。这种解决方式的主要缺陷在于：

1)操作繁琐，在编辑短信息过程中输入电话号码，必须先打开电话簿，然后在其中找到需要的号码，电话簿中存有多项记录时，要找到需要的号码则需要按多此键进行查询。此外，在界面上添加号码的功能需要单独的菜单，用于查找号码，这种菜单和输入法界面不一致；

2)不能实时添加

实时性即是在短信编辑过程中，根据需要可以随时将电话号码添加到电话簿中，并且输入法模块和添加号码的功能是相互关联的，而目前存在的解决方案打开电话簿以及查找号码的过程是独立的程序。

本发明创新一种在短信的输入过程中快速添加号码的功能。输入技术和添加号码功能在同一界面上进行，不需要单独为添加电话号码得功能设置专门菜单，实现在输入过程中通过直接输入联系人的方式自动调出所需的信息。

创新特征：

1)本发明添加电话号码的功能是在短信编辑和输入过程中随时进行的，能够保证添加号码和输入在同一界面上直接、连贯完成；

2)在输入系统中增添一个电话号码添加智能模块。该模块与电话簿共享存储通信录的数据库；当按下功能键启动号码添加功能时，便调用电话簿提供的查询接口，查找匹配的记录，并显示在候选行中；输入模块也可以使用独立的通信录数据库，将系统的电话簿的数据库，复制到自己的数据库中。随着系统电话薄数据的更新，输入系统中对应的数据库也不断更新；

3)电话簿数据使用人名和电话对应的方式进行存储，既可以输入姓名查找电话号码，也可以通过电话号码查找出姓名。如在电话簿中存在记录“Jim 85966017”，通过输入J、I、M三个字母对应的数字编码组合546，再按功能键(左方向键)启动快速添加电话号码模块，系统开始在电话簿中以Jim作为关键词进行搜索，即可以找到Jim的电话号码85966017，并显示在候选行中；

4)同一引擎的支持是电话号码和人名之间相互联系、相互查找的基础。

图17是本发明中电话号码添加模块流程图，并结合实施例附图18，以输入信息“Jack的电话号码是13666666666！”，说明快速添加电话号码的过程：

1)使用中文拼音模式结合英文模式输入短信息“Jack的电话号码是”；

2)输入Jack对应的数字编码5225；

3)按功能键(左方向键)启动快速添加号码模块，

4)快速添加号码模块开始在数据库中查找和编码5225匹配的姓名Jack，同时得到其电话号码13666666666，并将电话号码在候选区中显示出来，若匹配结果多于一个，这些电话号码会以一定的顺序显示在候选行中；

5)选中需要的电话号码并确认，使该电话号码上屏进入编辑的短信中；

6)电话号码添加完毕后，系统自动恢复到添加前默认的文字输入模式下。

10.词汇生成模块

词汇生成模块的创新目的：利用拼音文字的构词规律，创新词根+词缀自动生成词汇的技术，节省存储和运行空间。

词汇生成模块的创新依据和理论基础是：

拼音文字词汇的显著特点之一是具有形态变化，即利用词缀附加在词根上表示时、体、人称、数量、格等形态变化。词根是拼音文字中词的核心部分，表示该词的最基本意义，如英语中的后缀形式-ing，-ed，-s，-es，-er，-or，-ment，-est，-ness，-ful等可附加在词根上构成新词汇，look(看)是词根，looked(过去式)、looking(进行时)、looks(第三人称现在时)等是look的变体形式。不同语言中词的形态变化形式、种类、数量不同，可以是几个、几十个、甚至上百个有“亲缘”关系的词汇。如俄语中的名词、动词分别有十几种变格形式；西班牙语中名词、形容词、冠词、代词、数词等有性、数的变化，Ele(他)、ela(她)、eles(他们)、elas(她们)；estudo(我学习)、estudas(你学习)、estudamos(我们学习)；法语中的名词、冠词、形容词有阴性和阳性之分，grand(大，阳性)、grande(大，阴性)：阿拉伯语中通过加词缀使词根组合扩展为上百个派生词。如阿拉伯语词根+词缀表示人称和性的变化，如动词词根为(

询问)的变体形式：

现有输入技术在处理拼音文字时，往往将由词根+词缀组合而成的不同变体形式以独立的词汇收录在其数据库中，其明显的缺点是；

1)数据库中的词汇涵盖量低，例如，70K的数据空间，现有技术只能收录约17500个英文单词，其中仅9000个英语词汇(词根)，其他为词根的变体形式；

2)重码率高，占用候选界面的版面大，输入速度慢。如look(数字键5665)的变体形式looks，looking，looked等均出现在同一候选界面上，影响和限制了由数字键5665组成的其他合理组合候选的出现；

词汇生成模块的实现方法

依照拼音文字的构词内在规律，尤其是词根和词缀构词的普遍规律和强大组合能力，通过词汇生成模块，由系统将数据库中有限的词根和后缀组合生成大量的词汇。

具体表现在：

1)在系统词汇库中主要收录拼音文字的词根和词缀，利用系统中的核心引擎设计和数据优化过程，将有限的词根和为数不多的词缀自动组合和生成大量的有效词汇，以减少系统词汇库和候选界面的占有空间，降低重码率，提高输入速度，同时增加系统数据库的词汇含盖量；同样是70K的数据空间，本发明利用引擎自动生成词根的变体形式，可以包含17500个词根，生成35000多个英文词汇，提高2倍的词汇涵盖量。在法语、西班牙语、俄语等形态形式更为丰富的语言中，本发明的优势可以提高5-8倍的词汇涵盖量；

2)在系统中增设一个词根与词缀组合和生成词汇的程序模块。该模块在系统中诸如语法、语义、统计、查询等相关单元模块，同时共享系统的语言数据库。

3)本发明为数字键1-0新增启动“词根+词缀”自动生成新词汇的功能。当利用光标选择所需词根后，按所选词根所在的数字键，系统中的词汇生成模块就会启动，使词根同词缀依照有效、合理的原则，组合生成词根的变体形式，并以高频优先的原则进行排序呈现在候选行中，直接选择这些词汇所对应的数字键确认并使之上屏；

4)组成的新词汇是被临时生成的，不会占用数据库的空间。因此词根+词缀构建和生成拼音文字词汇的技术可以节省数据占用空间，是一套规范、高效、实用、界面友好、更符合数字键盘特点的拼音文字输入方法。

对于不规则的单词，本方案采用两种解决方式：

1)在系统词汇数据库中收录不规则单词的词根，同样让系统的构词模块帮助组合和生成其不规则的变化形式。如收录go、do、have，在输入过程中由系统分别生成went、gone，did、done，had；

2)有些变化形式的开始字母组合与词根有差别较大，如go在数字键46上，而其过去式went则是由数字编码93开头；do的数字编码是36，而did的数字编码为34。本发明中将形态变化较大的不规则形式作为“独立”的单词对待和处理，收录在系统词汇数据库中。也就是说，系统词汇数据库中既有go和do等词根，也有went、gone、did和done等不规则的形态变体形式；

采用上述两种方式来处理和输入不规则单词的方法，既保证了单词的快速输入和锁定，又体现了灵活机动的输入方式，同时做到了系统处理和生成的一致性。

词汇生成模块的创新意义

1)从数据存储和数据生成的角度看，本发明中词根+词缀自动生成新词汇，在数据库中只存储相关语言的词根和词缀，其变体词经过程序中的构词模块动态构造而生成，以便减少数据库的存储空间，加快字词的查找速度，增加词语的锁定率。这种储存方式适应于全球的多种拼音文字，使拼音文字的数据结构在这一领域采用同一技术方法。在此基础上，本发明还对常用的词缀根据使用频率的不同进行变长编码，以便得到更加理想的数据压缩效果。例如，假设现有10000个单词，平均词长为5(由5个字母组成)，平均每个词有5种变体形式(这些变体均可以由该词的词根和词缀组成)，假设有200个常用词缀平均长度为2，若使用Unicode存储这10000个词以及它们的变体需要(10000×5+50000×(5+2))×2×8＝6400000个bit；而采用该压缩技术后，所有的词缀可以通过变长码进行编码转换，则原来的平均占用2个字节的词缀可以降低到1个字节，这样存储所有的词需要的空间为(10000×5+ 200)×8≈400000个bit。因此采用此技术后可以将数据压缩到原数据的1/16。

2)拼音文字构词的内在规律，在系统的词汇库中主要收录词根和词缀，并利用引擎设计和数据优化过程，通过引擎系统自动生成大量的词汇，既可以节省系统词汇库的占有空间，降低重码率，降低设备的软硬件成本，同时可以扩大系统词汇库(词根)的含盖量，提高输入速度。如果一个系统词汇库中包含2万个英语词汇，其中必然有相当部分是动词、形容词、副词、名词等词类的变体，大大限制了实际的词汇量，造成很多英文词汇(词根)被排斥在手机英文数据库之外。

1)数据库中词根数量的减少，必然使搜索和锁定范围的速度加快，克服了同一词根的不同变体形式在同一显示页面上同时出现占有显示空间的缺点，节省的显示空间有助于其他词根快速出现。

图19以输入英语looking为例，说明词根+词缀生成变体形式的过程和原理。

1.按“look”首字母“l”对应的数字键5(见图19a)；

2.当按“look”前三个字母“l，o，o”对应的数字键566时，通过智能预测功能，“look”已显示在候选区中，按下选键，将光标移动到候选区中，同时“look”有数字序号3与其对应(见图19b)；

3.按“look”的数字序号对应的数字键3，启动词汇生成程序，系统构词模块就根据look的词性和构词特征，同词汇库中的与之组合有效、合理的词缀进行组合，自动生成带有词缀的新的形态形式或新词汇looks，looking，looked等，并与数字序号对应(见图19c)；

4.按所需词“looking”数字序号对应的数字键3，将其上屏，同时联想出与其相匹配的常用字词并以高频先见的顺序显示(见图19d)。

11.表意文字音码快速输入的编码和方法

表意文字的特点没有键盘能够直接进行输入，而是需要借助该文字的拼音系统或书写系统对文字进行编码，通过编码和输入方法引导出文字系统。如汉字的拼音编码、笔画编码、部件编码，日文的片假名编码(Hiragana)、韩文的编码(Hangul)等。本方法的目的是为了借助表意文字的语音系统的特点，创新一种适合表意文字快速输入的方案。

表意文字的另一个特点是字汇的数量很大，但是其语音系统的音符数量很有限，音符的组合能力规律性很强，如汉语拼音系统只有26个基本字母，拼音的组合规则具有规律性，汉语拼音的全部合理组合为417个音节。这样，拼音组合就有合理与不合理之分。日语有44个清音、23个浊音和半浊音、30个拗音，全部的合理组合为582个音节。同样有合理与不合理之分。

编码原则和方法：

利用表意文字中语音系统中的特点和组合规则，实现利用全音、部分音、全音和部分音混合的方法进行编码，通过技术创新和软件的支持，实现词组、短语、短句的快速输入、混合输入、直接输入、连续输入。以中文为例，汉字普通话有21个声母，35个韵母，4个声调。汉字是单音节字，即一个汉字一个音节。汉字的声母和韵母有一定的规律，最多可以组合成417个有效音节。“现代汉语词频”统计结果表明，汉语使用中的突出特点是“字为基础，词为主导”，二字以上的词语占70％以上。

现行数字键盘输入技术的还停留在单字输入、逐字预测、逐字联想、逐字确认上屏，速度慢，用户思维不连贯，难以使汉字中“词为主导”的特点和内在规律在输入中有效发挥出来，为汉字输入和应用服务。本发明依据汉字的拼音组合特点和词为主导的特点，创新汉字拼音的连续输入、混合输入、短语短句快速输入等特点，只需连续按所需字词对应的数字键，即可得到符合拼音规则的合理组合。实现了从单字输入，单字联想，单字预测，扩展到词组、短语、短句的连续输入、直接联想、直接预测。词语在本发明中并非仅局限于语言学意义上的词组和短语，同时包括多字词、词组、短语及其他常用搭配，如“你好”、“请问”等，短语、短句中的字数没有限制，既可以是二字词，也可以是多字词或短句。

借用汉字首音字母作为编码码元，对汉字短语、短句进行数字化编码

1)利用中文短语、语句中每个字的首音作为编码，即取每个字的首字母(包括声母和韵母)，一字取一码。例如，短语“生日快乐”的首音为srkl，所对应的数字键为7755，直接按键7755四个键，即可输入短语“生日快乐”。同样，短语“新年好”的首音为xnh，所对应的数字键为964。要输入“新年好”时只需连续按键964即可；

3)首音既可是声母，又可以是韵母(对于零声母的汉字取该字韵母的首字母)，例如，要快速输入“我爱你”，就分别输入三个字的首音字母w、a、n所对应的数字键926。快速输入“西安”用x+a，快速输入“恩师”用e+s；

2)快速输入短语、短句的方法是每字一码一键，编码数量少，规律性强，简单易用，提高输入速度。

拼音的混合输入方法

汉语拼音的组合规则具有规律性，汉字拼音的全部合理组为417个音节。这样，拼音组合就有合理语不合理之分。这些特点构成了本发明全拼、简拼混合输入中合理优先、高频优先的理论依据。由于引擎搜索和预测是依据是数字组合，不合理的拼音组合就被看作是自动分隔，成为短语、短句的首字母组合的功能，混合输入就能够在技术上真正的实现，加之搜索模块借用高频先见的原则，

如果词组、短语、短句中每个汉字的首字母组合在一起不符合拼音规则，本发明将这些词组、短语、短句中每个汉字的首字母所对应的数字键作为它们的编码。例如，“生日快乐”的拼音全拼组合是“shengrikuaile”，共13个拼音字母。汉字是音节文字，每个汉字中必须有韵母，声母组合或连缀具有严格的规律，例如从拼音组合原理的角度，短语“生日快乐”中每个汉字的首字母“s”、“r”、“k”、“l”组合在一起是不符合拼音规则的。

本发明的拼音短语快速输入正是利用了拼音组合的合法性、构词的合理性等规律，把“s、r、k、l”这四个字母对应的数字编码“7755”作为“生日快乐”快速输入的编码规则。同时利用本发明中技术方案支持连续输入的特点，形成了拼音混合输入的基本原理。

拼音混合输入和拼音快速输入的主要区别在于：拼音短语输入一字一码，而拼音混合输入中一字既可以是多码，也可以是一码，每个字的拼音既可能是全拼，也可能是简拼，还可能是不完整的部分拼音组合。混合输入的创新不仅保证了输入过程中思维的连贯性，同时借助中文拼音组合的规律，利用技术手段和引擎的强大支持，确保高频先见的实现，加快了输入速度。

借助分隔键快速输入

除拼音的组合关系可以自动分隔汉字的拼音组合外，还可以使用功能键分隔拼音组合。如拼音序列xian既可以是xi an(西安)，还可以是xian(先)，均为有效的拼音组合，无法从拼音规则加以判断。为了解决这种现象，本发明为数字键“1”新增拼音分隔功能键的功能。当在拼音模式下当前编码提示行中有了内容后，按数字键“1”，可以分隔拼音组合的关系。

这样，在本发明中，拼音快速输入有短语快速输入、混合输入和利用分隔键等三种方式。“节日快乐”的编码在本发明中就拼有多种输入。本方法的共同特点是借用汉字拼音组合规则的特点和中文以词语为主导的语用特点，通过引擎技术、同一界面和模块化的设计原理，支持拼音的连续组合、连续输入，是更加人性化、更加符合语言特点和使用习惯，使操作更加友好、便捷。

上述方法同样适合和可应用于日文、韩文等表意文字的输入。

Claims

1、一种数字键盘的多功能、多语种输入系统，其特征在于该系统包括有输入模块，判断模块，转换模块、分词自动切分模块、预测模块、联想模块、翻译模块、计算模块、添加电话号码模块和词汇生成模块，各模块之间由标准应用程序接口相连。

2、根据权利要求3的输入系统，其特征在于所述输入模块包括输入界面部分的键位设定和功能键设定。

3、根据权利要求3的输入系统，其特征在于所述的判断模块用于接收用户的按键指令，对不同按键的指令作出响应，以确定和启动相关的程序和模式。

4、根据权利要求3的输入系统，其特征在于所述转换模块及其程序由所述判断模块加以启动，将处于缓存状态的当前编码转换成所需的语言或模式中的候选内容，实现功能模块之间、语言之间或或同一语言的不同输入模式间的转换

5、根据权利要求3的输入系统，其特征在于所述分词自动切分模块用于将汉字序列加以有效的切分。

6、根据权利要求3的输入系统，其特征在于所述预测模块包含有智能分析和判断程序，依据高频先见、先预测的原则，用于将与所输信息相匹配的、出现概率最大的、根据语法、语义、语境等分析和分词切分最合理的词语预测出来。

7、根据权利要求3的输入系统，其特征在于所述联想模块包含有智能分析和判断程序，用于将与所确认的字词相匹配的、出现概率最大的、根据语法、语义、语境等分析和分词切分最合理的词语联想出来。

8、根据权利要求3的输入系统，其特征在于所述词汇生成模块用于将系统数据库中有限的词根和后缀组合生成大量的词汇。

9、一种数字键盘的多功能、多功能输入方法，其特征在于该方法包括：

根据各种语言文字与数字键盘之间的对应关系，对各种语言文字进行数字化编码，使不同语言符号的外部编码和输入得到统一；

采用unicode编码使不同语言文字的计算机内部码和输出得到统一；

通过数字键盘输入数字编码，使用标准应用程序接口和单一处理逻辑的单一引擎处理数字编码串，在unicode数据库中继续搜索，输出匹配的unicode编码串；

在各项功能都由单独的模块实现，且各功能模块之间通过标准应用程序接口相连的模块化设计系统中，利用单一引擎处理数字化编码，在同一界面直接实现输入、翻译、计算、电话号码添加、数字直接上屏的功能，并由有限的词根和后缀组合生成词汇。

10、根据权利要求1的输入方法，其特征在于所输入的数字编码串被暂时记录在一个缓存中，当启动转换模块后数字串就会指令程序选择不同的数据库进行搜索；同时系统中的其他模块也会对数据库中候选内容的形式和特征进行分析，以完成不同语言之间、不同输入模式或不同符号之间的转换，将数字编码直接转换成所需的不同文字、短语和短句。