CN100416471C - 一种小键盘上西语输入中的歧义处理与人机交互方法 - Google Patents

一种小键盘上西语输入中的歧义处理与人机交互方法 Download PDF

Info

Publication number
CN100416471C
CN100416471C CNB2005100513499A CN200510051349A CN100416471C CN 100416471 C CN100416471 C CN 100416471C CN B2005100513499 A CNB2005100513499 A CN B2005100513499A CN 200510051349 A CN200510051349 A CN 200510051349A CN 100416471 C CN100416471 C CN 100416471C
Authority
CN
China
Prior art keywords
word
ambiguity
state
words
combinations
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CNB2005100513499A
Other languages
English (en)
Other versions
CN1831730A (zh
Inventor
张一昉
马贤亮
陈波
柯文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baiwenbao Mobile Technology Co., Ltd.
Original Assignee
张一昉
马贤亮
陈波
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 张一昉, 马贤亮, 陈波 filed Critical 张一昉
Priority to CNB2005100513499A priority Critical patent/CN100416471C/zh
Priority to PCT/CN2006/000339 priority patent/WO2006094454A1/zh
Publication of CN1831730A publication Critical patent/CN1831730A/zh
Application granted granted Critical
Publication of CN100416471C publication Critical patent/CN100416471C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/70Details of telephonic subscriber devices methods for entering alphabetical characters, e.g. multi-tap or dictionary disambiguation

Abstract

本发明涉及一种小键盘上西语输入中的歧义处理与人机交互方法,将字母按多对一的关系映射到数据键上,将单词按映射关系转化为数据串,从语料中统计出歧义单词与前面和/或后面单词的高频搭配的单词组合,并统计出歧义单词与前一个单词中两个特定字母的耦合搭配频率;处理器接受到数据串序列输入后,按从前到后、最长匹配、字母耦合、高频优先的原则将其转化为对应的单词序列作为首选候选;四个方向键被分别设定成数字输入状态、字典以外单词自定义状态、歧义单词挑选状态、歧义单词跳转状态的状态进入键;小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,通过这些复合扩展键组进入拷贝粘贴状态、表情符号、符号与特定短语操作状态。

Description

一种小键盘上西语输入中的歧义处理与人机交互方法
【所属技术领域】
本发明涉及一种小键盘上西语输入歧义处理与人机交互方法,特别应用在移动电话机、小灵通PHS、机顶盒遥控器、个人数字助手、POS机、条码机、税控机、交通导航仪、固定电话机、传真机以及其他小键盘设备上输入西方语言。
【背景技术】
移动电话机、小灵通PHS、机顶盒遥控器、个人数字助手、POS机、条码机、税控机、交通导航仪、固定电话机、传真机以及其他小键盘设备,由于受其体积所限,不能采用普通的PC大键盘,而通常采用的是数字式小键盘,在这种小键盘设备上,特定语言字母表中的字母被按照多对一关系映射到小键盘的数据键上。比如,英文字母表与小键盘的映射关系是:“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分别对应英文字母“abc”、“def”、“ghi”、“jkl”、“mno”、“pqrs”、“tuv”、“wxyz”。
按照语言学界公认的“语系-语族-语支-语种”分类方法,西方语言各语种属于印欧语系下的日尔曼语族、罗马语族、斯拉夫语族、凯尔特语族、波罗的语族等语族,书写体系属于拉丁字母表或斯拉夫字母表。将拉丁字母或斯拉夫字母映射到小键盘数据键上,因为一个数据键代表多个字母、一个数据串可能代表多个单词,所以存在如何消除歧义的问题。人们提出了几种消除数据串歧义方法的建议。
一种方法是称为MultiTap的连续击键方法,连续击键的次数代表第几个字母。即在一定的时间内只按压一次数据键,则显示该数据键所对应的第一个字母;如果在一定的时间内连续二次、三次、四次按压该数据键的键码,则分别显示该数据键所对应的第二个、第三个、第四个字母,比如,数据键“9”对应了四个字母“wxyz”,要输入字母“x”则需要连续两次按压“9”,要输入字母“z”则需要连续四次按压“z”。这种方法效率低,难于使用。
后来,Arnott在他的论文《Probabilistic Character Disambiguation forReduced Keyboards Using Small Text Samples》(Journal of theInternational Society for Augmentative and AlternativeCommunication,作者:John L.Arnott和Muhammad Y.Javad,以下简称“Arnott文章”)中重点讨论了通过统计特定语言单词中字母组合顺序的手段来消除歧义的方法,即通过数据键所代表的歧义字母组合出现频率的高低来决定最可能的解释,这是一种字母级的歧义处理方法。另外一种在单词级别消除歧义的方法由Witten在他的著述《Principlesof Computer Speech》(Academic Press,1982,以下简称“Witten方法”)中公开出来。Witten讨论了用电话小键盘直接代表英文单词中字母的输入方法(比如用2-3-8-8-3-7代表better),他指出,在24500个英文词典单词中,92%是没有歧义的。Witten进一步指出,如果出现了歧义(比如:good、home、gone、hood的对应数据串都是4663),就需要给每个歧义单词一个编号,由用户通过选择编号来交互式确认。Witten没有提到歧义单词的排序方法。
在美国专利《Text entry mechanism for small keypads》(专利公开号:20040153975A1)中,提出了一种用MultiTap方法确定首字母和/或第二个字母的方法,因为在首字母或前两个字母被确定以后,潜在的歧义范围被缩小,比如用户想输入单词“forest”,其按键序列应该是“3-3-3-6-7-3-7-8”,前面的三个“3”用于指定首字母为“f”,这种方法相对于MultiTap的方法减少了击键次数,但是仍然有冗余击键。
在美国专利《Disambiguating system for disambiguating ambiguousinput sequences by displaying objects associated with the generatedinput sequences in the order of decreasing frequency of use》(专利号:5,953,541)中,提出了一种按照歧义单词的使用频率降序排列的方法。即:如果用户输入4663,则候选单词的顺序为good、home、gone、hood,因为这四个单词在英语中出现的总次数是good最高、home其次、hood最少。这种方法比公开的Witten方法更进了一步。但这种方法在处理用户想输入“I like to work at home”时候,给出的第一个候选项分别是“I like to work at good”,因为这是一种基于单词、而不是基于语句上下文环境的方法。
在美国专利《Ambiguity resolution for predictive text entry》(专利公开号:20040163032A1)中,提出了一种根据两个单词搭配频率的统计、在第一个单词确定的情况下,根据搭配频率来决定第二个歧义单词的排列顺序的方法。即将前面的单词和后面可能的全部单词组合在一起形成多个多组单词搭配,然后从统计数据中查找哪种搭配的可能性最大,比如统计出前单词“very”与后单词“good”、“home”、“gone”、“hood”的搭配频率降序排列为“very good”、“very home”、“verygone”、“very hood”,则第二个单词的排列顺序为good-home-gone-hood。相对于专利5953541的固定排序方法,这种方法的改进之处是考虑了上文环境。但是,这种方法必须要先确定第一个单词、只能处理歧义单词在后的情况,即只考虑了上文环境、而不是上下文环境,后面的单词无法影响前面的单词。比如,“pay”和“say”对应同一个数据串,“pay attention”是一个固定搭配,“should say”是一种常见搭配,“should pay”是一种次常见搭配,而“say attention”是一个罕见搭配,如果用户想输入“You should pay attention”,在没有用户交互选择的情况下,按这种方法的默认解释可能是“You should sayattention”。
用户需要一种更好的能够预测和理解用户输入的歧义处理方法。
另外,现有的小键盘设备上的输入方法多是将数字输入和字母输入作为两种不同的输入方法,有的还将字母输入分为大写输入法和小写输入法,如果用户需要输入“ABC_888@yahoo.com”这种混合有大写、小写、数字、标点、特殊符号的字符串,就不得不频繁切换输入法,非常麻烦。用户需要一种不用频繁按键切换输入法、更加友好的人机交互方式。
【发明内容】
共知的MultiTap方法的击键次数太多;确定首字母的方法虽然减少了击键次数,但是仍然有冗余击键;通过统计单词使用频度的方法能较好地提高预测的准确性,很好地减少击键次数,但这种方法总是用一种固定的排序方法,没有考虑歧义单词作在的上下文环境;通过统计两个单词的组合搭配、以前面一个单词来决定后面一个单词的方法体现出了一定的智能性,但这种方法只考虑了上文环境、而不是上下文环境,后面的单词无法影响前面的单词,智能性仍显不足。另外,现有的小键盘设备上的输入方法多是将数字输入和字母输入作为两种不同的输入方法,有的还将字母输入分为大写输入法和小写输入法,如果用户需要输入混合有大写、小写、数字、标点、特殊符号的字符串,就不得不频繁切换输入法,非常麻烦。为了克服现有方法的诸多不足,本发明公开了一种小键盘上西语输入中的歧义处理与人机交互方法,该方法使得歧义单词的选择具有上下文智能相关性,且通过将四个方向键被设定为对应状态的状态进入键,方便地处理多单词连续输入、词典以外单词的自定义、大小写与数字符号的混合输入等问题,并通过定义一组复合扩展键组来实现拷贝粘贴功能、表情符号与特定短语操作等功能。本发明解决其技术问题所采用的技术方案是:
在歧义单词的上下文相关智能选取上,包含以下步骤:
第一步,根据小键盘上字母到数据键的多对一映射关系,将特定语言字典中的每一个单词按照转化为一个数据串,如果该数据串还对应着其他的单词,则定义这样的单词被称为歧义单词,一个数据串对应的多个歧义单词构成“歧义单词组”;
第二步,准备一批特定语言的大量语料,将语料分为一个一个的句子,保留句子中单词的大小写特性,如果一个句子中的单词超出了特定语言字典,则删除这样的句子。根据语料语言学(Corpus Linguistic-CL)和统计自然语言处理(Statistical Natural Language Processing-SNLP)的公知观点,语料越大,则统计数据越准确,语料与实际应用环境的相关性越大,则效果越好。
第三步,针对特定语言字典中的一个歧义单词,从语料中统计出包含该单词的连续三个单词的组合搭配频率,将其组合搭配频率高的定义为“三单词组合(Tri-Word Combination)”,将该组合和其频率保存在存储器中;这种高频搭配体现了语言在实际应用中的规律,且这种结构更加稳定。这种“三单词组合”并不一定对应语言学意义上的短语。
第四步,针对第三步中的歧义单词,从语料中统计出该单词与前面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器中,该组合后面一个单词一定是歧义单词;这种“二单词组合”并不一定对应语言学意义上的短语。
第五步,针对第三步中的歧义单词,从语料中统计出该单词与后面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器中,该组合前面一个单词一定是歧义单词;这种“二单词组合”并不一定对应语言学意义上的短语。
第六步,针对第三步中的歧义单词,从语料中统计出该单词与前面一个单词中的两个特定字母的耦合搭配频率,将该组合搭配定义为“前单词字母耦合”,将该耦合和其频率保存在存储器中;根据特定语言的实际情况,可将一个单词的首字母加尾字母、或首字母加第二个字母、或首字母加首字母后的第一个辅音字母作为该单词的两个特定字母;如果该单词为单字母单词,则定义一个特例符为第二个字母,比如这个特例符可以是用空格表示;针对语料中歧义单词在句首的情况,设定一个句首标识符为该歧义单词的前一个单词的两个特定字母。用前面一个单词中的两个特定字母可以对歧义单词出现的情况作进一步划分,而又不会引起统计结果的数据量大幅增加。
第七步,针对特定语言字典中的每一个歧义单词,重复第三步到第六步的统计过程;
第八步,处理器接受一个或多个数据串序列输入,数据串依次表示为U1、U2、U3、U4、U5、U6...Un,一个数据串可能对应着一个或多个特定语言字典中的单词,处理器依据存储器中的单词组合信息,按照从前到后、最长匹配、高频优先的原则查找出该输入数据串序列中的“三单词组合”和“二单词组合”,并用长度最长、频率最高的“单词组合”中的单词来替换相应的数据串,其具体方法是:
(a)从i为1开始,如果U1 U1+1U1+2在存储器中对应着至少一个“三单词组合”,找出最高频的“三单词组合”,且i变成i+3,再次从(a)开始下一个循环;否则
(b)如果U1 U1+1 U1+2中只有U1 U1+1在存储器中对应着至少一个“二单词组合”,找出最高频的“二单词组合”,且i变成i+2,再次从(a)开始下一个循环;否则
(c)如果U1 U1+1 U1+2中U1 U1+1在存储器中不对应任何一个“二单词组合”,则将U1定义为“非组合数据串”,且i变成i+1,再次从(a)开始下一个循环;
第九步,针对第八步中的数据串序列U1、U2、U3、U4、U5、U6...Un,,经过第八步中单词组合查找,去除其中对应“三单词组合”和/或“二单词组合”的数据串,剩余的数据串全部为单个的“非组合数据串”,如果该数据串只对应着特定语言字典中的一个单词,则将该数据串替换为对应的单词;
第十步,针对第八步中的数据串序列U1、U2、U3、U4、U5、U6..Un,经过第八步、第九步两步处理,则剩余的“非组合数据串”全部对应着歧义单词,则按照从前到后原则、依据该数据串前面一个单词的两个特定字母以及存储器中的“前单词字母耦合”频率数据,从歧义单词组中挑选出频率最高的单词来替换该数据串;
第十一步,处理器根据第八步、第九步和第十步的替换结果,将其作为首选候选的单词序列,通过显示输出设备呈现给用户,待用户确认后完成输入;
第十二步,在输入编辑确认完毕后,处理器自动学习确认的单词序列中的组合特性,其方法是:处理器按照从前到后的顺序,查找确认的单词序列中的每一个歧义单词及其前后的单词,分别组成一个或多个“三单词组合”和“二单词组合”,如果以上生成的任何一个单词组合没有出现在已有的“三单词组合”或“二单词组合”组合中,则将其作为一个新的自定义“单词组合”添加到存储器中。
为改善人机交互操作中的友好性,本发明采取的技术方案是:
将小键盘上西语输入中的人机交互设定为多种状态,初始状态为输入编辑状态,该状态也是主状态,在该状态下,用户可以连续输入一个或多个单词对应的数据串序列,单词之间用空格键来分割。系统自动按照前述的方法将该数据串序列替换为一个首选候选的单词序列。如果想输入的是一个歧义单词,用户可以输入一个单词就挑选一个歧义,也可连续输入多个单词再集中、逐个挑选歧义。后一种集中挑选的方法效率更高。
本发明另外设定有数字输入状态、字典以外单词自定义状态、歧义单词挑选状态、歧义单词跳转状态等四个状态,并将小键盘上的四个方向键分别设定对应的状态进入键,在输入编辑状态下按压某个方向键,可以直接进入对应的状态,并在对应的状态结束后自动返回输入编辑状态。
在输入编辑状态下按压相应的方向键进入数字输入状态,在进入以后,处理器将紧靠在插入符之前的一个数据串显示成对应的数字,在用户按压空格键或其他特定键结束数字输入状态以后,处理器自动将状态返回到输入编辑状态;
在输入编辑状态下按压相应的方向键进入字典以外单词自定义状态,在进入以后,处理器将紧靠在插入符之前的一个数据串的第一数据键所对应的小写字母、大写字母、阿拉伯数字、标点以及其他符号分页显示到候选框,用户在挑选该数据键所对应的一个字符后,处理器自动将该数据串的下一个数据键所对应的全部字符分页显示到候选框,供用户挑选,在用户按压空格键或其他特定键结束字典以外单词自定义状态以后,处理器自动将状态返回到输入编辑状态;
在输入编辑状态下,如果紧靠在插入符之前的一个数据串对应着多个歧义单词,按压相应的方向键进入歧义单词挑选状态,在进入以后,处理器在候选框中罗列出该单词对应的歧义单词,在用户挑选出某个特定的歧义单词后,歧义单词挑选状态结束,处理器自动将状态返回到输入编辑状态,并按照从前到后、最长匹配、字母耦合、高频优先的原则,处理器重新对数据串序列中未确认的单词进行替换,即一次挑选可能引起数据串序列中其他未确认歧义单词的联动;
在输入编辑状态下,如果数据串序列中有一个或者一个以上数据串对应着歧义单词,按压相应的方向键进入歧义单词跳转状态,跳转方式是从前到后、循环跳转,每跳转一次,则插入符移动到下一个歧义单词的后面,处理器自动将状态返回到输入编辑状态,用户可以按压相应的方向键进入歧义单词挑选状态来挑选一个歧义单词;
本发明还设定有一组扩展状态,这些扩展状态包括拷贝粘贴状态、表情符号与特定短语操作状态,其方案是将小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,在输入编辑状态下,通过先按压一次特定的数据键、再按压一次特定的方向键的复合操作方式来进入设定的状态,进行相应的操作,并在对应的状态结束后自动返回输入编辑状态。
本发明的有益效果是,实现了小键盘上西语输入中的歧义单词选取时的上下文智能相关,可以以前定后、以后定前、前后联动;在人机交互的友好性方面,实现了多单词连续输入,词典以外单词的自定义,大小写、数字、符号的混合输入问题,并能够完成拷贝粘贴、表情符号与特定短语操作等扩展功能。从整体上提升小键盘上西语输入中的流畅性和智能性。
【附图说明】
图1是与本发明对应的一种小键盘设备的内部各组成部分的图示
图2是与图1所述设备的透视图
图3是计算数据串序列对应的首选候选的流程图
图4是输入编辑状态的示意图
图5是字典以外单词自定义过程的示意图
图6是歧义单词挑选过程的示意图
图7是数字输入过程的示意图
图8是歧义单词跳转过程的示意图
图9是输入编辑状态下首选候选的动态变动示意图
图10是处理器计算出多数据串序列对应的首选候选结果的示意图
图11是一种拷贝粘贴功能的复合扩展键组操作过程的示意图
图12是一种关于表情符号与特定短语的复合扩展键组操作过程的示意图
【具体实施方案】
I.硬件结构
(I.a)本发明涉及一种小键盘上西语输入中的歧义处理与人机交互方法。图1是一种小键盘设备的内部结构(100)图示,其优选实现方式是包括天线(102)、发射接受装置(104)、外部接口(120)、电源(122)、处理器(106)、输出设备(108)(110)、输入设备(112)(114)、存储器(116),存储器中各种相关数据,有的数据以数据库(118)形式存在。
(I.b)图2是内部结构(100)所指的小键盘设备(200)的透视图,该设备包括一个上部(210)和下部(220),上部和下部之间通过一个连接部(230)相连;上部(210)包括一个听筒(211)和一个显示输出设备(212);下部包括一个麦克风(221)和一个输入键组(222)。输入键组(222)的优选实现方式是包括上方向键(224)、右方向键(225)、下方向键(226)、左方向键(227)、OK键(228)、C键(229)、数据键组(223),在数据键组中,0键或#键上还表示是空格键。
II.语料统计
(II.a)定义小键盘上字母到数据键的多对一映射关系。比如,根据国际电信电报咨询委员会的CCITT标准小键盘定义,英语字母到数据键的映射关系是:“2”、“3”、“4”、“5”、“6”、“7”、“8”、“9”分别英文字母“abc”、“def”、“ghi”、“jkl”、“mno”、“pqrs”、“tuv”、“wxyz”。
(II.b)依照上述映射关系,将特定语言字典中的每一个单词按照转化为一个数据串,如果该数据串还对应着其他的单词,则定义这样的单词被称为歧义单词,一个数据串对应的多个歧义单词构成“歧义单词组”。比如,字典中共有以下7个英文单词“good”、“home”、“gone”、“hood”、“goof”、“hone”、“hoof”均对应同一个数据串“4-6-6-3”,则定义这7个单词都是歧义单词,而这7个单词构成了一个“歧义单词组”。
(II.c)准备一批特定语言的大量语料,将语料分为一个一个的句子,保留句子中单词的大小写特性,如果一个句子中的单词超出了特定语言字典,则删除这样的句子。根据语料语言学(CorpusLinguistic-CL)和统计自然语言处理(Statistical NaturalLanguage Processing-SNLP)的公知观点,语料越大,则统计数据越准确,语料与实际应用环境的相关性越大,则效果越好。
(II.d)针对特定语言字典中的一个歧义单词,从语料中统计出包含该单词的连续三个单词的组合搭配频率,将其组合搭配频率高的定义为“三单词组合(Tri-Word Combination)”,将该组合和其频率保存在存储器(116)中。该歧义单词可以是“三单词组合”中的第一个、第二个或第三个。比如,语料中多次出现了“as good as”和“very good at”这种高频搭配,则将其定义“三单词组合”,这种“三单词组合”体现了语言在实际应用中的规律,但其本身并不一定对应语言学意义上的短语,如“verygood at”就不是语言学意义上的短语。
(II.e)针对第(II.d)中的歧义单词,从语料中统计出该单词与前面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器(116)中,该组合后面一个单词一定是歧义单词。比如“very good”就是这样的“二单词组合(Bi-WordCombination)”。
(II.f)针对第(II.d)中的歧义单词,从语料中统计出该单词与后面一个单词的组合搭配频率,将其组合搭配频率高的定义为“二单词组合(Bi-Word Combination)”,将该组合和其频率保存在存储器(116)中,该组合前面一个单词一定是歧义单词。比如“good student”就是这样的“二单词组合(Bi-WordCombination)”。
(II.g)针对(II.d)中的歧义单词,从语料中统计出该单词与前面一个单词中的两个特定字母的耦合搭配频率,将该组合搭配定义为“前单词字母耦合”,将该耦合和其频率保存在存储器(116)中;根据特定语言的实际情况,可将一个单词的首字母加尾字母、或首字母加第二个字母、或首字母加首字母后的第一个辅音字母作为该单词的两个特定字母;如果该单词为单字母单词,则定义一个特例符为第二个字母,比如这个特例符可以是空格;针对语料中歧义单词在句首的情况,设定一个句首标识符为该歧义单词的前一个单词的两个特定字母。用前面一个单词中的两个特定字母可以对歧义单词出现的情况作进一步划分,而又不会引起统计结果的数据量大幅增加。作为一种优选的实现方式,可将一个单词的首字母加尾字母定义为两个特定字母。针对特定语言的歧义单词的最大数量,可以将耦合频率简化成8个或16个等级,以减小数据大小。
III.计算数据串序列的首选候选的流程
(III.a)图3是首选候选的流程图(300),开始(301)后,处理器接受多个数据串序列U1、U2、U3、U4、U5、U6、Un,将数据串的个数计为n(303),设定一个计数器i的初始值为1(305),i代表了下一步需要处理的数据串的位置,接下来判断计数器i是否大于n(307),如果大于n,则代表已经处理完毕,进入(341);否则
(III.b)开始判断“是否U1U1+1U1+2在存储器(116)中对应着至少一个三单词组合”(309),如果为是,则用频率最高的三单词组合来替换U1U1+1U1+2(315),并将计数器i的值加3(317),回到(307);否则
(III.c)开始判断“是否U1U1+1在存储器(116)中对应着至少一个二单词组合”(311),如果为是,则用频率最高的二单词组合来替换U1U1+1(319),并将计数器i的值加2(321),回到(307);否则
(III.d)开始判断“是否U1在存储器(116)中对应着一个无歧义单词”(313),如果为是,则用对应的一个单词来替换U1(323),并将计数器i的值加1(325),回到(307);否则
(III.e)表示U1对应着歧义单词,首先找出U1的前一个单词U1-1的两个特定字母(327),并找出U1对应的所有歧义单词(329),然后从U1对应的所有歧义单词中取一个单词(331),并从存储器(116)中查找该单词与前单词两个特定字母的耦合频率,并判断“歧义单词组”中是否还有其他的单词(335),如果有,则回到(331)取下一个单词;否则
(III.f)比较各个单词与前单词特定字母耦合频率的大小,并用频率最高的单词来替换U1(337),并并将计数器i的值加1(339),回到(307);
(III.g)如果判断计数器i的值大于n(307),则代表已经处理完毕,则处理器(106)将所有替换结果显示到显示输出设备(212),供用户确认。至此,计算数据串序列的首选候选的流程结束(343)。
(III.h)在输入编辑确认完毕后,处理器(106)自动学习确认的单词序列中的组合特性,其方法是:处理器(106)按照从前到后的顺序,查找确认的单词序列中的每一个歧义单词及其前后的单词,①将歧义单词与其前一个单词、后一个单词组成“三单词组合”,②其次将歧义单词与其前一个单词组成“二单词组合”,③还将歧义单词与其后一个单词组成“二单词组合”,如果以上①②③中生成的任何一个单词组合没有出现在已有的“三单词组合”或“二单词组合”组合中,则将其作为一个新的自定义“单词组合”添加到存储器中。
(III.i)以图10中的语句(1000)“Any boy passed the contest willreceive a very good MP3 player before go home”为例,其中各单词对应的歧义单词如下:
Any-Any Box Boy Bow Cow Cox Amy
boy-any box boy bow cow cox amy
contest-convert contest
good-good home gone hood home
go-in go
home-good home gone hood home
该语句对应的数据串序列为“269 269 727733 843 2668378 94557323483 2 8379 4663 673 752937 233673 46 4663”,假设存储器(116)中有如下三单词组合和两单词组合:“Any boy”、“thecontest will”、“very good”、“before go home”,则处理器(106)依据首选候选的流程图(300)中的计算方法,将上述句子分为“269 269”、“727733”、“843 2668378 9455”、“7323483”、“2”、“8379 4663”、“673”、“752937”、“233673 46 4663”,分别对应“Any boy”、“passed”、“the contest will”、“receive”、“a”、“very good”、“MP3”、“player”、“beforego home”。
IV.人机交互方法
(IV.a)将小键盘上西语输入中的人机交互设定为多种状态,初始状态为输入编辑状态,该状态也是主状态,在该状态下,用户可以连续输入一个或多个单词对应的数据串序列,单词之间用空格键来分割。系统自动按照前述的方法将该数据串序列替换为一个首选候选的单词序列。如果想输入的是一个歧义单词,用户可以输入一个单词就挑选一个歧义,也可连续输入多个单词再集中、逐个挑选歧义。后一种集中挑选的方法效率更高。如图4所示的输入编辑状态(400),用户从前到后输入了4个数据串序列,处理器(106)将该数据串替换为首选候选“Work invery good”,其中“in”(404)和“good”(403)是歧义单词,而其他单词为非歧义单词,其优选显示方式是将歧义单词用特别的字体、颜色等标注出来,有一个插入符(402)显示下一个插入操作的位置,在插入符附近有一个十字提示图标(401),该图标可以显示最多四个方向,四个方向分别表示当前可以进入的状态。
(IV.b)十字提示图标(401)表示在输入编辑状态下按压某个方向键,可以直接进入对应的状态,这四个状态是:数字输入状态、字典以外单词自定义状态、歧义单词挑选状态和歧义单词跳转状态等四个状态。其优选对应关系是:用左方向键进入数字输入状态、上方向键进入字典以外单词自定义状态、下方向键进入歧义单词挑选状态、右方向键进入歧义单词跳转状态。
(IV.c)如图5所示的字典以外单词自定义过程(500),在输入编辑状态(501)按压上方向键进入字典以外单词自定义状态,处理器(106)将紧靠在插入符之前的一个数据串的第一数据键所对应的小写字母、大写字母、阿拉伯数字等分页显示到候选框(502),用户在挑选该数据键所对应的一个字符(503)后,处理器自动将该数据串的下一个数据键所对应的全部字符分页显示到候选框(504)(505)(506),供用户挑选,在用户按压空格键或其他特定键结束字典以外单词自定义状态(507)以后,处理器自动将状态返回到输入编辑状态。自定义词会被自动记忆,如果下次再输入就会出现(508)(509)。
(IV.d)如图6所示的歧义单词挑选过程(600),在输入编辑状态(601)下,紧靠在插入符之前的一个数据串对应着多个歧义单词,按压向下方向键进入歧义单词挑选状态(602),处理器(106)在候选框中罗列出该单词对应的歧义单词,在用户挑选出某个特定的歧义单词(603)后,歧义单词挑选状态结束(604),处理器(106)自动将状态返回到输入编辑状态,并按照从前到后、最长匹配、字母耦合、高频优先的原则,处理器重新对数据串序列中未确认的单词进行替换,即一次挑选可能引起数据串序列中其他未确认歧义单词的联动;
(IV.e)如图7所示的数字输入过程(700),在输入编辑状态(701)下,按压向左方向键进入数字输入状态,处理器(106)将紧靠在插入符之前的一个数据串显示为对应的数字(702),在用户按压空格键或其他特定键结束数字输入状态以后,处理器自动将状态返回到输入编辑状态(703)。
(IV.f)如图8所示的歧义单词跳转过程(800),在输入编辑状态(801)下,数据串序列中有两个数据串对应着歧义单词,按压向右方向键进入歧义单词跳转状态,跳转规则是从前到后、循环跳转,每跳转一次,则插入符移动到下一个歧义单词的后面,在用户按压一次右方向键以后跳转到下一个歧义单词(802)(805),处理器自动将状态返回到输入编辑状态,用户按压向下方向键(803)进入歧义单词挑选状态来挑选一个歧义单词(804)(806)。
(IV.g)如图9所示的为输入编辑状态下首选候选的动态变动(900),在只输入了三个数据串序列的情况下,第三个数据串被替换为“say”(901),在接下来输入第四个数据串以后,第四个数据串被替换为“pay”(902)。
(IV.h)如图11所示为拷贝粘贴功能的复合扩展键组的操作过程(1100)。其优选方式是,将0键和下方向键定义为拷贝粘贴状态的拷贝功能,将0键和上方向键定义为拷贝粘贴状态的粘贴功能,把应用程序中的插入符移动到某个位置,并在该位置先按压0键(1101),再按压下方向键进入拷贝功能,移动左或右方向键选择要拷贝的内容,被选择的内容以一种可以区分的方式显示(1102),按压OK键表示完成拷贝;移动插入符到目标位置,并按压0键(1103),再按压上方向键实现粘贴功能,粘贴完毕,粘贴内容显示到应用程序中(1104)。
(IV.i)如图12所示为表情符号与特定短语操作的复合扩展键组的操作过程(1200)。将1键和下方向键定义为表情符号与特定短语操作功能,先用工具定义一组用户个人喜好的表情符号与特定短语,把应用程序中的插入符移动到某个位置,并在该位置先按压1键(1201),再按压下方向键进入表情符号与特定短语操作功能,处理器(106)在候选框中列出表情符号与特定短语(1202),供用户挑选,用户挑选以后,选中的表情符号或特定短语进入应用程序(1203)。

Claims (15)

1. 一种小键盘上西语输入中的歧义处理与人机交互方法,在这种小键盘上,特定语言字母表中的字母按多对一的关系被映射到数据键上,其特征在于,该方法包含有以下步骤:
(a)将特定语言字典中的单词按字母映射关系转化为数据串,如果多个单词对应同一个数据串,则定义这样的单词为歧义单词;
(b)针对(a)中的歧义单词,从语料中统计出包含该单词的连续三个单词的组合搭配频率,将其组合搭配频率高的定义为三单词组合,将该组合和其频率保存在存储器中;
(c)针对(a)中的歧义单词,从语料中统计出该单词与前面一个单词的组合搭配频率,将其组合搭配频率高的定义为二单词组合,将该组合和其频率保存在存储器中;
(d)针对(a)中的歧义单词,从语料中统计出该单词与后面一个单词的组合搭配频率,将其组合搭配频率高的定义为二单词组合,将该组合和其频率保存在存储器中;
(e)处理器接受代表一个或多个目标单词的数据串序列输入,其中的数据串依次表示为U1、U2、U3、U4、U5、U6...Un,一个数据串可能对应着一个或多个特定语言字典中的单词,处理器依据存储器中的单词组合信息,按照如下流程从该数据串序列中查找出三单词组合和二单词组合并进行替换:
(1)从i为1开始,如果UiUi+1Ui+2在存储器中对应着至少一个三单词组合,找出最高频的三单词组合并替换,且i变成i+3,再次从(1)开始下一个循环;否则
(2)如果UiUi+1Ui+2中只有UiUi+1在存储器中对应着至少一个二单词组合,找出最高频的二单词组合并替换,且i变成i+2,再次从(1)开始下一个循环;否则
(3)如果UiUi+1Ui+2中UiUi+1在存储器中不对应任何一个二单词组合,则将Ui定义为非组合数据串,且i变成i+1,再次从(1)开始下一个循环;
(f)针对(e)中的数据串序列U1、U2、U3、U4、U5、U6...Un,经过(e)中单词组合查找替换,去除其中对应三单词组合和/或二单词组合的数据串后,则剩余的数据串全部为单个的非组合数据串,如果该数据串只对应着特定语言字典中的一个单词,则将该数据串替换为对应的单词;
(g)针对(e)中的数据串序列U1、U2、U3、U4、U5、U6...Un,经过(e)(f)两步处理,则剩余的非组合数据串全部对应着歧义单词,按从前到后的方式,用多个歧义单词中的某个单词来替换该数据串;
(h)处理器根据(e)(f)(g)三步的替换,将替换结果作为首选候选输出到显示设备上,待用户确认后完成输入;
2. 根据权利要求1所述的方法,其特征在于,进一步,用前单词字母耦合搭配频率来挑选歧义单词,其步骤包括:
(i)在权利要求1步骤(d)之后,针对(a)中的歧义单词,从语料中统计出该单词与前面一个单词中的两个特定字母的耦合搭配频率,将该耦合搭配定义为前单词字母耦合,将该耦合和其频率保存在存储器中;
(j)就权利要求1步骤(g)中剩余的非组合数据串中的某个数据串Ui,在Ui-1对应的单词已经确定的情况下,因为Ui对应着歧义单词,处理器依据前面一个单词Ui-1的两个特定字母以及在步骤(i)中存储在存储器中相关的前单词字母耦合频率数据,从多个歧义单词中挑选出耦合频率最高中的一个单词来替换Ui
3. 根据权利要求1所述的方法,其特征在于,将一个方向键设定成数字输入状态进入键,在输入编辑状态下按压该方向键,可以进入该数字输入状态,并在该数字输入状态结束后自动返回输入编辑状态。
4. 根据权利要求1所述的方法,其特征在于,将一个方向键设定成字典以外单词自定义状态进入键,在输入编辑状态下按压该方向键,可以进入所述自定义状态,并在所述自定义状态结束后自动返回输入编辑状态。
5. 根据权利要求1所述的方法,其特征在于,将一个方向键设定成歧义单词挑选状态进入键,在输入编辑状态下按压该方向键,可以进入所述单词挑选状态,并在所述单词挑选状态结束后自动返回输入编辑状态。
6. 根据权利要求1所述的方法,其特征在于,将一个方向键设定成歧义单词跳转状态进入键,在输入编辑状态下按压该方向键,可以进入所述歧义单词跳转状态,并在所述跳转状态结束后自动返回输入编辑状态。
7. 根据权利要求1所述的方法,其特征在于,小键盘上没有对应字母的数据键与方向键一起构成复合扩展键组,在输入编辑状态下,通过先按压一次特定的数据键、再按压一次特定的方向键的复合操作方式来进入设定的拷贝粘贴状态、表情符号与特定短语操作状态,并在对应的状态结束后自动返回输入编辑状态。
8. 根据权利要求1所述的方法,其特征在于,在输入编辑确认完毕后,处理器按以下步骤自动学习用户确认的单词序列中的前后单词的组合特性:处理器按照从前到后的顺序,查找确认的单词序列中的每一个歧义单词及其前后的单词,①将歧义单词与其前一个单词、后一个单词组成“三单词组合”,②其次将歧义单词与其前一个单词组成“二单词组合”,③还将歧义单词与其后一个单词组成“二单词组合”,如果以上①②③中生成的任何一个单词组合没有出现在已有的“三单词组合”或“二单词组合”组合中,则将其作为一个新的自定义“单词组合”自动添加到存储器中。
9. 根据权利要求2所述的方法,其特征在于,将首字母加尾字母定义为所述的前单词的“两个特定字母”;如果前单词为单字母单词,则定义一个特例符为第二个特定字母;如果歧义单词在句首,设定句首标识符为该歧义单词的前单词的两个特定字母。
10. 根据权利要求2所述的方法,其特征在于,将首字母加第二个字母定义为所述的前单词的“两个特定字母”;如果所述前单词为单字母单词,则定义一个特例符为第二个特定字母;如果歧义单词在句首,设定句首标识符为该歧义单词的前单词的两个特定字母。
11. 根据权利要求2所述的方法,其特征在于,将首字母加首字母后的第一个辅音字母定义为所述的前单词的“两个特定字母”;如果所述前单词为单字母单词,则定义一个特例符为第二个特定字母;如果歧义单词在句首,设定句首标识符为该歧义单词的前单词的两个特定字母。
12. 根据权利要求3所述的方法,其特征在于,在输入编辑状态下按压该方向键进入数字输入状态后,处理器将紧靠在插入符之前的一个数据串显示成对应的数字,在用户按压空格键或其他特定键结束数字输入状态以后,处理器自动将状态返回到输入编辑状态。
13. 根据权利要求4所述的方法,其特征在于,在输入编辑状态下按压该方向键进入字典以外单词自定义状态后,处理器将紧靠在插入符之前的一个数据串的第一数据键所对应的小写字母、大写字母、阿拉伯数字、标点以及其他符号显示到候选框,用户在挑选该数据键所对应的一个字符后,处理器自动将该数据串的下一个数据键所对应的全部字符分页显示到候选框,供用户挑选,在用户按压空格键或其他特定键结束字典以外单词自定义状态以后,处理器自动将状态返回到输入编辑状态。
14. 根据权利要求5所述的方法,其特征在于,在输入编辑状态下,如果紧靠在插入符之前的一个数据串对应着多个歧义单词,按压该方向键进入歧义单词挑选状态后,处理器在候选框中罗列出该单词对应的歧义单词,并在用户挑选出某个特定的歧义单词后,歧义单词挑选状态结束,处理器自动将状态返回到输入编辑状态,并按照从前到后、最长匹配、字母耦合、高频优先的原则,处理器重新对数据串序列中未确认的单词进行替换。
15. 根据权利要求6所述的方法,其特征在于,在输入编辑状态下,如果数据串序列中有一个或者一个以上数据串对应着歧义单词,按压该方向键进入歧义单词跳转状态,处理器按从前到后、循环跳转的方式进行跳转,每跳转一次,则插入符移动到下一个歧义单词的后面,并自动返回到输入编辑状态。
CNB2005100513499A 2005-03-08 2005-03-08 一种小键盘上西语输入中的歧义处理与人机交互方法 Expired - Fee Related CN100416471C (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CNB2005100513499A CN100416471C (zh) 2005-03-08 2005-03-08 一种小键盘上西语输入中的歧义处理与人机交互方法
PCT/CN2006/000339 WO2006094454A1 (fr) 2005-03-08 2006-03-07 Traitement de mots ambigus et procede interactif de saisie de langue par lettres sur un pave numerique

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNB2005100513499A CN100416471C (zh) 2005-03-08 2005-03-08 一种小键盘上西语输入中的歧义处理与人机交互方法

Publications (2)

Publication Number Publication Date
CN1831730A CN1831730A (zh) 2006-09-13
CN100416471C true CN100416471C (zh) 2008-09-03

Family

ID=36952950

Family Applications (1)

Application Number Title Priority Date Filing Date
CNB2005100513499A Expired - Fee Related CN100416471C (zh) 2005-03-08 2005-03-08 一种小键盘上西语输入中的歧义处理与人机交互方法

Country Status (2)

Country Link
CN (1) CN100416471C (zh)
WO (1) WO2006094454A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7646317B2 (en) * 2007-04-30 2010-01-12 Jen-Te Chen Decoding method utilizing temporally ambiguous code and apparatus using the same
CN101727196B (zh) * 2008-10-20 2011-11-09 普天信息技术研究院有限公司 具有自学习功能的字符输入方法
CN101944079A (zh) * 2010-09-16 2011-01-12 西安双捷科技有限责任公司 数据输入的处理方法及装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
US6204848B1 (en) * 1999-04-14 2001-03-20 Motorola, Inc. Data entry apparatus having a limited number of character keys and method
US6307549B1 (en) * 1995-07-26 2001-10-23 Tegic Communications, Inc. Reduced keyboard disambiguating system
EP1378817A1 (en) * 2002-07-01 2004-01-07 Sony Ericsson Mobile Communications AB Entering text into an electronic communications device
US6734881B1 (en) * 1995-04-18 2004-05-11 Craig Alexander Will Efficient entry of words by disambiguation
US20040153975A1 (en) * 2003-02-05 2004-08-05 Williams Roland E. Text entry mechanism for small keypads
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6734881B1 (en) * 1995-04-18 2004-05-11 Craig Alexander Will Efficient entry of words by disambiguation
US6307549B1 (en) * 1995-07-26 2001-10-23 Tegic Communications, Inc. Reduced keyboard disambiguating system
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
US6204848B1 (en) * 1999-04-14 2001-03-20 Motorola, Inc. Data entry apparatus having a limited number of character keys and method
EP1378817A1 (en) * 2002-07-01 2004-01-07 Sony Ericsson Mobile Communications AB Entering text into an electronic communications device
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
US20040153975A1 (en) * 2003-02-05 2004-08-05 Williams Roland E. Text entry mechanism for small keypads

Also Published As

Publication number Publication date
WO2006094454A1 (fr) 2006-09-14
CN1831730A (zh) 2006-09-13

Similar Documents

Publication Publication Date Title
CN1834865B (zh) 一种小键盘上数字编码的汉语拼音和注音多字连续输入法
US7256769B2 (en) System and method for text entry on a reduced keyboard
CN100334529C (zh) 去多义性的简化键盘系统
US7649478B1 (en) Data entry using sequential keystrokes
US7395203B2 (en) System and method for disambiguating phonetic input
KR20020053784A (ko) 문자 입력 방법 및 이를 이용한 정보통신 서비스 방법
CN101008864A (zh) 一种数字键盘多功能、多语种输入系统和方法
CN101283571A (zh) 利用使用者终端机键盘上的符号字符输入多种语言的方法
CN101286096A (zh) 一种数字、字母和标点符号及输入方式的直接切换方法
CN102915122A (zh) 基于语言模型的智能移动平台拼音输入法
KR101599227B1 (ko) 한글과 영문 등의 문자 입력이 용이한 터치 스크린용 면촉 자판
KR20090007343A (ko) 키패드의 멀티캐릭터 키를 사용한 문자 숫자식 데이터 입력장치와 방법
JP2003015806A (ja) 文字入力システム及び通信端末
CN100416471C (zh) 一种小键盘上西语输入中的歧义处理与人机交互方法
CN101493729B (zh) 多类型字符的混合输入方法
CN101135936A (zh) 快速键入设备和方法
CN103026320A (zh) 用于输入汉字的方法及装置
CN1129838C (zh) 自由式小键盘中文输入方法
CN101261544A (zh) 一种字符和输入方式的直接切换方法
CN1987744A (zh) 一种数字键盘文本输入的实时翻译方法及系统
CN100390783C (zh) 进行格变换的方法和系统
JP6221275B2 (ja) 文字入力用のプログラムおよび文字入力装置
CN101533307B (zh) 一种汉字输入方法、键盘及应用该键盘的终端
JP2009129438A (ja) 携帯入力装置
KR100766717B1 (ko) 문자입력방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Free format text: FORMER OWNER: MA XIANLIANG CHEN BO

Effective date: 20121114

Owner name: BEIJING JINMUZHI TECHNOLOGY CO., LTD.

Free format text: FORMER OWNER: ZHANG YI

Effective date: 20121114

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 100089 HAIDIAN, BEIJING TO: 100028 CHAOYANG, BEIJING

TR01 Transfer of patent right

Effective date of registration: 20121114

Address after: 100028, room 3, floor 13, building 313, Sun Palace South Street, Beijing, Chaoyang District

Patentee after: Beijing thumb Technology Co., Ltd.

Address before: 100089 Beijing city Haidian District North wa Road No. 4 and apartment building 2 9G

Patentee before: Zhang Yifang

Patentee before: Ma Xianliang

Patentee before: Chen Bo

ASS Succession or assignment of patent right

Owner name: BEIJING KOMOXO INC.

Free format text: FORMER OWNER: BEIJING JINMUZHI TECHNOLOGY CO., LTD.

Effective date: 20130205

C41 Transfer of patent application or patent right or utility model
TR01 Transfer of patent right

Effective date of registration: 20130205

Address after: 100028, room 3, floor 13, building 313, Sun Palace South Street, Beijing, Chaoyang District

Patentee after: Beijing Baiwen Bao Technology Co. Ltd.

Address before: 100028, room 3, floor 13, building 313, Sun Palace South Street, Beijing, Chaoyang District

Patentee before: Beijing thumb Technology Co., Ltd.

C56 Change in the name or address of the patentee

Owner name: BEIJING BAIWENBAO TECHNOLOGY CO., LTD.

Free format text: FORMER NAME: BEIJING KOMOXO INC.

CP01 Change in the name or title of a patent holder

Address after: 100028, room 3, floor 13, building 313, Sun Palace South Street, Beijing, Chaoyang District

Patentee after: Beijing Baiwenbao Mobile Technology Co., Ltd.

Address before: 100028, room 3, floor 13, building 313, Sun Palace South Street, Beijing, Chaoyang District

Patentee before: Beijing Baiwen Bao Technology Co. Ltd.

C17 Cessation of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20080903

Termination date: 20140308