CN1700156A - 一种在输入法中词组连续输入的方法 - Google Patents
一种在输入法中词组连续输入的方法 Download PDFInfo
- Publication number
- CN1700156A CN1700156A CN 200510080900 CN200510080900A CN1700156A CN 1700156 A CN1700156 A CN 1700156A CN 200510080900 CN200510080900 CN 200510080900 CN 200510080900 A CN200510080900 A CN 200510080900A CN 1700156 A CN1700156 A CN 1700156A
- Authority
- CN
- China
- Prior art keywords
- phrase
- coding
- input
- input method
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种在输入法中词组连续输入的方法,包括步骤:101、用户使用中文输入法输入一个所需词组中第一个字的任意长度编码,输入法候选框显示与此编码相符的汉字;102、用户输入一个分隔符并继续输入所需词组中下一个字的任意长度编码,输入法将分隔符相隔的各输入编码与词组库中各词组编码进行逐一比较,并将编码匹配的词组在候选窗口显示出来;103、若所需词组出现,则用户选择需要的词组并完成输入,否则重复102、103步骤直到找到所需词组。本发明可以在任何通过对汉字进行逐一编码来进行输入的输入法中实现方便的、连续的词组输入功能。
Description
技术领域
本发明涉及中文输入技术,特别是涉及一种在输入法中词组连续输入的方法。
背景技术
汉字输入技术发展已经有20余年了,随着近几年来中国信息技术的发展,电脑迅速进入家庭,手机、电话等小型终端也十分普及,汉字输入技术更加发展,新的编码技术展出不穷。
就目前而言,我国的汉字输入方法是以对汉字进行逐个编码,用户根据编码用键盘进行汉字输入的方法为主。非编码的输入方法不多,主要是手写输入和语音输入。
对于以编码方式进行输入的输入法中,大部分仍然通过汉字拆分,记忆字根的方式来编码。而对于词组而言,也是采用对词组进行编码,一般而言是取首、尾若干字的几个编码,组成定长的词组编码,用户通过这些规律输入完全正确的编码来输入词组。
然而对于现在的市场环境而言,由于电脑用户已经是普通的人民群众,手机、电话等小型终端更是如此。在这种情况下,重码、高速已经不是用户第一需求,而简单、快捷则上升到用户的第一需求。正是在这样的市场环境下,虽然重码较高但却简单的输入法受到了普通用户的欢迎:如,拼音输入重新焕发活力,笔画输入也逐渐拥有大量的用户。
拼音之所以能重新受到用户亲睐,除了简单外,更重要的是拼音的连续词组输入解决了以前拼音输入很慢、重码奇高的问题。由于拼音分声、韵母,故可进行连续输入,程序根据声、韵母自动分词,可以轻松区分单字与词组,同时由于对词组中每个字均输入编码,增大了码长,降低了重码,显著加快了输入速度。
然而拼音仍然对指法及读音有要求,大量用户根本没法用,他们就会选择以笔画为代表的简单输入方法,但这些输入法由于没有拼音中的声、韵母,所以词组输入无法自动分词,如采用以前形码的固定词组编码方法,又会由于重码太多而根本无法实现快速的输入。
发明内容
本发明解决的技术问题在于提供一种在输入法中词组连续输入的方法,可以很方便的在非拼音输入法中进行词组的连续输入,从而达到快捷输入的目的。
为此,本发明解决技术问题的技术方案是:提供一种在输入法中词组连续输入的方法,包括步骤:
101、用户使用中文输入法输入一个所需词组中第一个字的任意长度编码,输入法候选框显示与此编码相符的汉字;
102、用户输入一个分隔符并继续输入所需词组中下一个字的任意长度编码,输入法将分隔符相隔的各输入编码与词组库中各词组编码进行逐一比较,并将编码匹配的词组在候选窗口显示出来;
103、若所需词组出现,则用户选择需要的词组并完成输入,否则重复102、103步骤直到找到所需词组。
步骤101所述编码相符是指输入编码是汉字的输入法编码从首位开始的子串。
步骤102中所述分隔符是指除中文输入法用到的码元外的任意字符。
步骤102中所述词组编码是指,词组库中每个词组均对应一组编码,该组编码由词组中每个汉字的完整输入法编码组成。
所述词组库中每个词组对应的一组编码,还可由词组中每个汉字的编码索引组成,程序可根据这个索引找到对应汉字的完整输入法编码。
步骤102中所述的逐一比较是指,遍历词组库,将分隔符相隔的n个输入编码按序与每个词组中前n个汉字的完整输入法编码进行比较。
步骤102中所述的匹配是指,在将分隔符相隔的n个输入编码按序与词组中前n个汉字的完整输入法编码进行比较时,当各输入编码均为对应顺序各汉字完整输入法编码从首位开始的子串时,即认为匹配。
本方法可运用于任何通过对汉字进行逐一编码来进行输入的输入法的词组输入功能中。
附图说明
图1是本发明的方法应用的系统的示意图;
图2是词组库中词组的编码储存示意图;
图3是词组库中词组的编码索引储存示意图;
图4是单字编码索引表示意图。
具体实施方式
请参阅图1,是本发明的方法应用的系统的示意图。
本发明的方法是用户在使用中文输入法进行输入时,如果输入编码的过程中输入了分隔符,即认为用户开始进行词组输入,此时输入法搜索词组库取得与编码相匹配的词组,显示到输入法候选框中供用户来选择输入。
这里提到的中文输入法,是指通过对汉字逐个编码来实现汉字输入的方法。在中文输入法中,每个汉字对应一个或多个编码。为方便表述,在下面的说明中,我们将以汉字编码为笔顺编码为例,数字“12345”分别代表汉字笔画“横竖撇点折”。
请一并参阅图2,是图1所示系统中词组库中一种词组编码储存方式的示意图,可以看到,词组编码的储存有别于以前各输入法定长编码的储存方式,而是储存了词组中每一个字的完整输入法编码;同时,如果每字有多种编码,也会同时储存。
下面以用户输入“中国共产党”这个词组,来讲解本发明方法的实现原理:
首先输入“中”的任意个笔画代码,如,“251”,此时输入法的候选框显示的是编码以251开头的汉字,然后输入一个分隔符(分隔符为除汉字编码码元外的任意字符,在此例中即为除“12345”外的任意字符,为表述方便,分隔符定为“.”),因为输入了分隔符,此时输入法不再搜索单字,而是遍历搜索词组库,搜索的方法为:找出词组库中第一个字的编码是以251开头的所有词组。此时,输入候选窗口显示:
1:因为 2:中国 3:只是 4:时间 5:时候 6:只有 7:同时 |
不难发现,每个词组第一个字均是以笔画代码“251”开头,由于没有“中国共产党”这个词组,接着进行下一步输入操作。
用户接着输入“国”字的任意个笔画代码,如,“2511”,输入法再遍历搜索词组库,将词组库中第一个字编码以“251”开头,第二个字编码以“2511”开头的所有词组搜索出来,并在输入候选窗口显示:
1:中国 2:只是 3:同时 4:眼睛 5:中国人 6:哪里 7:明显 |
仍然没有“中国共产党”,接着输入分隔符“.”,再输入第三个字“共”的任意个笔画代码,如,“12”,输入法用同样的办法在词组库中对词组前三个字的代码与对应输入编码比较,找出符合的词组,并在输入候选窗口显示:
1:中国共产党 2:中国政府 3:中国革命 4:另眼相看 |
“中国共产党”这个词组已经出现在第一位,用户可以直接选择,也可以按照以上办法继续输入后面几个字的笔画。
需要说明的是,由于词组库中储存了词组中每一个字的输入法完整编码,故用户在词组输入过程中,每一个字均可以输入任意长的编码,而不会影响到词组的正确匹配,这也就不必象传统输入法的词组输入那样有第几字取几码的规则了。
以上方法中,词组库中储存了词组每一个字的输入法完整编码,这将造成词组库十分庞大,词组中汉字的重复率很高,而单字本身在输入法中又对应的编码表,所以这样的方法是十分浪费储存空间的。
请一并参阅图3及图4,图3是图一所示系统中词组库中词组编码索引储存示意图,图4是图3所示储存图中单字编码索引表示意图。通过使用单字编码索引表,可以十分有效的降低词组库的大小,从而节省空间。
使用索引表的方式,本发明的基本方法与前文讲解的一致,只不过在进行输入编码与词组中单字编码进行比较时,需先根据词组中单字的索引,找到对应单字的输入法完整编码,再进行比较。例如,当比较到词组库中的“中国”时,“中”的索引值为“5”,此时查找“单字编码索引表”第5个,得到“中”的完整输入法编码“2512”,“国”的索引值为“20”,查找“单字编码索引表”第20个,得到“国”的完整输入法编码“25112141”。获得词组中相应个数单字的完整输入法编码后,再与用户输入的编码进行比较,得到符合的词组。
通过使用以上方法,用户可以方便的进行词组输入,而不必格外遵循任何词组的编码方法。由于输入分隔符的使用,使得非拼音的输入法也可以分词处理,同时可以将字输入与词输入分开搜索、显示,提高了效率,降低了重码率。由于连续的输入方式,增大了取码数量,可以有效的定位到词组。由于在词组库中可以使用索引表的方式来储存每个字的编码,大大降低了词组库的大小。
以上所述方法,可以运用在任意对汉字进行逐个编码的中文输入法中,可以内置到输入法程序中,也可以外挂到输入法。
Claims (8)
1.一种在输入法中词组连续输入的方法,其特征在于,包括步骤:
101、用户使用中文输入法输入一个所需词组中第一个字的任意长度编码,输入法候选框显示与此编码相符的汉字;
102、用户输入一个分隔符并继续输入所需词组中下一个字的任意长度编码,输入法将分隔符相隔的各输入编码与词组库中各词组编码进行逐一比较,并将编码匹配的词组在候选窗口显示出来;
103、若所需词组出现,则用户选择需要的词组并完成输入,否则重复102、103步骤直到找到所需词组。
2.根据权利要求1所述的一种在输入法中词组连续输入的方法,其特征在于:步骤101所述编码相符是指输入编码是汉字的输入法编码从首位开始的子串。
3.根据权利要求1所述的一种在输入法中词组连续输入的方法,其特征在于:步骤102中所述分隔符是指除中文输入法用到的码元外的任意字符。
4.根据权利要求1所述的一种在输入法中词组连续输入的方法,其特征在于:步骤102中所述词组编码是指,词组库中每个词组均对应一组编码,该组编码由词组中每个汉字的完整输入法编码组成。
5.根据权利要求4所述的一种在输入法中词组连续输入的方法,其特征在于:所述词组库中每个词组对应的一组编码,还可由词组中每个汉字的编码索引组成,程序可根据这个索引找到对应汉字的完整输入法编码。
6.根据权利要求1、4、5所述的一种在输入法中词组连续输入的方法,其特征在于:步骤102中所述的逐一比较是指,遍历词组库,将分隔符相隔的n个输入编码按序与每个词组中前n个汉字的完整输入法编码进行比较。
7.根据权利要求1、4、5、6所述的一种在输入法中词组连续输入的方法,其特征在于:步骤102中所述的匹配是指,在将分隔符相隔的n个输入编码按序与词组中前n个汉字的完整输入法编码进行比较时,当各输入编码均为对应顺序各汉字完整输入法编码从首位开始的子串时,即认为匹配。
8.根据权利要求1所述的一种在输入法中词组连续输入的方法,其特征在于:本方法可运用于任何通过对汉字进行逐一编码来进行输入的输入法的词组输入功能中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510080900 CN1700156A (zh) | 2005-07-04 | 2005-07-04 | 一种在输入法中词组连续输入的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 200510080900 CN1700156A (zh) | 2005-07-04 | 2005-07-04 | 一种在输入法中词组连续输入的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN1700156A true CN1700156A (zh) | 2005-11-23 |
Family
ID=35476239
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 200510080900 Pending CN1700156A (zh) | 2005-07-04 | 2005-07-04 | 一种在输入法中词组连续输入的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1700156A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193718A (zh) * | 2010-03-15 | 2011-09-21 | 邓桂成 | 一种汉字手写输入方法和汉字手写输入系统 |
CN103034340A (zh) * | 2012-12-04 | 2013-04-10 | 广东国笔科技股份有限公司 | 词组快速匹配输入方法及系统 |
CN105302332A (zh) * | 2014-07-25 | 2016-02-03 | 中国移动通信集团公司 | 一种拼音输入法及其实现装置 |
-
2005
- 2005-07-04 CN CN 200510080900 patent/CN1700156A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102193718A (zh) * | 2010-03-15 | 2011-09-21 | 邓桂成 | 一种汉字手写输入方法和汉字手写输入系统 |
CN103034340A (zh) * | 2012-12-04 | 2013-04-10 | 广东国笔科技股份有限公司 | 词组快速匹配输入方法及系统 |
CN105302332A (zh) * | 2014-07-25 | 2016-02-03 | 中国移动通信集团公司 | 一种拼音输入法及其实现装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1107915C (zh) | 用于编码读音前缀树的方法及系统 | |
CN110276052B (zh) | 一种古汉语自动分词及词性标注一体化方法及装置 | |
CN101079060A (zh) | 一种中文输入法简拼实现方法和系统 | |
CN113553848A (zh) | 长文本分类方法、系统、电子设备、计算机可读存储介质 | |
CN107169067A (zh) | 一种利用语音查询汉字的字典检索方法及系统 | |
CN114970503A (zh) | 一种基于预训练的字音字形知识增强的中文拼写纠正方法 | |
CN115965009A (zh) | 文本纠错模型的训练与文本纠错方法、设备 | |
CN1700156A (zh) | 一种在输入法中词组连续输入的方法 | |
CN101739142B (zh) | 五笔输入系统及方法 | |
CN112988967A (zh) | 基于两阶段解码的对话生成方法及装置、介质和计算设备 | |
CN102622359A (zh) | 搜索数据库中字符串的方法和装置 | |
CN102567424B (zh) | 一种诗词关联库系统及其实现方法和电子学习设备 | |
CN101436205A (zh) | 通过释义查询单字的方法与装置 | |
CN101046707A (zh) | 首音汉字输入法 | |
CN1648829A (zh) | 用于输入汉字的方法和系统 | |
CN100399245C (zh) | 中文拼音声调笔划组合输入法 | |
CN1510554A (zh) | 一种可嵌入应用的汉字输入法 | |
CN1144144C (zh) | 快速文字查找方法 | |
CN1106146A (zh) | 电脑汉字声韵调编码输入法及其键盘 | |
CN1074553C (zh) | Hlv汉字拼音输入方法 | |
CN1135482C (zh) | 中文近似语音搜寻方法 | |
CN1883959A (zh) | 英文电子词典数据中单词和音标的压缩方法 | |
CN1272655A (zh) | 英汉翻译机器 | |
CN115391484A (zh) | 面向长文本的稠密信息检索方法与系统 | |
CN1121007C (zh) | 汉字五音数码输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |