CN102023711A - 方言输入法 - Google Patents
方言输入法 Download PDFInfo
- Publication number
- CN102023711A CN102023711A CN2009100705533A CN200910070553A CN102023711A CN 102023711 A CN102023711 A CN 102023711A CN 2009100705533 A CN2009100705533 A CN 2009100705533A CN 200910070553 A CN200910070553 A CN 200910070553A CN 102023711 A CN102023711 A CN 102023711A
- Authority
- CN
- China
- Prior art keywords
- coding
- code element
- input
- code
- chinese character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明属于计算机汉字输入法领域,特别涉及带有形码辅助码的拼音输入法。当用户输入编码后,“输入编码分析器”将编码为拼音编码的候选字存储到“拼音候选字列表”中,将编码为拼音编码和形码编码的候选字存储到“形码候选字列表”中;“拼音序值分析器”根据“码元编码频度”为候选字排序;当用户选择候选字后,“输入编码处理器”将输入编码中的声母编码、韵母编码做为“声母码元”、“韵母码元”的“码元编码”存储到“码元数据库”中,将输入编码做为“已输入编码”存储到“汉字数据库”该汉字的“已输入编码”中。发明解决了拼音输入法无法输入方音口语的技术难题,具有显著的技术进步。
Description
技术领域
本发明属于计算机汉字输入法领域,特别涉及带有形码辅助码的拼音输入法。
技术背景
目前拼音输入法占有90%以上的计算机汉字输入法市场,这些拼音输入法均是以《汉语拼音方案》对汉字编码将汉字输入计算机设备。然而以普通话做为母语的人群只有几千万,不足汉语总人口的10%。即使在最接近普通话的官话方言区内,用户的发音也总是带有方音口语,从而形成了一种方言普通话现象。
针对普通话拼音输入法无法满足用户使用方音口语输入汉字的需要,出现了一些方言输入法。然而在方言与方言之间并没有清晰的界限,而且在方言内部还可以分化出次级方言。具体到每一个特定用户的方音口语更是千差万别。所以这些方言输入法无法做到通用性,只能局限于区域土语。
发明内容
针对拼音输入法无法满足每一个特定用户使用方音口语输入汉字的需要的技术问题,本发明的目的在于提供一种可以学习用户方音口语的汉字输入法。
本发明的目的是通过以下技术方案实现的:
(a)本发明包括以下装置:
用于存储汉字的“声母码元”、“韵母码元”、“拼音字频”、“形码编码”、“已输入编码”和“已输入编码频度”的“汉字数据库”;
用于存储“声母码元”、“韵母码元”的“码元编码”和“码元编码频度”的“码元数据库”;
用于存储编码为拼音编码的候选字的“拼音候选字列表”;
用于存储编码为拼音编码和形码编码的候选字的“形码候选字列表”;
当用户输入编码后,用于切分输入编码,将编码为拼音编码的候选字存储到“拼音候选字列表”中,将编码为拼音编码和形码编码的候选字存储到“形码候选字列表”中的“输入编码分析器”;
用于根据“码元编码频度”为候选字排序的“拼音序值分析器”;
当用户选择候选字后,用于将输入编码中的声母编码、韵母编码做为“声母码元”、“韵母码元”的“码元编码”存储到“码元数据库”中,将输入编码做为“已输入编码”存储到“汉字数据库”该汉字的“已输入编码”中的“输入编码处理器”;
(b)“输入编码分析器”将编码为拼音编码的候选字存储到“拼音候选字列表”中,其特征在于包含以下步骤:
在“汉字数据库”中查找,“已输入编码”等于输入编码的汉字;将该“已输入编码”的“已输入编码频度”设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“拼音候选字列表”中;
在其余未添加到“拼音候选字列表”的汉字中查找,“已输入编码”中的拼音编码等于输入编码中的拼音编码的汉字;将相应“已输入编码”的“已输入编码频度”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“拼音候选字列表”中;
在其余未添加到“拼音候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且没有“已输入编码”的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“拼音候选字列表”中;
在其余未添加到“拼音候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“拼音候选字列表”中;
(c)“输入编码分析器”将编码为拼音编码和形码编码的候选字存储到“形码候选字列表”中,其特征在于包含以下步骤:
在“汉字数据库”中查找,“已输入编码”等于输入编码的汉字;将该“已输入编码”的“已输入编码频度”设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,“已输入编码”中的拼音编码等于输入编码中的拼音编码,并且“形码编码”等于输入编码中的形码编码的汉字;将相应“已输入编码”的“已输入编码频度”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,“已输入编码”中的拼音编码等于输入编码中的拼音编码,并且“形码编码”的前几个代码等于输入编码中的形码编码的汉字;将相应“已输入编码”的“已输入编码频度”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且“形码编码”等于输入编码中的形码编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且“形码编码”的前几个代码等于输入编码中的形码编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码或者该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且“形码编码”等于输入编码中的形码编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,“形码编码”等于输入编码中的形码编码的汉字;将该汉字的“拼音字频”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
(d)“拼音序值分析器”根据“码元编码频度”为候选字排序,其特征在于包含以下步骤:
当汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码时,将该“码元编码”的“码元编码频度”除以该“声母码元”的所有“码元编码频度”总和的商设置为“声母系数”;
如果汉字发音的“声母码元”在“码元数据库”中的“码元编码”均不等于输入编码中的声母编码,那么将该汉字该拼音的“声母系数”设置为一个小于“汉字数据库”中,最大的“拼音字频”除以不为零的最小的“拼音字频”的商的倒数的正小数;
当该汉字该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码时,将该“码元编码”的“码元编码频度”除以该“韵母码元”的所有“码元编码频度”总和的商设置为“韵母系数”;
如果汉字发音的“韵母码元”在“码元数据库”中的“码元编码”均不等于输入编码中的韵母编码,那么将该汉字该拼音的“韵母系数”设置为一个小于“汉字数据库”中,最大的“拼音字频”除以不为零的最小的“拼音字频”的商的倒数的正小数;
将该汉字该发音的“声母系数”乘以该发音的“韵母系数”再乘以该发音的“拼音字频”设置为该发音的“拼音序值”;将该汉字所有发音的“拼音序值”的最大值设置为该汉字的“序度”;将所有符合条件的汉字按“序度”由大到小的顺序排序;
(e)当用户选择候选字后,“输入编码处理器”将输入编码中的声母编码、韵母编码做为“声母码元”、“韵母码元”的“码元编码”存储到“码元数据库”中,其特征在于包含以下步骤:
如果用户选择的候选字没有“已输入编码”或者“已输入编码”中的拼音编码均不等于该输入编码中的拼音编码,那么“输入编码处理器”将该输入编码中的声母编码做为该“声母码元”的“码元编码”存储到“码元数据库”中,将该输入编码中的韵母编码做为该“韵母码元”的“码元编码”存储到“码元数据库”中;具体过程为:
如果该汉字的“声母码元”在“码元数据库”中已经存储了等于该输入编码中的声母编码的“码元编码”,那么将该“码元编码”的“码元编码频度”加1;如果该汉字的“声母码元”在“码元数据库”中没有等于该输入编码中的声母编码的“码元编码”,那么将该输入编码中的声母编码存储为该“声母码元”的“码元编码”,并将该“码元编码”的“码元编码频度”设置为1;
如果该汉字的“韵母码元”在“码元数据库”中已经存储了等于该输入编码中的韵母编码的“码元编码”,那么将该“码元编码”的“码元编码频度”加1;如果该汉字的“韵母码元”在“码元数据库”中没有等于该输入编码中的韵母编码的“码元编码”,那么将该输入编码中的韵母编码存储为该“韵母码元”的“码元编码”,并将该“码元编码”的“码元编码频度”设置为1;
如果“声母码元”、“韵母码元”在“码元数据库”中预设的“码元编码”不等于用户输入的拼音编码,那么可以判断出用户该汉字的发音不等于该汉字的典型发音;
(f)当用户选择候选字后,“输入编码处理器”将输入编码做为“已输入编码”存储到“汉字数据库”该汉字的“已输入编码”中,其特征在于包含以下步骤:
如果该汉字在“汉字数据库”中已经存储了等于该输入编码的“已输入编码”,那么将该“已输入编码”的“已输入编码频度”加1;如果该汉字在“汉字数据库”中没有“已输入编码”或者“已输入编码”均不等于该输入编码,那么将该输入编码存储为该汉字的“已输入编码”,并将该汉字相应的“拼音字频”加1的值设置为该“已输入编码”的“已输入编码频度”。
(g)将汉字的每一个发音的声母音位、韵母音位做为汉字拼音编码的编码码元;将汉字的每一个发音的“声母码元”、“韵母码元”和该发音的“拼音字频”设置为一组,存储在“汉字数据库”中;
在“汉字数据库中”为每一个汉字记录设置多组“声母码元”、“韵母码元”、“拼音字频”字段,设置一个“形码编码”字段,设置多组“已输入编码”、“已输入编码频度”字段,可以如下结构:
{
声母码元1;韵母码元1;拼音字频1;
声母码元2;韵母码元2;拼音字频2;
......
形码编码;
已输入编码1;已输入编码频度1;
已输入编码2;已输入编码频度2;
......
}
(h)在“码元数据库”中,为每一个“声母码元”、“韵母码元”记录设置多组“码元编码”、“码元编码频度”字段,可以如下结构:
{
码元编码1;码元编码频度1;码元编码2;码元编码频度2;……
}
在“码元数据库”中,为每一个“声母码元”、“韵母码元”预设一个“码元编码”。
(i)选取150个常用偏旁部首做为对汉字字形编码的编码码元;将150个编码码元,按其汉语拼音首字母分成21组,指定到计算机通用键盘的21个字母键上,具体为:
b:卜、八、匕、勹、冫、贝、白、貝;
c:厂、艹、寸、彳、辶、车、虫、車;
d:丶、刂、刀、大、歹;
e:儿、耳;
g:广、弓、戈、革;
h:一、丷、火、灬、户、禾、虍;
j:冂、几、卩、巾、彐、己、孑、见、斤、钅、臼、見、角、釒、金;
k:凵、口;
n:女、牛、牜、鸟、疒、鳥;
p:丿、攵;
q:犭、犬、气;
r:亻、人、日;
s:亅、丨、十、厶、士、扌、山、彡、饣、氵、尸、巳、纟、水、礻、石、罒、糹、身;
t:亠、土、田;
w:囗、王、文;
y:、、讠、又、廴、弋、已、曰、月、衤、页、羊、雨、鱼、頁、魚;
依笔顺取汉字字形的第一、第二、最末一个编码码元的代码进行编码;当汉字的字形由两个编码码元组成时,依笔顺依次取其字形的第一、第二个编码码元的代码进行编码;当汉字的字形由一个编码码元组成时,取这个编码码元的代码进行编码;
单字输入:
输入汉字的拼音编码;
先输入汉字的拼音编码,再输入汉字的形码编码;
词组输入:
依次输入构成词组的汉字的拼音编码;
先依次输入构成词组的汉字的拼音编码,再依次输入汉字的形码编码。
(j)输入法候选字词窗口,分为拼音候选栏和形码候选栏;拼音候选栏用于显示“拼音候选字列表”中的候选字词;形码候选栏用于显示“形码候选字列表”中的候选字词;
1、2、3、4、5五个数字键定义为拼音候选字词选择键,用于选择拼音候选栏中的候选字词;7、8、9、0四个数字键定义为形码候选字词选择键,用于选择形码候选栏中的候选字词。
本发明分栏显示候选字词,有效地解决了输入编码切分冲突的问题。
本发明克服拼音输入法必须要有拼音编码的技术偏见,在“汉字数据库”中没有预设汉字的拼音编码,将汉字发音的“声母码元”、“韵母码元”做为拼音编码的编码码元具有实质性特点。本发明提供了一种不同构思的解决方案,输入法通过学习“声母码元”、“韵母码元”的“码元编码”,可以动态生成汉字的拼音编码。本发明不是让用户按照汉字的典型发音输入汉字,而是让输入法学习用户的方音口语,能够让用户使用自己的方音口语输入不等于典型发音的汉字,取得了预料不到的技术效果。本发明解决了拼音输入法无法输入方音口语的技术难题,具有显著的技术进步。
附图说明
图1是本发明拼音编码和形码全码输入单字的一个实施例;
图2是本发明拼音编码和形码简码输入单字的一个实施例;
图3是本发明拼音编码输入单字的一个实施例;
图4是本发明拼音编码输入词组的一个实施例。
具体实施方式
本发明可以使用任意一种音标系统标记汉字的发音。例如可以使用《汉语拼音方案》标记汉字的发音;在“音标数据库”中,为每一个《汉语拼音方案》标记的“声母码元”、“韵母码元”预设一个《汉语拼音方案》编码的“码元编码”。还可以使用国际音标标记汉字的发音;在“音标数据库”中,为每一个国际音标标记的“声母码元”、“韵母码元”预设一个方言拼音方案编码的“码元编码”。
下面举例说明本发明使用《汉语拼音方案》标记汉字的发音时,输入汉字的具体过程。
在“汉字数据库”中使用《汉语拼音方案》标记汉字的发音。其中/y/、/w/是虚音标,不表示实际发音。
在“码元数据库”中,为每一个《汉语拼音方案》标记的“声母码元”、“韵母码元”预设一个《汉语拼音方案》编码的“码元编码”。
音标 | 音标编码1 | 音标编码频度1 | 音标编码2 | 音标编码频度2 | ...... |
p | p | 1 | |||
y | y | 1 | |||
x | x | 1 |
in | in | 1 | |||
...... |
1输入第一个单字:
用户输入编码<pingshs>。
输入编码<pingshs>被切分为拼音编码<ping>和形码编码<shs>;输入编码<pingshs>中的声母编码为<p>,韵母编码为<ing>。
此时,“屏”、“洴”、“硑”、“拼”等字均没有“已输入编码”,并且“形码编码”等于输入编码中的形码编码<shs>。
“拼”字发音/pin/的“声母码元”/p/在“码元数据库”中的“码元编码”<p>等于输入编码中的声母编码<p>,“码元编码”<p>的“码元编码频度”1除以“声母码元”/p/的所有“码元编码频度”总和1的商是1,所以“拼”字该发音/pin/的“声母系数”是1;“拼”字该发音/pin/的“韵母码元”/in/在“码元数据库”中的“码元编码”均不等于输入编码中的韵母编码<ing>,所以“拼”字该发音/pin/的“韵母系数”是0.00001;将“拼”字该发音/pin/的“声母系数”1乘以该发音/pin/的“韵母系数”0.00001再乘以“拼”字该发音/pin/的“拼音字频”0.00009622858设置为该发音/pin/的“拼音序值”0.00000000096;将“拼”字所有发音的“拼音序值”的最大值0.00000000096设置为“拼”字的“序度”;将所有符合条件的汉字按“序度”由大到小的顺序排序,添加到“形码候选字列表”中。
如图1所示,编码为拼音编码<pingshs>的候选字显示在拼音候选栏中;编码为拼音编码<ping>和形码编码<shs>的候选字显示在形码候选栏中。
用户在候选窗口中选择“拼”字。
此时,“拼”字没有“已输入编码”,并且“拼”字只有一组“声母码元”/p/、“韵母码元”/in/。
“拼”字的“声母码元”/p/在“码元数据库”中已经存储了等于该输入编码中的声母编码<p>的“码元编码”<p>,所以将“声母码元”/p/的“码元编码”<p>的“码元编码频度”加1;
“拼”字的“韵母码元”/in/在“码元数据库”中没有等于该输入编码中的韵母编码<ing>的“码元编码”,所以将该输入编码中的韵母编码<ing>存储为该“韵母码元”/in/的“码元编码”<ing>,并将该“码元编码”<ing>的“码元编码频度”设置为1。
“拼”字没有“已输入编码”,所以将输入编码<pingshs>存储为“拼”字的“已输入编码”,并将“拼”字该发音/pin/的“拼音字频”0.00009622858加1的值1.00009622858设置为“拼”字该“已输入编码”<pingshs>的“已输入编码频度”1.00009622858。
2输入第二个单字:
用户输入编码<yingl>。
输入编码<yingl>被切分为拼音编码<ying>和形码编码<l>;输入编码<yingl>中的声母编码为<y>,韵母编码为<ing>。
此时,“韺”、“韹”、“音”等字均没有“已输入编码”,并且“形码编码”的第一个代码<l>等于输入编码中的形码编码<l>。
“音”字发音/yin/的“声母码元”/y/在“码元数据库”中的“码元编码”<y>等于输入编码中的声母编码<y>,“码元编码”<y>的“码元编码频度”1除以“声母码元”/y/的所有“码元编码频度”总和1的商是1,所以“音”字该发音/yin/的“声母系数”是1;“音”字该发音/yin/的“韵母码元”/in/在“码元数据库”中的“码元编码”<ing>等于输入编码中的韵母编码<ing>,“码元编码”<ing>的“码元编码频度”1除以“韵母码元”/in/的所有“码元编码频度”总和2的商是0.5,所以“音”字该发音/yin/的“韵母系数”是0.5;将“音”字该发音/yin/的“声母系数”1乘以该发音/yin/的“韵母系数”0.5再乘以“音”字该发音/yin/的“拼音字频”0.00056008620设置为该发音/yin/的“拼音序值”0.00028004310;将“音”字所有发音的“拼音序值”的最大值0.00028004310设置为“音”字的“序度”;将所有符合条件的汉字按“序度”由大到小的顺序排序,添加到“形码候选字列表”中。
如图2所示,编码为拼音编码<yingl>的候选字显示在拼音候选栏中;编码为拼音编码<ying>和形码编码<l>的候选字显示在形码候选栏中。
用户在候选窗口中选择“音”字。
此时,“音”字没有“已输入编码”,并且“音”字只有一组“声母码元”/y/、“韵母码元”/in/。
“音”字的“声母码元”/y/在“码元数据库”中已经存储了等于该输入编码中的声母编码<y>的“码元编码”<y>,所以将“声母码元”/y/的“码元编码”<y>的“码元编码频度”加1;
“音”字的“韵母码元”/in/在“码元数据库”中已经存储了等于该输入编码中的韵母编码<ing>的“码元编码”<ing>,所以将“韵母码元”/in/的“码元编码”<ing>的“码元编码频度”加1。
“音”字没有“已输入编码”,所以将输入编码<yingl>存储为“音”字的“已输入编码”,并将“音”字该发音/yin/的“拼音字频”0.00056008620加1的值1.00056008620设置为“音”字该“已输入编码”<yingl>的“已输入编码频度”1.00056008620。
3输入第三个单字:
用户输入编码<xing>。
输入编码<xing>被切分为拼音编码<xing>;输入编码<xing>中的声母编码为<x>,韵母编码为<ing>。
此时,“行”、“性”、“形”、“心”、“信”、“新”等字均没有已输入编码。
“新”字发音/xin/的“声母码元”/x/在“码元数据库”中的“码元编码”<x>等于输入编码中的声母编码<x>,“码元编码”<x>的“码元编码频度”1除以“声母码元”/x/的所有“码元编码频度”总和1的商是1,所以“新”字该发音/xin/的“声母系数”是1;“新”字该发音/xin/的“韵母码元”/in/在“码元数据库”中的“码元编码”<ing>等于输入编码中的韵母编码<ing>,“码元编码”<ing>的“码元编码频度”2除以“韵母码元”/in/的所有“码元编码频度”总和3的商是0.66667,所以“新”字该发音/xin/的“韵母系数”是0.66667;将“新”字该发音/xin/的“声母系数”1乘以该发音/xin/的“韵母系数”0.66667再乘以“新”字该发音/xin/的“拼音字频”0.00100885101设置为该发音/xin/的“拼音序值”0.00067257070;将“新”字所有发音的“拼音序值”的最大值0.00067257070设置为“新”字的“序度”;将所有符合条件的汉字按“序度”由大到小的顺序排序,添加到“拼音候选字列表”中。
如图3所示,编码为拼音编码<xing>的候选字显示在拼音候选栏中;编码为拼音编码<xi>和形码编码<ng>的候选字显示在形码候选栏中;编码为拼音编码<xin>和形码编码<g>的候选字显示在形码候选栏中。
用户在候选窗口中选择“新”字。
此时,“新”字没有“已输入编码”,并且“新”字只有一组“声母码元”/x/、“韵母音标”/in/。
“新”字的“声母码元”/x/在“码元数据库”中已经存储了等于该输入编码中的声母编码<x>的“码元编码”<x>,所以将“声母码元”/x/的“码元编码”<x>的“码元编码频度”加1;
“新”字的“韵母码元”/in/在“码元数据库”中已经存储了等于该输入编码中的韵母编码<ing>的“码元编码”<ing>,所以将“韵母码元”/in/的“码元编码”<ing>的“码元编码频度”加1。
“新”字没有“已输入编码”,所以将输入编码<xing>存储为“新”字的“已输入编码”,并将“新”字该发音/xin/的“拼音字频”0.00100885101加1的值1.00100885101设置为“新”字该“已输入编码”<xing>的“已输入编码频度”1.00100885101。
4输入词组:
用户输入编码“xingpingying”。
此时,“新”字所对应的输入编码为<xing>,“拼”字所对应的输入编码为<ping>,“音”字所对应的输入编码为<ying>。
如图4所示,编码为拼音编码<xingpingying>的候选字词显示在拼音候选栏中;编码为拼音编码<xingpingyi>和形码编码<ng>的候选字词显示在形码候选栏中;编码为拼音编码<xingpingyin>和形码编码<g>的候选字词显示在形码候选栏中。
用户在候选窗口中选择词组“新拼音”。
通过以上实施例可以得出:当用户发音的某个“声母码元”或“韵母码元”偶尔混淆为其他码元时,该码元的拼音系数接近于0,输入法可以通过“已输入编码”记住这些混淆字的拼音编码;当用户发音的某个“声母码元”或“韵母码元”总是混淆为其他码元时,该码元的拼音系数接近于1,输入法可以通过“码元编码”动态生成这些混淆字的拼音编码;当用户发音的某个“声母码元”或“韵母码元”部分混淆为其他码元时,该码元的拼音系数介于0与1之间,输入法可以通过“拼音字频”优先显示这些混淆字中的高频字。
本发明解决了拼音输入法无法输入方音口语的技术难题,开创了面向用户设计输入法的技术潮流,具有显著的技术进步。
Claims (5)
1.一种计算机汉字输入法,其特征在于:
(a)本发明包括以下装置:
用于存储汉字的“声母码元”、“韵母码元”、“拼音字频”、“形码编码”、“已输入编码”和“已输入编码频度”的“汉字数据库”;
用于存储“声母码元”、“韵母码元”的“码元编码”和“码元编码频度”的“码元数据库”;
用于存储编码为拼音编码的候选字的“拼音候选字列表”;
用于存储编码为拼音编码和形码编码的候选字的“形码候选字列表”;
当用户输入编码后,用于切分输入编码,将编码为拼音编码的候选字存储到“拼音候选字列表”中,将编码为拼音编码和形码编码的候选字存储到“形码候选字列表”中的“输入编码分析器”;
用于根据“码元编码频度”为候选字排序的“拼音序值分析器”;
当用户选择候选字后,用于将输入编码中的声母编码、韵母编码做为“声母码元”、“韵母码元”的“码元编码”存储到“码元数据库”中,将输入编码做为“已输入编码”存储到“汉字数据库”该汉字的“已输入编码”中的“输入编码处理器”;
(b)“输入编码分析器”将编码为拼音编码的候选字存储到“拼音候选字列表”中,其特征在于包含以下步骤:
在“汉字数据库”中查找,“已输入编码”等于输入编码的汉字;将该“已输入编码”的“已输入编码频度”设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“拼音候选字列表”中;
在其余未添加到“拼音候选字列表”的汉字中查找,“已输入编码”中的拼音编码等于输入编码中的拼音编码的汉字;将相应“已输入编码”的“已输入编码频度”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“拼音候选字列表”中;
在其余未添加到“拼音候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且没有“已输入编码”的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“拼音候选字列表”中;
在其余未添加到“拼音候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“拼音候选字列表”中;
(c)“输入编码分析器”将编码为拼音编码和形码编码的候选字存储到“形码候选字列表”中,其特征在于包含以下步骤:
在“汉字数据库”中查找,“已输入编码”等于输入编码的汉字;将该“已输入编码”的“已输入编码频度”设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,“已输入编码”中的拼音编码等于输入编码中的拼音编码,并且“形码编码”等于输入编码中的形码编码的汉字;将相应“已输入编码”的“已输入编码频度”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,“已输入编码”中的拼音编码等于输入编码中的拼音编码,并且“形码编码”的前几个代码等于输入编码中的形码编码的汉字;将相应“已输入编码”的“已输入编码频度”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且“形码编码”等于输入编码中的形码编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码并且该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且“形码编码”的前几个代码等于输入编码中的形码编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码或者该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码,并且“形码编码”等于输入编码中的形码编码的汉字;将所有符合条件的汉字,使用“拼音序值分析器”排序,添加到“形码候选字列表”中;
在其余未添加到“形码候选字列表”的汉字中查找,“形码编码”等于输入编码中的形码编码的汉字;将该汉字的“拼音字频”总和的值设置为该候选字的“序度”;将所有符合条件的汉字,按“序度”由大到小的顺序排序,添加到“形码候选字列表”中;
(d)“拼音序值分析器”根据“码元编码频度”为候选字排序,其特征在于包含以下步骤:
当汉字发音的“声母码元”在“码元数据库”中的“码元编码”等于输入编码中的声母编码时,将该“码元编码”的“码元编码频度”除以该“声母码元”的所有“码元编码频度”总和的商设置为“声母系数”;
当该汉字该发音的“韵母码元”在“码元数据库”中的“码元编码”等于输入编码中的韵母编码时,将该“码元编码”的“码元编码频度”除以该“韵母码元”的所有“码元编码频度”总和的商设置为“韵母系数”;
将该汉字该发音的“声母系数”乘以该发音的“韵母系数”再乘以该发音的“拼音字频”设置为该发音的“拼音序值”;将该汉字所有发音的“拼音序值”的最大值设置为该汉字的“序度”;将所有符合条件的汉字按“序度”由大到小的顺序排序;
(e)当用户选择候选字后,“输入编码处理器”将输入编码中的声母编码、韵母编码做为“声母码元”、“韵母码元”的“码元编码”存储到“码元数据库”中,其特征在于包含以下步骤:
如果用户选择的候选字没有“已输入编码”或者“已输入编码”中的拼音编码均不等于该输入编码中的拼音编码,那么“输入编码处理器”将该输入编码中的声母编码做为该“声母码元”的“码元编码”存储到“码元数据库”中,将该输入编码中的韵母编码做为该“韵母码元”的“码元编码”存储到“码元数据库”中;具体过程为:
如果该汉字的“声母码元”在“码元数据库”中已经存储了等于该输入编码中的声母编码的“码元编码”,那么将该“码元编码”的“码元编码频度”加1;如果该汉字的“声母码元”在“码元数据库”中没有等于该输入编码中的声母编码的“码元编码”,那么将该输入编码中的声母编码存储为该“声母码元”的“码元编码”,并将该“码元编码”的“码元编码频度”设置为1;
如果该汉字的“韵母码元”在“码元数据库”中已经存储了等于该输入编码中的韵母编码的“码元编码”,那么将该“码元编码”的“码元编码频度”加1;如果该汉字的“韵母码元”在“码元数据库”中没有等于该输入编码中的韵母编码的“码元编码”,那么将该输入编码中的韵母编码存储为该“韵母码元”的“码元编码”,并将该“码元编码”的“码元编码频度”设置为1;
(f)当用户选择候选字后,“输入编码处理器”将输入编码做为“已输入编码”存储到“汉字数据库”该汉字的“已输入编码”中,其特征在于包含以下步骤:
如果该汉字在“汉字数据库”中已经存储了等于该输入编码的“已输入编码”,那么将该“已输入编码”的“已输入编码频度”加1;如果该汉字在“汉字数据库”中没有“已输入编码”或者“已输入编码”均不等于该输入编码,那么将该输入编码存储为该汉字的“已输入编码”,并将该汉字相应的“拼音字频”加1的值设置为该“已输入编码”的“已输入编码频度”。
2.根据权利要求1所述的汉字输入法,其特征在于:
将汉字的每一个发音的声母音位、韵母音位做为汉字拼音编码的编码码元;将汉字的每一个发音的“声母码元”、“韵母码元”和该发音的“拼音字频”设置为一组,存储在“汉字数据库”中;
在“汉字数据库中”为每一个汉字记录设置多组“声母码元”、“韵母码元”、“拼音字频”字段,设置一个“形码编码”字段,设置多组“已输入编码”、“已输入编码频度”字段,可以如下结构:
{
声母码元1;韵母码元1;拼音字频1;
声母码元2;韵母码元2;拼音字频2;
......
形码编码;
已输入编码1;已输入编码频度1;
已输入编码2;已输入编码频度2;
......
}
3.根据权利要求1所述的汉字输入法,其特征在于:
在“码元数据库”中,为每一个“声母码元”、“韵母码元”记录设置多组“码元编码”、“码元编码频度”字段,可以如下结构:
{
码元编码1;码元编码频度1;码元编码2;码元编码频度2;……
}
在“码元数据库”中,为每一个“声母码元”、“韵母码元”预设一个“码元编码”。
4.根据权利要求1所述的汉字输入法,其特征在于:
选取150个常用偏旁部首做为对汉字字形编码的编码码元;将150个编码码元,按其汉语拼音首字母分成21组,指定到计算机通用键盘的21个字母键上,具体为:
b:卜、八、匕、勹、冫、贝、白、貝;
c:厂、艹、寸、彳、辶、车、虫、車;
d:丶、刂、刀、大、歹;
e:儿、耳;
g:广、弓、戈、革;
h:一、丷、火、灬、户、禾、虍;
j:冂、几、卩、巾、彐、己、孑、见、斤、钅、臼、見、角、釒、金;
k:凵、口;
n:女、牛、牜、鸟、疒、鳥;
p:丿、攵;
q:犭、犬、气;
r:亻、人、日;
s:亅、丨、十、厶、士、扌、山、彡、饣、氵、尸、巳、纟、水、礻、石、罒、糹、身;
t:亠、土、田;
w:囗、王、文;
依笔顺取汉字字形的第一、第二、最末一个编码码元的代码进行编码;当汉字的字形由两个编码码元组成时,依笔顺依次取其字形的第一、第二个编码码元的代码进行编码;当汉字的字形由一个编码码元组成时,取这个编码码元的代码进行编码;
单字输入:
输入汉字的拼音编码;
先输入汉字的拼音编码,再输入汉字的形码编码;
词组输入:
依次输入构成词组的汉字的拼音编码;
先依次输入构成词组的汉字的拼音编码,再依次输入汉字的形码编码。
5.根据权利要求1所述的汉字输入法,其特征在于:
输入法候选字词窗口,分为拼音候选栏和形码候选栏;拼音候选栏用于显示“拼音候选字列表”中的候选字词;形码候选栏用于显示“形码候选字列表”中的候选字词;
1、2、3、4、5五个数字键定义为拼音候选字词选择键,用于选择拼音候选栏中的候选字词;7、8、9、0四个数字键定义为形码候选字词选择键,用于选择形码候选栏中的候选字词。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100705533A CN102023711A (zh) | 2009-09-23 | 2009-09-23 | 方言输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2009100705533A CN102023711A (zh) | 2009-09-23 | 2009-09-23 | 方言输入法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102023711A true CN102023711A (zh) | 2011-04-20 |
Family
ID=43865081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2009100705533A Pending CN102023711A (zh) | 2009-09-23 | 2009-09-23 | 方言输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102023711A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105549757A (zh) * | 2015-12-18 | 2016-05-04 | 中山大学深圳研究院 | 一种普通话拼音输入方言词汇输出的输入法 |
-
2009
- 2009-09-23 CN CN2009100705533A patent/CN102023711A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105549757A (zh) * | 2015-12-18 | 2016-05-04 | 中山大学深圳研究院 | 一种普通话拼音输入方言词汇输出的输入法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108268444B (zh) | 一种基于双向lstm、cnn和crf的中文分词方法 | |
JP2022028887A (ja) | テキスト誤り訂正処理方法、装置、電子機器及び記憶媒体 | |
CN109036391A (zh) | 语音识别方法、装置及系统 | |
CN110765772A (zh) | 拼音作为特征的中文语音识别后的文本神经网络纠错模型 | |
CN105609107A (zh) | 一种基于语音识别的文本处理方法和装置 | |
CN110569505B (zh) | 一种文本输入方法及装置 | |
CN111833845A (zh) | 多语种语音识别模型训练方法、装置、设备及存储介质 | |
Shen et al. | CECOS: A Chinese-English code-switching speech database | |
CN101694601B (zh) | 零记忆汉字编码输入法 | |
CN114912450B (zh) | 信息生成方法与装置、训练方法、电子设备和存储介质 | |
CN103838392B (zh) | 高频词语并全部汉字快易的键盘、手写、语音输入法 | |
CN110222338A (zh) | 一种机构名实体识别方法 | |
JP6718787B2 (ja) | 日本語音声認識モデル学習装置及びプログラム | |
CN102053719A (zh) | 华文汉字输入法 | |
CN102023711A (zh) | 方言输入法 | |
CN1169041C (zh) | 音形拼音汉字输入法 | |
CN100568166C (zh) | 一种查字打字同码输入法及其输入装置和应用 | |
CN111428509B (zh) | 一种基于拉丁字母的维吾尔语处理方法和系统 | |
CN113204966B (zh) | 语料增广方法、装置、设备及存储介质 | |
CN1949148A (zh) | 一种汉字输入方法及装置 | |
KR20140079545A (ko) | 디코딩 방식에 기반한 다국어 형태소 분석 및 품사 태깅 방법 | |
CN1908870B (zh) | 单击与多键并击混合输入中英文的方法和键盘 | |
CN103135788B (zh) | 一种汉字四象意形输入法 | |
CN108459735A (zh) | 声韵双击触摸屏汉语拼音输入方法 | |
Mi et al. | Exploiting bishun to predict the pronunciation of chinese |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20110420 |