CN1308801C - 汉字句输入法 - Google Patents
汉字句输入法 Download PDFInfo
- Publication number
- CN1308801C CN1308801C CNB021127743A CN02112774A CN1308801C CN 1308801 C CN1308801 C CN 1308801C CN B021127743 A CNB021127743 A CN B021127743A CN 02112774 A CN02112774 A CN 02112774A CN 1308801 C CN1308801 C CN 1308801C
- Authority
- CN
- China
- Prior art keywords
- chinese character
- sentence
- chinese
- input
- code element
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种汉字句输入法。它以汉字、汉字拼音组成的汉字句数据库为平台。汉字句为汉语句中被非汉字符分隔开的两个以上连续的汉字组成的汉字段。汉字句键盘输入为:码元为汉字的声韵母或符号;码元与英文键盘的字母符号键相对应;用键盘将汉字句的编码依次键入:一般汉字句为首汉字取其码元的前一或二、三字母,末汉字取其声母及韵母的首字母,其余均取其首字母,特殊汉字句为姓名、地名时取其声韵母,且在姓氏与名字的码元间、地名各字的码元间插入符号-;汉字句语音输入为:汉字句语音信号与该汉字句拼音组合相对应;用计算机传声装置将汉字句以其语音信号依次读入。它具有简单、高速、思路顺畅的特点,可使打字速度与说话同步。
Description
技术领域
本发明涉及一种以汉字句数据库为技术平台的汉字句输入法。
背景技术
现有的汉字输入法,不论是编码输入法或是语音输入,都是以计算机存储的汉字字符所形成的汉字数据库为技术平台。因而这些输入法就只能用单字或少数单词为单位进行输入。用单字或单词输入,首先它们没有用句子输入的单位量大、速度快;其次,由于汉字中的形近、音同现象较为常见,这就形成了现有的汉字输入法,或重码率太高、或输入的编码字符过多、或规则复杂难记、或输入的准确率太低(如语音输入法),这给电脑普及化今天各行各业的人们输入汉字带来困难,致使正式场合的文字笔录,如大小会议记录、讲话记录、庭审记录等还仍用手工作业,一个汉字输入法瓶颈问题严重地阻碍着办公的现代化。同时,网上“聊天室”里时常出现将“昏倒”写成“hd”、“变态”写成“bt”、“呵呵”写成“hehe”、“呜呜”写成“wuwu”,还能将“就是”竟写成“94”、“谢谢”写成“3ks”等等,使汉语书面语中夹杂了一些像“3ks”、“94”等不伦不类的符号,也是现有的汉字输入法不能尽如人意而形成的恶果。它严重地影响着汉语书面语的健康和发展。长此以往,还将严重威胁汉语的生存与发展。时代要求汉字输入既要简单易学,更要把输入的速度提上来。输入速度最好能跟上说话速度。
现有的语音输入法,其准确率太低,不具有实用性,人们在正式场合的对话(如记者采访、记者招待会等)、会议上的讲话等仍还用手工笔录,严重地影响着办公的现代化。其原因就是汉字的同音字太多,而现有的语音输入又仅采用汉语语音的合成与汉字字符数据库相对应。而人们在利用语音输入时,人们语音输入的单位不是单字或单词,而是中间有一定停顿的句子,无法做到技术与实际输入的一一对应。
发明内容
本发明要解决的技术问题为克服现有技术中的不足之处,而提供一种以汉字句数据库为技术平台的汉字句输入法,尤其是利用键盘和语音都能输入的汉字句输入法。
所采用的技术方案为:汉字句为现代汉语句中被非汉字符分隔开的两个以上连续的汉字组成的一般汉字句或为两个以上汉字组成的姓名或地名的特殊汉字句;分别由汉字、汉字拼音组成的汉字句数据库;汉字句键盘输入为:码元为汉字的声母、韵母或符号,码元字符与英文键盘的字母符号键对应相同,利用英文键盘将下述取码方法确定的待输入的汉字句以码元字符组合成的编码依次键入:一般汉字句为首汉字取其码元的声母、首韵母或声母、前两个韵母,末汉字取其码元的声母、韵母的首字母,其余汉字均取其码元的首字母,特殊汉字句为姓名时取其码元的全部声、韵母,且在姓氏与名字的码元之间插入符号码元,为地名时取其码元的全部声、韵母,且在各字之间插入符号码元;汉字句语音输入为:汉字句语音信号与该汉字句拼音组合对应相同,利用计算机传声装置将下述语音识别方法确定的待输入的汉字句以其语音信号作为输入单元依次读入:一般汉字句依其语音信号依次读入,特殊汉字句在读入前按下键盘上的功能键后再依其语音信号依次读入。
作为本技术方案的进一步改进,所述的在汉字句键盘输入中,四字的一般汉字句的末汉字再取其码元的韵母的第二字母;所述的在汉字句键盘输入中,二字或三字的一般汉字句的末汉字再取其码元的韵母的第二或第二、三或第二、三、四字母;所述的在汉字句键盘输入中,特殊汉字句中姓为复姓时,其第二字取其码元的首字母;所述的符号为一;所述的同编码的或同音的汉字句用键盘的数字键或鼠标对同编码或同音的汉字句进行确认并输入;所述的在汉字句语音输入中,功能键为shift键。
所谓汉字句,是本发明规定的汉字句输入法的汉字输入单位。它是指中间没有空格、标点符号、阿拉伯数字、外文等符号,由两个及其以上汉字连续搭配而形成的现代汉语汉字句。现代汉语汉字句数据库是由上述的近千万个不同的现代汉语汉字句组成的数据库,它是从浩瀚、规范的原始语料中筛选出来的各种实用的现代汉语汉字句。
汉字句与汉语句既有联系又有区别。例如“这本书十二块五一本。”这句话,从汉语句子来看,它是一个句子。从本发明所指的汉字句来看,它中间没有插入汉字以外的任何符号,是由九个汉字连续搭配所形成的句子,也是汉字句。但这句话如改写成“这本书12.5元一本。”从汉语句子来说,它仍是一个句子。但从本发明所指的汉字句来看,则是被阿拉伯数字分隔成为两个短句,而不是一个短句:“这本书”和“元一本”。在汉语句子中,“这本书”可以成为短句,而“元一本”就不成句。而从本发明所指的汉字句来看,“这本书”和“元一本”中间都没有被汉字以外任何符号分隔开来,是分别由三个汉字组成的短句,应视为汉字句。本发明把这种汉语书面形式的短句,即被非汉字符号隔开的、由两个以上汉字连续搭配而形成的汉字段,称为汉字句,不再称它为汉语句。
此外,在汉语句子中,一个音节也可独立成句。当用一个汉字来表示时,要用标点符号配合使用才能标示清楚,如“是!”、“好。”等等。如将其中的标点符号舍弃掉,就成了两个单字,不再是独立的句子。孤零零的单句不属于本发明所指的汉字句。
不论是汉字句键盘输入或是汉字句语音输入,或者是汉语书面语校对软件技术等,都不能依靠现有的汉字或汉字词数据库这个技术平台,因为它们都是以句子而不是以单字或单词为单位进行技术操作的。要解决汉字输入这个技术瓶颈,就要抓住由汉字组成的句子而不是单字或单词这个中心。因此,必须建立涵盖方方面面的书面语言的现代汉语汉字句数据库。
大家知道,汉字之间的相互搭配不是任意的,是有一定规律的。比如“蜻”字后面一般只接“蜓”字,“垃”后面一般只接“圾”字,姓氏后面所接的字一般为褒义,一些冷僻字往往是地名的专用字。就是使用频率较高的常用字,它们之间的搭配也有相对固定的习惯搭配关系。鉴于这样的情况,本发明人通过十年多的思考和努力,以《人民日报》等报刊十余年来刊登的所有文章、多种现当代小说、散文集、中小学中文课本、各地新修的地方志、大量的人名地名资料等为原始语料,结合《现代汉语词典》、《百科大辞典》、《中国古代名句辞典》、《现代成句句典》等为代表的词典和句典所收录的词句,共计12000多万字的相关语料作为汉字连续搭配关系的研究对象,用计算机作批量处理,将它们进行梳理,得到800多万个不同的汉字句。并以这800多万个汉字句为基础,进行汉字间搭配的全方位研究,弄清了这么多短句中所有汉字相互搭配的基本关系,建立了每个汉字与其它汉字相互搭配组成的汉字句数据库和与其对应的汉字句拼音组成的汉字句数据库。也可直接将由汉字组成的汉字句数据库和汉字拼音组成的汉字句数据库以各种实用的完整的汉字句为存储单元建立汉字句数据库,人名地名所形成的特殊汉字句也附在汉字句数据库中。然后,本发明人根据这两数据库中的汉字句中的汉字间相互搭配关系与其拼音字母的对应关系作进一步的编码研究,得出了上述汉字句键盘输入和语音输入的可行性实施方案。
研究证明,汉字句键盘辅入一般没有重码,只有极少数编码有重码,但重码的量较之拼音输入法要少得多。例如,2001年《人民日报》刊发的所有文章中,依汉字句进行分析,多数汉字句为10个字以上。以“ji”打头的(包括ji、jia、jian、jiang、jiao、jie、jin、jing、jiong、jiu等十个音节)不同汉字句共有114432个,这是汉字句中以首汉字的前两个拼音字母编码的最多的一个大类音节。其中两字句1349个,三字句2047个,四字句5301个,五字句3159个,六字以上句102576个。将114432个汉字句以首字为前两个拼音字母所形成的大类音节和前三个拼音字母所形成的大类音节按上述方案进行编码输入,并作比较研究。研究结果发现,首字以“ji”编码输入的,四字以上的汉字句基本没有重码,有重码的主要是两字、三字句。两字句共有226个不同编码形成1299个不同汉字句,重码率为1299/1349=96.29%,特别是以jishi为代表的编码重码量最高,共38个:技师、及时、纪实、即市、集市、急事、记事、纪事、即是、既是,架式、讲师、教师、见识、驾驶、家事、腔事、减事、讲事、监视、教室、将是、假释,结识、结实、节时、届时、解释,警示、尽失、经师、京石、进食、近视、仅是、尽是,旧事、就是;在20个以上的还有jizhi(31个)、jijian(22个)、jixian(21个)、jili(20个);这虽然比拼音输入法的重码率还低(在6763个常用字[即基本集字库]中,ji编码的字有109个;在20902个字[扩展字库]中ji编码的字有382个),但上述的38个两字句大多数是常见的,还应作进一步分解。如果首字以前三个拼音字母所形成的大类音节行编码输入,原来首字以ji大类音节的上述38个两字汉字句就被ji、jia、jie、jin、jiu等五个比较小一点的大类音节分担了,结果最多的是jia,共13个:架式、讲师、教师、见识、驾驶、家事、监事、减事、讲事、监视、教室、将是、假释。如用“高频先见”和“用过提前”等软件处理,打字时基本不用“翻页”。
以“ji”打头的三字句共有385个不同编码形成1053个不同汉字句,重码率为385/2074=18.56%,特别是以jijde为代表的编码重码量最高,共13个:积极的、激进的、积极地、艰巨的、渐渐地、坚决地、结局的、经济的、静静的、静静地、紧紧地、九届的、久久地。如果首字以前三个拼音字母所形成的大类音节进行编码输入,原来首字以ji大类音节的三字汉字句的2047句,就被ji、jia、jie、jin、jio、jiu等六个比较小一点的大类音节分担了,结果是只有222个不同编码形成501句,重码率为222/2074=10.70%。上述的13个三字汉字句也被ji(积极的、激进的、积极地)、jia(艰巨的、渐渐地、坚决地)、jie(结局的)、jin(经济的、静静的、静静地、紧紧地)、jiu(九届的、久久地)等五个音节分担了,重码量最大的不过4个。结合12000多万字的原始语料作进一步研究,三字短句的个别重码,每个重码量最多不过6个。
又如,在2001年全年的《人民日报》所刊登的文章中,以“在”字打头的汉字句最多,共有36465个,但以zai音节打头的其它汉字句不多,加在一起只有3675个,只是“在”字句的零头,因而其重码率也不高。只在其二字或三字汉字句中有些重码,但其重码的量也不大:zai音节打头的两字句共有76个,其中只有zaixian这个编码的重码量最多,达到5个。三字句共有984个,其中133个编码形成300个有重码的句子,重码率为133/984=13.52%。重码量最多的只有一个,即zaisqu编码组成了5个单独使用的汉字句:在山区、在社区、在市区、在苏区、在沙区。同一个编码的重码量达4个的也只有3个:zaicshi、zaisli、zaixxi。其它都在3个以下。
研究已经证明,以现代汉语汉字句为基础而形成的本发明的汉字句输入法,不仅在输入汉字时要比任何拼音简码输入法更节省击键数,而且,因为它以短句为单位进行整句输入,其输入速度更快。这个速度可以达到与人们说话同步的程度。在每输入一个短句时,基本做到每字一键,且无重码。少数有重码的,每个重码一般不超过10个,即在输入时无需“翻页”。就是输入人名,也较少有重码,重码多者,也不过“翻两页”。
汉字句输入法和本发明人已申请的汉语识字码输入法[96116943.5]的珠联璧合,可以做到没有不能快速打出的话,没有打不出的汉字。可以想到哪打到哪、说到哪打到哪,毫不费力费时。从此,普通老百姓的口语速记,都将在电脑中轻松而完美地实现。
汉字句语音输入比起汉字句键盘输入所使用的有效语素编码信息更多,其区别力更强。只要汉字句键盘输入方案可行,汉字句语音输入方案就更可行。比如汉字句键盘输入一句话时,除首尾两字的编码信息较多,而中间的汉字只用其拼音字母的首字母,而汉字句语音输入时,一句活中的各个汉字的汉语拼音都是全部的,没有简略也不可能简略。
相对于现有技术的有益效果是:
其一,规则极其简单。本发明的主要技术,只用不到200字的一段话就能说明白,输入者不必记忆与汉字知识无关的,诸如“拆字知识”“字根表”“键盘图”等所谓“编码知识”,没有记忆上的思想负担。
其二,汉字输入与工作或创作思路极其一致。我们知道,各行各业的专业人员在打字时,他们与专业打字人员所思考的问题不同。专业打字人员只要思考如何打字,而各行各业的专业人员在打字时主要思考的不是如何打字,而是思考工作或创作等内容,如让他们在打字时背上思考汉字与编码转换这个负担,就会打断或干扰他们的工作或写作思路。本发明的编码与汉字的拼音字母相一致,可以像打拼音文字那样直接打拼音,输入者用不着思考编码与文字的转换问题。它可实现盲打或“想打”。没有因编码转换问题而影响输入者的工作或创作思路。特别是,一句话中,除首尾两字外,其中间各字,只要输入各字的首声母,即使输入者的汉语拼音水平不高,或受方言影响而搞不清汉字的拼音字母时,也不影响打字。
其三,平均输入每个汉字的击键数极少。输入10个字以上的一句话(经统计,汉字句绝大多数为10字以上),除首字和末字输入两码或三码外,其余各字只要输入一码。
其四,每次输入的单位字量极大。本输入法以汉字句为单位进行输入,它每次输入汉字的数量要比现有的以单字或单词为单位的数量大好几倍。因此,以汉字句为单位进行输入,则是汉字输入的最大单位。因此它具有简单、高速、思路顺畅的独特优点。
其五,人名地名的输入也变得简单容易。由于本发明所建的汉字句数据库,把地名和姓名作为特殊汉字句放在数据库中,这就将地名、姓名用字从一般用字中分流出来,使其能够减少重码。如用拼音输入法输入人名“仉伟”时,不说在大字符集,就说在6763个字的汉字基本集里,就要在“张章长帐仗丈掌涨樟彰漳杖账胀障瘴仉鄣幛嶂獐嫜璋蟑”等24个同声韵母字中去查找。由于姓名和地名用字的搭配关系单独建立在数据库中,上述24字中,只有“张章仉掌”四字作为姓氏用字,其它都不作姓氏用字。键入编码zhang-wei时,与“伟”字结合,只会出现“张伟、章伟、仉伟、掌伟”四个人名,把复杂多变的姓名用字变成了可以掌握的汉字的搭配关系。至于地名用字,较之姓名用字的汉字间搭配关系要简单得多,一般变化不大。
其六,口语语音输入极准。由于本发明以现代汉语汉字句数据库为技术平台,这就为汉字句语音输入建立了汉字可能相互搭配的参照物,排除了汉字因同音而乱搭配的可能性,使语音输入极其准确。现有的语音输入法之所以不具有实用性,就是没有这个参照物,让同音字的乱搭配成为可能而造成了混乱。
其七,与本发明人发明的汉语识字码输入法连用,则没有打不出的汉字,没有打不出的话。打字速度可达到与说话同步的程度。汉字句输入法的编码与本发明人发明的汉语识字码输入法的编码从编码上看是完全分流的,两者不发生任何冲突,两者可融为一体,制成一个输入法软件。例如输入上述“仉伟”一名时,如果“仉”字读不出字音,就可用本发明人发明的汉语识字码输入法,将“仉”拆分为“亻”和“几”两个偏旁,取“亻”旁的汉语拼音首字母r再取“几”的声韵母ji,即键入rji三字母,就可打出读不出字音的“仉”字来;打“伟”时,只要键入“亻”旁的汉语拼音首字母r和“韦”旁的首字母w,即键入rw两字母,就可打出“伟”字来。
具体实施方式
一、汉字句键盘输入
例一:这本书十二块五一本。
分析:这句话是由九个汉字连续搭配成的汉字句。可用汉字句为单位进行输入。
输入:这本书十二块五一本——依次键入zhebssekwybe十二个字母,就可获得输入“这本书十二块五一本”的效果。即先键入“这”字中汉语拼音的第一、二、三字母zhe,再键入中间“本书十二块五一”七个字声母的首字母bssekwy和最末一字“本”的声母及其首韵母be。
例二:这本书12.5元一本。
这可作三种方式进行输入:
分析一:这句话的汉字连续搭配,中间被“12.5”分隔开来。将其视为“这本书”和“元一本”两个汉字句进行输入。
输入一:这本书——依次键入zhebshu七个字母,就可获得输入“这本书”的效果。即先键入“这”字的第一、二、三汉语拼音字母zhe,再键入中间“本”字声母b和最末一字“书”的声韵母shu。
元一本——依次键入yuayben七个字母,就可获得输入“元一本”的效果。即先键入“元”字汉语拼音的第一、二、三字母yua,再键入中间“一”字声母y和最末一字“本”的声韵母hen。
分析二:把这句话中的阿拉伯数字“12.5”忽略不计,形成一个汉字句:这本书元一本,按汉字句的输入方法进行输入,然后再补上阿拉伯数字“12.5”。
输入二:这本书元一本——依次键入zhebsyybe九个字母,就可获得输入“这本书元一本”的效果。即先键入“这”字汉语拼音的第一、二、三字母zhe,再键入中间“本书元一”四字首声母bsyy和最末一字“本”的声母和其首韵母be。
分析三:将“这本书12.5元一本。”这句话“汉化”为“这本书十二元五角一本”,然后按“这本书十二元五角一本”的汉字句进行输入。
输入三:这本书十二元五角一本——依次键入zhebsseywjybe十三个字母,就可获得输入“这本书十二元五角一本”的效果。
例三:本报讯9月29日晚,中国记协举办“2001年中外记者庆国庆中秋赏月会”,来自首都和外国驻京新闻媒体的150多名新闻工作者在北京大观园公园欢聚一堂,共庆佳节。(《人民日报》2001年10月1日第二版的《中外记者共庆佳节》一文的开头一段话)
这段话可作三种分析和输入:
分析一:这句话被空格、阿拉伯数字、引号、逗号、句号等分隔成以下8个汉字段:“本报讯、月、日晚、中国记协举办、年中外记者庆国庆中秋赏月会、来自首都和外国驻京新闻媒体的、多名新闻工作者在北京大观园公园欢聚一堂、共庆佳节”。除去“月”一个单字外,其余7个均符合本发明所指的汉字句,可用本发明的输入法进行汉字输入。
输入一:本报讯——依次键入benbxun七个字母,就可获得输入“本报讯”的效果。即先键入“本”字汉语拼音的第一、二、三字母ben,再键入中间一个“报”字的声母b和“讯”字的声韵母xun。
日晚——依次键入riwan五个字母,就可获得输入“日晚”的效果。即先键入“日”字汉语拼音字母ri,再键入“晚”字的声韵母wan。[也可用汉语识字码输入法作“日”和“晚”两个单字进行输入:日,汉语识字码输入法的简码为r,键入r就可打出“日”字;再键入“晚”的两个偏旁“日”和“免”的声母rm,就可打出“晚”字。]
中国记协举办——依次键入zhogjxjba九个字母,就可获得输入“中国记协举办”的效果。即先键入“中”字汉语拼音的第一、二、三字母zho,再键入中间“国记协举”四字的声母gjxj和“办”字的声母及其韵母的首字母ba。
年中外记者庆国庆中秋赏月会——依次键入niazwjzqgqzqsyhu十六个字母,就可获得输入“年中外记者庆国庆中秋赏月会”的效果。即先键入“年”字汉语拼音的第一、二、三字母nia,再键入中间“中外记者庆国庆中秋赏月”十一个字拼音的首字母zwjzqgqzqsy和“会”字的声母及其首韵母hu。
来自首都和外国驻京新闻媒体的——依次键入laizsdhwgzjxwmtde十七个字母,就可获得输入“来自首都和外国驻京新闻媒体的”十四个字的效果。
多名新闻工作者在北京大观园公园欢聚一堂——依次键入duomxwgzzzbjdgygyhjyta二十二个字母,就可获得输入“多名新闻工作者在北京大观园公园欢聚一堂”十九个字的效果。
也可将上述“来自首都和外国驻京新闻媒体的”和“多名新闻工作者在北京大观园公园欢聚一堂”两句较长,各自视为两个汉字句:“来自首都”、“和外国驻京新闻媒体的”、“多名新闻工作者”、“在北京大观园公园欢聚一堂”,再按汉字句的方法进行输入。
共庆佳节——依次键入gonqjjie八个字母,就可获得输入“共庆佳节”的效果。
分析二:上面例句中,其中有三句话被阿拉伯数字分隔开来,可作不同于“分析一”的分析:1.“9月29日晚”这句汉语短句被阿拉伯数字分隔成“月”和“日晚”两个汉字段,单字“月”无法用本发明的汉字句为单位进行输入。但可作为本发明的一种变通,将它视为由汉字连续搭配的短句——九月二十九日晚,然后按“九月二十九日晚”这个汉字句进行输入。2.“2001年中外记者庆国庆中秋赏月会”这句话也可作“二○○一年中外记者庆国庆中秋赏月会”的“汉化”分析,再按汉字句输入法的方法进行输入。3.“来自首都和外国驻京新闻媒体的150多名新闻工作者在北京大观园公园欢聚一堂”这句话也可作“来自首都和外国驻京新闻媒体的一百五十多名新闻工作者在北京大观园公园欢聚一堂”的“汉化”分析,然后可将“汉化”后的这个较长的汉字句,再按汉字句输入法的方法进行输入。
输入二:九月二十九日晚——即键入jiuyesjrwa,就可获得输入“九月二十九日晚”的效果。
二○○一年中外记者庆国庆中秋赏月会——即键入erllynzwjzqgqzqsyhu,就可获得输入“二○○一年中外记者庆国庆中秋赏月会”的效果。
来自首都和外国驻京新闻媒体的一百五十多名新闻工作者在北京大观园公园欢聚一堂——即键入laizsdhwgzjxwmtdybwsdmxwgzzzbjdgygyhjyta,就可获得输入“来自首都和外国驻京新闻媒体的一百五十多名新闻工作者在北京大观园公园欢聚一堂”的效果。
也可将上述“汉化”后的“二○○一年中外记者庆国庆中秋赏月会”的句子作两个短句进行输入:“二○○一年中外记者”和“庆国庆中秋赏月会”;上述“汉化”后的“来自首都和外国驻京新闻媒体的一百五十多名新闻工作者在北京大观园公园欢聚一堂”也可作四个短句进行输入:“来自首都”、“和外国驻京新闻媒体的”、“一百五十多名新闻工作者”、“在北京大观园公园欢聚一堂”四个汉字句,再按汉字句输入法的方法进行输入。
(其它汉字句与“输入一”方法相同)
分析三:这段话中的“9月29日晚”,被阿拉伯数字分隔成“月”和“日晚”两个汉字段,单字“月”无法用本发明的汉字句为单位进行输入。为解决“月”的输入问题,可将这句中的阿拉伯数字忽略不计,将“月”这个不足两字的字段与“日晚”连作一个达三个汉字连续搭配的短句——月日晚,进行输入。其它两个有阿拉伯数字的汉语句——“2001年中外记者庆国庆中秋赏月会”、“来自首都和外国驻京新闻媒体的150多名新闻工作者在北京大观园公园欢聚一堂”,虽被阿拉伯数字隔开,但其隔开后的汉字句仍都较长,都超过三个连续搭配的汉字,符合本发明的汉字句输入法的条件,可不必忽略其阿拉伯数字,再将已被阿拉伯数字分隔开来的两个汉字句连接在一起。
输入三:月日晚——即键入yuerwan,就可获得输入“月日晚”的效果。
(其它汉字句与“输入一”相同)
例四:刚刚过去的“九五”,国内外经济环境就极其复杂,外有亚洲金融风暴冲击,内有特大洪水肆虐;先有通货膨胀干扰,后有通货紧缩叫板。(《人民日报》2001年1月3日第五版的《了不起的一万亿》)
分析:开头一句——刚刚过去的“九五”,按汉字句分析,则应是“刚刚过去的”和“九五”两个短句,就按这两个短句进行输入。
输入:刚刚过去的——即键入ganggqde,就可获得输入“刚刚过去的”的效果。
九五——即键入jiuwu,就可获得输入“九五”的效果。
(这句中的其它汉字句输入与前面的方法相同,略)
例五:……守门员江津,右边后卫陈刚,左边后卫吴承瑛,盯人中卫李玮峰,拖后中卫张恩华,右前卫李霄鹏,左前卫申思,李铁和祁宏是双后腰,马明宇打前腰,杨晨司职前锋。(《人民日报》2001年1月11日8版)
分析:这句话中,共有人名11个人:江津、陈刚、吴承瑛、李玮峰、张恩华、李霄鹏、申思、李铁、祁宏、马明宇、杨晨。其中在句首的:李铁和祁宏是双后腰,马明宇打前腰,杨晨司职前锋;在句中的:李铁和祁宏是双后腰:在句末的:守门员江津,右边后卫陈刚,左边后卫吴承瑛,盯人中卫李玮峰,拖后中卫张恩华,右前卫李霄鹏,左前卫申思。他们都按人名这个特殊汉字句的方法来输入。
输入:守门员江津——按“守门员”、“江津”两个短句来输入:“守门员”即键入shomyuan,“江津”即键入jiang-jin,就可获得输入“守门员江津”的效果。
右前卫李霄鹏——按“右前卫”、“李霄鹏”两个短句来输入:“右前卫”即键入youqwei,“李霄鹏”即键入li—xiaopeng。就可获得输入“右前卫李霄鹏”的效果。(“右边后卫陈刚,左边后卫吴承瑛,盯人中卫李玮峰,拖后中卫张恩华”等输入方法同此)
李铁和祁宏是双后腰——按“李铁”、“祁宏”、“是双后腰”三个短句及一个“和”字来键入:“李铁”即键入li-tje,“和”字可用汉语识字码输入法输入,即键入“和”的拼音简码h,“祁宏”即键入qi-hong,“是双后腰”即键入shishyao,就可获得输入“李铁和祁宏是双后腰”的效果。(“马明宇打前腰,杨晨司职前锋”等输入方法同此)
例六:北京有个奤夿屯。
分析:“北京”是个常用地名,又与其它汉字连续排列,应将它与其连续的汉字一起作一个汉字句;“奤夿屯”是县以下一般地名,作特殊汉字句对待,因此整个这句话应作两个短句输入。
输入:北京有个——即键入beijyge,就可获得输入“北京有个”的效果。
奤夿屯——依次键入“奤”字的拼音字母ha,连接符-,“夿”的拼音字母ba,连接符-,“屯”的拼音字母tun,即键入ha-ba-tunu,就可获得输入“奤夿屯”的效果。
对于不认识这个地名中的汉字的输入者来说,也可用本发明人的“汉语识字码输入法”进行输入:奤,键入“奤”字的“大”的首声母d和“而”的首声母及其韵母的前两个字母mia,即键入dmia就可打出“奤”字;键入“夿”字的“大”的首声母d和“巴”的首声母及其韵母ba,即键入dba就可打出“夿”字;“屯”字是独体字,只要打其拼音字母的前两字母tu。
例七:北宋名臣司马光和他的哥哥司马旦,就是两个不信风水的人。(《人民日报》2001年1月6日7版《风水学是一门学科?》)
分析:该句“北宋名臣司马光和他的哥哥司马旦”中的“司马光”和“司马旦”是人名,“司马”是复姓,“光”和“旦”是名。该句应作“北宋名臣”、“司马光”、“和他的哥哥”和“司马旦”四个汉字句进行输入。其中,“司马光”和“司马旦”的输入方法是:
输入:司马光——依次键入“司”的拼音字母si,“马”的拼音字母首字母m,连接符-,“光”的拼音字母guang,即键入sim-guang,就可获得输入“司马光”的效果。
司马旦——依次键入“司”的拼音字母si,“马”的拼音首字母m,连接符-,“旦”的拼音字母dan,即键入sim-dan,就可获得输入“司马旦”的效果。
(其它汉字句的输入方法同前)
例八:然而,就在这短短的100年间,……(《相约新世纪》,《人民日报》2001年1月10日第九版)
分析:“然而”是个常用的两字词,在它后面所接的词语,有的在其中间用逗号分隔开来,有的又可不用分隔开来,如:“然而就在当年年底,……”(《工商局长违规行政集体资产顷刻变私》,《人民日报》2001年1月18日第四版)。所以将“然而”和“就在……”作一个汉字句输入。阿拉伯数字后的“年间”,根据上述方法也可将其与“……短短的”连成一个汉字句进行输入:然而就在这短短的年间。(“然而”后为逗号,当然可将其作为两字汉字句进行输入,与“九五”、“日晚”的方法同)
输入:然而就在这短短的年间——依次键入“然”的拼音字母ran,“而就在这短短的年”八个汉字拼音的首字母ejzzdddn,“间”的声母及韵母的首字母ji,即键入ranejzzdddnji,就可获得输入“然而就在这短短的年间”的效果。
(“100”汉化后的输入方法同前面有关汉化的方法)
二、汉字句语音输入
以上八个例子,均可按汉字句语音输入进行输入。首先按上述汉字句的分析,然后分别依其汉字句的不同形式(一般汉字句、特殊汉字句),用汉语口语进行输入。当汉字句为一般汉字句时,用口语将待输入的一般汉字句读入电脑,用鼠标或键盘上的数字键确定并输入;当汉字句为特殊汉字句时,先按住电脑键盘shift键,然后用口语将待输入的特殊汉字句读入电脑,最后用鼠标或键盘上的数字键确定并输入。
例九:这本书十二块五一本。
分析:(同例一)
输入:利用计算机语音装置将“这本书十二块五一本”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
例十:这本书12.5元一本。
这可作两种方式进行输入:
分析一:(同例二分析二)
输入一:利用计算机语音装置将“这本书元一本”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
分析二:(同例二分析三)
输入二:利用计算机语音装置将“这本书十二元五角一本”用普通话读入,待屏幕上出现这句活时,用鼠标或键盘上的数字键确认并输入。
例十一:本报讯9月29日晚,中国记协举办“2001年中外记者庆国庆中秋赏月会”,来自首都和外国驻京新闻媒体的150多名新闻工作者在北京大观园公园欢聚一堂,共庆佳节。(《人民日报》2001年10月1日第二版的《中外记者共庆佳节》一文的开头一段话)
这段话可作两种分析和输入:
分析一:(同例三分析二)
输入一:利用计算机语音装置将“九月二十九日晚”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
利用计算机语音装置将“二○○一年中外记者庆国庆中秋赏月会”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
利用计算机语音装置将“来自首都和外国驻京新闻媒体的一百五十多名新闻工作者在北京大观园公园欢聚一堂”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
(其它汉字句的输入与例九方法相同)
分析二:(同例三分析三)
输入二:利用计算机语音装置将“月日晚”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
(其它汉字句的输入与例九方法相同)
例十二:……守门员江津,右边后卫陈刚,左边后卫吴承瑛,盯人中卫李玮峰,拖后中卫张恩华,右前卫李霄鹏,左前卫申思,李铁和祁宏是双后腰,马明宇打前腰,杨晨司职前锋。(《人民日报》2001年1月11日8版)
分析:(同例五)
输入:利用计算机语音装置将“守门员”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
按下键盘shift键,利用计算机语音装置将“江津”用普通话读入,待屏幕上出现这个名字时,用鼠标或键盘上的数字键确认并输入。
利用计算机语音装置将“右前卫”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。(“右边后卫、左边后卫、盯人中卫、拖后中卫、打前腰、司职前锋、是双后腰”等输入方法同此)
按下键盘shift键,利用计算机语音装置将“李霄鹏”用普通话读入,待屏幕上出现这个名字时,用鼠标或键盘上的数字键确认并输入。(“陈刚,吴承瑛,李玮峰,张恩华、马明宇、杨晨、李铁、祁宏”等输入方法同此)
例十三:北京有个奤夿屯。
分析:(同例六)
输入;利用计算机语音装置将“北京有个”用普通话读入,待屏幕上出现这个名字时,用鼠标或键盘上的数字键确认并输入。
按下键盘shift键,利用计算机语音装置将“奤夿屯”用普通话读入,待屏幕上出现这个地名时,用鼠标或键盘上的数字键确认并输入。
例十四:然而,就在这短短的100年间,……(《相约新世纪》,《人民日报》2001年1月10日第九版)
分析一:(同例八)
输入一:利用计算机语音装置将“然而就在这短短的年间”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
分析二:再将“100年间”汉化为“一百年间”。
输入二:利用计算机语音装置将“然而就在这短短的一百年间”用普通话读入,待屏幕上出现这句话时,用鼠标或键盘上的数字键确认并输入。
Claims (7)
1.一种以汉字句数据库为技术平台的汉字句输入法,其特征在于:
1.1汉字句为现代汉语句中被非汉字符分隔开的两个以上连续的汉字组成的一般汉字句或为两个以上汉字组成的姓名或地名的特殊汉字句;
1.2分别由汉字、汉字拼音组成的汉字句数据库;
1.3汉字句键盘输入为:
1.3.1码元为汉字的声母、韵母或符号;
1.3.2码元字符与英文键盘的字母符号键对应相同;
1.3.3利用英文键盘将下述取码方法确定的待输入的汉字句以码元字符组合成的编码依次键入:
1.3.3.1一般汉字句为首汉字取其码元的声母、首韵母或声母、前两个韵母,末汉字取其码元的声母、韵母的首字母,其余汉字均取其码元的首字母,
1.3.3.2特殊汉字句为姓名时取其码元的全部声、韵母,且在姓氏与名字的码元之间插入符号码元,为地名时取其码元的全部声、韵母,且在各字之间插入符号码元;
1.4汉字句语音输入为:
1.4.1汉字句语音信号与该汉字句拼音组合对应相同;
1.4.2利用计算机传声装置将下述语音识别方法确定的待输入的汉字句以其语音信号作为输入单元依次读入:
1.4.2.1一般汉字句依其语音信号依次读入,
1.4.2.2特殊汉字句按下键盘上的功能键后再依其语音信号依次读入。
2.根据权利要求1所述的输入法,其特征是键盘输入时,四字的一般汉字句的末汉字再取其码元的韵母的第二字母。
3.根据权利要求1所述的输入法,其特征是键盘输入时,二字或三字的一般汉字句的末汉字再取其码元的韵母的第二或第二、三或第二、三、四字母。
4.根据权利要求1所述的输入法,其特征是键盘输入时,姓名中的姓为复姓时,其第二字取其码元的首字母。
5.根据权利要求1所述的输入法,其特征是符号为-。
6.根据权利要求1所述的输入法,其特征是用键盘的数字键或鼠标对同编码或同音的汉字句进行确认并输入。
7.根据权利要求1所述的输入法,其特征是语音输入时,功能键为shift键。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021127743A CN1308801C (zh) | 2002-03-15 | 2002-03-15 | 汉字句输入法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021127743A CN1308801C (zh) | 2002-03-15 | 2002-03-15 | 汉字句输入法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1445642A CN1445642A (zh) | 2003-10-01 |
CN1308801C true CN1308801C (zh) | 2007-04-04 |
Family
ID=27811238
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021127743A Expired - Fee Related CN1308801C (zh) | 2002-03-15 | 2002-03-15 | 汉字句输入法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN1308801C (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101615180B (zh) * | 2008-06-27 | 2012-10-31 | 国际商业机器公司 | 汉语拼音识别方法和装置 |
CN105183186A (zh) * | 2015-09-15 | 2015-12-23 | 吴敬祖 | 汉英短语句子输入法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1079060A (zh) * | 1992-07-30 | 1993-12-01 | 陆海涛 | 汉字音形字词编码输入系统 |
CN1164689A (zh) * | 1994-03-14 | 1997-11-12 | 刘向东 | 以词为单位的音形意汉字计算机输入法及中西文兼容键盘 |
-
2002
- 2002-03-15 CN CNB021127743A patent/CN1308801C/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1079060A (zh) * | 1992-07-30 | 1993-12-01 | 陆海涛 | 汉字音形字词编码输入系统 |
CN1164689A (zh) * | 1994-03-14 | 1997-11-12 | 刘向东 | 以词为单位的音形意汉字计算机输入法及中西文兼容键盘 |
Also Published As
Publication number | Publication date |
---|---|
CN1445642A (zh) | 2003-10-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100568225C (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
CN101038508A (zh) | Gb拼音输入法 | |
CN1591414A (zh) | 一种汉语到盲文的自动翻译转换方法 | |
CN1737739A (zh) | 基于英文键盘的藏文输入法 | |
CN1308801C (zh) | 汉字句输入法 | |
CN106372039A (zh) | 汉语普通话信息ascⅱ体系码 | |
CN1136496C (zh) | 简化拼音-触摸屏鼠标式汉字输入方法 | |
CN1731389A (zh) | 盲汉对照编辑排版系统及编辑排版方法 | |
CN1257444C (zh) | 计算机汉语全音输入法 | |
CN1103181A (zh) | 多键并击式高速汉字输入方法及键盘装置 | |
CN1054219C (zh) | 一种汉语拼音输入法及其键盘 | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN1928789A (zh) | 一种计算机汉字输入法 | |
CN1694046A (zh) | 一种计算机编码汉字键盘输入方法及信息码 | |
CN1928790A (zh) | 新拼音码 | |
CN1584809A (zh) | 可做拼音汉字的汉字编码的输入法 | |
CN1114146C (zh) | 一种汉语语素编码计算机键盘输入法 | |
CN1088210C (zh) | 六区五位汉语音节和汉字键盘输入方法 | |
CN1838044A (zh) | 中文拼音声调笔划组合输入法 | |
CN1223398A (zh) | 计算机汉字键位码输入方法 | |
CN101025660A (zh) | 计算机汉语声韵双击快速录入方法 | |
CN1485716A (zh) | 普通话拼音汉文输入法及其设备 | |
CN1836226A (zh) | 转换非字母语言字元的方法及装置 | |
CN1612095A (zh) | 双拼输入法 | |
CN1026036C (zh) | 音调快速汉字输入法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
C17 | Cessation of patent right | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20070404 Termination date: 20130315 |