CN1035083C - 面向词的中文文字处理输入装置 - Google Patents

面向词的中文文字处理输入装置 Download PDF

Info

Publication number
CN1035083C
CN1035083C CN94100577A CN94100577A CN1035083C CN 1035083 C CN1035083 C CN 1035083C CN 94100577 A CN94100577 A CN 94100577A CN 94100577 A CN94100577 A CN 94100577A CN 1035083 C CN1035083 C CN 1035083C
Authority
CN
China
Prior art keywords
code
character
word
chinese
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN94100577A
Other languages
English (en)
Other versions
CN1101439A (zh
Inventor
郭军
蔺志青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN94100577A priority Critical patent/CN1035083C/zh
Publication of CN1101439A publication Critical patent/CN1101439A/zh
Application granted granted Critical
Publication of CN1035083C publication Critical patent/CN1035083C/zh
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明是一种带有语法和语义分析处理、面向词(特别是四字词、三字词、二字词)的中文文字处理输入装置。在代码转换器中设置代码表、四字词库、三字词库、二字词库、字库、语法规则数据、语义数据、代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器。汉语拼音编码由汉语拼音的首字母和末字母构成;语法规则数据由词的接续关系构成;语义数据由多意字用例构成。本发明大大提高了中文输入效率、简便易学。

Description

面向词的中文文字处理输入装置
本发明是一种带有语法和语义分析处理、面向词(特别是四字词、三字词、二字词)的中文文字处理输入装置。
随着计算机技术的飞速发展和微型计算机应用的普及,计算机、特别是微型计算机越来越多地被用于文字处理工作,而不再局限于做科学计算。近年来,专门用于文字处理的微型计算机更是得到了极大的发展。例如,在国内四通2401、2402、文豪、卡西欧等中英文打字机的知名度已经是家喻户晓。
但是,无论是用于文字处理的通用微型计算机,还是专门用于文字处理的电脑打字机,当用于做中文的文字处理时,都无一例外地遇到了一个“瓶颈”问题,即中文的输入问题。
为了解决中文汉字输入的“瓶颈”问题,不少中外科学工作者充分地发挥了他们的聪明才智,提出了难以数计的解决方案。
早期,有人仿照中文机械打字机的原理设计了专用的中文大键盘,后来又有人设计出了规模较小的中型中文键盘,但都因无法很好地解决与计算机、特别是通用微型计算机的接口,而逐渐地被人们淡忘了。
目前比较流行的解决方案都是建立在通用计算机(特别是微型计算机)键盘上的汉字编码方案。这些汉字编码方案大多以汉“字”为编码单元,一些编码方案(如五笔字型等)在汉“字”的编码间隙中插入“词”的编码,作为提高输入速度的一种辅助手段。
现有的中文输入技术存在下列缺点:
1、汉字编码以“字”为主,不符合一般人以“词”为主的习惯。就目前各种文章,特别是报刊文章来看,文章中95%以上的字都是以词的形式出现的,而不是以单个字的形式出现;
2、符合一般人“语句→读音→汉字”思维习惯的汉语拼音或同一类型的汉字编码方案,码位长、重码率高,输入速度低。例如,用全拼汉字编码方案输入汉字,一般人每分钟只能输入约30个汉字;
3、无重码的流水码(电报码、国标码等),汉字的编码与汉字的读音和字形均无直接的联系,一般人难以记忆和使用;
4、重码率低的字型码等编码方案使用“语句→汉字→编码”的思维方式,不符合一般人“语句→读音→汉字”的思维习惯,而且构成汉字编码的各个“字根”及组字规则均为设计者的个人思维习惯,不符合大多数人的习惯,记忆信息多,需经过学习和专门的训练才能掌握和使用;
5、有重码的汉字编码方案在遇到重码时必须由操作人员控制选择,因而大大降低了输入速度;
6、现有的汉字编码方案输入时的编码(外码)一般都在3个以上,而汉字的机内表示码(内码)仅有两个字节;与机内码仅有一个字节表示、输入时的代码也仅有一个的西文相比,输入时的码位过长,因而汉字的输入速度远远低于西文的输入速度。
本发明的目的,在于采用符合一般人“语句→读音→汉字”思维习惯的汉语拼音代码方案,特别是一种简便易学的汉语拼音代码方案,以词为主,兼顾词词、词字、字字的组合体,及单个汉字,由代码转换器(程序)自动完成拼音代码(外码)到汉字内码的转换、并依据语法和语义分析自动完成重码处理,大大提高中文的输入效率,解决中文汉字输入的“瓶颈”问题。
本发明在代码转换器中设置代码表、四字词库、三字词库、二字词库、字库、语法规则数据、语义数据、代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器。
字库,由字库索引和字库体构成,字库体由汉字的内码构成,字库索引由汉语拼音代码和该汉语拼音代码对应的汉字在字库体中的起始地址指针构成;
由词库索引和词库体构成的四字词库、三字词库、二字词库,词库体由构成词的各个汉字的内码及词的词性构成,词库索引由词的代码和该代码对应的词在词库中的起始地址指针构成,词的代码由构成词的各个汉字的代码构成;
语法规则数据由词的接续关系构成;语义数据由多意字用例构成。
在使用时,代码检查器查找代码表,检查由代码结束字符标明的代码串中各代码的合法性;字词检查器依四字词库、三字词库、二字词库、字库的优先级次序查寻词库或字库;字词检查器没有从词库和字库中找到词和字时,掩码递归处理器掩去代码串中最后一个汉字的代码,用剩余的部分作为新的代码串递归调用代码转换器(不包括代码转换器),直到找到词或字,而后检查是否有被掩去的代码,如果有则以被掩去的代码作为新的代码串递归调用代码转换器(不包括代码检查器),直至所有的代码均被转换;字词检查器找到重码时,语法语义分析器依语法规则数据分析处理重码词或字,如果还有重码,依语义数据分析处理重码;经过语法语义分析仍有重码时,操作员选择器。将各重码词或字提交操作员选择。如果是第一个重码词或字,操作员无需选择,继续后面的输入,有操作员选择器自动完成选择。
此外,本发明采用汉语拼音的首字母和末字母构成一种仅有两个字母的简化的汉语拼音代码,以缩短码长,方便记忆,提高输入速度。
本发明具有下列显著优点:
1、以词为主,兼顾词词、词字、字词、字字组合体及单个汉字,符合一般人以词为主的习惯,便于记忆;
2、采用汉语拼音代码方案,符合一般人“语句→读音→汉字”的思维方式,易被一般人接受和使用;
3、通过语法和语义分析自动进行重码处理,降低了操作员人工选择的工作量,极大地提高了中文的输入速度;
4、采用双字母简化汉语拼音代码,使汉字的输入代码的码长与机内表示的码长一致,大大缩短了汉字的输入码长,同时有利与平卷舌音掌握不好的使用者(特别是南方人)掌握和使用,提高了中文的输入效率。
附图是本发明实施例的代码转换器程序流程图。
下面结合附图的实施例对本发明作进一步详细的说明。
(一)、普通英文输入键盘上制有与汉语拼音声母和韵母字母对应的字母键及代码结束字符键(如空格键、回车键等);、
(二)、汉字的汉语拼音输入代码由汉语拼音的首字母码和汉语拼音的末字母码构成,汉语拼音‘a’、‘e’、‘o’的汉语拼音代码为‘aa’、‘ee’、‘oo’构成的连续代码:
A、汉语拼音的首字母码包括:a,b,c,d,e,f,g,h,j,k,l,m,n,o,p,q,r,s,t,w,x,y,z,共23个;
B、汉语拼音的末字母包括:a,e,g,i,n,o,r,u,共8个;
(三)、代码转换器包括:
A、代码表,与由汉语拼音的首字母和汉语拼音的末字母构成;
B、字库,由字库索引和字库体构成,字库体由汉字的内码构成,字库索引由汉语拼音代码和该汉语拼音编码对应的汉字在字库中的起始地址指针构成;
C、由词库索引和词库体构成的四字词库、三字词库、二字词库,字库体由构成词的各个汉字的内码及词的词性构成,词库索引由词的代码和该代码对应的词在词库中的起始地址指针构成,词的代码由构成词的各个汉字的代码构成;
D、语法规则数据,由词的接续关系构成;
E、语义数据,由多意字的用例构成;
F、代码检查器、字词检索器、语法语义分析器、操作员选择器、掩码递归处理器;
(四)、在使用状态:
A、当通过键盘输入代码串之后,代码检查器查找代码表,检查由代码结束字符标明的编码串中各编码的合法性,遇到非法代码,报警后结束代码转换器的工作:
B、字词检索器依四字词库、三字词库、二字词库、字库的优先级次序查询词库或字库,找到唯一的字或词,则返回该字或词的内码;
C、字词检索器没有从词库和字库中找到词和字时,掩码递归处理器掩去代码串中最后一个汉字的编码,用剩余的部分作为新的代码串递归调用代码转换器(不包括代码检查器),直至找到词或字;
而后检查是否有被掩去的代码,如果有则以被掩去的全部代码作为新的代码串递归调用代码转换器(不包括代码检查器),直至所有的代码均被转换;
D、字词检索器找到重码时,语法语义分析器依语法规则数据分析处理重码词或字;如果还有重码,依语义数据分析处理重码;找到唯一的词或字,则返回该词或字的内码;
E、语法语义分析器处理后仍有重码时,操作员选择器将各重码词或字提交操作员选择,操作员选定则返回该词或字的内码,否则中止代码转换器的工作。如果是第一个重码词或字,操作员无需选择,继续进行后面的输入,而由操作员选择器自动进行选择。
为了提高中文的输入速度,减少代码转换器的时间消耗,本发明的代码转换器还可以包括词库和字库重排器,代码转换器每完成一个词或字的代码转换时,词库和字库重排器将该词或字移到词库或字库中同码词或字的首位。
此外,在该实施例中,
(一)、词的词性包括:普通名词,人物名词,时间名词,地点名词,人称代词,指示代词,数词,量词,动词,形容词,副词,介词,叹词,其它;
(二)、语法规则数据的词的接续关系包括:
A、普通名词后续:动词、形容词、普通名词、副词;
B、人物名词和人称代词后续:动词、形容词、副词;
C、指示代词后续:动词、形容词、副词、量词;
D、数词后续:量词、数词、时间名词;
E、动词后续:普通名词、人物名词、地点名词、人称代词;
F、形容词后续:普通名词、人物名词;
G、副词后续:动词、形容词、副词;
H、介词后续:各类名词、各类代词;
I、叹词不在两个汉字的中间。
在本实施例中,语义数据采用了高频多意字的用例。多意字的词性很复杂,只用上述语法规则难以适当地选取,同时高频多意字又具有影响效果大的特点,因而需采取专门的方法。有了高频多意字的用例,就可以根据它来指定这些字除了由它们的词性所限定的的常规接续关系外,还可以同哪些词性的字词接续,从而实现正确的选取。在本实施例中,给出了下列高频多意字的用例:
爱、把、便、被、边、成、出、大、得、的、对、到、多、发、该、给、个、敢、过、后、会、好、进、将、开、肯、了、来、里、老、能、起、请、前、去、让、人、上、所、下、想、完、小、一、愿、要、于、欲、着。
高频多意字的用例数据由这些字的非常规接续关系构成。上述多意字的用例如下:
爱+动词、数词+把、便+动词、被+动词、动词+边、动词+成、动词+出、大+形容词、大+动词、得+动词、动词+得、得+形容词、代词+的、动词+的、的+名词、名词+的、形容词+的、数词+对、动词+到、数词+多、多+形容词、多+量词、多+动词、数词+发、发+形容词、该+动词、给+动词、动词+给、动词+个、敢+动词、动词+过、动词+后、会+动词、好+动词、动词+好、动词+进、将+动词、动词+开、肯+动词、动词+了、形容词+了、来+动词、数词+来、来+量词、名词+里、老+动词、能+动词、数词+起、动词+起、请+动词、动词+前、动词+去、去+动词、让+动词、数词+人、动词+上、名词+上、所+动词、数词+所、数词+下、动词+下、名词+下、想+动词、动词+完、小+动词、一+名词、一+动词、愿+动词、要+动词、形容词+于、动词+于、欲+动词、动词+着、数词+着。

Claims (1)

1.面向词的中文文字处理输入装置,包括输入键盘和代码转换器,其特征在于:
(1)制有与汉语拼音声母字母和韵母字母对应的字母键及代码结束字符键的具有如下对应关系的普通英文输入键盘:
汉字的汉语拼音代码由汉语拼音的首字母和汉语拼音的末字母代码键构成,对应汉语拼音‘a’、‘e’、‘o’的汉字的汉语拼音代码分别为‘aa’、‘ee’、‘oo’的连续键码;
汉语拼音的首字母键包括:a,b,c,d,e,f,g,h,j,k,l,m,n,o,p,q,r,s,t,w,x,y,z,共23个;
汉语拼音的末字母键包括:a,e,g,i,n,o,r,u,共8个:
(2)代码转换器由下列装置构成:
代码表,由汉语拼音的首字母和汉语拼音的末字母构成;
字库,由字库索引和字库体构成,字库体由汉字的内码构成,字库索引由汉语拼音代码和该汉语拼音代码对应的汉字在字库中的起始地址指针构成;
由词库索引和词库体构成的四字词库、三字词库、二字词库,词库体由构成词的各个汉字的内码及词的词性构成,词库索引由词的代码和该代码对应的词在词库中的起始地址指针构成,词的代码由构成词的各个汉字的代码构成;
上述代码转换器在接收到输入代码串后首先通过代码检查器查找代码表,检查由代码结束字符标明的代码串中各代码的合法性,遇到非法代码,报警后结束代码转换器的工作;
字词检查器依四字词库、三字词库、二字词库、字库的优先级次序查询词库或字库,找到唯一的字或词,则返回该字或词的内码;
字词检查器没有从词库和字库中找到词和字时,掩码递归处理器掩去代码串中最后一个汉字的代码,用剩余的部分作为新的代码串递归调用代码转换器,直至找到词或字;以及
检查是否有被掩去的代码,如果有则以被掩去的全部代码作为新的代码串递归调用代码转换器,直至所有的代码均被转换。
CN94100577A 1994-01-26 1994-01-26 面向词的中文文字处理输入装置 Expired - Fee Related CN1035083C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN94100577A CN1035083C (zh) 1994-01-26 1994-01-26 面向词的中文文字处理输入装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN94100577A CN1035083C (zh) 1994-01-26 1994-01-26 面向词的中文文字处理输入装置

Publications (2)

Publication Number Publication Date
CN1101439A CN1101439A (zh) 1995-04-12
CN1035083C true CN1035083C (zh) 1997-06-04

Family

ID=5029726

Family Applications (1)

Application Number Title Priority Date Filing Date
CN94100577A Expired - Fee Related CN1035083C (zh) 1994-01-26 1994-01-26 面向词的中文文字处理输入装置

Country Status (1)

Country Link
CN (1) CN1035083C (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101388731B (zh) * 2007-09-14 2013-07-10 刘林泉 一种低速率等效语音水声通信技术
CN101996020B (zh) * 2009-08-28 2012-11-28 中国移动通信集团公司 虚拟键盘显示方法及装置
CN102081677B (zh) * 2011-02-17 2013-04-17 珠海全志科技股份有限公司 拼音输入法中长句的生成方法
CN106339159A (zh) * 2016-08-25 2017-01-18 乐视控股(北京)有限公司 字符选择处理方法、终端和语义分析服务器

Also Published As

Publication number Publication date
CN1101439A (zh) 1995-04-12

Similar Documents

Publication Publication Date Title
CN1035083C (zh) 面向词的中文文字处理输入装置
CN1262473A (zh) 小型数字键盘拼音汉字输入方法
CN100476826C (zh) 中文字型排序检索方法和装置以及一种信息系统
CN1255670A (zh) 汉字五键输入法
CN1081353C (zh) 现代汉语单词拉丁化语音码汉字输入法
CN1072785A (zh) 无理序号数字综合编码法及其键盘
CN1018205B (zh) 计算机中文声数编码输入技术
GB2071018A (en) Improvements in method and apparatus for information processing
CN1106146A (zh) 电脑汉字声韵调编码输入法及其键盘
CN1034245C (zh) 缅文字型智能四码输入系统
CN1009499B (zh) 数字拼音式简便汉字编码方法和中型键盘
CN1025540C (zh) 汉字拼音编码计算机输入的一种键盘方案
CN1027839C (zh) 中华双拼汉字编入的计算机键盘
CN1119743C (zh) 计算机汉字组词码输入方法
CN1032559C (zh) 文字输入加速方法
CN1116336A (zh) 替调式汉语拼音汉字、词输入编码法及键盘
CN1110802A (zh) 智能拼音输入法
CN101034319A (zh) 汉字输入方法及其专用键盘
CN1131297A (zh) 多键并击式汉字编码输入方法及键盘
CN1332402A (zh) 字词句万能组合汉字输入法
CN1081523A (zh) 双拼汉语编码法及其键盘
CN1081773A (zh) “多声递推联想”汉语词字编码
CN1042017A (zh) 结构笔画四位数编码法及键盘
CN1013810B (zh) 中日西可选兼容智能键盘系统
CN1189810C (zh) 五角形四角号码汉字输入法

Legal Events

Date Code Title Description
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C06 Publication
PB01 Publication
C14 Grant of patent or utility model
GR01 Patent grant
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee