CN1019055B - 拼音序列到汉字串(词组)的转换方法 - Google Patents

拼音序列到汉字串(词组)的转换方法

Info

Publication number
CN1019055B
CN1019055B CN 89104242 CN89104242A CN1019055B CN 1019055 B CN1019055 B CN 1019055B CN 89104242 CN89104242 CN 89104242 CN 89104242 A CN89104242 A CN 89104242A CN 1019055 B CN1019055 B CN 1019055B
Authority
CN
China
Prior art keywords
word
chinese
conversion
input
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired
Application number
CN 89104242
Other languages
English (en)
Other versions
CN1038365A (zh
Inventor
李慧勤
陈力为
张普
朱守涛
于耀宗
邱德政
李红
刘国琴
左京强
沈刚
黄建平
向华
张庆
任杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Language Institute
Research Center Of Computer And Microelectronics Development Ministry Of Mechanical Electronics Industry
Electric Power Science Research Academy Ministry Of Energy Resources Industry (
Original Assignee
Beijing Language Institute
Research Center Of Computer And Microelectronics Development Ministry Of Mechanical Electronics Industry
Electric Power Science Research Academy Ministry Of Energy Resources Industry (
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Language Institute, Research Center Of Computer And Microelectronics Development Ministry Of Mechanical Electronics Industry, Electric Power Science Research Academy Ministry Of Energy Resources Industry ( filed Critical Beijing Language Institute
Priority to CN 89104242 priority Critical patent/CN1019055B/zh
Publication of CN1038365A publication Critical patent/CN1038365A/zh
Publication of CN1019055B publication Critical patent/CN1019055B/zh
Expired legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

拼音序列到汉字串(词组)的转换方法,以汉字字音数据库和汉字词语数据库为基础,在其上建立了完成自动分词、同音词辨识的拼音序列到汉字串的转换器,辅以拼法检查、自动记忆、组词造码、多次变换等技术,用户可以选择使用汉字的四声,以进一步提高输入速度。在同音词辨识中考虑了词频、词词搭配、临近环境、前缀和后缀、专有名词(人名、地名)等因素,大幅度降低了同音词的重码率。用户在使用时用标准的汉语拼音连续输入,无需每输入一个字即停下来进行选择。

Description

本发明属计算机汉语信息输入处理技术。
现有的汉语音码键盘输入技术,主要建立在单个汉字的输入上,虽然有一些汉字处理系统引入了词组输入技术,但词组只被作为单个汉字的一种特殊情况去处理;而且,为了相对提高输入速度,现有技术中使用了“特别简化”拼音助忆符,如ang用h,eng用g,ah用a,ch用i代替等等。这样做的结果是键盘输入技术更加被专业化,普通的、没有经过专门训练的用户使用起来感到非常不便;而且,由于汉字音节少、字数多、重码率高,输入速度难以得到提高。
在本发明申请前进行的检索中,得到了日本电气株式会社在我国提出的第87102586和87108006号申请,在这两个申请案中发明人伊藤提出了汉语拼音的连续输入和汉语词组的分割技术,伊藤提出了以特别分隔机构、标点符号、出现频度很高的音节(汉字)等作为启动拼音序列到汉字串转换器开始工作的触发信号(即词组分隔符号)。本发明的设计者认为,使用特别分割机构要求用户明了输入处理系统已定义的全部词组,记忆量太大,而使用出现频度很高的音节作为词组分隔符,没有考虑到汉语词组的组词规律,人为的破坏了大量现有的汉语词汇。如“了”的分隔率为99.8,但在“来了”和“了却”两种情况下“了”的组词方向完全不同。
鉴于现有技术的上述不足,本发明的设计者试图完成一种拼音序列到汉字串(词组)的转换方法设计,首先将单个汉字的输入转化为以汉字串(词组)为主的输入;尽可能多的减少用户的记忆信息直至减少到零;同时把提高输入速度作为一个重要的设计目的;而在用户输入时采用国家颁布的标准汉语拼音方案;用户可以选择使用四声。
本发明的设计者在对汉字和汉语词组进行了大量的基础研究后,提出了以汉字字音数据库和汉语词语数据库为基础,在其上建立完成自动分词、同音词 辩识等处理的拼音序列到汉字串(词组)的转换器,以及包括拼法检查、自动记忆、组词造码、多次变换等技术在内的拼音序列到汉字串(词组)的转换方法。
1.汉字字音数据库
汉字字音数据库中包括国标GB2312-80中的6763汉字,同时留有了处理繁体汉字的能力。
汉字字音数据库中含有:汉语拼音的声母、韵母和声调及汉字的使用频度。
汉字字音的数据结构:
汉字    声母    韵母    四声    使用频度
即:
汉字::=<声母><韵母><四声><使用频度>
如:
现::=<x><ian><4><0115>
2.词语数据库
词语数据库中收集了以《现代汉语词典》为蓝本的六万条词,同时加入了一千多条习惯用词。
词语数据库中含有:词条、词类、语义项和使用频度。
词语的数据结构:
词条    词音    词类    语义项    使用频度
即:
词条::=<词音><词类><语义项><使用频度>
如:
调用::=<diaoyong><V><HJ28><10191>
词类    V    动词
语义项    H    性质1    活动类
J    性质2    生活方面
28    性质3    词义为    使用、适用、借鉴
(1)词条:共六万余条。划分为两部分:通用词三万条;一般词三万条。
(2)词类项包括:
实词:名词、动词、形容词、数词、量词、代词。
虚词:副词、介词、连词、助词、语气词、拟声词。
其中每一项还分为若干子类,如:
名词的子类为:
一般名词、专有名词、时间名词、方位名词……
动词的子类为:
一般动词、存在动词、趋向动词、系动词……
(3)语义项下包括:
性质1、性质2、……
如名词的性质为:
表抽象、表物质、表材料、表特性……
(4)使用频度:
使用频度表征了词条在使用过程中的特性。在同音词出现时,以使用频度排列其出现的先后顺序。
3.自动分词
用户由键盘连续输入标准拼音序列,当输入标点符号或连续输入8个汉字的拼音序列后,由自动分词技术进行分词以实现正确的检索。自动分词采用最大匹配算法,从逆向对拼音序列进行划分,并与词语数据库进行匹配,给出可选择的各种结果。
分词方法:从键盘键入的语音音节流为
S=S1S2…Si
其中:Si为某汉字音节
分词流程为:
Figure 89104242_IMG1
4.同音词辩识
拼音变换系统软件设计的主要问题是如何提高拼音到汉字变换的正确率。汉语的语音特点是音节少,词汇量大,也即是同音字词量大。提高变换正确率的关键就是提高同音词的辩识,这就依据于对词语描述的知识库。
(1)词频:
在前述的词语数据库中描述了词条的使用频度,这种频度即是词条的固定词频;使用者在输入某一专业领域的文稿时,词条又表现出动态的暂时词频,此技术记录这种暂时的词频,在遇同音词时,可根据暂态的词频数据,在屏幕上给出同音词的先后级别。
(2)词词搭配:
词与词之间具有一定的搭配规律。此技术把这种词法建立起数字上的描述。词A与词B具有搭配关系,则A和B就有关系R。在同音词出现时,判断同音词之前出现的词条和同音词之后出现的词条,以排除不具有关系R的同音词条。
定义:如两个词A和B可以构成词语,则说它们具有搭配关系R,描述为:
短语::=<A><B>
一个词与其他词的搭配具有一定的语法语义关系。例:
Figure 89104242_IMG2
设:NP    名词短语
AP    形容词短语
DP    副词短语
VP    动词短语
PP    介词短语
N    名词    D    副词
V    动词    P    介词
A    形容词    C    连词
M    数词    H    助词
Q    量词    T    语气词
R    代词    L    拟声词
A    名词短语(NP)
结构形式:
NP::=<N>
NP::=<NP><NP>
NP::=<AP><NP>
NP::=<MP><NP>
NP::=<NP><C><NP>
NP::=<NP>“的”<NP>
NP::=<VP>“的”<NP>
NP::=<PP>“的”<NP>
例:
Figure 89104242_IMG3
B    动词短语(VP)
结构形式:
VP::=<V>
VP::=<DP><VP>
VP::=<VP><C><VP>
例:
Figure 89104242_IMG4
C    形容词短语(AP)
结构形式:
AP::=<A>|<M>|<Q>|<R>
AP::=<AP><AP>
AP::=<DP><AP>
AP::=<AP><C><AP>
例:
Figure 89104242_IMG5
D    副词短语(DP)
结构形式:
DP::=<D>“地”
DP::=<DP><DP>
例:
Figure 89104242_IMG6
E    介词短语(PP)
结构形式:
PP::=<P>
PP::=<P><NP>
例:
例1:
从键盘输入
jiaojiandebufa
经过分词处理后
jiaojian    de    bufa
检索出同音词
jiaojian    de    bufa
矫健    的    步伐
脚尖    不乏
根据短语构成法则进行推理,判断出此短语的结构形式为:
NP::=<AP>“的”<NP>
则排除“脚尖”和“不乏“存在的可能性。,并给出正确或可选择的结果。
例2:
从键盘输入
feichangmeili
经过分词处理后
feichang    meili
检索出同音词
feichang    meili
非常    美丽
魅力
根据条件推理,形容词接副词之后;副词一般不能修饰名词,则可排除“魅力”存在的可能。
通过短语构成法则分析,可以排除大量同音词,但仍不是全部。这是因为在汉语中,虽然不同的词类有不同的语法特点,但有少数词能具有两种或两种以上词类的语法特点,在意义上又有明显的联系,这就是词的兼类现象。
(3)临近环境:
在汉语的句子中,某些字总是出现在句子的开头或末尾,把这些字给予特定的标识,在变换时对标识进行变换给出正确结果。如:
zhe    na    mou
音节在一句话开头出现时,系统变换出:
这    那    某
做指示代词用。
zhe    le    guo
音节附着在词、短语或句子的后面时,系统变换出:
着    了    过
做助词用。
(4)前加成份和后加成份:
在现代汉语中,一个基本词作为词根加上前加成份或后加成份(又称前后缀)派生出新的词语。此技术中描述了73个前加成份和97个后加成份,对前加成份和后加成份给出标识,变换时给出正确结果。如
bandaoti-→半+导体-→半导体
前加成份(前缀)
不    大    有    上    小    一    好
高    新    老    很    无    下    多
各    外    没    正    全    可    内
白    长    作    真    再    最    受
更    红    半    黑    电    低    铁
总    本    反    土    女    木    古
主    旧    原    短    其    双    该
防    某    副    非    棉    单    超
洋    坏    男    闹    子    准    纯
后加成分(后缀)
人    的    上    了    国    头    在
到    年    家    心    手    水    中
地    性    机    下    会    员    力
者    声    车    于    后    化    面
们    风    为    前    学    法    军
部    书    日    眼    边    外    党
住    口    区    论    业    点    量
队    物    处    度    室    器    内
皮    厂    台    体    制    界    局
工    派    品    班    权    金    带
社    站    货    所    片    类    表
率    村    户    掉    报    观    林
长    费    科    感    粉    旁    组
额    状    迷    仪    丛    群
(5)专有名词大写:
字词知识库中包括了专有名词的知识描述,其中包括了姓氏、地名、机构名称等,若在输入字词拼音的第一个字母大写,系统则会有效地辩识出正确结果”。
5.拼法检查器
拼音变换技术在设计上表现出较强的智能特色。系统可以实时地跟踪用户键入的每一个字母,检查输入击键是否合法。在用户击键为非法时及时给出告警,避免无效击键,以提高输入效率。
本发明将汉语普通话的所有音节建立数据库,形成语音链,通过键盘输入的每个音节串都进入这个语音链进行实时的匹配。若匹配失败,由拼法检查器给出告警并拒收随后的字串。
在输入过程中,非法击键有二种情况:一是用户的字词拼音有错;二是错误击键。若不进行实时的拼法检查,用户输入的一串拼音音节中如出现错误,则系统查找不到相应的字词或给出非正确的字词,此时就使得输入的代码无效。若实时地进行拼法检查,在出现错误拼法或误击键时系统告知用户并拒收错误代码,就提高了输入的正确率,从而提高了输入效率。
举例:
要输入词语“修正”,若把“修xiu”拼成了“修xiou”,则在键入时,用户在输入到“o”时,系统则给出声音提醒用户检查输入的代码串。
6多次变换器
一般的键盘输入技术在输入完字或词的代码后,即不再保留刚刚输入的代码串。拼音变换技术则对刚结束输入的代码串予以保留,用户可以操作功能键再现刚输入的代码串,以供再次变换使用。
使用“多次变换器”一般有两种情况:
一是“复述”刚输入的字或词。如:用户若想输入“高兴高兴”,可先输入“高兴”,然后用“再次变换”重现刚才的代码串,按空格键即再作一次变换,出现第二个“高兴”,从而完成这种重叠词的输入。
二是“修正”刚输入的字或词。若输入的代码串有错,拼法检查也没能查出这种错误的情况下,就可用“再次变换”再现此代码串,进行修正后再进行变换,这样就提高了输入的效率。
7.自动记忆与组词造码器
由于语言中的词语是不断发展的,再加上各专门学科、领域的特殊需求,因此词语库再庞大也不能完全满足实际的需求,所以系统提供给用户生成新词的能力。
(1)自动记忆器
在用户操作的过程中,当系统遇到用户输入的词语不是系统词语库中的词条时,系统将自动记忆这条词语。
自动记忆词条的最大容量:5000条
每个词条的最大字数:8字
举例1:记忆“灰色系统”
键入:huisexitong
按空格键结束后,系统先给出“灰色”及其同音词供选择;然后给出“系统”,此时,屏幕右下角出现“自动记忆”的字样。
举例2:记忆人名“里根”
键入:ligen
按空格键结束后,系统先给出“里”及其同音字供选择;然后给出“根”的同音字供选择。选择完毕后,系统即记住这个词。
自动记忆的词语和系统词语库的词语按照同样方法使用。
在自动记忆过程中可能会出现用户想输入的词与系统给出的变换结果不一致的情况。
如:用户想输入某人名“常征”,键入“changzheng”后,系统变换出“长征”,这就不符合使用者的要求。
此时,可使用“再次变换”恢复刚输入的代码串“changzhen”,或重新输入此代码串,按回车键结束输入过程,系统将逐次给出每个音节的变换,以供用户选择后自动记忆。
自动记忆的词有如下特征:
(1)刚被记忆的词并不立即存入用户的记忆词库中,而是在暂时词库中,随使用次数的增多(三次以上)系统才予以长期保留,即存入用户词库。
(2)新记忆的词语具有优先的使用度,如遇同音词,则新记忆的词排在第一位,便于使用。
自动记忆过程是系统来管理的,是以极其自然的方式进行的,给用户的感觉就是输入的代码总会有效,不会因为系统没有用户所要的词而“浪费”已输入的代码,在这一点充分表现出此系统对用户的“友好”。
(2)组词造码器
组词造码给用户提供了不仅“组新词”而且可以“造新码”。与“自动记忆”不同,组词造码是“强制”系统记住一条新词,并赋于词新的代码。
组词造码的词条容量:1000条
每个词条的最大字数:16字
每个词条的最长代码:8个字符
组词造码过程举例:
“中国科学技术协会”
(1)按ALT+6,屏幕显示【新词】字样
【新词】
(2)按照字词的输入方法分词或不分词输入;
【新词】zhongguokexuejishuxiehui
(3)按空格键;
【新词】中国科学技术协会
(4)按回车键;
【新词】中国科学技术协会【代码:】
(5)输入“KX’作为代码;
【新词】中国科学技术协会【代码:KX】
(6)按回车键后,组词造码结束;
(7)使用时先输入“U”,然后输入代码“KX”,即可显示出“中国科学技术协会”。
自动记忆和组词造码都是为了给用户提供产生新词的能力,两个功能相辅相成,使用起来都很方便。通过这两种途径产生的新词均记忆在用户的记忆词库中,不同用户既可共享也可各自独立使用。
8.扩展操作规则
使用扩展操作规则是为了提高输入效率和系统变换正确率。初次使用此系统的用户可不必掌握这些规则。
①拼音标调
拼音标调是汉语拼音的重要组成部分,采用标调更便于系统分化同音字和同音词。此系统可将调号加到对应的元音字母上。调号采用的是以下数字键:
数字键    声调    声调符号
1    阴平    -
2 阳平
Figure 89104242_IMG8
3    上声    ˇ
4    去声    `
0    轻声、无声
拼音标调可以使用也可以不使用,因人而宜。但采用标调可以提高系统变换的正确率。
②简拼单字词
为了提高输入效率,系统规定了少量使用度最高的单字词可用简拼形式输入。简拼单字词有:
Q去    W我    R人    T他    Y一    P过
S是    D的    F地    G个    H和    J就    K看    I了
Z在    X小    C大    B不
zh着    ch出    sh上
简拼单字词在输入时可以和前面的词一同输入。
举例:
词语    输入键
回家去    huijiaq
美丽的    meilid
③简拼双字词
系统中对使用度最高的一部分双音节词提供了简拼的输入格式,即输入双字词的每个字的第一个声母。
举例:
双字词    输入键
我们    wm
他们    tm
知道    zd
简拼双字词
我们wm    他们tm    自己zj    起来ql
没有my    工作gz    人民rm    同志tz
可以ky    知道zd    出来cl    已经yj
这个zg    现在xz    革命gm    可是ks
问题wt    这些zx    一定yd    因为yw
怎么zm    但是ds    以后yh    你们nm
东西dx    许多xd    生产sc    人们rm
看见kj    世界sj    大家dj    发展fz
思想sx    为了wl    工人gr    所以sy
地方df    一些yx    今天jt    如果rg
下来xl    这里zl    国家gj    科学kx
经济jj    而且eq    进行jx    斗争dz
群众qz    应该yg    学习xx    还是hs
情况qk    觉得jd    一切yq    需要xy
办法bf    开始ks    方面fm    下去xq
关系gx    历史ls    特别tb    可能kn
事情sq    不过bg    那么nm    完全wq
虽然sr    青年qn    必须bx    政治zz
那样ny    一般yb    认识rs    由于yy
不同bt    或者hz    非常fc    不但bd
然后rh    并且bq    认为rw    因此yc
于是ys

Claims (3)

1、拼音序列到汉字串(词组)的转换方法(简称转换方法),其特征在于:
A.一个汉字字音数据库,其数据结构为,
汉字  声母  韵母  四声  使用频度
B.一个汉字词语数据库,其数据结构为,
词条  词音  词类  语义项  使用频度
C.建立在上述两个数据库基础上的拼音序列到汉字串的转换器,包括自动分词和同音词识别,其判别规则包括词频、词语搭配、临近环境、前缀和后缀、专有名词,
该转换器是根据特征C,所描述的内容由计算机软件实现的一种转换方法,其转换过程是,
(1)用户从键盘输入的每个音节串首先经过拼法检查器,与汉字字音库形成的语音链进行实时匹配,将正确的、完整的输入拼音音节送到自动分词进行词语转换,
(2)由自动分词技术进行分词,即采用逆向最大匹配的分词算法,从逆向对拼音序列进行划分,并与词语数据库进行匹配,给出可选择的各种结果,
(3)在分词匹配的过程中,如遇同音词,就建立同音词表,根据词语数据库的知识进行同音词的辨识。可排除大量的同音词,从而给出正确或可选择的结果。
2、如权利要求1.所述的转换方法,其特征在于:
配合词语的转换,在拼法检查器后面设计了一个多次变换器,已输入的拼音序列在转换为相应的字词后,系统仍保留这个拼音序列供再次变换使用,以提高转换效率。
3、如权利要求1.或2.所述的转换方法,其特征在于:
还设计了一个自动记忆器和组词造码器,自动记忆器受一个暂时词库的支持,该词库与汉字词语数据库采用同一种数据结构,其作用在于实时记忆用户输入的系统词库中没有的词语,经自动分词后的短语或句子将被实时地记忆在用户的记忆词库中;组词造码器是为输入更长的记忆词语提供的简便方法,进入组词造码器,用户可以建立较短的便于记忆的代码来表征较长的短语和句子,以提高转换的效率。
CN 89104242 1989-06-26 1989-06-26 拼音序列到汉字串(词组)的转换方法 Expired CN1019055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 89104242 CN1019055B (zh) 1989-06-26 1989-06-26 拼音序列到汉字串(词组)的转换方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 89104242 CN1019055B (zh) 1989-06-26 1989-06-26 拼音序列到汉字串(词组)的转换方法

Publications (2)

Publication Number Publication Date
CN1038365A CN1038365A (zh) 1989-12-27
CN1019055B true CN1019055B (zh) 1992-11-11

Family

ID=4855495

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 89104242 Expired CN1019055B (zh) 1989-06-26 1989-06-26 拼音序列到汉字串(词组)的转换方法

Country Status (1)

Country Link
CN (1) CN1019055B (zh)

Also Published As

Publication number Publication date
CN1038365A (zh) 1989-12-27

Similar Documents

Publication Publication Date Title
CN1168068C (zh) 语音合成系统与语音合成方法
CN1577229A (zh) 输入音符串进入计算机及文句生产方法及其计算机与媒体
CN1119760C (zh) 自然语言处理装置及方法
CN1760869A (zh) 信息显示控制装置、服务器以及信息显示控制方法
CN1148633C (zh) 虚拟键盘式中文汉字输入方法及系统
CN1019055B (zh) 拼音序列到汉字串(词组)的转换方法
CN1241101C (zh) 一种基于汉语音节双读方案的信息输入方法
CN1258037A (zh) 中文键盘及汉字语音码输入方法
CN1081355C (zh) 三音码计算机汉字输入方法及其键盘
CN1818837A (zh) 规范应用汉语拼音方案的汉字输入法
CN1128371A (zh) 文字拆分编码的计算机输入方法及键盘
CN1026924C (zh) 汉字析音编码计算机汉字输入方法
CN1019527B (zh) 字符的图元输入方法及其键盘
CN1713120A (zh) 英文字根输入法
CN1303504C (zh) 计算机汉字字母文字化输入法
CN1208187A (zh) 一种全息万能汉字键盘及输入方法
CN1464371A (zh) 多语种输入方法和系统及其电子字典系统
CN1110806A (zh) 智能五笔双拼码字—词链环式定位联想输入方法
CN1016008B (zh) 满、锡、蒙、托文智能化语词处理系统
CN1289078A (zh) 拼音汉字无重声调码和键盘设计方法与方案
CN1069140C (zh) 拼音文字的高效输入方法及装置
CN1114852C (zh) 藏语输入设备
CN1975640A (zh) 规范应用汉语拼音方案的汉字输入法
CN1019531B (zh) 汉字电脑双音编码输入方法
CN1464370A (zh) 多语种输入技术和系统及其电子字典系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C13 Decision
GR02 Examined patent application
C14 Grant of patent or utility model
GR01 Patent grant
C15 Extension of patent right duration from 15 to 20 years for appl. with date before 31.12.1992 and still valid on 11.12.2001 (patent law change 1993)
OR01 Other related matters
C19 Lapse of patent right due to non-payment of the annual fee
CF01 Termination of patent right due to non-payment of annual fee