CN1512308A - 字处理方法、装置及存储介质 - Google Patents
字处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN1512308A CN1512308A CNA021595461A CN02159546A CN1512308A CN 1512308 A CN1512308 A CN 1512308A CN A021595461 A CNA021595461 A CN A021595461A CN 02159546 A CN02159546 A CN 02159546A CN 1512308 A CN1512308 A CN 1512308A
- Authority
- CN
- China
- Prior art keywords
- phonetic
- chinese
- tone
- combination
- initial consonant
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Document Processing Apparatus (AREA)
Abstract
本发明公开了一种汉字拼音的处理方法、装置以及存储介质。该方法包括,输入步骤,用于输入文件中每个汉字的拼音;计算步骤,用于计算每个韵母和每个声母与声调的组合的出现概率;以及编码步骤,用于根据每个韵母以及每个声母与声调的组合的出现概率,对文件中每个汉字的拼音进行编码。本方法也可基于每个声母和每个韵母与声调的组合的出现概率,对汉字拼音进行处理。根据本发明,可以得到一种可靠的和快速的处理汉字拼音的方法。拼音的压缩率能够得到极大地改善,需要较少的空间存储文件中的拼音。
Description
技术领域
本发明涉及一种字处理方法和装置,特别是涉及一种汉字拼音的处理方法和装置,以及一种存储介质。
背景技术
正如我们所知,汉字在世界上非常独有和特别。通常,汉字由许多笔划组成。对于初学者或外国人而言,汉字的读音是很难的。为了容易地掌握每个汉字的读音,使用了一些英文字母代表它的读音。
在中国的普通话中,我们将代表每个汉字读音的英文字母称作拼音(Pin Yin)。通常汉字的拼音包括两部分以及声调。拼音的起始部分称为声母(Sheng Mu)。拼音的最后部分称为韵母(Yun Mu)。此外,中国人对汉字发音时总是使用声调。表示汉字有五种不同类型的声调。它们被称为一声(1)、二声(2)、三声(3)、四声(4)和轻声(5)。每个汉字至少有一个声调。某些汉字有超过两个的声调。
图1示出带有拼音的两个汉字。
参照图1,这两个汉字“苹果”在中文里表示“苹果”。汉字“苹”的声母为“P”,该汉字的韵母为“ing”。该汉字为二声。因此,这个汉字的读音可以表示为“Ping2”。使用同样的方法,汉字“果”可以表示为“guo3”。其中,“g”是它的声母,“uo”是它的韵母,3是它的声调。
汉字的拼音被运用在人们生活的每个方面。尤其是,随着现代科学的飞速发展,在我们的日常生活中电子词典非常受欢迎。在电子词典的TTS系统中,需要存储每个汉字的拼音。存储几千个汉字的拼音的原始信息将耗费大量存储器。
例如,拼音串“chuang4”在存储器中需要七个字节。通常,电子词典需要很大的存储器。
因此,在本领域需要开发一种方法和装置,其能够减少存储汉字拼音的存储空间并能提供一种方便的拼音查询方法。
发明内容
因此,本发明的目的是提供一种处理汉字拼音的方法、装置以及存储介质。这种处理汉字拼音的方法和装置能够极大地节省用于存储文件中所有汉字拼音的存储空间。
本发明的第二个目的是提供一种对汉字拼音进行高压缩率的编码和解码的方法和装置。
为了达到上述目的,本发明提供了一种汉字拼音的编码方法,包括以下步骤:
输入步骤,用于输入文件中每个汉字的拼音;
计算步骤,用于计算每个韵母以及每个声母与声调的组合的出现概率;以及
编码步骤,用于根据每个韵母以及每个声母与声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
本发明还提供了一种汉字拼音的编码方法,包括如下步骤:
输入步骤,用于输入文件中每个汉字的拼音;
计算步骤,用于计算每个声母和每个韵母与声调的组合的出现概率;以及
编码步骤,用于根据每个声母和每个韵母与声调的组合的出现概率,对文件中的每个汉字的拼音进行编码。
本发明还提供了一种汉字拼音的解码方法,包括以下步骤:
读取步骤,用于读取文件中已被编码的汉字拼音;
提取步骤,用于提取汉字拼音的二进制编码;以及
确定步骤,用于根据韵母表和声母与声调的组合的表,确定文件中汉字的拼音。
本发明还提供了一种汉字拼音的解码方法,包括以下步骤:
读取步骤,用于读取文件中汉字的已被编码的拼音;
提取步骤,用于提取汉字拼音的二进制编码;以及
确定步骤,用于根据声母和每个韵母与声调的组合的表,确定文件中汉字的拼音。
本发明还提供了一种汉字拼音的编码装置,包括:
输入装置,用于输入文件中每个汉字的拼音;
计算装置,用于计算每个韵母和每个声母与声调的组合出现的概率;以及
编码装置,用于根据每个韵母和每个声母与声调的组合出现的概率,对文件中每个汉字的拼音进行编码。
本发明还提供了一种汉字拼音的编码装置,包括:
输入装置,用于输入文件中每个汉字的拼音;
计算装置,用于计算每个声母和每个韵母与声调的组合的出现概率;以及
编码装置,用于根据每个声母和每个韵母与声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
本发明还提供了一种汉字拼音的解码装置,包括:
读取装置,用于读取文件中已被编码的汉字拼音;
提取装置,用于提取汉字拼音的二进制编码;以及
确定装置,用于根据韵母表和声母与声调的组合的表,确定文件中汉字的拼音。
本发明还提供了一种汉字拼音的解码装置,包括:
读取装置,用于读取文件中汉字的已被编码的拼音;
提取装置,用于提取汉字拼音的二进制编码;以及
确定装置,用于根据声母表和韵母与声调的组合的表,确定文件中汉字的拼音。
本发明还提供了一种存储介质,用于存储将汉字拼音编码的程序代码,该程序代码包括:
输入代码,用于输入文件中每个汉字的拼音;
计算代码,用于计算每个韵母和每个声母与声调的组合出现的概率;以及
编码代码,用于根据每个韵母和每个声母与声调的组合出现的概率,对文件中每个汉字的拼音进行编码。
本发明还提供了一种存储介质,用于存储汉字拼音编码的程序代码,该程序代码包括:
输入代码,用于输入文件中每个汉字的拼音;
计算代码,用于计算每个声母以及每个韵母和声调的组合的出现概率;以及
编码代码,用于根据每个声母以及每个韵母和声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
本发明还提供了一种存储介质,用于存储将汉字拼音解码的程序代码,该程序代码包括:
读取代码,用于读取文件中已被编码的汉字拼音;
提取代码,用于提取汉字拼音的二进制编码;以及
确定代码,用于根据韵母表和声母与声调的组合的表,确定文件中汉字的拼音。
本发明还提供了一种存储介质,用于存储汉字拼音解码的程序代码,该程序代码包括:
读取代码,用于读取文件中汉字已被编码的拼音;
提取代码,用于提取汉字拼音的二进制码;以及
确定代码,用于根据声母表和韵母与声调的组合的表,确定文件中汉字的拼音。
本发明的另一目的是提供一种具有新颖功能的处理汉字拼音的方法和装置。通过后面的实施例和各附图,本发明的其它目的和特征将变得清楚。附图中相同的参考数字代表相同或相似的组成部分。
附图说明
作为参考并构成说明书一部分的各附图,阐释了本发明的实施例,其与文字说明一起,用于解释本发明的原理。
图1示出带有拼音的两个汉字;
图2是流程图,示出了本发明对汉字拼音进行编码的过程;
图3示出所有汉字拼音的韵母表;
图4示出所有汉字拼音的声母与声调的组合的表;
图5示出所有汉字拼音的声母表;
图6示出所有汉字拼音的韵母和声调的组合的表;
图7是流程图,示出了本发明对汉字拼音进行解码的过程;
图8是本发明的对汉字拼音进行编码的装置的结构框图;以及
图9是本发明的对汉字拼音进行解码的装置的结构框图。
具体实施方式
参照附图,将对本发明的实施例作出详细的说明。
实施例1
在本实施例中,使用具有TTS系统的电子词典解释汉字拼音处理的方法。该电子词典包括几乎所有汉字的全部拼音信息。
图2是流程图,示出了本发明对汉字拼音进行编码的过程。
参照图2,编码过程开始于步骤S201。然后,在步骤S202,电子词典中包含的汉字的所有拼音信息被读取和输入。在本实施例中,汉字的拼音信息被存储在文件“NewWholePinyin.txt”中。
例如,在该文件的一部分中,包括这样一句用拼音写成的句子,“ping2 guo3 shu3 luo4 ye4 qiao2 mu4”,其是汉字“苹果属落叶乔木”的读音。字母“p,g sh,l,y,q和m”是拼音的声母,字母“ing,uo,u,uo,e iao和u”是拼音的韵母。数字“2,3,3,4,4,2和4”是这些汉字拼音的声调。这样,这些汉字拼音的声母与声调的组合为“p2,g3,sh3,14,y4,q2,和m4”。并且,这些汉字拼音的韵母与声调的组合为“ing2,uo3,u3,uo4,e4,iao2和u4”。
本实施例的电子词典中的拼音信息可以任何文件并可采用任何形式,如RAM,ROM,EPROM,HDD以及类似的形式等等存储。汉字拼音的不同存储介质和不同存储结构不构成对本发明的限制。
存储在电子词典中的文件内的汉字的所有拼音信息被读出后,流程进入步骤S203。在步骤S203,能够确定文件中汉字的所有拼音信息的每个韵母以及声母与声调的组合的出现概率。
在本实施例中,使用常用的统计方法,能够确定文件“NewWholePinyin.txt”中所有汉字拼音的韵母的出现概率。从出现概率最高的到出现概率最低的,韵母被排列为“a,i,ao,ou,...,en,ang”。
此外,也能够确定文件“NewWholePinyin.txt”中所有汉字拼音的声母与声调的组合的出现概率。从出现概率最高的到出现概率最低的,声母与声调的组合被排列为“b1,q4,r3,d4,...,c2,b5,...,s5”。
然后,流程进入步骤S204。在步骤S204,根据韵母和声母与声调的组合的出现概率,得到拼音的韵母表和声母与声调的组合的表。
图3示出所有汉字拼音的韵母表。
如图3所示,汉字拼音的韵母按其出现概率排列。所有的汉字拼音有37种韵母。该37种不同的韵母按出现概率最高的到出现概率最低的排列。
在图3中,韵母被排列为“a,i,ao,ou,...,en,ang”。
图4示出所有汉字拼音的声母与声调的组合的表。
如图4所示,汉字拼音的声母与声调的组合按其出现概率排列。正如我们所知,拼音有24种不同的声母,并且所有的汉字有5种声调。这些不同的声母和声调能够构成120种不同的组合。该120种不同的声母与声调的组合,按照出现概率最高的到出现概率最低的排列。
在图4中,声母与声调的组合被排列为“b1,q4,r3,d4,...,c2,b5,...,s5”。
返回到图2,在步骤S204后,流程进入步骤S205。在步骤S205,对每个汉字的拼音进行编码。
如上所述,对于所有汉字的拼音,有37种不同的韵母和120种声母与声调的组合。
首先,使用两个字节为每个汉字的读音编码。一个字节用于存储韵母,另一个字节用于存储声母与声调的组合。这样,存储一个汉字的拼音使用了16比特。第一个8比特用于韵母,第二个8比特用于声母与声调的组合。
与使用一个字节存储一个英文字母的常用方法相比,本方法将使用最少的编码表示汉字的拼音。例如,对于字“zhongl”,通常需要6个字节表示该字。但是,使用本发明,2个字节就足够表示它。这样,使用本发明,大大减少了存储空间。
为了进一步提高被编码拼音的压缩率,减少整个编码种类,以及减少存储空间,韵母的所有编码应该包含在声母与声调的组合的编码中。这样,要求韵母的每个编码与相应的声母与声调的组合的编码相同。
参照图4,从出现概率最高的到出现概率最低的,声母与声调的组合被排列为“b1,q4,r3,d4,...,c2,b5,...,s5”。在本实施例中,这些声母与声调的组合被编码为“10010101,10010100,10011000,10000100,...,11110001,111001000,...,10001000”。即“b1”的出现概率最高且被编码为:“10010101”,“q4”的出现概率次高且被编码为:“10010100”,等等。
为了减少编码种类,韵母的编码从用于声母与声调的组合的前37个编码中选取。
由于从出现概率最高到出现概率最低,图3中的韵母被排列为“a,i,ao,ou,...,en,ang”。因此,这些韵母被编码为“10010101,10010100,10011000,10000100,...,11110001,11000010”。即“a”的出现概率最高并被编码为与“b1”的编码一样,“i”的出现概率次高并被编码为与“q4”的编码一样,等等。
对于拼音“qi4”,它的拼音可被编码为“1001010010010100”。
全部韵母和声母与声调的组合被编码后,韵母表和声母与声调的组合的表可被存储于存储器中,例如ROM、RAM、EPROM等等。
根据上面的两个表,存储在电子词典的文件“NewWholePinyin.txt”中的每个汉字的拼音可据此被编码。
然后,流程进入步骤S206。在步骤S206,使用常用的压缩方法,如霍夫曼(Huffman)方法,将文件中已被编码的拼音压缩。根据本实施例,鉴于仅使用了少量的编码表示所有汉字的拼音,大大提高了压缩率。
步骤S206之后,流程进入步骤S207。在步骤S207,存储在电子词典的文件“NewWholePinyin.txt”中的被压缩了的拼音被输出到一个存储设备中以便作进一步的处理。
然后,流程结束于步骤S208。
实施例2
在实施例1中,根据韵母表和声母与声调的组合的表对本发明进行了描述。但是,这并不构成对本发明的限制。本发明的目的也可以通过形成一个声母表和一个韵母与声调的组合的表来实现。
在本实施例中,汉字拼音的信息也被存储在文件“NewWholePinyin.txt”中。电子词典中包含的汉字的所有拼音信息被读取和输入。
存储在电子词典的文件中的汉字的所有拼音信息被读取后,则可确定文件中汉字的全部拼音信息的每个声母、韵母与声调的组合的出现概率。
在本实施例中,使用常用的统计方法,能够确定在该文件“NewWholePinyin.txt”中所有汉字拼音的声母的出现概率。从出现概率最高的到出现概率最低的,声母被排列为“b,q,r,d,...,c,zh”。
此外,能够确定该文件“NewWholePinyin.txt”中所有汉字拼音的韵母与声调的组合的出现概率。从出现概率最高的到出现概率最低的,韵母与声调的组合被排列为“a1,i2,ao3,ou4,...,un2,eng 5,...,ang5”。
然后,根据声母和韵母与声调的组合的出现概率,得到声母表和韵母与声调的组合的表。
图5示出所有汉字拼音的声母表。
如图5所示,汉字拼音的声母根据其出现概率排列。汉字拼音有24种不同的声母。这24种不同的声母按照从出现概率最高的到出现概率最低的排列。
在图5中,声母被排列为“b,q,r,d,...,c,zh”。
图6示出所有汉字拼音的韵母和声调的组合表。
如图6所示,汉字拼音的韵母和声调的组合根据其出现概率排列。正如我们所知,拼音有37种不同的韵母并且所有汉字有5种声调。这些不同的韵母和声调能够构成185种不同的组合。这185种不同的韵母和声调的组合按照从出现概率最高的到出现概率最低的排列。
在图6中,韵母与声调的组合被排列为“a1,i2,ao3,ou4,...,un2,eng5,...,ang5”。
使用上述相同的方法,将每个汉字的拼音编码。
首先,使用两个字节给每个汉字的读音编码。一个字节用于存储声母,另一个字节用于存储韵母与声调的组合。这样,使用16比特存储一个汉字的读音。第一个8比特用于声母,第二个8比特用于韵母与声调的组合。
与使用一个字节存储一个英文字母的常用方法相比,该方法使用少量编码表示汉字的拼音。使用该方法,2个字节足以表示拼音。
为了进一步提高已被编码拼音的压缩率,减少整个编码种类,以及减少存储空间,声母的所有编码应该包含在韵母与声调的组合的编码中。这样,要求声母的每个编码与对应的韵母与声调的组合的编码相同。
参照图6,从出现概率最高的到出现概率最低的,韵母与声调的组合被排列为“a1,i2,ao3,ou4,ang5,...,un2和eng5”。在本实施例中,这些韵母与声调的组合被编码为“10010101,10010100,10011000,10000100,...,11000001,11000010,...,100001000”。即“a1”的出现概率最高且被编码为:“10010101”,“i2”的出现概率次高且被编码为:“10010100”,等等。
为了减少编码种类,声母的编码从用于韵母与声调的组合的编码的前24个编码中选取。
鉴于按从出现概率最高的到出现概率最低的,图5中的声母被排列为“b,q,r,d,...,c,zh”。因此,这些声母被编码为“10010101,10010100,10011000,10000100,...,”。即“b”的出现概率最高且被编码为与“a1”的编码一样,“q”的出现概率次高且被编码为与“i2”的编码一样,等等。
对于拼音“qi2”,它的读音可被编码为“1001010010010100”。
在全部声母和韵母与声调的组合被编码后,声母表和韵母与声调的组合的表可被存储于存储器中,例如ROM、RAM、EPROM,等等。
根据上面的两个表,存储在电子词典中的文件“NewWholePinyin.txt”中每个汉字的拼音据此被编码。
然后,使用实施例1中说明的方法,存储在电子词典中的文件“NewWholePinyin.txt”中的被编码的拼音可使用常用的方法被压缩并被输出到存储装置中,以便作进一步的处理。
实施例3
图7是流程图,示出了本发明对汉字拼音进行解码的过程。
参照图7,解码过程开始于步骤S701。然后,在步骤S702中,首先读取存储在文件中的汉字的已被编码的拼音(如在实施例1和2中被编码的拼音)。
步骤S702之后,流程进入步骤S703。在步骤S703中,检查已被编码的拼音是否已经被压缩,如果是,流程进入步骤S704。否则,流程跳至步骤S705。
在步骤S704,使用常用的方法,例如霍夫曼方法,将被压缩的已被编码的拼音解压缩。然后,流程进入步骤S705。在步骤S705,提取每个汉字拼音的编码。
在本实施例中,例如,在步骤S705提取出汉字拼音的二进制编码“1101010010010100”。
然后,流程进入步骤S706。在步骤S706,如果拼音的编码由如图3和图4示出的韵母表和声母与声调的组合的表中的编码组成,则将得到的汉字拼音的编码与实施例1中确定的韵母表和声母与声调的组合的表相比较。
通过与韵母表和声母与声调的组合的表相比较,确定了编码对应的拼音。
在本实施例中,第一个8比特“10010100”被解码为“i”。第二个8比特“10010100”被解码为“q4”。这样,二进制编码“1001010010010100”对应的拼音被确定为“qi4”。
根据韵母表和声母与声调的组合的表,确定汉字的拼音后,流程进入步骤S707。
在步骤S707中,被确定的汉字的拼音被输出到一输出设备中,如终端、显示器或TTS系统。在TTS系统中,能够处理被确定的拼音的读音。
然后,流程结束于步骤S708。
上述说明是参考韵母表和声母与声调的组合的表描述的。但是,本发明不限于此。
如果使用了声母表和韵母与声调的组合的表(例如实施例2中的声母表和韵母与声调的组合的表)对文件中汉字的拼音进行编码,则该声母表和韵母与声调的组合的表还能够被使用。详细解释在这里略去。
图8是本发明的对汉字拼音进行编码的装置的结构框图。
如图8所示,本发明的拼音编码装置包括输入装置801,计算装置802,表形成装置803,编码装置804,压缩装置805,存储装置806以及输出装置807。本图中该装置的关键部件为计算装置802,表形成装置803,编码装置804以及压缩装置805。
参照图8,输入装置801与存储装置806相连。输入装置801接收电子词典中包含的汉字的所有拼音信息并存储到存储装置806中。存储装置806可以使用任何形式,如RAM,硬盘,EPROM,等等。用于拼音的不同存储介质和不同存储结构不构成对本发明的限制。
输入装置801也与计算装置802相连。使用常用的统计方法,能够计算出文件中汉字的全部拼音信息中每个韵母以及声母与声调的组合出现的概率。
计算装置802也与表形成装置803相连。使用图2中示出的方法,表形成装置803可以根据拼音中每个韵母和声母与声调的组合的出现概率,形成韵母表和声母与声调的组合的表。
编码装置804与存储装置806以及表形成装置803相连。根据表形成装置803的得到的韵母表以及声母与声调的组合的表,编码装置804读出存储在存储装置806中的全部拼音,并使用16比特对每个汉字的拼音编码。第一个8比特用于汉字的韵母。第二个8比特用于声母与声调的组合。这样,使用二进制码将文件中的全部拼音编码。
编码装置804与输出装置807和存储装置806相连。已被编码的拼音可被存储在存储装置806中以便作进一步处理。已被编码的拼音也可被送入输出装置807中以便作进一步处理。
编码装置804还与压缩装置805相连。使用常用的压缩方法,例如霍夫曼方法,本发明被编码的拼音能够被极大地压缩。该文件中被压缩的拼音被存储在存储装置806中或被输出到输出装置807中以便作进一步处理。
上述表形成装置803形成韵母表以及声母与声调的组合的表。但是,这不构成对本发明的限制。
使用常用的统计方法,本发明的计算装置802也能够确定声母以及韵母与声调的组合的出现概率。根据已确定的声母以及韵母与声调的组合的出现概率,表形成装置803也能够形成如图5和6所示的声母表以及韵母与声调的组合的表。
图9是本发明对汉字拼音进行解码的装置的结构框图。
如图9所示,本发明的拼音的解码装置包括读取装置901,解压缩装置902,提取装置903,确定装置905,表904以及输出装置906。
参照图9,读取装置901首先从存储装置或输出装置,如图8中示出的存储装置806或输出装置807中读取文件中已被编码的汉字拼音。
读取装置901与解压缩装置902以及提取装置903相连。如果使用常用方法,如霍夫曼方法,对由读取装置901读出的已被编码的拼音进行压缩,解压缩装置902将对其解压缩。汉字拼音的解压缩码被送入提取装置903。
读取装置901还与提取装置903相连。如果已被编码的拼音未被压缩,汉字拼音的编码被直接送入提取装置903。
提取装置903与确定装置905相连。如果由提取装置903提取的已被编码的拼音由如图3和图4所示的韵母表和声母与声调的组合的表组成,确定装置905则将得到的拼音编码与表形成装置803形成的韵母表和声母与声调的组合的表相比较。但是,如果由提取装置903提取的已被编码的拼音由声母表和韵母与声调的组合的表组成,确定装置905则将得到的拼音编码与表形成装置803形成的声母表和韵母与声调的组合的表相比较。这样,由确定装置905确定了编码对应的拼音。
确定装置905确定了汉字的拼音后,汉字的拼音被输出到输出装置906。输出汉字拼音的不同输出设备不构成对本发明的限制。输出装置906可以是终端、显示器或TTS系统。在TTS系统中,可以对被确定的拼音的读音进行处理。
本发明的目的也可通过提供存储介质实现。该存储介质记录软件程序的程序代码,该软件程序能够执行上述系统实施例或装置实施例的功能,并能通过系统或装置中的计算机(或者CPU或MPU)读出并且执行存储在存储介质中的程序代码。在这种情况下,从存储介质中读出的程序代码自身执行上述实施例中的功能,并且存储程序代码的存储介质构成本发明。
关于提供程序代码的存储介质,可以使用例如,软盘、硬盘、光盘、磁光盘、CD-ROM、CD-R、磁带、非易失性存储卡、ROM以及类似存储介质。
上述实施例的功能不仅能够通过由计算机执行读出的程序代码来完成,而且可以通过由计算机中运行的OS(操作系统)根据程序代码的指示,执行部分或者全部实际处理操作来完成。
由上述可知,本发明的方法提供了一种对汉字拼音编码和解码的可靠方法。该方法能够极大地降低对汉字拼音存储的存储空间的要求。
本发明包括一种情况,即从存储介质中读出的程序代码被写入插在计算机中的功能扩展卡或与计算机相连的功能扩展单元提供的存储器后,功能扩展卡或单元中包含的CPU或类似装置根据程序代码的指令,执行部分或全部程序并实现上述实施例的功能。
本发明应用于上述存储介质的情况下,存储介质存储与实施例中说明的流程图(图2至图7)对应的程序代码。
上述实施例针对的是汉字拼音的编码与处理,但是,本发明不限于汉字拼音的编码,对于其它编码方法,例如,对其他语言的读音的编码也是适用的。
不脱离本发明的构思和范围可以作出许多其它改变和改型。应当理解,本发明不限于特定的实施例,本发明的范围由所附权利要求限定。
Claims (30)
1.一种汉字拼音的编码方法,包括如下步骤:
输入步骤,用于输入文件中每个汉字的拼音;
计算步骤,用于计算每个韵母和每个声母与声调的组合的出现概率;以及
编码步骤,用于根据每个韵母和每个声母与声调的组合的出现概率,对文件中的每个汉字的拼音进行编码。
2.根据权利要求1所述的汉字拼音的编码方法,还包括形成韵母表的步骤,其中拼音的韵母根据其在文件中的出现概率排列。
3.根据权利要求2所述的汉字拼音的编码方法,还包括形成声母与声调的组合的表的步骤,其中声母与声调的组合根据其在文件中的出现概率排列。
4.根据权利要求3所述的汉字拼音的编码方法,其中拼音的每个韵母使用8比特编码,每个声母与声调的组合使用8比特编码,拼音的韵母的全部编码包括在声母与声调的组合使用的编码中。
5.根据权利要求4所述的汉字拼音的编码方法,其中从最大的出现概率开始,具有相同的次序的韵母和声母与声调的组合被赋予相同的编码。
6.根据权利要求1至5中的任一项所述的汉字拼音的编码方法,还包括压缩步骤,用于使用常规方法,如霍夫曼方法将已被编码的汉字拼音进行压缩。
7.根据权利要求6所述的汉字拼音的编码方法,还包括输出步骤,用于输出压缩的汉字拼音,以便作进一步的处理。
8.一种汉字拼音的编码方法,包括如下步骤:
输入步骤,用于输入文件中每个汉字的拼音;
计算步骤,用于计算每个声母和每个韵母与声调的组合的出现概率;以及
编码步骤,用于根据每个声母和每个韵母与声调的组合的出现概率,对文件中的每个汉字的拼音进行编码。
9.一种汉字拼音的解码方法,包括以下步骤:
读取步骤,用于读取文件中汉字的已被编码的拼音;
提取步骤,用于提取汉字拼音的二进制编码;以及
确定步骤,用于根据韵母表和声母与声调的组合的表,确定文件中汉字的拼音。
10.根据权利要求9所述的汉字拼音的解码方法,还包括输出步骤,用于输出已确定的汉字的拼音以便作进一步的处理。
11.根据权利要求10所述的汉字拼音的解码方法,还包括解压缩步骤,用于使用常规方法,如霍夫曼方法,对汉字的已被编码的拼音进行解压缩。
12.一种汉字拼音的解码方法,包括以下步骤:
读取步骤,用于读取文件中汉字的已被编码的拼音;
提取步骤,用于提取汉字拼音的二进制编码;以及
确定步骤,用于根据声母和每个韵母与声调的组合的表,确定文件中汉字的拼音。
13.一种汉字拼音的编码装置,包括:
输入装置,用于输入文件中每个汉字的拼音;
计算装置,用于计算每个韵母和每个声母与声调的组合的出现概率;以及
编码装置,用于根据每个韵母和每个声母与声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
14.根据权利要求13所述的汉字拼音的编码装置,还包括表形成装置,用于形成韵母表,该表中拼音的韵母根据其在文件中出现的概率排列。
15.根据权利要求14所述的汉字拼音的编码装置,其中表形成装置形成声母与声调的组合的表,该表中声母与声调的组合根据其在文件中出现的概率排列。
16.根据权利要求15所述的汉字拼音的编码装置,其中拼音的每个韵母使用8比特编码,每个声母与声调的组合使用8比特编码,拼音的韵母的全部编码包括在声母与声调的组合使用的编码中。
17.根据权利要求16所述的汉字拼音的编码装置,其中从最大的出现概率开始,具有相同的次序的韵母和声母与声调的组合被赋予相同的编码。
18.根据权利要求13至17中的任一项所述的汉字拼音的编码装置,还包括压缩装置,用于使用常规方法,如霍夫曼方法将已被编码的汉字拼音进行压缩。
19.根据权利要求18所述的汉字拼音的编码装置,还包括输出装置,用于输出压缩的汉字拼音,以便作进一步的处理。
20.一种汉字拼音的编码装置,包括:
输入装置,用于输入文件中每个汉字的拼音;
计算装置,用于计算每个声母和每个韵母与声调的组合的出现概率;以及
编码装置,用于根据每个声母和每个韵母与声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
21.一种汉字拼音的解码装置,包括:
读取装置,用于读取文件中汉字的已被编码的拼音;
提取装置,用于提取汉字拼音的二进制编码;以及
确定装置,用于根据韵母表和声母与声调的组合的表,确定文件中汉字的拼音。
22.根据权利要求21所述的汉字拼音的解码装置,还包括输出装置,用于输出已确定的汉字的拼音,以便作进一步的处理。
23.根据权利要求22所述的汉字拼音的解码装置,还包括解压缩装置,用于使用常规方法,如霍夫曼方法,将汉字的已被编码的拼音解压缩。
24.一种汉字拼音的解码装置,包括:
读取装置,用于读取文件中汉字的已被编码的拼音;
提取装置,用于提取汉字拼音的二进制编码;以及
确定装置,用于根据声母表和韵母与声调的组合的表,确定文件中汉字的拼音。
25.一种存储介质,用于存储汉字拼音编码的程序代码,该程序代码包括:
输入代码,用于输入文件中每个汉字的拼音;
计算代码,用于计算每个韵母以及每个声母和声调的组合的出现概率;以及
编码代码,用于根据每个韵母以及每个声母和声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
26.一种存储介质,用于存储汉字拼音编码的程序代码,该程序代码包括:
输入代码,用于输入文件中每个汉字的拼音;
计算代码,用于计算每个声母以及每个韵母和声调的组合的出现概率;以及
编码代码,用于根据每个声母以及每个韵母和声调的组合的出现概率,对文件中每个汉字的拼音进行编码。
27.一种存储介质,用于存储汉字拼音解码的程序代码,该程序代码包括:
读取代码,用于读取文件中汉字已被编码的拼音;
提取代码,用于提取汉字拼音的二进制码;以及
确定代码,用于根据韵母表和声母与声调的组合的表,确定文件中汉字的拼音。
28.一种存储介质,用于存储汉字拼音解码的程序代码,该程序代码包括:
读取代码,用于读取文件中汉字已被编码的拼音;
提取代码,用于提取汉字拼音的二进制码;以及
确定代码,用于根据声母表和韵母与声调的组合的表,确定文件中汉字的拼音。
29.存储介质,存储用于执行根据权利要求1至12中的任一项所述方法的程序。
30.记录介质,根据权利要求1至12中的任一项所述的方法在其上形成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021595461A CN100410852C (zh) | 2002-12-27 | 2002-12-27 | 字处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CNB021595461A CN100410852C (zh) | 2002-12-27 | 2002-12-27 | 字处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN1512308A true CN1512308A (zh) | 2004-07-14 |
CN100410852C CN100410852C (zh) | 2008-08-13 |
Family
ID=34237531
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CNB021595461A Expired - Fee Related CN100410852C (zh) | 2002-12-27 | 2002-12-27 | 字处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN100410852C (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033859A (zh) * | 2009-09-28 | 2011-04-27 | 佳能株式会社 | 词典压缩和词处理方法及系统、文语转换系统、电子设备 |
CN110046159A (zh) * | 2019-03-13 | 2019-07-23 | 平安科技(深圳)有限公司 | 银行账号存储方法、装置、计算机设备及存储介质 |
CN111667828A (zh) * | 2020-05-28 | 2020-09-15 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5175803A (en) * | 1985-06-14 | 1992-12-29 | Yeh Victor C | Method and apparatus for data processing and word processing in Chinese using a phonetic Chinese language |
CN1005435B (zh) * | 1987-04-10 | 1989-10-11 | 北京四通集团公司 | 一种能生成多种字体的汉字字模发生器 |
CN1043015A (zh) * | 1989-11-02 | 1990-06-13 | 林宇威 | 汉字音形兼容二用信息交换码编码方案 |
-
2002
- 2002-12-27 CN CNB021595461A patent/CN100410852C/zh not_active Expired - Fee Related
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102033859A (zh) * | 2009-09-28 | 2011-04-27 | 佳能株式会社 | 词典压缩和词处理方法及系统、文语转换系统、电子设备 |
CN102033859B (zh) * | 2009-09-28 | 2013-04-10 | 佳能株式会社 | 词典压缩和词处理方法及系统、文语转换系统、电子设备 |
CN110046159A (zh) * | 2019-03-13 | 2019-07-23 | 平安科技(深圳)有限公司 | 银行账号存储方法、装置、计算机设备及存储介质 |
CN110046159B (zh) * | 2019-03-13 | 2023-04-18 | 平安科技(深圳)有限公司 | 银行账号存储方法、装置、计算机设备及存储介质 |
CN111667828A (zh) * | 2020-05-28 | 2020-09-15 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
CN111667828B (zh) * | 2020-05-28 | 2021-09-21 | 北京百度网讯科技有限公司 | 语音识别方法和装置、电子设备和存储介质 |
US11756529B2 (en) | 2020-05-28 | 2023-09-12 | Beijing Baidu Netcom Science And Technology Co., Ltd. | Method and apparatus for speech recognition, and storage medium |
Also Published As
Publication number | Publication date |
---|---|
CN100410852C (zh) | 2008-08-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1260704C (zh) | 语音合成方法 | |
CN1330333A (zh) | 汉语输入变换处理装置及输入变换处理方法和记录介质 | |
CN1174332C (zh) | 转换表达方式的方法和装置 | |
CN1161701C (zh) | 语言识别装置和语言识别方法 | |
CN1652107A (zh) | 语言变换规则产生装置、语言变换装置及程序记录媒体 | |
CN1475907A (zh) | 基于例子的机器翻译系统 | |
CN86105610A (zh) | 使用汉语拼音的汉字数据处理和字处理的方法和装置 | |
CN1648828A (zh) | 去多义性语音输入系统和方法 | |
CN1181618C (zh) | 数据压缩/解压设备/方法 | |
CN1066133A (zh) | 智能五笔双拼汉字码方案 | |
CN1910573A (zh) | 用来识别并分类命名实体的系统 | |
CN1731510A (zh) | 混合语言文语转换 | |
CN101038508A (zh) | Gb拼音输入法 | |
CN1512308A (zh) | 字处理方法、装置及存储介质 | |
CN1753083A (zh) | 语音标记方法、系统及基于语音标记的语音识别方法和系统 | |
CN1190773C (zh) | 语音识别系统及用于语音识别系统的特征矢量集的压缩方法 | |
CN1110738C (zh) | 笔记本电脑文字输入方法 | |
CN1156744C (zh) | 元根码汉字输入方法 | |
CN1399191A (zh) | 汉语语音识别词库的处理方法 | |
CN1144141C (zh) | 汉语输入变换处理装置及汉语输入变换处理方法 | |
CN1187677C (zh) | 计算机整句汉字局部笔划输入方法 | |
CN1257445C (zh) | 音义码汉字输入方法 | |
CN1228565A (zh) | 电脑文档自动检错、改错装置及方法 | |
CN1152293C (zh) | 一种汉字输入法 | |
CN1178123C (zh) | 利用发音的文字数据输入装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20080813 Termination date: 20161227 |
|
CF01 | Termination of patent right due to non-payment of annual fee |