CN107391464A - 新型汉语普通话信息ascii集合码 - Google Patents
新型汉语普通话信息ascii集合码 Download PDFInfo
- Publication number
- CN107391464A CN107391464A CN201710610180.9A CN201710610180A CN107391464A CN 107391464 A CN107391464 A CN 107391464A CN 201710610180 A CN201710610180 A CN 201710610180A CN 107391464 A CN107391464 A CN 107391464A
- Authority
- CN
- China
- Prior art keywords
- chinese
- coding
- standard chinese
- standard
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明是一种对汉语普通话信息进行编码的技术方案,属于中文信息处理技术领域,主要解决汉语普通话语言和语义信息不能直接用ASCII码进行编码的问题,本发明用ASCII码对汉语普通话语素、词和词组等汉语普通话语言信息进行编码,引入集合理论对汉语普通话语素和词的义位,自由词组的义丛、句子的表述等汉语普通话语义信息进行编码,根据二进制、八进制和十六进制的编码理论更合理地配置编码字母并将这些编码联系为一个体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个崭新的平台,到达了一个全新的领域。
Description
技术领域
本发明是一种对汉语普通话信息进行编码的技术方案,属于中文信息处理技术领域。
背景技术
本发明的背景技术是中华人民共和国国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》、《新型汉语信息ASCII码》、《汉语普通话信息ASCII体系码》、《新型汉语普通话信息ASCII体系码》和《汉语普通话信息ASCII集合码》 。
发明内容
国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机内代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部标识方法,而必须考虑设计其他形式的标识信息。国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只规定了汉字的编码,为了中文信息处理技术发展的需要,必须要对语素、词、语素的义位、词的义位等汉语语言和语义信息进行编码来拓展中文信息处理技术的广度和深度,本编码的独特性在于另辟蹊径以《汉语拼音方案》为基础,直接用ASCII码对汉语普通话语言和语义信息进行编码。
《新型汉语信息ASCII码》(申请号或专利号201510442110.8)是本人2015年7月24日申请的发明专利,该申请在31卷46期2015年11月18日专利公报上予以发布,这项专利的编码方法存在一些瑕疵,例如:没有对汉语普通话自由词组的义丛和汉语普通话句子的表述等汉语普通话语义信息进行编码的方法,所以有必要改进这项专利。
《汉语普通话信息ASCII体系码》(申请号或专利号201610707602.X)是本人2016年8月18日申请的发明专利,该申请在33卷05期2017年02月01日专利公报上予以发布,这项专利增加了对汉语普通话自由词组的义丛和汉语普通话句子的表述等汉语普通话语义信息进行编码的方法,但是没有对不同类别的汉语普通话用汉字和语素等汉语普通话语言文字信息进行分类编码的编码方法,无法对不同类别的汉语普通话用汉字和语素进行不同的编码标记,所以有必要改进这项专利。
《新型汉语普通话信息ASCII体系码》(申请号或专利号201710168727.4)是本人2017年3月21日申请的发明专利,该申请于2017年4月6日通过国家知识产权局的初步审查,进入公布准备程序,这项专利对汉语普通话用汉字和语素等汉语普通话语言信息进行分类编码,对不同类别的汉语普通话用汉字和语素按照不同的编码方法进行编码,但是其对汉语普通话词的义位、自由词组的义丛和句子的表述等汉语普通话语义信息的编码方法中没有引入集合理论,无法从学理上构建多层次的汉语普通话语义信息编码体系,所以有必要改进这项专利。
《汉语普通话信息ASCII集合码》(申请号或专利号201710542696.4)是本人2017年7月5日申请的发明专利,这项专利引入集合理论对汉语普通话语素和词的义位,自由词组的义丛、句子的表述等汉语普通话语义信息进行编码,但是其对汉语普通话词的义位、自由词组的义丛和句子的表述等汉语普通话语义信息的编码方法中没有根据二进制、八进制和十六进制的编码理论更合理地配置编码字母,所以有必要改进这项专利。
汉语声母的编码
《汉语拼音方案》中规定汉语拼音中有声母“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等21个声母,本发明以《汉语拼音方案》的声母作为声码。
汉语韵母的编码
《汉语拼音方案》中规定汉语拼音中有韵母“a”、“o”、“e”、“i”、“u”等35个韵母,本发明以《汉语拼音方案》的韵母作为韵码,因ASCII字符集中无ü这个字母的编码,我的解决办法是按照“ü”=u:的方式编码,所以《汉语拼音方案》的4个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=u:、“üe”=u:e、“üan”=u:an、“ün”=u:n的方式编码,其余韵母不作变更,作为韵码。
汉语声调的编码
《汉语拼音方案》中规定声调符号为:阴平(ˉ)阳平(ˊ)上声(ˇ)去声(ˋ),声调符号标在音节的主要母音上,轻声不标,这种标调方法需要首先确定哪个字母为音节的主要母音,比较复杂,我的解决办法是用5个拉丁字母符号ä、ë、ï、ö、ÿ分别表示阴平、阳平、上声、去声、轻声5个声调,声调标在韵母之后,因为ASCII字符集中没有这5个拉丁字母符号,我认为调码可以用ä=a:、ë=e:、ï=i:、ö=o:、ÿ=y:的方式编码。
汉语普通话常用词编码
汉字不是汉语的语言单位,语素、词和词组是汉语的语言单位,这是一个语言学常识,如果我们不首先将汉语的自身规律研究清楚,则汉语普通话语言信息的编码也就没有科学性可言。汉语词、语素和词组的区分众说纷纭,吕叔湘先生说过,任何对汉语词、语素和词组的区分做过一番思索的人都认为这是个很困难的问题,我认为语素是最小的、有意义的、没有词性的语言单位,词是有意义的、有词性的语言单位,词组是有意义的、没有词性的、可以单独作为一个句子成分的语言单位,词性是词所独有的语法性质,词可以根据词性不同而被划分为不同的词类。
汉语普通话词可以分为21世纪前出现的汉语普通话词和21世纪后出现的汉语普通话词(例如:微信),有同音词的汉语普通话词和无同音词的汉语普通话词, 在汉语普通话中绝大部分单音节汉语词、少部分双音节词和多音节词都有同音词,对汉语普通话词进行编码首先要对汉语普通话词进行区分同音词和同音词排序, 我们可以规定21世纪前出现的汉语普通话词的同音词可以根据其对应汉字的笔画数多寡和相同笔画数第一笔横竖撇点折以此类推的顺序排序,为了避免因新的同音词出现造成原有的同音词排序和编码变更,可以规定21世纪后出现的新同音词无论其对应汉字的是什么,新同音词必须排在出现时间靠前的同音词后面。
国家汉办汉语水平考试部和北京语言学院汉语水平考试中心研制的《汉语水平词汇与汉字等级大纲》收汉语普通话常用词8822词,北京语言学院编纂的《现代汉语频率词典》收汉语普通话常用词8548词,计算机必须像人脑一样优先处理常用词才能提高效率,所以汉语普通话信息编码首先要进行汉语普通话常用词的编码。
为了区分汉语普通话常用词的各个同音词,我选择a、e、n、o、u、w、x、z 这8个拉丁字母作为编码字母,如有的汉语普通话常用词没有同音词,可省略编码字母,如有的汉语普通话常用词的同音词的数量超过7个,可增加aa、ae、an、ao、au、aw、ax、az等拉丁字母组合来作为编码字母,根据数学上的抽屉定理,每个同音词在调码后加一个不同的编码字母或编码字母组合,就不会重码,这些编码字母位于调码之后,我们可以将这些编码字母称为后缀编码,后缀编码可以起到对汉语普通话常用词进行编号标识的作用,我们知道二进制、八进制和十六进制广泛应用于计算机编程,在汉语普通话中汉语普通话常用词的同音词的数量大多在一个到七个之间,所以选择a、e、n、o、u、w、x、z 这8个拉丁字母和这8个拉丁字母的拉丁字母组合作为后缀编码是合适的。
汉语普通话常用词可以按照以下方法编码:汉语普通话常用词编码=汉语普通话常用词汉语拼音全拼编码+后缀编码,例如: 从《汉语水平词汇与汉字等级大纲》排查,汉语普通话常用词“世”有7个同音词,按照其对应汉字的笔画数多寡和相同笔画数第一笔横竖撇点折的顺序排序,分别是“市”、“式”、“试”、“事”、“视”、“是”、“室”,按照上述方法编码我们可以分别得到以下编码: “世”的编码是:shiï a=shii:a ,“市”的编码是: shiïe=shii:e、“式”的编码是: shiïn=shii:n、“试”的编码是: shiïo=shii:o、“事”的编码是: shiïu=shii:u、“视”的编码是: shiïw=shii:w、“是”的编码是: shiïx=shii:x、“室”的编码是:shiïz=shii:z。
汉语普通话非常用词编码
汉语普通话非常用词编码可以按照以下方法编码:汉语普通话非常用词编码=汉语普通话非常用词汉语拼音全拼编码+s+后缀编码=汉语普通话非常用词汉语拼音全拼编码+汉语普通话非常用词后缀编码,字母s为英语seldom used(罕用的,不常用的)的缩写,汉语普通话非常用词后缀编码的作用是区别汉语普通话非常用词的同音词,如有的汉语普通话非常用词没有同音词则不需要加汉语普通话非常用词后缀编码,如有的汉语普通话非常用词的同音词的数量超过7个,可增加saa、sae、san、sao、sau、saw、sax、saz等拉丁字母组合来作为后缀编码,如有的汉语普通话非常用词的同音词的数量超过71个,则可以增加saaa、saae、saan、saao、saau、saaw、saax、saaz等拉丁字母组合作为汉语普通话非常用词后缀编码。
有些汉语普通话非常用词的同音词的数量非常多,我认为没有必要增加拉丁字母和拉丁字母组合作为后缀编码,因为根据1985年以来历次的词频统计结果,按频率或使用度高低排列的前8000个汉语普通话常用词可覆盖一般语料的95%,汉语普通话非常用词只覆盖一般语料的5%,所以没有必要增加拉丁字母和拉丁字母组合作为后缀编码。
汉语普通话拉丁词的编码
在汉语普通话中,有一类包含拉丁字母和阿拉伯数字的词,例如:CT、HSK、110、114、C4ISR、MP3等,我们可以把这些词称为汉语普通话拉丁词,这类词的数量比较少而且比较特殊,所以不必再区分汉语普通话常用拉丁词和汉语普通话非常用拉丁词,这类词已广泛用于汉语普通话口语和出版物中,已成为汉语普通话词汇的一部分,对于这类词我们直接用字母和阿拉伯数字编码就可以,例如:“CT”这个汉语普通话拉丁词的编码就是CT,“MP3”这个汉语普通话拉丁词的编码就是MP3。
汉语普通话常用词义位集合编码
义位是由语汇形式表示的、独立的、概括的、固定的语义单位,语汇形式包括语素、词和固定词组,英语中使用的是sememe这一术语,义位与义项是有区别又有联系的概念,严格地讲义位是属于语义学的范畴,义项是属于词典学的范畴,义位和义项还是有区别的,例如:“变”这个汉语普通话常用词,在《现代汉语词典》中共有9个义项:① 和原来不同;变化;改变:情况~了 ② 改变(性质、状态);变成:沙漠~良田 ③ 使改变;~废为宝 ④语素 能变化的;已变化的:~数 ⑤ 语素 变卖:~产 ⑥ 语素 变通:通权达~ ⑦ 语素有重大影响的突然变化:事~ ⑧ 语素 指变文:目连~ ⑨ 姓,在这9个义项中,第①、②、③、⑨义项中的“变”是词,这些义项可以被认为是汉语普通话词“变”的义位,第④、⑤、⑥、⑦、⑧义项中的“变”是语素,这些义项可以被认为是汉语普通话常用语素“变”的义位,所以义位和义项还是有区别的。
汉语普通话常用词都有数量不等的义位,如我们将一个汉语普通话常用词的一个义位视为一个集合中的元素,那我们就可以得到一个汉语普通话常用词的义位的集合,例如:“变”这个汉语普通话常用词共有4个义位:① 和原来不同;变化;改变:情况~了 ② 改变(性质、状态);变成:沙漠~良田 ③ 使改变;~废为宝 ④ 姓,如我将汉语普通话常用词“变”的这 4个义位视为汉语普通话常用词“变”的义位的集合中的4个元素,我们就可以得到一个有4个元素的汉语普通话常用词“变”的义位的集合。
为了汉语普通话语义信息编码技术发展的需要,有必要对汉语普通话常用词义位集合进行编码, 汉语普通话常用词义位集合可以按照以下方法编码:汉语普通话常用词义位集合编码=S(汉语普通话常用词编码),字母S为英语sememe (义位)的大写首字母,字母S大写是因为数学中集合通常用大写字母表示, “()”是表示注释的标点符号,用于描述和解释集合S为何种集合,注释不同则字母S表示的集合也就不同,例如:集合S(汉语普通话常用词“公民”的义位的集合)与集合S(汉语普通话常用词“人民”的义位的集合)是2个不同的集合,我们分别用汉语普通话常用词“公民”的汉语普通话常用词编码gonga:mine: 和汉语普通话常用词“人民”的汉语普通话常用词编码rene:mine:去替换“()”中的内容就得到了S(gonga:mine:)和S(rene:mine:)这2个不同的编码,如我们规定S(gonga:mine:)等同于集合S(汉语普通话常用词“公民”的义位的集合), S(rene:mine:)等同于集合S(汉语普通话常用词“人民”的义位的集合),则我们就完成了对集合S(汉语普通话常用词“公民”的义位的集合)和集合S(汉语普通话常用词“人民”的义位的集合)这2个汉语普通话常用词的义位的集合的编码。
将字母S 放置在汉语普通话常用词编码之前是为了使计算机快速识别汉语普通话常用词语义信息以提高效率,例如:我们对汉语普通话常用词“中国”的义位的集合按照上诉编码方法进行编码,可以得到以下编码: S(zhonga:guoe:),当计算机读取到S(zhonga:这段信息时即可借助汉语自然语言理解软件开始进行汉语普通话义位集合信息处理,而将字母S 放置在汉语普通话常用词编码之后,我们得到以下编码:(zhonga:guoe:)S,计算机在读取到(zhonga:guoe:)S这段信息后才可借助汉语自然语言理解软件开始进行汉语普通话义位集合信息处理,所以将字母S 放置在汉语普通话常用词编码之前可以使计算机快速识别汉语普通话语义信息以提高效率。
汉语普通话常用词义位编码
汉字不是汉语的语义单位,义位、义丛和表述是汉语的语义单位,这是一个语义学常识,语素、词和固定词组的每一项语义为义位,自由词组的每一项语义为义丛,句子的每一项句义为表述,为了汉语语义信息编码技术发展的需要,有必要对汉语普通话中词的义位、自由词组的义丛和句子的表述等汉语普通话语义信息进行编码,像汉语普通话词的分类和排序一样, 义位、义丛和表述也分为21世纪前出现的义位、义丛及表述和21世纪后出现的义位、义丛及表述, 21世纪前出现的义位、义丛及表述的排序可以依据权威语义数据库中其对应的电子数据的信息量多寡来排序,当今世界科学技术发展日新月异,各种新事物和新概念层出不穷,所以新的汉语普通话语义信息将会不断涌现, 为了避免因新的汉语普通话语义信息出现造成排序和编码的变更,可以规定21世纪后出现的汉语普通话语义信息无论其权威语义数据库中其对应的电子数据的信息量是多少, 这些新出现的汉语普通话语义信息必须排在出现时间靠前的汉语普通话语义信息后面。
汉语普通话常用词都有数量不等的义位,根据抽屉定理,如果我们在汉语普通话常用词义位集合编码前面加一个字母或字母组合,汉语普通话常用词义位编码就不会重码, 为了区分不同的义位,我选择b、c、d、f、g、h、i、j、k、l、m、p、q、s、t、y这16个拉丁字母作为汉语普通话义位编码字母,如有的汉语普通话语言信息的义位超过16个,则采用bb、bc、bd、bf、bg等拉丁字母组合来进行编码,这些编码我们可以称为义位前缀编码,如有的汉语普通话语言信息只有一个义位,也必须加义位前缀编码来进行编码,这是因为如不加义位前缀编码,会造成语言信息的编码与语义信息的编码混淆。
汉语普通话常用词义位编码可以按照以下方法编码:汉语普通话常用词义位编码=义位前缀编码+s+(汉语普通话常用词编码),字母s小写是因为汉语普通话常用词的义位都是汉语普通话常用词义位集合中的元素,而集合中的元素通常用小写字母表示,不选择[]进行编码,是因为[]为汉语义素标记符号,义位前缀编码可以起到对汉语普通话常用词的义位进行编号标识的作用,我们知道二进制、八进制和十六进制广泛应用于计算机编程,在汉语普通话中汉语普通话常用词的义位的数量大多在一个到十六个之间,所以选择b、c、d、f、g、h、i、j、k、l、m、p、q、s、t、y这16个拉丁字母和这16个拉丁字母的拉丁字母组合作为义位前缀编码是合适的。
将义位前缀编码放置在汉语普通话常用词义位集合编码之前是为了使计算机快速识别汉语普通话常用词语义信息以提高效率,例如:汉语普通话中“发电”这个汉语普通话常用词有2个义位:①打电报 ②发出、产生电力,我们对汉语普通话常用词“发电”的第2个义位按照上述编码方法进行编码,可以得到以下编码: cs(faa:diano:),计算机在读取到cs(faa:这段信息时即可借助汉语自然语言理解软件提示项快速进行汉语普通话义位信息处理,而将c放置在汉语普通话常用词编码之后,我们得到以下编码: s(faa:diano:)c,计算机在读取到s(faa:diano:)c这段信息后才可借助汉语自然语言理解软件开始进行汉语普通话义位信息处理,所以将义位前缀编码放置在汉语普通话常用词义位集合编码之前可以使计算机快速识别汉语普通话常用词语义信息以提高效率。
汉语普通话非常用词义位集合编码
汉语普通话非常用词义位集合编码可以按照以下方法进行编码:汉语普通话非常用词义位集合编码= S(汉语普通话非常用词编码)。
汉语普通话非常用词义位编码
汉语普通话非常用词义位编码可以按照以下方法进行编码:汉语普通话非常用词义位编码=义位前缀编码+s+(汉语普通话非常用词编码)。
汉语普通话拉丁词义位集合编码
汉语普通话拉丁词义位集合编码可以按照以下方法编码:汉语普通话拉丁词义位集合编码=S(汉语普通话拉丁词编码)
汉语普通话拉丁词义位编码
汉语普通话拉丁词义位编码可以按照以下方法编码:汉语普通拉丁词义位编码=义位前缀编码+s+(汉语普通话拉丁词编码),例如:“CT”这个汉语拉丁词有2个义位:①计算机体层成像:做~ ②计算机体层成像仪,根据上述编码方法我们可以得到以下编码:S(CT)={bs(ct), cs(ct)} 。
汉语普通话语素的编码
语素是最小的、有意义的、没有词性的语言单位,汉字与汉语语素是有区别又有联系的概念,大多数情况下一个汉字可以记录一个汉语语素,严格地说汉字是属于文字学的范畴,而语素是属于语言学的范畴,汉语普通话语素可分为汉语普通话常用语素和汉语普通话非常用语素。
汉语普通话常用语素编码可以按照以下方法编码:汉语普通话常用语素编码=汉语普通话常用语素汉语拼音全拼编码+m+后缀编码=汉语普通话常用语素汉语拼音全拼编码+汉语普通话常用语素后缀编码,m为英语moreme(语素)的缩写。
汉语普通话非常用语素编码可以按照以下方法编码:汉语普通话非常用语素编码=汉语普通话非常用语素汉语拼音全拼编码+sm+后缀编码=汉语普通话非常用语素汉语拼音全拼编码+汉语普通话非常用语素后缀编码,字母s为英语seldom used(罕用的,不常用的)的缩写, 字母m为英语moreme(语素)的缩写。
汉语普通话语素义位集合的编码
汉语普通话语素分为汉语普通话常用语素和汉语普通话非常用语素,所以汉语普通话语素义位集合编码也分为汉语普通话常用语素义位集合编码和汉语普通话非常用语素义位集合编码。
汉语普通话常用语素义位集合编码可以按照以下方法编码:汉语普通话常用语素义位集合编码= S(汉语普通话常用词语素编码)。
汉语普通话非常用语素义位集合编码可以按照以下方法编码:汉语普通话非常用语素义位集合编码= S(汉语普通话非常用语素编码)。
汉语普通话语素义位编码
汉语普通话语素义位集合的编码分为汉语普通话常用语素义位集合编码和汉语普通话非常用语素义位集合编码,所以汉语普通话语素义位编码也汉语普通话常用语素义位编码和汉语普通话非常用语素义位编码。
汉语普通话常用语素义位编码可以按照以下方法编码:汉语普通话常用语素义位编码=义位前缀编码+s+(汉语普通话常用语素编码)。
汉语普通话非常用语素义位编码可以按照以下方法编码:汉语普通话非常用语素义位编码=义位前缀编码+s+(汉语普通话非常用语素编码)。
空字符串的编码
在很多编程语言内,空字符串标记为两个双引号:"",空字符串在构建汉语普通话语言信息编码体系上有很大的作用,例如:汉语普通话中“俩”这个常用词从语言学的角度看是由“俩”1个语素构成的,根据以上编码方法汉语普通话常用词“俩”的编码是liao:a ,汉语普通话常用语素“俩”的编码是liao:ma ,很明显liao:a≠liao:ma ,所以为了构建完整的汉语普通话语言信息编码体系有必要引入空字符串""这个概念,引入空字符串""这个概念编码后,我们就可以建立汉语普通话常用词编码与汉语普通话常用语素编码之间的联系并得到以下编码: liaöa=liao:a=liaöma+""=liao:ma+""。
汉语普通话用汉字的编码
为了建立汉字与汉语普通话语素、汉语普通话词等汉语普通话语言信息的联系,所以有必要对汉字进行编码,与汉语普通话语素不太一样,汉语普通话用汉字分为3类,分别是①可以记录汉语普通话常用语素的汉字,我们可以称这类汉字为汉语普通话常用字,②可以记录汉语普通话非常用语素的汉语普通话用汉字,我们可以称这类汉字为汉语普通话非常用字,③不能记录汉语普通话语素的汉字,例如:“螃”,我们可以称这类汉字为汉语普通话非语素字。
汉语普通话常用字编码可以按照以下方法编码:汉语普通话常用字编码=汉语普通话常用字汉语拼音全拼编码+c+后缀编码=汉语普通话常用字汉语拼音全拼编码+汉语普通话常用字后缀编码,字母c为英语chinese character(汉字)的缩写。
汉语普通话非常用字编码可以按照以下方法编码:汉语普通话非常用语素字编码=汉语普通话非常用语素字汉语拼音全拼编码+sc+后缀编码=汉语普通话非常用语素字汉语拼音全拼编码+汉语普通话非常用语素字后缀编码,字母s为英语seldom used(罕用的,不常用的)的缩写, 字母c为英语chinese character(汉字)的缩写。
汉语普通话非语素字编码可以按照以下方法编码:汉语普通话非语素字编码=汉语普通话非语素字汉语拼音全拼编码+mc+后缀编码=汉语普通话非语素字汉语拼音全拼编码+汉语普通话非语素字后缀编码, 字母m为英语meaningless(无意义的)的缩写, 字母c为英语chinese character(汉字)的缩写。
古汉语词和方言词的编码
古汉语和汉语方言中有大量的文言词和方言词,这些词的读音与汉语普通话的读音是有很大差异的,就是专业人士对如何编码也存在着比较大的争议,例如:粤语拼音方案就有香港语言学学会粤语拼音方案、广州话拼音方案和香港教育学院拼音方案等多种拼音方案,为降低计算机处理文言词和方言词的难度,可以将文言词和方言词按照汉语普通话用汉字的编码规则进行编码。
古汉语和方言词义位集合编码
古汉语和方言词义位集合编码可以按照以下方法编码:古汉语和方言词义位集合编码=S(古汉语和方言词汉字编码)。
古汉语和方言词义位编码
古汉语和方言词义位编码可以按照以下方法编码:古汉语和方言词义位编码=义位前缀编码+s+(古汉语和方言词编码)。
少数民族词编码
汉语普通话中有一些少数民族词和音译词例如:“哈达”、“喇嘛”等,这些词应该按照国家标准《汉语拼音正词法基本规则》,以词为单位按照汉语普通话常用词和非常用词编码规则编码,例如:少数民族词“哈达”的编码是haïdaë=hai:dae: 。
外语音译词编码
汉语普通话中有一些外语音译词例如:“沙发”、“汤姆”等,这些词应该按照国家标准《汉语拼音正词法基本规则》,以词为单位按照汉语普通话常用词和非常用词编码规则编码,也允许直接引用英文拼写进行编码以简化编码,例如:外语音译词“汤姆”的编码可以是Tangämuï=Tanga:mui:,也可以直接引用英文Tom进行编码。
少数民族词义位集合编码
少数民族词义位集合编码可以按照以下方法编码:少数民族词义位集合编码=S(少数民族词编码)
少数民族词义位编码
少数民族词义位编码可以按照以下方法编码:少数民族词义位编码=义位前缀编码+s+(少数民族词编码)。
外语音译词义位集合编码
外语音译词义位集合编码可以按照以下方法编码:外语音译词义位集合编码= S(外语音译词编码)。
外语音译词义位编码
外语音译词义位编码可以按照以下方法编码:外语音译词义位编码=义位前缀编码+s+(外语音译词义位集合编码)。
汉语固定词组编码
汉语固定词组编码应该按照国家标准《汉语拼音正词法基本规则》,以词为单位编码,如不能全部拆分为词的,可以分拆至语素甚至字母、标点符号,然后再进行编码,文言固定词组和方言固定词组可以按字分拆,按照汉语普通话用汉字的编码方法进行编码,例如:“B族维生素”这个汉语固定词组可以分拆为字母“B”、语素“族”、词“维生素”这3个编码单位进行编码,“率尔操觚”这个文言固定词组可以分拆为“率”“尔”“操”“觚”这4个汉字进行编码。
汉语固定词组义位集合编码
汉语固定词组义位集合编码可以按照以下方法编码:汉语固定词组义位集合编码= S(汉语固定词组编码)。
汉语固定词组义位编码
汉语固定词组义位编码可以按照以下方法编码:汉语固定词组义位编码=义位前缀编码+s+(汉语固定词组编码)。
汉语自由词组编码
汉语自由词组编码应该按照国家标准《汉语拼音正词法基本规则》,以词为单位编码,如不能全部拆分为词的,可以分拆至语素甚至字母、标点符号,然后再进行编码,文言自由词组和方言自由词组可以按字分拆,按照汉语普通话用汉字的编码方法进行编码。
汉语普通话自由词组义丛集合编码
自由词组的每一项语义称为义丛,汉语普通话自由词组都有数量不等的义丛,如我们将一个汉语普通话自由词组的一个义丛视为一个集合中的元素,那我们就可以得到一个汉语普通话自由词组义丛的集合,例如:“老工人代表”这个汉语普通话自由词组有2个义丛:①老工人的代表(代表全体老工人的代表)②年龄老的工人代表(年龄老的,代表全体工人的代表),如我将汉语普通话自由词组“老工人代表”的这 2个义丛视为汉语普通话自由词组“老工人代表”的义丛的集合中的2个元素,我们就可以得到一个有2个元素的汉语普通话自由词组“老工人代表”的义丛的集合。
汉语自由词组义丛集合编码可以按照以下方法编码:汉语自由词组义丛集合编码= C(汉语自由词组编码),字母C为英语cluster(义丛)的大写首字母。
汉语普通话自由词组义丛编码
自由词组的每一项语义称为义丛,每一个汉语普通话自由词组的每一个义丛都可以被认为是来源于一个汉语普通话自由词组义丛集合中的一个元素,汉语自由词组义丛编码可以按照以下方法编码:汉语普通话自由词组义丛编码=汉语普通话自由词组义丛前缀编码+c+(汉语普通话自由词组编码),汉语自由词组义丛前缀编码是由r、 v这 2个拉丁字母构成的,如有的汉语自由词组的义丛的数量超过2个,可增加rr、 rv、vr、 vv等拉丁字母组合作为汉语自由词组义丛前缀编码,选择r、 v这 2个拉丁字母作为汉语普通话自由词组义丛编码是因为在汉语拼音中韵母er用做韵尾时写成r, v只用来拼写外来语、少数民族语和方言,用做后缀编码易发生拼读错误,用做前缀编码则不会产生拼读错误,r、 v和r、 v拉丁字母组合作为汉语自由词组义丛前缀编码可以起到对汉语普通话自由词组的义丛进行编号标识的作用,我们知道二进制、八进制和十六进制广泛应用于计算机编程,在汉语普通话中汉语普通话自由词组的义丛的数量大多为一个或二个,所以选择r、 v和r、 v拉丁字母组合作为汉语普通话自由词组义丛前缀编码是合适的,字母c小写这是因为汉语普通话自由词组的义丛都是汉语普通话自由词组义丛集合中元素,而集合中的元素通常用小写字母表示,
汉语普通话句子编码
汉语普通话句子编码应该按照国家标准《汉语拼音正词法基本规则》以词为单位分拆编码,如不能全部拆分为词的,可以分拆至语素甚至字母,然后再进行编码,文言和方言句子可以按字分拆,按照汉语普通话用汉字的编码方法进行编码。
汉语普通话句子表述集合编码
句子的每一项句义称为表述,汉语普通话句子都有数量不等的表述,如我们将一个汉语普通话句子的一个表述视为一个集合中的元素,那我们就可以得到一个汉语普通话句子的表述的集合,例如:“三百六十行,行行出状元。”这个汉语普通话句子有2个表述:①每一行都有出类拔萃的行家里手。 ②每一行都没有高低贵贱之分,只要热爱自己的本职工作,都会取得优异的成绩。如我们将汉语普通话句子“三百六十行,行行出状元。”的这 2个表述视为汉语普通话句子“三百六十行,行行出状元。”的表述的集合中的2个元素,我们就可以得到了一个有2个元素的汉语普通话句子“三百六十行,行行出状元。”的表述的集合。
汉语普通话句子表述集合编码可以按照以下方法编码:汉语普通话句子表述集合编码= F(汉语普通话句子编码),字母F为英语formulation(表述)的大写首字母。
汉语普通话句子表述编码
句子的每一项句义称为表述,每一个汉语普通话句子的每一个表述都可以被认为是来源于一个汉语普通话句子表述集合中的一个元素, 汉语普通话句子表述编码可以按照以下方法编码:汉语普通话句子表述编码=汉语普通话句子表述前缀编码+f+(汉语普通话句子编码),汉语普通话句子表述前缀编码是由r、 v这 2个拉丁字母构成的,如有的汉语普通话句子表述的数量超过2个,可增加rr、 rv、vr、 vv等拉丁字母组合作为汉语普通话句子表述前缀编码, r、 v和r、 v拉丁字母组合作为汉语普通话句子表述前缀编码,可以起到对汉语普通话句子的表述进行编号标识的作用,我们知道二进制、八进制和十六进制广泛用于计算机编程中,在汉语普通话中汉语普通话句子的表述的数量大多为一个或二个,所以选择r、 v和r、 v拉丁字母组合作为汉语普通话句子表述前缀编码是合适的,字母c小写这是因为汉语普通话句子的表述都是汉语普通话句子表述集合中元素,而集合中的元素通常用小写字母表示。
具体实施方式
一、例如:汉语普通话常用词“工人”是由“工”和“人”这2个汉语普通话常用语素构成的,根据上述编码方法,我们可以得到以下编码,并建立各编码之间的联系从而将汉语普通话中词的编码、语素的编码等汉语普通话语言信息编码连成一个编码体系,从而拓展了汉语普通话信息编码体系的广度和深度:
gongärenë=gonga:rene:=gongäma+renëma= gonga:ma+rene:ma。
二、例如:汉语普通话常用语素“高”的义位有:①(Gāo)姓 ②敬辞,称赞别人的事务:~见│~论 ③高度:那棵树有五米~│书桌~八十厘米。④等级在上的:~等│~年级│哥哥比我~一班。⑤表示酸根或化合物中比标准酸根多含一个氧原子的:~锰酸钾。⑥在一般标准或平均程度之上的:~速度│体温~│见解比别人~ ⑦三角行、平行四边形等从底部到顶部(顶点或平行线)的垂直距离。⑧从下向上距离大;离地面远(跟“低”相对,④⑥同):~楼大厦│这里地势很~,我们可以按照上述编码方法编码,得到以下编码并建立各编码之间的联系:
S(gaoäma)=S(gaoa:ma)={bs(gaoäma),cs(gaoäma),ds(gaoäma),fs(gaoäma),gs(gaoäma),hs(gaoäma),is(gaoäma),js(gaoäma)}={bs(gaoa:ma),cs(gaoa:ma), ds(gaoa:ma),fs(gaoa:ma), gs(gaoa:ma), hs(gaoa:ma), is(gaoa:ma), js(gaoa:ma), },通过对汉语普通话语素的义位进行编码,我们就可以将汉语普通话信息编码体系推进到语素的义位这一级,从而拓展了汉语普通话信息编码体系的广度和深度。
三、例如:“他山之石,可以攻玉”这句古诗出自《诗经· 小雅·鹤鸣》,这个句子有3个表述,①别的山上的石头可以用来琢磨玉器 ② 比喻另外一个单位的经验和人才可以为本单位所借鉴和使用 ③ 比喻别人的意见和建议可以帮助自己改正错误和找到解决问题的办法,因为这是一个文言句子,所以这个句子可以按照汉语普通话用汉字的编码规则进行编码,根据前述的编码方法,我们可以得到以下编码,并建立各编码之间的联系:
F(taäca shanäca zhiäca shiëco ,keïca yiïcn kongäcw yuöce。)= F(taa:cashana:ca zhia:ca shie:co ,kei:ca yii:cn konga:cw you:ce。)= {rf(taäca shanäcazhiäca shiëco ,keïca yiïcn kongäcw yuöce。),vf(taäca shanäca zhiäca shiëco ,keïca yiïcn kongäcw yuöce。),rrf(taäca shanäca zhiäca shiëco ,keïca yiïcn kongäcw yuöce。)} = {rf(taa:ca shana:ca zhia:ca shie:co ,kei:ca yii:cn konga:cwyou:ce。),vf(taa:ca shana:ca zhia:ca shie:co ,kei:ca yii:cn konga:cw you:ce。),rrf(taa:ca shana:ca zhia:ca shie:co ,kei:ca yii:cn konga:cw you:ce。)},通过对汉语句子的表述进行编码,我们就可以将汉语普通话信息编码体系推进到句子的表述这一级,从而拓展了汉语普通话信息编码体系的广度和深度。
我们将按照上述编码方法得到的编码,对照ASCII字符集,就可以将这些编码转换为计算机可以进行信息处理的二进制编码,而按照国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只能对汉字进行编码,而不能对语素、词、语素的义位、词的义位等汉语普通话语言和语义信息进行编码,所以本发明拓展了中文信息处理技术的广度和深度,为今后汉语自然语言理解软件和中文信息处理软件的开发提供了一个崭新的平台,到达了一个全新的领域。
Claims (1)
1.本发明是一种对汉语普通话信息进行编码的技术方案,属于中文信息处理技术领域,其特征是:用ASCII码对汉语普通话语素、词和词组等汉语普通话语言信息进行编码,引入集合理论对汉语普通话语素和词的义位,自由词组的义丛、句子的表述等汉语普通话语义信息进行编码,根据二进制、八进制和十六进制的编码理论更合理地配置编码字母并将这些编码联系为一个体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个崭新的平台,到达了一个全新的领域。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710610180.9A CN107391464A (zh) | 2017-07-25 | 2017-07-25 | 新型汉语普通话信息ascii集合码 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710610180.9A CN107391464A (zh) | 2017-07-25 | 2017-07-25 | 新型汉语普通话信息ascii集合码 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107391464A true CN107391464A (zh) | 2017-11-24 |
Family
ID=60335955
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710610180.9A Pending CN107391464A (zh) | 2017-07-25 | 2017-07-25 | 新型汉语普通话信息ascii集合码 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107391464A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918625A (zh) * | 2019-03-28 | 2019-06-21 | 王欣 | 新型汉语普通话信息ascii人机通讯码 |
-
2017
- 2017-07-25 CN CN201710610180.9A patent/CN107391464A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109918625A (zh) * | 2019-03-28 | 2019-06-21 | 王欣 | 新型汉语普通话信息ascii人机通讯码 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN100568225C (zh) | 文本中数字和特殊符号串的文字符号化处理方法及系统 | |
Kang | Spoken language to sign language translation system based on HamNoSys | |
Tang | Dialects of chinese | |
CN102053719B (zh) | 华文汉字输入法 | |
CN106372039A (zh) | 汉语普通话信息ascⅱ体系码 | |
CN107391464A (zh) | 新型汉语普通话信息ascii集合码 | |
CN102479078A (zh) | 汉语语音码计算机汉语编程方法 | |
CN101692188A (zh) | 一种音形码汉字输入法 | |
Zhao et al. | An online database of phonological representations for Mandarin Chinese | |
CN107315725A (zh) | 汉语普通话信息ascii集合码 | |
CN106951402A (zh) | 新型汉语普通话信息ascii体系码 | |
CN105045410A (zh) | 一种形式化拼音和汉字对应识别的方法 | |
CN101751139A (zh) | 带调拼音输入编码方案 | |
CN104020859A (zh) | 计算机双文速录方法 | |
KR20070104084A (ko) | 한국한자음을 이용하여 일본어 사전을 검색하는 방법 및 그시스템 | |
Ramanujan et al. | What Is an Akshara? | |
CN103853705A (zh) | 计算机汉语语音与外语语音实时语音字幕翻译方法 | |
Gutkin et al. | Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities | |
CN109766015A (zh) | 汉字拉丁码输入法 | |
CN105955936A (zh) | 新型汉语普通话信息ascii码 | |
CN101901062B (zh) | 基于音素编码的计算机汉字信息处理方法 | |
Streeter | Doc, 1971: A Chinese dialect dictionary on computer | |
CN100517190C (zh) | 特定拉丁字母表调汉字拼音的汉字输入方法 | |
CN101814243A (zh) | 以带调拼音支持的多媒体汉语拼音学习机方案 | |
CN105068977A (zh) | 新型汉语信息ascii码 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20171124 |
|
WD01 | Invention patent application deemed withdrawn after publication |