CN106372039A - 汉语普通话信息ascⅱ体系码 - Google Patents

汉语普通话信息ascⅱ体系码 Download PDF

Info

Publication number
CN106372039A
CN106372039A CN201610707602.XA CN201610707602A CN106372039A CN 106372039 A CN106372039 A CN 106372039A CN 201610707602 A CN201610707602 A CN 201610707602A CN 106372039 A CN106372039 A CN 106372039A
Authority
CN
China
Prior art keywords
chinese
coding
word
standard
latin
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610707602.XA
Other languages
English (en)
Inventor
王欣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Individual
Original Assignee
Individual
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Individual filed Critical Individual
Priority to CN201610707602.XA priority Critical patent/CN106372039A/zh
Publication of CN106372039A publication Critical patent/CN106372039A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Document Processing Apparatus (AREA)

Abstract

本发明是一种汉语普通话信息编码技术方案,属于中文信息处理技术领域,本发明用ASCII码对汉语普通话语素、汉语普通话词、汉语普通话语素和词的义位、汉语普通话自由词组的义丛、汉语普通话句子的表述等汉语普通话信息进行编码,并将这些编码联系为一个编码体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。

Description

汉语普通话信息ASCⅡ体系码
(一)技术领域
本发明是一种汉语普通话计算机信息编码技术方案,属于中文信息处理技术领域。
(二)背景技术
本发明的背景技术是中华人民共和国国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》、《新型汉语信息ASCII码》和《新型汉语普通话信息ASCII码》。
(三)发明内容
国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的代码,在GB2312中规定,编码采用双七位编码方式(即两个字节表示一个汉字),为了与英文字母相区别,汉字机内代码中两个字节的最高位规定为“1”,英文字母的机代码是7位的ASCII码,这种编码在使用范围上有一些限制,例如在一些大中型计算机系统以及在网络通信环境中,要用字节的最高位作奇偶校验的情况下,就不能用这种汉字内部标识方法,而必须考虑设计其他形式的标识信息。国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只规定了汉字的编码,为了中文信息处理技术发展的需要,必须要对语素、词、语素的义位、词的义位等汉语普通话信息进行编码来拓展中文信息处理技术的广度和深度,本编码的独特性在于另辟蹊径以《汉语拼音方案》为基础,直接用ASCII码对汉语普通话信息进行编码。
《新型汉语信息ASCII码》(申请号201510442110.8)是本人2015年7月24日申请的发明专利,该申请在31卷46期2015年11月18日专利公报上予以发布,这项专利的编码方法存在一些瑕疵,例如:将外来词、非语素汉字等汉语信息单独编码,编码方式过于繁琐,所以有必要发明新的、简便的编码方法来实现直接用ASCII码对汉语普通话信息进行编码。
《新型汉语普通话信息ASCII码》(申请号201610239869.0)是本人2016年4月18日申请的发明专利,该专利已通过国家知识产权局的初步审查,目前正由国家知识产权局进行实质审查,该专利的编码方法没有对汉语普通话自由词组的义丛和汉语普通话句子的表述等汉语普通话语义信息进行编码的方法,所以还需要改进调整以便进一步完善中文信息处理技术的编码体系,进一步拓展中文信息处理技术的广度和深度。
汉语声母的编码
《汉语拼音方案》中规定汉语拼音中有声母“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等21个声母,本发明以《汉语拼音方案》的声母作为声码。
汉语韵母的编码
《汉语拼音方案》中规定汉语拼音中有韵母“a”、“o”、“e”、“i”、“u”等35个韵母,本发明以《汉语拼音方案》的韵母作为韵码,因ASCII字符集中无ü这个字母的编码,我的解决办法是按照“ü”=u:的方式编码,所以《汉语拼音方案》的4个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=u:、“üe”=u:e、“üan”=u:an、“ün”=u:n的方式编码,其余韵母不作变更,作为韵码。
汉语声调的编码
《汉语拼音方案》中规定声调符号为:阴平(-)阳平(/)上声(v)去声(\),声调符号标在音节的主要母音上,轻声不标,这种标调方法的缺点是将声调符号和韵母复合在一起,增加了计算机处理汉语普通话信息的难度,我的解决办法是用5个拉丁字母符号分别表示阴平、阳平、上声、去声、轻声这5个声调,声调标在韵母之后,因ASCII字符集中没有这5个拉丁字母符号,我认为调码可以用的方法进行编码。
汉语普通话词编码
汉字不是汉语的语言单位,语素、词和词组是汉语的语言单位,这是一个语言学常识,如果我们不首先将汉语的自身规律研究清楚,则汉语普通话信息的编码也就没有科学性可言。汉语词、语素和词组的区分众说纷纭,吕叔湘先生说过,任何对汉语词、语素和词组的区分做过一番思索的人都认为这是个很困难的问题,我认为语素是最小的、有意义的、没有词性的语言单位,词是有意义的、有词性的语言单位,词组是有意义的、没有词性的、可以单独作为一个句子成分的语言单位,词性是词所独有的语法性质,词根据词性不同而被划分为不同的词类。
汉语词汉语普通话词可以简单地分为单音节汉语词、双音节汉语词和多音节汉语词,除个别特殊的汉语单音节词外(例如:“嗲”没有同音词),一般每个汉语单音节词都有数量不等的同音词,汉语双音节词和多音节词的同音词则少得多,我的解决方案是:首先将汉语普通话词的所有同音词用汉字区分开来,按照区分同音词的汉字的笔画数多寡(笔画数少的在前,笔画数多的在后)和相同笔画数第一字第一笔笔形横竖撇点折的顺序排列(第一字第一笔笔形相同的则按次笔笔形横竖撇点折的顺序排序,以此类推),根据数学上的抽屉定理,每个同音词在调码后加一个编码后缀,则不会重码,所以汉语普通话词可以按照以下公式编码:汉语普通话词编码=声码+韵码+调码+汉语普通话词编码后缀,汉语普通话词编码后缀的作用是区别汉语普通话词的同音词,如有的汉语普通话词没有同音词,可省略汉语普通话词编码后缀,为区分汉语普通话词不同的同音词,我选择a、e、n、o、u、w、x、z这8个拉丁字母,作为汉语普通话词编码后缀,如同音词数量超过8个则可以用aa、ae、an、ao、au、aw、ax、az等拉丁字母组合作为汉语普通话词编码后缀来区别同音词,如同音词的数量超过72个则可以用aaa、aae、aao、aau、aaw、aax、aaz等拉丁字母组合作为汉语普通话词编码后缀来区别同音词。
拉丁词的编码
在汉语普通话中,有一类包含拉丁字母和阿拉伯数字的词,例如:CT、HSK、110、114、C4ISR、MP3等,我们可以把这类词称之为拉丁词,这类词已广泛用于汉语普通话的口语和出版物中,已成为汉语词汇的一部分,对于这类词我们不用添加编码前缀或编码后缀,直接引用即可,例如:“CT”这个汉语少数词的就是CT,“MP3”这个拉丁词的编码是MP3。
汉语普通话词义位编码
义位是由语汇形式表示的、独立的、概括的、固定的语义单位,语汇形式包括语素、词和固定词组,英语中使用的是sememe这一术语,义位与义项是有区别又有联系的概念,词典学家将用于书面的、收录在词典之中的每个语素、词和固定词组的每个义项都开列了条目,这些义项就成了语义学家研究的义位,严格地讲义位是属于语义学的范畴,义项是属于词典学的范畴,义位与义项还是有区别的,例如:“察”是一个汉语普通话词,在《现代汉语词典》中共有2个义项:①仔细看;调查:观~②词性:名词,词义:姓,在这2个义项中,第1个义项中的“察”是语素,所以这个义项可以被认为是语素“察”的义位,但是不能被视为汉语普通话词“察”的义位。
义位的排列可以有不同的原则,如使用频率原则、逻辑原则和历史原则,很难用一个原则将所有的汉语普通话语素、词和固定词组的义位进行排序,本发明中语素、词和固定词组义位的排序主要采用使用频率原则,采用使用频率原则的优点是可以提高计算机处理汉语普通话信息的效率,优先从汉语普通话义位数据库中选择出汉语普通话语素、词和固定词组最常用的义位,当采用使用频率原则无法为一部分汉语普通话语素、词和固定词组的义位进行排序时,可以适用逻辑原则,当逻辑原则也不能适用时,可以适用历史原则。
义位历史原则排序方法是以分析每个汉语普通话语素、词、固定词组的义位在国家语委现代汉语语料库中出现的时间顺序来为每个义位排序,在语料库中出现时间早的义位排在前面,在语料库中出现时间晚的义位排在后面。国家语委现代汉语语料库1991年12月立项,1998 年底建成,为避免新的语料加入造成义位排序变更,可以规定以1998年12月31日为界,在1998年12月31日以后加入的新语料不得影响以前义位的排序,新语料中的义位必须排在老语料义位的后面。
词都有数量不等的义位,为了中文信息技术发展的需要,必须要对汉语普通话词的义位进行编码,汉语普通话词义位编码可以按照以下公式进行:汉语普通话词义位编码=汉语普通话词义位编码前缀+(汉语普通话词编码)。为区分汉语普通话词不同的义位,我选择b、d、f、h、i、k、l、t这8个拉丁字母+字母s作为汉语普通话词义位编码前缀,字母s为英语义位“sememe”的缩写,如有的汉语普通话词的义位超过8个,则采用bb、bd、bh、bi、bj、bk、b1、bt等拉丁字母组合+s来作为汉语普通话词义位编码前缀进行编码,有的汉语普通话词只有一个义位,也必须加汉语普通话词义位编码前缀+()进行编码,因为不加汉语普通话词义位编码前缀+()进行编码,会造成词的编码与词的义位编码混淆,不选择+[]进行编码,是因为[]为汉语义素标记符号。
例如:汉语普通话中“发电”这个词从语义学的角度上看是由①发出、产生电力②打电报这2个义位构成的,根据上述编码公式我们可以得到以下编码,①发出、产生电力的义位编码是:②打电报的义位编码是: 汉语普通话词与汉语普通话词义位编码的联系是:
空字符串的编码
在很多编程语言内,空字符串标记为两个双引号:″″,空字符串在构建编码体系方面有很大的作用,例如:汉语普通话中汉语普通话词“爱戴”的编码是“爱戴”只有一个义位“动词,敬爱并拥护:~领袖”所以“爱戴”的义位编码是 如不加汉语普通话词义位编码前缀bs+()进行编码,则会造成“爱戴”与“爱戴”的义位“动词,敬爱并拥护:~领袖”编码混淆,是汉语普通话词的编码,而是汉语普通话词义位的编码,所以有必要引入空字符串″″这个概念来构造编码体系,引入空字符串″″这个概念后,我们可以得到以下编码:
拉丁词义位的编码
拉丁词都有数量不等的义位,拉丁词义位的编码可以按照以下公式进行:拉丁词义位编码=拉丁词义位编码前缀+(拉丁词),为区分拉丁词不同的义位,我选择b、d、f、h、i、k、l、t这8个拉丁字母+字母s作为拉丁词义位编码前缀,字母s为英语义位“sememe”的缩写,如有的拉丁词的义位超过8个,则采用bb、bd、bh、bi、bj、bk、bl、bt等拉丁字母组合+s作为拉丁词义位编码前缀进行编码,有的拉丁词只有一个义位,也必须加拉丁词义位编码前缀+()进行编码,因为不加拉丁词义位编码前缀+()进行编码,会造成拉丁词编码与拉丁词义位编码混淆。
例如:“OA”这个拉丁词有1个义位①办公自动化,根据上述编码公司,我们可以对“OA”这个义位进行编码,①办公自动化的编码是bs(OA),“OA”这个拉丁词与这个义位的联系是:OA=bs(OA)+″″。
汉语普通话语素编码
语素是最小的、有意义的、没有词性的语言单位,汉字与语素是有区别又有联系的概念,大多数情况下一个汉字就是一个语素,不过是汉字的不一定是语素,例如:汉字“螃”不是语素,是语素的不一定是汉字,例如:“马克思”是一个语素,但是“马克思”并不是一个汉字而是3个汉字,严格地说汉字是属于文字学的范畴,语素是属于语言学的范畴。
为了建立汉语普通话语素与汉语普通话中汉字、词等中文信息单位的联系,所以有必要对汉语普通话语素进行编码,汉语普通话语素的编码可以按照以下公式进行:汉语普通话语素编 码=声码+韵码+调码+汉语普通话语素编码后缀,汉语普通话语素编码后缀缀我选择m+a、e、n、o、u、w、x、z这8个拉丁字母,作为汉语普通话语素编码后缀,如同音语素数量超过8个则可以用m+aa、ae、an、ao、au、aw、ax、az等拉丁字母组合作为汉语普通话语素编码后缀来区别汉语普通话同音语素,如汉语普通话同音语素的数量超过72个则可以用m+aaa、aae、aao、aau、aaw、aax、aaz等拉丁字母组合作为汉语普通话语素编码后缀来区别汉语普通话同音语素。
拉丁字母m为英语语素“moreme”的缩写,如有的汉语普通话语素没有同音语素,也必须加汉语普通话语素编码后缀来进行编码,因为不加汉语普通话语素编码后缀,会造成汉语普通话词的编码与汉语普通话语素的编码混淆。
例如:汉语普通话词“工人”是由“工”和“人”2个语素构成的,所以根据以上公式,我们可以得到以下编码:
例如:汉语普通话词“人”是由“人”1个语素构成的,根据空字符编码原理,我们可以得到以下编码:
汉语普通话语素义位编码
为了中文信息处理技术发展和研究汉语普通话语素义位的需要,必须要对汉语普通话语素的义位进行编码,汉语普通话语素义位的编码可以按照以下公式进行:汉语普通话语素义位编码=汉语普通话语素义位编码前缀+(汉语普通话语素编码)。我选择b、d、f、h、i、k、l、t这8个拉丁字母+拉丁字母s作为汉语普通话语素义位编码前缀,字母s为英语义位“sememe”的缩写,如有的汉语普通话语素的义位超过8个,则采用bb、bd、bh、bi、bj、bk、b1、bt等拉丁字母组合+s作为汉语普通话语素义位编码前缀来进行编码,如有的汉语普通话语素只有一个义位,也必须加汉语普通话语素义位编码前缀+()进行编码,因为不加汉语普通话语素义位编码前缀+()进行编码,会造成汉语普通话语素编码与汉语普通话语素义位编码混淆。
例如:汉语普通话语素“丹”有①红色:~砂②依方制成的颗粒状或粉末状的中药(从前道家炼药多用朱砂,所以称为丹:灵~妙药)③姓3个义位,所以根据以上公式,我们可以得到以下编码:
例如:汉语普通话语素“石”有①容量单位,10斗等于1石1个义位,根据空字符编码原理,我们可以得到以下编码:
汉字编码
为了建立汉字与汉语普通话中语素、词等中文信息单位的联系,所以有必要对汉字进行编码,除个别特殊的汉字外(例如汉字“嗲”没有同音字),一般每个汉字都有数量不等的同音字,我的解决方案是:首先将汉字的同音字按照笔画数多寡(笔画数少的在前,笔画数多的在后)和相同笔画数第一笔笔形横竖撇点折的顺序排列(第一笔笔形相同的则按次笔笔形横竖撇点折的顺序排序,以此类推),然后以拉丁字母组合cc+a、e、n、o、u、w、x、z这8个拉丁字母构成汉字编码后缀,如同音字数量超过8个则可以用拉丁字母组合cc+aa、ae、an、ao、au、aw、ax、az等拉丁字母组合作为汉字编码后缀来区别同音词,如同音字的数量超过72个则可以用拉丁字母组合cc+aaa、aae、aao、aau、aaw、aax、aaz等拉丁字母组合作为汉字编码后缀来区别同音词,选择拉丁字母组合cc是因为汉字在英语中是用chinesecharacter这个词组来表示的,所以汉字的编码可以按照以下公式进行:汉字的编码=汉语普通话声码+汉语普通话韵码+汉语普通话调码+汉字编码后缀,如有的汉字没有同音字,也不可以省略汉字编码后缀进行编码,必须加汉字编码后缀进行编码,因为不加汉字编码后缀进行编码,会造成汉语普通词的编码与汉字的编码混淆。
古汉语和方言中有大量的文言词和方言词,这些词的读音与汉语普通话中的词的读音是有很 大差异的,就是专业人士对如何编码也存在着比较大的争议,例如:粤语拼音方案就有香港语言学学会粤语拼音方案、广州话拼音方案、香港教育学院拼音方案等多种拼音方案,为降低计算机处理文言和方言信息的难度,可以将文言和方言词、词组、句子按照汉字的编码规则进行编码,少数民族和外语词、词组、句子可以按照国家标准《汉语拼音正词法基本规则》按词分拆,用汉语拼音翻译,翻译时应避免与汉语词形成同音词,翻译后再对照ASCII字符集进行编码。
文言/方言词和固定词组义位编码
文言和方言词汇中的词、固定词组都有数量不等的义位,文言和方言词、固定词组义位的编码可以按照以下公式进行:文言/方言词和固定词组义位编码=文言/方言词和固定词组义位编码前缀+(文言/方言词和固定词组的汉字编码),文言/方言词和固定词组义位编码前缀我选择b、d、f、h、i、k、l、t这8个拉丁字母+拉丁字母s作为文言/方言词和固定词组编码前缀,拉丁字母s为英语“sememe”(义位)的缩写,如有的文言/方言词和固定词组的义位超过8个,则采用bb、bd、bh、bi、bj、bk、bl、bt等拉丁字母组合+s作为文言/方言词和固定词组义位编码前缀来进行编码,如有的文言/方言词、固定词组只有一个义位,也必须加文言/方言词和固定词组义位编码前缀+()进行编码,因为不加文言/方言词和固定词组义位编码前缀+()进行编码,会造成文言/方言词和固定词组义位编码与汉字词和固定词组编码混淆。汉语普通话固定词组编码
汉语普通话固定词组的编码要按照国家标准《汉语拼音正词法基本规则》的规则按词分拆编码,如不能全部拆分为词的,可以拆分至语素甚至标点符号,然后再进行编码,例如:固定词组“卡尔·海因里希·马克思”可拆分为词“卡尔”、标点符号“·”、词“海因里希”、标点符号“·”和词“马克思”这5个信息单位,然后再按照编码公式进行编码。
拉丁固定词组的编码
由拉丁字母、阿拉伯数字、拉丁词和汉语普通话语素、词构成的固定词组称之为拉丁固定词组,拉丁固定词组的编码要按照国家标准《汉语拼音正词法基本规则》的规则按词分拆编码,如不能全部拆分为词的,可以拆分至语素甚至拉丁字母、阿拉伯数字等信息单位,然后再进行编码,例如:拉丁固定词组“B族维生素”可拆分为字母“B”、语素“族”和词“维生素”这3个中文信息单位,然后再按照编码公式进行编码,“B淋巴细胞”这个拉丁词组的编码就是
汉语普通话固定词组义位编码
在汉语普通话中,汉语普通话固定词组都有数量不等的义位,汉语普通话固定词组义位编码可以按照以下公式进行:汉语普通话固定词组义位编码=汉语普通话固定词组义位编码前缀+(汉语普通话固定词组编码),我选择b、d、f、h、i、k、l、t这8个拉丁字母+字母s作为汉语普通话固定词组义位编码前缀,字母s为英语单词义位“sememe”的缩写,如有的汉语普通话固定词组的义位超过8个,则采用bb、bd、bh、bi、bj、bk、b1、bt等拉丁字母组合+s作为汉语普通话固定词组义位编码前缀来进行编码,如有的汉语普通话固定词组只有一个义位,也必须加汉语普通话固定词组义位编码前缀+()进行编码,因为不加汉语普通话固定词组义位编码前缀+()进行编码,会造成汉语普通话固定词组编码与汉语普通话固定词组义位编码混淆。
拉丁词和拉丁固定词组义位编码
在汉语普通话中拉丁词、拉丁固定词组都有数量不等的义位,为了拓展中文信息编码技术的深度和广度,所以有必要对拉丁词和拉丁固定词组的义位进行编码,拉丁词和拉丁固定词组义位编码可以按照以下公式进行:拉丁词和拉丁固定词组义位编码=拉丁词和拉丁固定词组义位编码前缀+(拉丁词编码/拉丁固定词组编码),我选择b、d、h、i、j、k、l、t这8个拉丁组字母+s构成拉丁词和拉丁固定词组义位编码前缀,如有的拉丁词和拉丁固定词组的义位 超过8个则可以用bb、bd、bh、bi、bj、bk、bl、bt等拉丁字母组合+s构成拉丁词和拉丁固定词组义位编码前缀,字母s为英语义位“sememe”的缩写,如有的拉丁词和拉丁固定词组只有一个义位,也必须加拉丁词和拉丁固定词组义位编码前缀+()进行编码,因为不加拉丁词和拉丁固定词组义位编码前缀+()进行编码,会造成拉丁词和拉丁固定词组编码与拉丁词和拉丁固定词组义位编码混淆。
汉语普通话自由词组的编码
汉语普通话自由词组的编码必须根据国家标准《汉语拼音正词法基本规则》的规定,首先将汉语普通话自由词组按词拆分,再以词为单位进行编码,如不能全部拆分为词的,可以拆分至语素甚至标点符号,然后再进行编码,例如:“建设富裕的、强大的社会主义国家”这个自由词组可拆分为词“建设”、词“富裕”、词“的”、标点符号“、”、词“强大”、词“的”、词“社会”、词“主义”、词“国家”这9个信息单位,然后再按照编码公式进行编码。
拉丁自由词组编码
由拉丁字母、阿拉伯数字、拉丁词和汉语普通话语素、汉语普通话词构成的自由词组称之为拉丁自由词组,拉丁自由词组编码必须根据国家标准《汉语拼音正词法基本规则》的规则,首先将拉丁自由词组拆分为词,再以词为单位进行编码,如不能全部拆分为词的,可以拆分至语素、拉丁字母、阿拉伯数字等信息单位,然后再进行编码,例如:“MP3的生产企业”这个拉丁自由词组可拆分为拉丁词“MP3”、词“的”、词“生产”、词“企业”、这4个信息编码单位,然后再按照编码公式编码。
汉语普通话自由词组义丛编码
在语义学上自由词组的每一项语义称之为义丛,例如:“老工人代表”这个汉语普通话自由词组,有2项语义:①老工人的代表(不一定是老人,也可能是中年人和青年人)②年龄老的工人代表,所以“老工人代表”这个自由词组有2个义丛,汉语普通话自由词组义丛编码可以按照以下公式进行:汉语普通话自由词组义丛编码=汉语普通话自由词组义丛编码前缀+(汉语普通话自由词组编码),我选择g、p、q、y这4个拉丁字母+字母c作为汉语普通话自由词组义丛编码前缀,字母c为英语“cluster”(义丛)的缩写,如有的汉语普通话自由词组的义丛超过4个,则采用gg、gp、gq、gy等拉丁字母组合+c作为汉语普通话自由词组义丛编码前缀来进行编码,如有的汉语普通话自由词组只有一个义丛,也必须加汉语普通话自由词组义丛编码前缀+()来进行编码,因为不加汉语普通话自由词组义丛编码前缀+()进行编码,会造成汉语普通话自由词组编码与汉语普通话自由词组义丛编码混淆。
拉丁自由词组义丛编码
拉丁自由词组都有数量不等的义丛,例如:“安装Office软件”这个拉丁自由词组的语义有:①安装Microsoft Office软件②安装WPS Office软件,所以“安装Office软件”这个拉丁自由词组有2个义丛,拉丁自由词组义丛的编码可以按照以下公式进行:拉丁自由词组义丛编码=拉丁自由词组义丛编码前缀+(拉丁自由词组编码),我选择g、p、q、y这4个拉丁字母+字母c作为拉丁自由词组义丛编码前缀,字母c为英语义丛“cluster”的缩写,如有的拉丁自由词组的义位超过4个,则采用gg、gp、gq、gy等拉丁字母组合+c作为拉丁自由词组义丛编码前缀来进行编码,如有的拉丁自由词组只有一个义丛,也必须加拉丁自由词组义丛编码前缀+()进行编码,因为不加拉丁自由词组义丛编码前缀+()进行编码,会造成拉丁自由词组编码与拉丁自由词组义丛编码混淆。
例如:①安装Microsoft Office软件的编码是 ②安装WPS Office软件的编码是 编码之间的联系是:
文言和方言自由词组义丛编码
古汉语和方言中的自由词组都有数量不等的义丛,文言和方言自由词组义丛编码可以按照以下公式进行:文言和方言自由词组义丛编码=文言和方言自由词组义丛编码前缀+(文言和方言自由词组的汉字编码),文言和方言自由词组义丛编码前缀我选择g、p、q、y这4个拉丁字母+拉丁字母c+:作为文言和方言自由词组义丛编码前缀,拉丁字母c为英语“cluster”(义丛)的缩写,如有的文言和方言自由词组的义位超过4个,则采用gg、gp、gq、gy等拉丁字母组合+c作为文言和方言自由词组义丛编码前缀来进行编码,如有的文言和方言自由词组只有一个义丛,也必须加文言和方言自由词组义丛编码前缀+()进行编码,因为不加文言和方言自由词组义丛编码前缀+()进行编码,会造成文言和方言自由词组编码与文言和方言自由词组义丛编码混淆。
汉语普通话句子的编码
汉语普通话句子的编码必须根据国家标准《汉语拼音正词法基本规则》的规定,首先将汉语普通话句子按词拆分,再以词为单位进行编码,如不能全部拆分为词的,可以拆分至语素甚至拉丁字母、标点符号,然后再进行编码。文言或方言的句子可按汉字拆分,以汉字为单位进行编码。
汉语普通话句子表述编码
在语义学上句子的每一项语义称之为表述,汉语普通话句子都有数量不等的表述,例如:“条条大路通罗马。”这句话有2项句义:1、通向罗马的道路有很多条,2、做成一件事可以有很多方法和途径,所以这句话有2个表述,表述的编码可以按照以下公式进行:汉语普通话句子表述编码=汉语普通话句子表述编码前缀+(汉语普通话句子编码),我选择r、v这2个拉丁字母+字母f作为汉语普通话句子表述编码前缀,字母f为英语“formulation”(表述)的缩写,如有的汉语普通话句子的表述超过2个,则采用rr、rv、vr、vv等拉丁字母组合+f作为汉语普通话句子表述编码前缀来进行编码,如有的汉语普通话句子只有一个表述,也必须加汉语普通话句子表述编码前缀+()进行编码,因为不加汉语普通话句子表述编码前缀+()进行编码,会造成汉语普通话句子编码与汉语普通话句子表述编码混淆。
文言和方言句子表述编码
古汉语和方言句子都有数量不等的表述,文言和方言句子表述编码可以按照以下公式进行:文言和方言句子表述编码=文言和方言句子表述编码前缀+(古汉语和方言句子的汉字编码),文言和方言句子表述编码前缀我选择r、v这2个拉丁字母+拉丁字母f作为文言和方言句子表述编码前缀,拉丁字母f为英语“formulation”(表述)的缩写,如有的文言和方言句子的表述超过2个,则采用rr、rv、vr、vv等拉丁字母组合+f作为文言和方言句子表述编码前缀来进行编码,如有的文言和方言句子只有一个表述,也必须加文言和方言句子表述编码前缀进行编码+()进行编码,因为不加文言和方言句子表述编码前缀+()进行编码,会造成文言和方言句子编码与文言和方言句子表述编码混淆。
(四)具体实施方式
一、例如汉语普通话中“俩”这个词从语言学的角度看由1个语素“俩”构成的,从语义学上看由1、两个2、不多这2个义位构成的,我们可以根据以上编码公式可以得到以下编码,并建立各编码之间的联系:
二、例如:汉语普通话中“发电”这个词从语言学的角度看是由两个语素“发”和“电”、一个词“发电”构成的,从语义学的角度看是由1、发出、产生电力2、打电报这2个义位构成的,根据上述编码公式我们可以得到以下编码,并建立各编码之间的联系,从而将汉语普通话中词的编码、语素的编码连成一个编码体系:
三、例如:“自由主义”这个固定词组从语言学的角度是由“自”“由”“主”“义”4个语素、“自由”和“主义”2个词构成的,从语义学的角度看是由①19世纪和20世纪初期的一种资产阶级政治思想,自由主义者代表资产阶级的利益,反对政治的、社会的和宗教的束缚,在历史上曾起过进步的作用,但在资产阶级取得政权后,自由主义就成了掩饰资产阶级统治的幌子②革命队伍中的一种错误的思想作风,主要表现是缺乏原则性,无组织,无纪律,过分强调个人利益等这2个义位构成的,根据上述编码公式我们可以得到以下编码,并建立各编码之间的联系,从而将汉语普通话中词组的义位编码、词组的编码、词的编码、语素的编码等汉语普通话信息编码连成一个编码体系:
四、例如:“老工人代表”这个自由词组,有2项语义:1、老工人的代表,2、年龄大的工人代表,我们可以根据以上编码公式可以得到以下编码,并建立各编码之间的联系,从而将汉语普通话中自由词组的义丛编码、词组的编码、词的编码、语素的编码等汉语普通话信息编码连成一个编码体系:
五、例如:“三百六十行,行行出状元。”这句话有2项句义,1、每一个行业都会涌现出出类拔萃的优秀者,2、比喻只要热爱本职工作,都能做出优异的成绩,我们可以根据以上编码公式可以得到以下编码,并建立各编码之间的联系,从而将汉语普通话中句子的表述编码、词的编码、语素的编码等汉语普通话信息编码连成一个编码体系:
六、例如“它山之石,可以攻玉。”这句古诗出自《诗经·小雅·鹤鸣》,这个句子有3项语义:1、别的山上的石头,能够用来琢磨玉器2、比喻别国的贤才可以本国效力3、比喻帮助自己改正缺点的人或意见,因为这是一个文言句子,所以这个句子可以按照汉字的编码规则进行编码,根据编码公式,我们可以得到以下编码,并建立各编码之间的联系:
我们将按照上述编码公式得到的编码,对照ASCII字符集,就可以将这些编码转换为计算机可以进行信息处理的二进制编码,而按照国家标准GB2312-1980《信息交换用汉字编码字符集·基本集》只能对汉字进行编码,而不能对语素、词、语素的义位、词的义位等汉语普通话信息进行编码,所以本发明拓展了中文信息处理技术的广度和深度,为今后汉语自然语言理解软件和中文信息处理软件的开发提供了一个更好的平台,达到了一个全新的境界。

Claims (1)

1.本发明是一种汉语普通话信息编码技术方案,属于中文信息处理技术领域,其特征是:用ASCII码对汉语普通话语素、汉语普通话词、汉语普通话语素和词的义位、汉语普通话自由词组的义丛、汉语普通话句子的表述等汉语普通话信息进行编码,并将这些编码联系为一个编码体系,从而拓展了中文信息处理技术的广度和深度,为今后中文信息处理和汉语自然语言理解软件的开发提供了一个更好的平台,达到了一个全新的境界。
CN201610707602.XA 2016-08-18 2016-08-18 汉语普通话信息ascⅱ体系码 Pending CN106372039A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610707602.XA CN106372039A (zh) 2016-08-18 2016-08-18 汉语普通话信息ascⅱ体系码

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610707602.XA CN106372039A (zh) 2016-08-18 2016-08-18 汉语普通话信息ascⅱ体系码

Publications (1)

Publication Number Publication Date
CN106372039A true CN106372039A (zh) 2017-02-01

Family

ID=57877989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610707602.XA Pending CN106372039A (zh) 2016-08-18 2016-08-18 汉语普通话信息ascⅱ体系码

Country Status (1)

Country Link
CN (1) CN106372039A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018228101A1 (zh) * 2017-06-14 2018-12-20 佛山辞荟源信息科技有限公司 基于汉语含义的汉语编码方法及系统和介质设备
CN109086285A (zh) * 2017-06-14 2018-12-25 佛山辞荟源信息科技有限公司 基于语素的汉语智能处理方法和系统及装置
CN109918625A (zh) * 2019-03-28 2019-06-21 王欣 新型汉语普通话信息ascii人机通讯码

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018228101A1 (zh) * 2017-06-14 2018-12-20 佛山辞荟源信息科技有限公司 基于汉语含义的汉语编码方法及系统和介质设备
CN109086285A (zh) * 2017-06-14 2018-12-25 佛山辞荟源信息科技有限公司 基于语素的汉语智能处理方法和系统及装置
CN109086257A (zh) * 2017-06-14 2018-12-25 佛山辞荟源信息科技有限公司 基于汉语含义的汉语编码处理方法及系统
CN109086285B (zh) * 2017-06-14 2021-10-15 佛山辞荟源信息科技有限公司 基于语素的汉语智能处理方法和系统及装置
CN109918625A (zh) * 2019-03-28 2019-06-21 王欣 新型汉语普通话信息ascii人机通讯码

Similar Documents

Publication Publication Date Title
Protopapas et al. A comparative quantitative analysis of Greek orthographic transparency
CN102214238B (zh) 一种汉语词语相近性匹配装置及方法
CN106372039A (zh) 汉语普通话信息ascⅱ体系码
Malmqvist Chinese linguistics
Hellwig Using Recurrent Neural Networks for joint compound splitting and Sandhi resolution in Sanskrit
CN104408037A (zh) 藏文文本的向量模型表示方法
Zhang et al. A study on functional loads of phonetic contrasts under context based on mutual information of Chinese text and phonemes
Youguang Modernization of the Chinese language
CN103246354A (zh) 以通用语文字编码表达汉字的输入法及其键盘
CN107315725A (zh) 汉语普通话信息ascii集合码
CN107391464A (zh) 新型汉语普通话信息ascii集合码
CN106951402A (zh) 新型汉语普通话信息ascii体系码
CN105955936A (zh) 新型汉语普通话信息ascii码
Joshi et al. Input Scheme for Hindi Using Phonetic Mapping
Gutkin et al. Extensions to Brahmic script processing within the Nisaba library: new scripts, languages and utilities
CN1257444C (zh) 计算机汉语全音输入法
Joshi et al. A phonemic code based scheme for effective processing of Indian Languages
CN105068977A (zh) 新型汉语信息ascii码
Streeter Doc, 1971: A Chinese dialect dictionary on computer
CN104076939A (zh) 拼音文字方案
CN1050206C (zh) 正规拼音汉字输入法
Dika et al. The principles of designing of algorithm for speech synthesis from texts written in Albanian language
Simpson Analysis of an invented writing system for the Shanghainese language
CN104615269A (zh) 一种藏文拉丁全简双拼编码方案及其智能输入系统
Kim et al. Constructing an Internet chatting dictionary for mapping chatting language to standard language

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20170201

WD01 Invention patent application deemed withdrawn after publication