CN110956017A

CN110956017A - 汉语普通话信息ascii自然语言理解码

Info

Publication number: CN110956017A
Application number: CN201910828350.XA
Authority: CN
Inventors: 王欣
Original assignee: Individual
Current assignee: Individual
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2020-04-03

Abstract

本发明是一种对汉语普通话信息进行编码的技术方案，属于中文信息处理技术领域，本发明将汉语普通话语言信息简单地分为汉语普通话单音节语言信息和汉语普通话多音节语言信息2大类，用a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z 26个拉丁字母和ä、ë、ï、ö、ÿ5个特殊字符（这些特殊字符可以按照ä=a:、ë=e:、ï=i:、ö=o:、ÿ=y:的方式进行转换）来标记汉语普通话单音节语言信息和汉语普通话多音节语言信息的义项，可以使每个汉语普通话单音节语言信息和汉语普通话多音节语言信息的义项都对应一个不同的ASCII编码，这些ASCII编码能够降低计算机理解汉语普通话语言信息的难度，从而使汉语普通话人机交互更易实现，所以这项技术有比较好的发展前景。

Description

汉语普通话信息ASCII自然语言理解码

技术领域

本发明是一种对汉语普通话信息进行编码的技术方案，属于中文信息处理技术领域。

背景技术

本发明的背景技术是中华人民共和国国家标准 GB2312-1980 《信息交换用汉字编码字符集· 基本集》和《新型汉语普通话信息 ASCII 集合码》。

发明内容

国家标准 GB2312-1980《信息交换用汉字编码字符集·基本集》是计算机系统内部处理和存储汉字时使用的编码方法，GB2312-1980《信息交换用汉字编码字符集·基本集》规定，编码采用双七位编码方式（即两个字节表示一个汉字），为了与英文字母相区别，汉字机内代码中两个字节的最高位规定为“1”，英文字母的机内代码是 7 位的 ASCII 码，这种编码在使用范围上有一些限制，例如在一些大中型计算机系统以及在网络通信环境中，要用字节的最高位作奇偶校验的情况下，就不能使用这种汉字编码方法，所以必须考虑设计其他的汉语普通话信息编码方法。

《新型汉语普通话信息ASCII集合码》（申请号或专利号 201710610180.9）是本人2017 年 7 月 25 日申请的发明专利，这项专利 2017 年 8 月 14 日通过了国家知识产权局的初步审查，2017 年 12 月 6 日该申请在 33 卷 4702 期 2017 年 11 月 24 日专利公报上予以发布并进入实质审查阶段，该专利引入集合理论对汉语普通话语素、词、词组等汉语普通话信息进行编码，但是目前汉语的语素与词之间的划分以及词的归类等问题在理论上还有比较多的问题未妥善解决，完全套用国外的理论不能够完全解决汉语编码的实际问题，鉴于这项专利存在比较多的问题，所以有必要结合汉语的特点改进这项专利。

《新型汉语普通话信息ASCII人机通讯码》（申请号或专利号 201910244579.9）是本人 2019 年 3 月 28 日申请的发明专利，这项专利 2019 年 4 月 25 日通过了国家知识产权局的初步审查，2019 年 6 月 21 日该申请在 35 卷 2502 期 2019 年 6 月 21日专利公报上予以发布并进入实质审查阶段，该专利将汉语普通话单纯词视为汉语普通话语素，按照汉语普通话语素的编码方法进行编码，编码方法有所改进，但是改进幅度不大，不区分汉语普通话语素、词和词组，将汉语普通话语言信息简单地分为汉语普通话单音节语言信息和汉语普通话多音节语言信息进行编码是更好的解决方案，所以有必要改进此项专利。

自然语言理解(NLU,Natural Language Understanding)是使计算机学会理解和运用人类的语言，实现人机之间的自然语言通讯来代替人的部分脑力劳动的技术，这项技术的重要性是不言而喻的，哪个国家在此领域实现领先，哪个国家就将在新技术革命中占据有利的发展优势，自然语言处理技术的关键是使计算机“理解”自然语言，汉语是一门比较复杂的语言，有数千年的悠久历史，要让计算机理解汉语，首先要降低计算机学习汉语的难度，古汉语和古汉字是极少数知识分子才能理解的语言和文字，应用范围也很狭窄，所以应该让计算机理解最为规范，学习难度比较小的现代汉语和现代通用汉字，要让计算机理解汉语普通话和现代通用汉字，首先要对汉语普通话的声母、韵母和声调进行编码。

汉语普通话声母的编码

《汉语拼音方案》中规定汉语拼音中有声母“b”、“p”、“m”、“f”、“zh”、“ch”、“sh”等 21个声母，本发明以《汉语拼音方案》的声母作为声码。

汉语普通话韵母的编码说明书

《汉语拼音方案》中规定汉语拼音中有韵母“a”、“o”、“e”、“i”、“u”等 35 个韵母，本发明以《汉语拼音方案》的韵母作为韵码，因 ASCII 字符集中无ü这个字母的编码，我的解决办法是按照“ü”=u:的方式编码，所以《汉语拼音方案》的 4 个韵母“ü”、“üe”、“üan”、“ün”分别以“ü”=u:、“üe”=u:e、“üan”=u:an、“ün”=u:n 的方式编码，其余韵母不作变更，作为韵码。

汉语普通话声调的编码

《汉语拼音方案》中规定声调符号为：阴平（ˉ）阳平（ˊ）上声（ˇ）去声（ˋ）,声调符号标在音节的主要母音上，轻声不标，这种标调方法需要首先确定哪个字母为音节的主要母音，比较复杂，我的解决办法是用 5 个字符 ä、ë、ï、ö、ÿ分别表示阴平、阳平、上声、去声、轻声这5 个声调，声调标在韵母之后，因为 ASCII 字符集中没有这 5 个字符，我的解决办法是用ä=a:、ë=e:、ï=i:、ö=o:、ÿ=y:的方式进行转换。

汉语普通话基础单音节语言信息的编码

汉语普通话语言信息可以简单地分为汉语普通话单音节语言信息和汉语普通话多音节语言信

息，汉语普通话单音节语言信息可分为汉语普通话单音节语素语言信息和汉语普通话单音节

词语言信息 2 类，汉语普通话多音节语言信息可分为汉语普通话多音节语素语言信息、汉语普通话多音节词语言信息和汉语普通话词组语言信息 3 类，语素是最小的、有意义的但是没有词性的语言单位，词是由 1 个或 1 个以上的语素组成的，有意义的，有词性的语言单位，词性是词所独有的语法性质，词可以根据词性不同而被划分为不同的词类，词组是由 2 个或 2 个以上的语素或词构成的、有意义但是没有词性的语言单位，目前计算机还无法做到准确地中文分词，所以我们可以将汉语普通话单音节语素、汉语普通话单音节词均视为汉语普通话单音节语言信息，汉语普通话多音节语素、汉语普通话多音节词、汉语普通话词组均视为汉语普通话多音节语言信息，以此进行编码，在理论上也是可行的。

《现代汉语词典》是中国社会科学院语言研究所按照国务院指示，以确定词汇规范为目的，以推广普通话，促进汉语规范为宗旨而编撰的一部久享盛誉的规范型词典，共收条目约 69000 条，因此这部辞典可作为计算机学习汉语普通话的理想的基础工具书和教材，故而我们可以将《现代汉语词典》中所收录的汉语普通话单音节语言信息称为汉语普通话基础单音节语言信息，《现代汉语词典》中所收录的汉语普通话多音节语言信息称为汉语普通话基础多音节语言信息。

无同音混淆的汉语普通话基础单音节语言信息，按其汉语拼音全拼编码即可，有同音混淆的汉语普通话基础单音节语言信息可以按照以下方法编码：汉语普通话基础单音节语言信息编码 = 汉语普通话基础单音节语言信息汉语拼音全拼编码 + 汉语普通话基础单音节语言信息后缀编码。

为了避免汉语普通话基础单音节语言信息的混淆，我选择 a、e、i、o、u、aa、ee、ii、oo、 uu、ae、ai、ao、au、ea、ei、eo、eu、ia、ie、io、iu、oa、oe、oi、ou、ua、ue、ui、 uo、aaa、eee、iii、ooo、uuu、aae、aai、aao、aau、aea、aee、aei、aeo、aeu、aia、aie、

aii、aio、aiu、aoa、aoe、aoi、aoo、aou、aua、aue、aui、auo、auu 等编码作为汉语普通话基础单音节语言信息后缀编码，这些编码还可以按实际编码需要扩增，使用这种编码方法可以做到不重码。

例如: 汉语普通话基础单音节语言信息“啊”与其他 4 个汉语普通话基础单音节语言信息同音，按照其在《现代汉语词典》的排序（即按照其对应汉字的笔画数多寡和相同笔画数起笔笔形横、竖、撇、点、折的顺序排序，起笔相同的，按次笔笔形横、竖、撇、点、折的顺序排序，以此类推）和上述方法编码，我们可以分别得到以下编码: “吖”的编码是 aäa ,“阿” 的编码是 aäe ,“啊”的编码是 aäi ,“锕”的编码是 aäo ,“腌”的编码是 aäu 。

《现代汉语词典》中有一些音同义不同，用阿拉伯数字标识的，单列条目释义的汉语普通话基础单音节语言信息（例如：“号¹”、“号²”），因为这类汉语普通话基础单音节语言信息标识了阿拉伯数字，故而我们可以认为其形已不同（“号¹”不用于“号²”），而笔画数不变（阿拉伯数字不算笔画，但有顺序先后，“号¹”排序在“号²”前），基于此种认识，此类汉语普通话基础单音节语言信息就可以比较容易地进行排序和编码了。

例如：“号¹”（hào ）这个汉语普通话基础单音节语言信息在《现代汉语词典》中有15 个同音的汉语普通话单音节语言信息，分别是“号²”、“好”、“昊”、“耗¹”、

“耗²”、“浩”、“淏”、 “皓”、“鄗”、“滈”、“镐”、“皞”、“澔”、“颢”、“灏”，我们将这 16 个汉语普通话基础单音节语言信息按照其对应汉字笔画数多寡的顺序排序（标识了阿拉伯数字的汉字，阿拉伯数字不算笔画，但有顺序先后，笔画数相同的按照起笔笔形横、竖、撇、点、折的顺序排序，起笔相同的，按次笔笔形横、竖、撇、点、折的顺序排序，以此类推），排序后按照上述编码方法，我们可以分别得到以下编码: “号¹”的编码是 haoöa ，“号²”的编码是 haoöe ，“好” 的编码是 haoöi ，“昊”的编码是 haoöo ，“耗¹”的编码是 haoöu ，“耗 ²”的编码是 haoöaa ，“浩”的编码是 haoöee ，“淏”的编码是 haoöii ，“皓”的编码是 haoöoo ，“鄗”的编码是 haoöuu ，“滈”的编码是 haoöae ，“镐”的编码是 haoöai ， “皞”的编码是haoöao ， “澔”的编码是 haoöau ，“颢”的编码是 haoöea ，“灏”的编码是 haoöei 。

《现代汉语词典》中还有一些形同音义不同，单列条目释义的汉语普通话基础单音节语言信息（例如：“好” hǎo、“好” hào ），因为这类汉语普通话基础单音节语言信息音义不同，故而我们将其按音分开编码即可。

例如：“好”hǎo 这个汉语普通话基础单音节语言信息在《现代汉语词典》中有 1个同音的汉语普通话单音节语言信息（郝 hǎo），“好” hào 这个汉语普通话基础单音节语言信息在《现代汉语词典》中有 15 个同音的汉语普通话单音节语言信息，我们按其音分开编码即可，按照上述编码方法，我们可以分别得到以下编码:“好” （hǎo）的编码是 haoïa ，“郝”（hǎo ）的编码是 haoïe ，“好” （hào）的编码是 haoöi 。

汉语普通话基础多音节语言信息的编码

无同音混淆的汉语普通话基础多音节语言信息，按其汉语拼音全拼编码即可，有同音混淆的

汉语普通话基础多音节语言信息可以按照以下方法编码：汉语普通话基础多音节语言信息编码 = 汉语普通话基础多音节语言信息汉语拼音全拼编码 + 汉语普通话基础多音节语言信息后缀编码。

为了避免汉语普通话基础多音节语言信息的混淆，我选择 vä、vë、vï、vö、vÿ 、vää、vëë、 vïï、vöö、vÿÿ、väë、väï、väö、väÿ、vëä、vëï、vëö、vëÿ、vïä、vïë、vïö、vïÿ、vöä、 vöë、vöï、vöÿ 、vÿä 、vÿë 、vÿï 、vÿö 等编码作为汉语普通话多音节语言信息后缀编码，这些编码还可以按实际编码需要扩增，使用这种编码方法可以做到不重码，选择 v 和ä、ë、ï、 ö、ÿ作为汉语普通话多音节语言信息后缀编码，是因为在《汉语拼音方案中》中 v 既不是声母也不是韵母， v 和ä、ë、ï、ö、ÿ的组合类似音节，却不是音节，而且易于辨识。

例如: 汉语普通话基础多音节语言信息“包含”与另外一个汉语普通话基础单音节语言信息“包涵”同音，按照上述编码方法，我们可以得到以下编码：“包含”的编码是 baoävä ，“包涵”的编码是 baoävë 。

汉语普通话基础拉丁词的编码

在《现代汉语词典》收录的语言信息中，有一类包含拉丁字母、阿拉伯数字和特定符号的词，

例如：CT、MP3 等，我们可以把这些词称为汉语普通话基础拉丁词，构成汉语普通话拉丁词的这些有意义的拉丁字母、阿拉伯数字和特定符号则被称为汉语普通话基础拉丁语素。

例如：“CT”是由“C”和“T”2个汉语普通话基础拉丁语素构成的（“C”是英语单词“computerized”（用计算机做，使计算机化）的缩写，“T”是英语单词“tomography”(X 线断层摄影术)的缩写），这些汉语普通话基础拉丁词已广泛用于汉语普通话口语和出版物中，已成为汉语普通话词汇的一部分，对于这类词，我们直接用字母、阿拉伯数字和符号编码就可以，例如：汉语普通话基础拉丁词“CT”的编码就是 CT 。

汉语普通话基础单音节语言信息的义项集合编码

汉语普通话基础单音节语言信息都有数量不等的义项，如我们将一个汉语普通话基础单音节

语言信息的一个义项视为一个集合中的元素，那么我们就可以用一个集合来表示一个汉语普

通话基础单音节语言信息的全部义项。

例如：“变”这个汉语普通话基础单音节语言信息，在《现代汉语词典》中共有 9 个义项：“① 和原来不同；变化；改变：情况～了 ② 改变(性质、状态)；变成：沙漠～良田 ③使改变；～废为宝 ④ 能变化的；已变化的：～数 ⑤ 变卖：～产 ⑥ 变通：通权达～” ⑦有重大影响的突然变化：事～ ⑧ 指变文：目连～⑨ 姓”，如果我们将这 9 个义项视为汉语普通话基础单音节语言信息“变”的义项的集合中的 9 个元素，那么我们就可以用一个集合来表示汉语普通话基础单音节语言信息“变”的全部义项。

汉语普通话基础单音节语言信息的义项集合可以按照以下方法编码：汉语普通话基础单音节语言信息的义项集合编码 = {汉语普通话基础单音节语言信息编码} ，“{}”是表示集合的编码，例如：{bianö}表示“变”这个汉语普通话基础单音节语言信息的全部义项。

汉语普通话基础单音节语言信息的义项编码

汉语普通话基础单音节语言信息的义项编码可以按照以下方法编码：汉语普通话基础单音节

语言信息义项编码= 汉语普通话基础单音节语言信息义项前缀编码 +（汉语普通话基础单音节语言信息编码）。

为了避免汉语普通话基础单音节语言信息的义项编码混淆，我选择 b、c、d、f、 g、h、j、k、l、m、bb、cc、dd、ff、gg、hh、jj、kk、ll、mm 等拉丁字母和拉丁字母组合作为汉语普通话基础单音节语言信息义项前缀编码，这些编码还可以按实际编码需要扩增，使用这种编码方法可以做到不重码。

例如：“变”这个汉语普通话基础单音节语言信息，按照上述编码方法进行编码，我们可以得到以下编码：“① 和原来不同；变化；改变：情况～了” 这个义项的编码是 b（bianö），“② 改变(性质、状态)；变成：沙漠～良田”这个义项的编码是 c（bianö），“③ 使改变；～废为宝”这个义项的编码是 d（bianö），“④ 能变化的；已变化的：～数”这个义项的编码是 f（bianö），“⑤ 变卖：～产”这个义项的编码是 g（bianö）{bianö}，

“⑥ 变通：通权达～”这个义项的编码是 h（bianö），“⑦ 有重大影响的突然变化：事～” 这个义项的编码是 j（bianö）{bianö}，“⑧ 指变文：目连～”这个义项的编码是 k（bianö），“⑨ 姓”这个义项的编码是 l（bianö）。

汉语普通话基础多音节语言信息义项集合的编码

汉语普通话基础多音节语言信息义项集合的编码可以按照以下方法进行编码：汉语普通话基

础多音节语言信息义项集合编码 = {汉语普通话基础多音节语言信息编码}，“{}”是表示集

合的编码，例如：{shengächanï}表示“生产”的这个汉语普通话基础多音节语言信息的所有

义项。

汉语普通话基础多音节语言信息义项的编码

汉语普通话基础多音节语言信息义项的编码可以按照以下方法进行编码：汉语普通话基础多

音节语言信息义项编码 = 汉语普通话基础多音节语言信息义项前缀编码 + [ 汉语普通话基础多音节语言信息编码 ] 。

为了避免汉语普通话基础多音节语言信息的义项编码混淆，我选择 n、p、q、r、 s、t、w、x、y、z、nn、pp、qq、rr、ss、tt、ww、xx、yy、zz 等拉丁字母和拉丁字母组合作为汉语普通话基础多音节语言信息义项前缀编码，这些编码还可以按实际编码需要扩增，使用这种编码方法可以做到不重码。

例如：《现代汉语词典》中“生产”这个汉语普通话基础多音节语言信息共有 2 个义项，按照上述编码方法进行编码，我们可以得到以下编码：“ ① 人们使用生产工具来创造各种生产资料和生活资料；工业～”这个义项的编码是 n[shengächanï]“② 生孩子”这个义项的编码是 p[shengächanï]。

汉语普通话基础拉丁词义项集合的编码

汉语普通话基础拉丁词义项集合的编码可以按照以下方法编码：汉语普通话基础拉丁词义项

集合编码 = {汉语普通话基础拉丁词编码}，“{}”是表示集合的编码，例如：{CT}表示“CT”这个汉语普通话基础拉丁词的所有义项。

汉语普通话基础拉丁词义项的编码

汉语普通话基础拉丁词义项的编码可以按照以下方法进行编码：汉语普通话基础拉丁词义项

编码 = 汉语普通话基础拉丁词义项前缀编码 + < 汉语普通话基础拉丁词编码 > 。

为了区分汉语普通话基础拉丁词的不同义项，我选择 0、1、2、3、 4、5、6、7、8、9、0、00、11、22、33、 44、55、66、77、88、99 等阿拉伯数字和阿拉伯数字组合作为汉语普通话基础拉丁词义项前缀编码，这些编码还可以按实际编码需要扩增，使用这种编码方法可以做到不重码。

例如：“CT”这个汉语普通话拉丁词有 2 个义项，根据上述编码方法，“① 计算机体层成像”的编码是 0<CT>，“② “计算机体层成像仪”的编码是 1<CT>。

具体实施方式

例如：我们向 1 台计算机发出“你要学习资料吗”的中文信息，这台计算机接收信息后有可能会产生理解错误，因为这句话是一个歧义句。

1、“要”是“希望得到；希望保持”的涵义时，“你要学习资料吗”就是表示我们问计算机其是否希望得到学习资料。

2、“要”是“请求”的涵义时，“你要学习资料吗”就是表示我们问计算机其是否请求学习下资料上的内容。

如何使计算机正确理解我们的信息，并可以进行有效的人机对话，我们可以使用前述编码方法对汉语普通话语言信息进行编码，并这些编码转换为 ASCII 码来实现此目标，因为 ASCII 字符集中没有ä、ë、ï、ö、ÿ这 5 个字符编码，我们可以用ä=a:、ë=e:、ï=i:、ö=o:、ÿ=y: 的方式进行转换。

根据前述的编码方法，当我们向计算机发送“ b（niïe）b（yaoöo） n[xueëxië]

p[ ziäliaoö]”的 ASCII 编码时表示我们问计算机其是否希望得到学习资料，当我们向计

算机发送“ b（niïe）d（yaoöo） n[xueëxië] p[ ziäliaoö]”的 ASCII 编码时表示我们问计算机其是否请求学习下资料上的内容。

当计算机收到我们发送的 ASCII 计算机编码后，借助相关的自然语言理解程序就可以比较容易地理解我们发送的信息，然后给予我们一个反馈，从上面的编码演示过程中，我们可以清楚地发现用汉字和汉字组合表达的信息，存在多音多义和歧义问题，不便于人机对话，使用本发明可以做到一码一义，可以降低计算机理解汉语普通话信息的难度，从而使汉语普通话人机交互更易实现，所以这项技术有比较好的发展前景。

Claims

1.本发明是一种对汉语普通话信息进行编码的技术方案，属于中文信息处理技术领域，其特征是：将汉语普通话语言信息简单地分为汉语普通话单音节语言信息和汉语普通话多音节语言信息 2 大类，用 a、b、c、d、e、f、g、h、i、j、k、l、m、n、o、p、q、r、s、t、u、v、w、x、y、z 26 个拉丁字母和 ä、ë、ï、ö、ÿ 5 个特殊字符（这些特殊字符可以按照ä=a:、ë=e:、ï=i:、ö=o:、ÿ=y:的方式进行转换）来标记汉语普通话单音节语言信息和汉语普通话多音节语言信息的义项，可以使每个汉语普通话单音节语言信息和汉语普通话多音节语言信息的义项都对应一个不同的 ASCII 编码，这些 ASCII 编码能够降低计算机理解汉语普通话语言信息的难度，从而使汉语普通话人机交互更易实现，所以这项技术有比较好的发展前景。