CN107145478B

CN107145478B - 一种将汉字语句转换为盲文的方法

Info

Publication number: CN107145478B
Application number: CN201710302938.2A
Authority: CN
Inventors: 富明慧
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2017-05-03
Filing date: 2017-05-03
Publication date: 2020-04-07
Anticipated expiration: 2037-05-03
Also published as: CN107145478A

Abstract

本发明提供了一种将汉字语句转换为盲文的方法，包括以下步骤：S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码；S2、根据汉字全息码中第3字节和第4字节记录的信息，利用计算机将每个汉字的汉字全息码转换为盲文。本发明采用汉字全息码作为中间转换格式，在确定汉字字形的同时，也唯一确定了其读音，还明确了是否与后面汉字分词，包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式，能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。

Description

一种将汉字语句转换为盲文的方法

技术领域

本发明涉及汉字编码及文字处理领域，具体涉及一种将汉字语句转换为盲文的方法。

背景技术

汉字是世界上独一无二的文字，每个字都具有“音”、“形”、“意”三个要素，“音”行于“意”，“意”蕴于“形”，三者密不可分，缺一不可。但目前汉字的盲文，实际是一种拼音方案，由于汉语大量存在同音多字、一字多音的现象，因此汉字转化成盲文后，会普遍存在仅凭读音无法唯一确定词意、从而造成盲人阅读时费解、甚至误解的情况，这也是我国推广和普及盲文所面临的最大难题。

随着信息技术的发展，尤其是电脑和点字显示器(以下简称点显器)的推广和普及，为彻底解决上述问题创造了有利条件。

发明内容

有鉴于此，有必要针对现有技术中存在的问题，提供一种将汉字语句转换为盲文的方法，提高汉字语句向盲文转换的含义表达准确性。

为实现上述目的，本发明采用以下技术方案：

一种将汉字语句转换为盲文的方法，包括以下步骤：

S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码；

其中，将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法为：

将该汉字的内码作为所述汉字全息码的前2字节；

将汉字全息码第3字节的其中一位定义为分词标识码，以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词；

将汉字全息码的第4字节定义为读音标识码，统计该汉字的所有读音并进行编号，以读音标识码的数值大小标识该汉字在上下文中正确读音的编号；

S2、根据汉字全息码中第3字节和第4字节记录的信息，利用计算机将每个汉字的汉字全息码转换为盲文。

进一步地，所述S1中，将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法还包括：

将汉字全息码第3字节的其中一位定义为默认读音标识码，从该汉字的所有读音中选取一个作为默认读音，以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音。

进一步地，从该汉字的所有读音中选取使用频率最高的读音作为默认读音。

进一步地，在所述汉字全息码中：

第3字节中的最末位为默认读音标识码，该位取0时该汉字采用默认读音，取1时该汉字的读音由第4字节指定；

第3字节中的次末位为分词标识码，该位取0时表示该汉字不与下一个汉字组成分词，取1表示该汉字与下一个汉字组成分词。

进一步地，所述第3字节中的信息仅用到最末位和次末位。

进一步地，在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中：

当该汉字的读音唯一时，汉字全息码的第4字节省略。

当该汉字在上下文中采用的读音为默认读音时，汉字全息码的第4字节省略。

进一步地，当该汉字的汉字全息码的第4字节省略，且该汉字不与下一个汉字组成分词时，汉字全息码的第3字节省略。

进一步地，在汉字全息码的第4字节中，汉字的所有读音按照使用频率由高至低的顺序排序并进行编号。

进一步地，在汉字全息码中，第4字节所对应的十进制数值代表该汉字在上下文中正确读音的编号。

通过以上技术方案，本发明采用汉字全息码作为中间转换格式，在确定汉字字形的同时，也唯一确定了其读音，还明确了是否与后面汉字分词，包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式，能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。

附图说明

图1是本发明提供的一种将汉字语句转换为盲文的方法的流程示意图。

具体实施方式

下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。

如图1所示，本发明实施例提供了一种将汉字语句转换为盲文的方法，具体包括以下步骤：

将该汉字的内码作为所述汉字全息码的前2字节；以此将汉字的字形转换为计算机可识别的机器语言；反而言之，通过汉字全息码的前2字节即可唯一地确定该汉字的字形；

将汉字全息码第3字节的其中一位定义为分词标识码，以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词；以此将汉字的上下文含义转换成计算机可识别的机器语言；

将汉字全息码第3字节的其中一位定义为默认读音标识码，从该汉字的所有读音中选取一个作为默认读音，以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音。在本发明实施例中，从该汉字的所有读音中选取使用频率最高的读音作为默认读音。

将汉字全息码的第4字节定义为读音标识码，统计该汉字的所有读音并进行编号，以读音标识码的数值大小标识该汉字在上下文中正确读音的编号；以此将汉字在上下文中正确的读音转换为机器可识别的机器语言。在本发明实施例中，汉字的所有读音按照使用频率由高至低的顺序排序并进行编号，第4字节所对应的十进制数值则代表了该汉字在上下文中正确读音的编号；

进一步地，在所述汉字全息码中：

第3字节中的最末位(最后一位)为默认读音标识码，该位取0时该汉字采用默认读音，取1时该汉字的读音由第4字节指定；

第3字节中的次末位(倒数第二位)为分词标识码，该位取0时表示该汉字不与下一个汉字组成分词，取1表示该汉字与下一个汉字组成分词。

根据以上定义，由于所述第3字节中的信息仅用到最末位和次末位，它们对应的只是4个ASCII码中的不常用控制字符，这样常规的ASCII码字符没被占用，当它们与汉字混排时不会引起歧义，提高了计算机的运算及存储效率。

在本发明实施例中，作为改进，在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中：

当该汉字的读音唯一时，即该汉字为单音字时，汉字全息码的第4字节省略。

或者，当该汉字在上下文中采用的读音为默认读音时，汉字全息码的第4字节省略。

进一步地，当该汉字的汉字全息码的第4字节省略，且该汉字不与下一个汉字组成分词时，汉字全息码的第3字节省略，即该汉字的汉字全息码只取前2字节即可。

根据以上定义，对不包含实质信息的字节进行适当省略，能够大大减少储存信息所用的数据位数，以减少存贮空间。

下面将举几个具体例子，来说明本发明的转换过程和技术优势。

具体地，对于单音字，或者读默认读音(在本实施例中特指使用频率最高的读音)的多音字，其第4码均为OX1(16进制)，此时可缺省。

示例一：

大(大小的“大”)，是多音字，有两个读音，da4和dai4，da4为第1读音，因此其全息汉字码＝大的内码加OX1+OX1，其中第3字节的16进制数OX1为连读及多音字提示码，因其最末位为“1”，表示是多音字，读音将由第4字节指定；第4字节为OX1，对应于10进制的1，表示该字读第1读音，也就是频率最高的读音da4。因第3字节OX1的次末位为零，表示不与后面汉字组成分词。

此外，大小的大，因为读音为第1读音，其全息汉字码的第4字节OX1可缺省；因为未与后面字组成分词且第4字节缺省，故第3字节也可省略。这样大(大小的大)的全息汉字码可简化为：大的内码。

再如：大(大夫的“大”)：是多音字“大”的第2读音，因此其全息汉字码＝大的内码+OX1+OX2；

示例一：

富：是单音字，只有一个读音fu4，因此其完整的全息汉字码＝富的内码+OX1+OX1。

因为是单音字，也可简写为：富的内码+OX1；

在不与后面字组成词时，其第3字节为OX1，此时还可继续简化为：富的全息汉字码＝富的内码。

下面看词组状态下的汉字全息汉字码：

爱好：爱是单音字，与后面的字组成分词；好是多音字，第1读音为“hao3”，第2读音为“hao4”。

爱好的全息汉字码＝爱的内码+OX2(相当于二进制10，最末位为零，表示是单音字，次末位为1，表示与后面字组成分词；因为是单音字，第4字节省略)+好的内码+OX1(最末位为1，表示多音字，次末位为零，表示不与后面字组成分词)+OX2(10进制的2，表示读第2读音)。

示例三：

吉林省：吉、林为单音字省为多音字，但读第1读音(sheng3)。

因此，吉林省的全息汉字码＝吉的内码+OX2(单音字、与后字组成分词)+林的内码+OX2+省的内码+OX1+OX1，显然，省的后2字节可省略。

示例四：

好逸恶劳：第一字是多音字，读第2读音；第三字也是多音字(e4,wu4)，读第2读音，因此该词的全息汉字码为：

好的内码+OX3(多音字、与后字组成分词)+OX2+逸的内码+OX2(单音字、与后字组成分词)+恶的内码+OX3(多音字、与后字组词)+OX2(恶的第2读音)+劳的内码(第3、4字节省略))。

全息汉字码中的缺省规则是不会引起混淆的。由于绝大多数情况下汉字都取第1读音(包括唯一读音)，并且一篇文章中一半以上的字不与后字组成分词，因此缺省能大幅节约存贮空间。

通过采用汉字全息码作为中间转换格式，本发明既可避免汉字向盲文转换时，多音字选择上的困扰；还可避免盲文向汉字转换时出现音同义异的错误。通过配合语音软件播放读音编辑后的文本，盲人能更准确、更轻松了解所听内容，能避免常规文本文件听读时出现的多音字误读、词组错搭的问题；盲人在点字显示器摸读遇到陌生或者疑难字时，还可通过计算机操作调用内码对当前字进行解释或给出常用组词，这是传统盲文转换方法所无法提供的技术优势。

以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

Claims

1.一种将汉字语句转换为盲文的方法，其特征在于，包括以下步骤：

将该汉字的内码作为所述汉字全息码的前2字节；

2.根据权利要求1所述的方法，其特征在于，所述S1中，将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法还包括：

3.根据权利要求2所述的方法，其特征在于，从该汉字的所有读音中选取使用频率最高的读音作为默认读音。

4.根据权利要求2所述的方法，其特征在于，在所述汉字全息码中：

第3字节中的最末位为默认读音标识码，第3字节中的最末位取0时该汉字采用默认读音，取1时该汉字的读音由第4字节指定；

第3字节中的次末位为分词标识码，第3字节中的次末位取0时表示该汉字不与下一个汉字组成分词，取1表示该汉字与下一个汉字组成分词。

5.根据权利要求4所述的方法，其特征在于，所述第3字节中的信息仅用到最末位和次末位。

6.根据权利要求1所述的方法，其特征在于，在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中：

当该汉字的读音唯一时，汉字全息码的第4字节省略。

7.根据权利要求2所述的方法，其特征在于，在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中：

8.根据权利要求6或7所述的方法，其特征在于，当该汉字的汉字全息码的第4字节省略，且该汉字不与下一个汉字组成分词时，汉字全息码的第3字节省略。

9.根据权利要求1所述的方法，其特征在于，在汉字全息码的第4字节中，汉字的所有读音按照使用频率由高至低的顺序排序并进行编号。

10.根据权利要求9所述的方法，其特征在于，在汉字全息码中，第4字节所对应的十进制数值代表该汉字在上下文中正确读音的编号。