CN107145478B - 一种将汉字语句转换为盲文的方法 - Google Patents

一种将汉字语句转换为盲文的方法 Download PDF

Info

Publication number
CN107145478B
CN107145478B CN201710302938.2A CN201710302938A CN107145478B CN 107145478 B CN107145478 B CN 107145478B CN 201710302938 A CN201710302938 A CN 201710302938A CN 107145478 B CN107145478 B CN 107145478B
Authority
CN
China
Prior art keywords
chinese character
byte
code
holographic
pronunciation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201710302938.2A
Other languages
English (en)
Other versions
CN107145478A (zh
Inventor
富明慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN201710302938.2A priority Critical patent/CN107145478B/zh
Publication of CN107145478A publication Critical patent/CN107145478A/zh
Application granted granted Critical
Publication of CN107145478B publication Critical patent/CN107145478B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Printers Characterized By Their Purpose (AREA)

Abstract

本发明提供了一种将汉字语句转换为盲文的方法,包括以下步骤:S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。本发明采用汉字全息码作为中间转换格式,在确定汉字字形的同时,也唯一确定了其读音,还明确了是否与后面汉字分词,包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式,能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。

Description

一种将汉字语句转换为盲文的方法
技术领域
本发明涉及汉字编码及文字处理领域,具体涉及一种将汉字语句转换为盲文的方法。
背景技术
汉字是世界上独一无二的文字,每个字都具有“音”、“形”、“意”三个要素,“音”行于“意”,“意”蕴于“形”,三者密不可分,缺一不可。但目前汉字的盲文,实际是一种拼音方案,由于汉语大量存在同音多字、一字多音的现象,因此汉字转化成盲文后,会普遍存在仅凭读音无法唯一确定词意、从而造成盲人阅读时费解、甚至误解的情况,这也是我国推广和普及盲文所面临的最大难题。
随着信息技术的发展,尤其是电脑和点字显示器(以下简称点显器)的推广和普及,为彻底解决上述问题创造了有利条件。
发明内容
有鉴于此,有必要针对现有技术中存在的问题,提供一种将汉字语句转换为盲文的方法,提高汉字语句向盲文转换的含义表达准确性。
为实现上述目的,本发明采用以下技术方案:
一种将汉字语句转换为盲文的方法,包括以下步骤:
S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;
其中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法为:
将该汉字的内码作为所述汉字全息码的前2字节;
将汉字全息码第3字节的其中一位定义为分词标识码,以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词;
将汉字全息码的第4字节定义为读音标识码,统计该汉字的所有读音并进行编号,以读音标识码的数值大小标识该汉字在上下文中正确读音的编号;
S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。
进一步地,所述S1中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法还包括:
将汉字全息码第3字节的其中一位定义为默认读音标识码,从该汉字的所有读音中选取一个作为默认读音,以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音。
进一步地,从该汉字的所有读音中选取使用频率最高的读音作为默认读音。
进一步地,在所述汉字全息码中:
第3字节中的最末位为默认读音标识码,该位取0时该汉字采用默认读音,取1时该汉字的读音由第4字节指定;
第3字节中的次末位为分词标识码,该位取0时表示该汉字不与下一个汉字组成分词,取1表示该汉字与下一个汉字组成分词。
进一步地,所述第3字节中的信息仅用到最末位和次末位。
进一步地,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字的读音唯一时,汉字全息码的第4字节省略。
进一步地,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字在上下文中采用的读音为默认读音时,汉字全息码的第4字节省略。
进一步地,当该汉字的汉字全息码的第4字节省略,且该汉字不与下一个汉字组成分词时,汉字全息码的第3字节省略。
进一步地,在汉字全息码的第4字节中,汉字的所有读音按照使用频率由高至低的顺序排序并进行编号。
进一步地,在汉字全息码中,第4字节所对应的十进制数值代表该汉字在上下文中正确读音的编号。
通过以上技术方案,本发明采用汉字全息码作为中间转换格式,在确定汉字字形的同时,也唯一确定了其读音,还明确了是否与后面汉字分词,包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式,能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。
附图说明
图1是本发明提供的一种将汉字语句转换为盲文的方法的流程示意图。
具体实施方式
下面将结合附图和具体的实施例对本发明的技术方案进行详细说明。
如图1所示,本发明实施例提供了一种将汉字语句转换为盲文的方法,具体包括以下步骤:
S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;
其中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法为:
将该汉字的内码作为所述汉字全息码的前2字节;以此将汉字的字形转换为计算机可识别的机器语言;反而言之,通过汉字全息码的前2字节即可唯一地确定该汉字的字形;
将汉字全息码第3字节的其中一位定义为分词标识码,以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词;以此将汉字的上下文含义转换成计算机可识别的机器语言;
将汉字全息码第3字节的其中一位定义为默认读音标识码,从该汉字的所有读音中选取一个作为默认读音,以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音。在本发明实施例中,从该汉字的所有读音中选取使用频率最高的读音作为默认读音。
将汉字全息码的第4字节定义为读音标识码,统计该汉字的所有读音并进行编号,以读音标识码的数值大小标识该汉字在上下文中正确读音的编号;以此将汉字在上下文中正确的读音转换为机器可识别的机器语言。在本发明实施例中,汉字的所有读音按照使用频率由高至低的顺序排序并进行编号,第4字节所对应的十进制数值则代表了该汉字在上下文中正确读音的编号;
S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。
进一步地,在所述汉字全息码中:
第3字节中的最末位(最后一位)为默认读音标识码,该位取0时该汉字采用默认读音,取1时该汉字的读音由第4字节指定;
第3字节中的次末位(倒数第二位)为分词标识码,该位取0时表示该汉字不与下一个汉字组成分词,取1表示该汉字与下一个汉字组成分词。
根据以上定义,由于所述第3字节中的信息仅用到最末位和次末位,它们对应的只是4个ASCII码中的不常用控制字符,这样常规的ASCII码字符没被占用,当它们与汉字混排时不会引起歧义,提高了计算机的运算及存储效率。
在本发明实施例中,作为改进,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字的读音唯一时,即该汉字为单音字时,汉字全息码的第4字节省略。
或者,当该汉字在上下文中采用的读音为默认读音时,汉字全息码的第4字节省略。
进一步地,当该汉字的汉字全息码的第4字节省略,且该汉字不与下一个汉字组成分词时,汉字全息码的第3字节省略,即该汉字的汉字全息码只取前2字节即可。
根据以上定义,对不包含实质信息的字节进行适当省略,能够大大减少储存信息所用的数据位数,以减少存贮空间。
通过以上技术方案,本发明采用汉字全息码作为中间转换格式,在确定汉字字形的同时,也唯一确定了其读音,还明确了是否与后面汉字分词,包含了汉字明盲转换时所需的全部信息。利用本发明中的汉字全息码作为中间转换方式,能从根本上克服目前汉字盲文阅读中普遍存在的“费解”、“误解”等问题。
下面将举几个具体例子,来说明本发明的转换过程和技术优势。
具体地,对于单音字,或者读默认读音(在本实施例中特指使用频率最高的读音)的多音字,其第4码均为OX1(16进制),此时可缺省。
示例一:
大(大小的“大”),是多音字,有两个读音,da4和dai4,da4为第1读音,因此其全息汉字码=大的内码加OX1+OX1,其中第3字节的16进制数OX1为连读及多音字提示码,因其最末位为“1”,表示是多音字,读音将由第4字节指定;第4字节为OX1,对应于10进制的1,表示该字读第1读音,也就是频率最高的读音da4。因第3字节OX1的次末位为零,表示不与后面汉字组成分词。
此外,大小的大,因为读音为第1读音,其全息汉字码的第4字节OX1可缺省;因为未与后面字组成分词且第4字节缺省,故第3字节也可省略。这样大(大小的大)的全息汉字码可简化为:大的内码。
再如:大(大夫的“大”):是多音字“大”的第2读音,因此其全息汉字码=大的内码+OX1+OX2;
示例一:
富:是单音字,只有一个读音fu4,因此其完整的全息汉字码=富的内码+OX1+OX1。
因为是单音字,也可简写为:富的内码+OX1;
在不与后面字组成词时,其第3字节为OX1,此时还可继续简化为:富的全息汉字码=富的内码。
下面看词组状态下的汉字全息汉字码:
爱好:爱是单音字,与后面的字组成分词;好是多音字,第1读音为“hao3”,第2读音为“hao4”。
爱好的全息汉字码=爱的内码+OX2(相当于二进制10,最末位为零,表示是单音字,次末位为1,表示与后面字组成分词;因为是单音字,第4字节省略)+好的内码+OX1(最末位为1,表示多音字,次末位为零,表示不与后面字组成分词)+OX2(10进制的2,表示读第2读音)。
示例三:
吉林省:吉、林为单音字省为多音字,但读第1读音(sheng3)。
因此,吉林省的全息汉字码=吉的内码+OX2(单音字、与后字组成分词)+林的内码+OX2+省的内码+OX1+OX1,显然,省的后2字节可省略。
示例四:
好逸恶劳:第一字是多音字,读第2读音;第三字也是多音字(e4,wu4),读第2读音,因此该词的全息汉字码为:
好的内码+OX3(多音字、与后字组成分词)+OX2+逸的内码+OX2(单音字、与后字组成分词)+恶的内码+OX3(多音字、与后字组词)+OX2(恶的第2读音)+劳的内码(第3、4字节省略))。
全息汉字码中的缺省规则是不会引起混淆的。由于绝大多数情况下汉字都取第1读音(包括唯一读音),并且一篇文章中一半以上的字不与后字组成分词,因此缺省能大幅节约存贮空间。
通过采用汉字全息码作为中间转换格式,本发明既可避免汉字向盲文转换时,多音字选择上的困扰;还可避免盲文向汉字转换时出现音同义异的错误。通过配合语音软件播放读音编辑后的文本,盲人能更准确、更轻松了解所听内容,能避免常规文本文件听读时出现的多音字误读、词组错搭的问题;盲人在点字显示器摸读遇到陌生或者疑难字时,还可通过计算机操作调用内码对当前字进行解释或给出常用组词,这是传统盲文转换方法所无法提供的技术优势。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种将汉字语句转换为盲文的方法,其特征在于,包括以下步骤:
S1、将汉字语句中的每个汉字转换为计算机可识别的4个字节的汉字全息码;
其中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法为:
将该汉字的内码作为所述汉字全息码的前2字节;
将汉字全息码第3字节的其中一位定义为分词标识码,以分词标识码的不同数值标识该汉字是否与下一个汉字组成分词;
将汉字全息码的第4字节定义为读音标识码,统计该汉字的所有读音并进行编号,以读音标识码的数值大小标识该汉字在上下文中正确读音的编号;
S2、根据汉字全息码中第3字节和第4字节记录的信息,利用计算机将每个汉字的汉字全息码转换为盲文。
2.根据权利要求1所述的方法,其特征在于,所述S1中,将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法还包括:
将汉字全息码第3字节的其中一位定义为默认读音标识码,从该汉字的所有读音中选取一个作为默认读音,以默认读音标识码的不同数值标识该汉字在上下文中采用的读音是否为默认读音。
3.根据权利要求2所述的方法,其特征在于,从该汉字的所有读音中选取使用频率最高的读音作为默认读音。
4.根据权利要求2所述的方法,其特征在于,在所述汉字全息码中:
第3字节中的最末位为默认读音标识码,第3字节中的最末位取0时该汉字采用默认读音,取1时该汉字的读音由第4字节指定;
第3字节中的次末位为分词标识码,第3字节中的次末位取0时表示该汉字不与下一个汉字组成分词,取1表示该汉字与下一个汉字组成分词。
5.根据权利要求4所述的方法,其特征在于,所述第3字节中的信息仅用到最末位和次末位。
6.根据权利要求1所述的方法,其特征在于,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字的读音唯一时,汉字全息码的第4字节省略。
7.根据权利要求2所述的方法,其特征在于,在将单个汉字转换为计算机可识别的4个字节的汉字全息码的方法中:
当该汉字在上下文中采用的读音为默认读音时,汉字全息码的第4字节省略。
8.根据权利要求6或7所述的方法,其特征在于,当该汉字的汉字全息码的第4字节省略,且该汉字不与下一个汉字组成分词时,汉字全息码的第3字节省略。
9.根据权利要求1所述的方法,其特征在于,在汉字全息码的第4字节中,汉字的所有读音按照使用频率由高至低的顺序排序并进行编号。
10.根据权利要求9所述的方法,其特征在于,在汉字全息码中,第4字节所对应的十进制数值代表该汉字在上下文中正确读音的编号。
CN201710302938.2A 2017-05-03 2017-05-03 一种将汉字语句转换为盲文的方法 Expired - Fee Related CN107145478B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710302938.2A CN107145478B (zh) 2017-05-03 2017-05-03 一种将汉字语句转换为盲文的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710302938.2A CN107145478B (zh) 2017-05-03 2017-05-03 一种将汉字语句转换为盲文的方法

Publications (2)

Publication Number Publication Date
CN107145478A CN107145478A (zh) 2017-09-08
CN107145478B true CN107145478B (zh) 2020-04-07

Family

ID=59774599

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710302938.2A Expired - Fee Related CN107145478B (zh) 2017-05-03 2017-05-03 一种将汉字语句转换为盲文的方法

Country Status (1)

Country Link
CN (1) CN107145478B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN1848049A (zh) * 2006-03-27 2006-10-18 富明慧 半方盲文数字编码汉字输入法
WO2010148818A1 (zh) * 2009-12-24 2010-12-29 中兴通讯股份有限公司 一种盲文转换和显示方法、实现该方法的设备及通信终端
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8832541B2 (en) * 2011-01-20 2014-09-09 Vastec, Inc. Method and system to convert visually orientated objects to embedded text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1591414A (zh) * 2004-06-03 2005-03-09 华建电子有限责任公司 一种汉语到盲文的自动翻译转换方法
CN1848049A (zh) * 2006-03-27 2006-10-18 富明慧 半方盲文数字编码汉字输入法
WO2010148818A1 (zh) * 2009-12-24 2010-12-29 中兴通讯股份有限公司 一种盲文转换和显示方法、实现该方法的设备及通信终端
CN102184172A (zh) * 2011-05-10 2011-09-14 中国科学院计算技术研究所 一种用于盲人读取汉字的系统和方法

Also Published As

Publication number Publication date
CN107145478A (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
CN111177184A (zh) 基于自然语言的结构化查询语言转换方法、及其相关设备
CN100568225C (zh) 文本中数字和特殊符号串的文字符号化处理方法及系统
US20220358297A1 (en) Method for human-machine dialogue, computing device and computer-readable storage medium
CN107145478B (zh) 一种将汉字语句转换为盲文的方法
CN105653506B (zh) 一种基于字符编码转换的gpu内文本处理的方法及装置
CN107451105B (zh) 一种基于新型汉字全息编码规则的明盲文转换系统
CN1195265C (zh) 一种汉语拼音简捷全拼输入法
CN103092859B (zh) 一种获取音乐文件信息的方法及装置
CN110716654B (zh) 一种汉字输入法、语音合成方法、汉字输入系统
CN100458668C (zh) 首音汉字输入法
CN113160793A (zh) 基于低资源语言的语音合成方法、装置、设备及存储介质
CN100561469C (zh) 创建和使用中文语言数据和用户自纠正数据的方法和系统
CN110955768B (zh) 一种基于句法分析的问答系统答案生成方法
CN102368177A (zh) 新汉字声韵输入方法及输入键盘
JP2009199434A (ja) アルファベット文字列日本語読み変換装置及びアルファベット文字列日本語読み変換プログラム
CN100390711C (zh) 一种中文词的计算机处理和键盘输入的方法
CN100464286C (zh) 声母韵母声标2-4码手机汉字输入法
CN107391464A (zh) 新型汉语普通话信息ascii集合码
CN101901062B (zh) 基于音素编码的计算机汉字信息处理方法
CN101930300A (zh) 中文信息数字化处理方法和汉字随机编码方法
CN100454222C (zh) 汉字三键输入法
CN1614539A (zh) 声韵输入法
CN117591800A (zh) 文本增强方法、装置、电子设备及计算机可读存储介质
CN114185440A (zh) 一种汉字数据化的输入、输出方法
CN103488309A (zh) 汉字简拼加部件数字输入法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20200407

CF01 Termination of patent right due to non-payment of annual fee