CN114564969A

CN114564969A - 一种汉盲翻译处理系统

Info

Publication number: CN114564969A
Application number: CN202210208234.XA
Authority: CN
Inventors: 杨文珍; 王丹英
Original assignee: Hangzhou Interactive Perception Technology Co ltd
Current assignee: Hangzhou Interactive Perception Technology Co ltd
Priority date: 2022-03-04
Filing date: 2022-03-04
Publication date: 2022-05-31

Abstract

本发明公开了一种汉盲翻译处理系统。包括盲文点序翻译处理模块，将UTF‑8编码的待处理字符串输入到总体翻译处理模块中处理获得盲文点序输入到数字数据处理模块中；建立了汉盲翻译系统带有汉文的字符串，把UTF‑8编码的普通文字字符串或文件翻译为符合盲文的盲文点序；包括数字资源处理模块，将盲文点序作为待处理字符串对应的数字数据，由不同的待处理字符串分别处理获得的数字数据组件盲文数字化资源。本发明解决了人工翻译标注的难题，进行了汉字拼音到盲文拼音的修正，提高了盲文的校对效率，便捷、快速且准确生成海量盲文数字化资源，满足信息时代盲人的迫切需求。

Description

一种汉盲翻译处理系统

技术领域

本发明涉及一种汉盲翻译系统，尤其是涉及了一种带汉字拼音到盲文拼音修正的汉盲翻译处理系统。

背景技术

文字是人类记录思想和传递信息的重要载体，也是人类文明传承和发展的重要工具。我国是世界上盲人最多的国家，约有700多万盲人，占世界盲人总数的18％。盲文是专为盲人设计、靠触觉感知的文字，是盲人学习文化知识的主要媒介。在信息时代，新知识呈现爆发式增长，且快速迭代更新。为此，提高我国盲文信息化技术水平，丰富盲文数字化资源，努力为盲人创造无障碍的学习环境，具有重要现实意义。

长期以来，我国使用的盲文是以汉语拼音为基础的现行盲文。现行盲文是表音文字，由声母、韵母和声调组成，需三方盲符。比如，汉字“国”的拼音为“guo2”,声母“g”、韵母“uo”和声调“2”的盲文点序分别为110110、101010、010000，盲符是

为了节省传统盲文书籍的篇幅，现行盲文通常以“一般不标调，需要时才标调”为指导，无规则地任意省略声调，以减少盲符，造成了许多“一词多形、一形多词”的情况，既不利于盲人阅读，也不利于盲文数字化。在摸读现行盲文时，盲人常常需要通过上下文猜测声调，才能准确理解语义，严重影响了学习效率。计算机也难以准确处理任意省略声调的现行盲文，难以高质量地实现“汉字--盲文”的机器翻译。

发明内容

为了盲文数据的普及和促进盲文数字化无障碍的实施，本发明提供了一种带汉字拼音到盲文拼音修正的汉盲翻译处理系统，可以便捷、快速且准确生成海量盲文数字化资源。

本发明所采用的技术方案是：

包括盲文点序翻译处理模块，将UTF-8编码的待处理字符串输入到总体翻译处理模块中处理获得盲文点序输入到数字数据处理模块中；

包括数字资源处理模块，将盲文点序作为待处理字符串对应的数字数据，由不同的待处理字符串分别处理获得的数字数据组件盲文数字化资源。

待处理字符串可以是一个非盲文书籍的图书内容的字符串，这样众多待处理字符串的数字数据对应形成了盲文图书馆数据库。

本发明建立了汉盲翻译系统带有汉文的字符串，把UTF-8编码的普通文字字符串或文件翻译为符合盲文的盲文点序，解决了“盲文字表或词表”需要人工标注的难题，提高了盲文的校对效率。

所述的盲文点序翻译处理模块中，接收到待处理字符串后，进行以下处理：

输入待处理字符串后，先将字符串按Unicode码标准分为两类字符串，一类是属于汉字的带汉字字符串，另一类是不属于汉字的其他字符串；

对于其他字符串，经过盲文提示符处理后，直接查找对应的盲文ASCII码表，得到盲文点序；

对于带汉字字符串，输入到汉文翻译处理模块中得到盲文ASCII码形成盲文点序；汉文翻译处理模块中，先得到盲文拼音，再查找拼音盲文ASCII码，得到盲文点序。

最后按照原有待处理字符串的先后次序，合并输出带汉字字符串和其他字符串的盲文点序。

所述的汉文翻译处理模块，在接收到带汉字字符串后进行以下处理：

预先建立为空的临时汉字字符串，将带汉字字符串转换为字符串列表后，依次向后遍历字符串列表中的字符并判断当前字符的类型，在遍历过程中进行以下判断：

1)遍历到的当前字符为汉字，则将当前字符添加到临时汉字字符串中，将标志位置为0；

2)遍历到的当前字符不是汉字，将标志位置为1，且对临时汉字字符串进行以下判断：

若临时汉字字符串为不空，则将临时汉字字符串输入到盲文标调处理模块中获得对应的盲文ASCII码；

若临时汉字字符串为空，则对当前字符进行其他字符(阿拉伯数字、英文字母、标点符号、空格、异常字符)的处理得到对应的盲文ASCII码，其他字符通常是阿拉伯数字、英文字母、标点符号、空格、异常字符；即若不是汉字，直接转换盲文ASCII码。

若字符串列表中的所有字符均为汉字，遍历完成后将标志位置为1；

在遍历过程中实时判断标志位置：若标志位置为1，则临时汉字字符串为非空，将临时汉字字符串输入到盲文标调处理模块中获得对应的盲文ASCII码；若标志位置为0，则不进行处理；

最后将字符串列表中各个字符的盲文ASCII码按照列表中的顺序形成盲文点序。

所述的盲文标调处理模块中，接收到临时汉字字符串后进行以下处理获得盲文ASCII码：

将临时汉字字符串转换为汉字的盲文拼音列表，即一个汉字字符转换为对应的盲文拼音，第一个元素开始遍历盲文拼音列表，找到每一个汉字的盲文拼音中的声母音节、韵母音节和声调音节；

若当前声母音节为空，则输入到声调处理模块中执行声调省写的全部六个声调省写逻辑处理以及输入到简写处理模块中进行简写逻辑处理；

若当前声母音节不为空，且声母音节不是声母自成音节，且不符合简写汉字，则输入到声调处理模块中执行声调省写的全部第一到第三声调省写逻辑处理以及输入到简写处理模块中进行简写逻辑处理；

所述的简写汉字包括为“它、的，么，你，他、她”。

若当前声母音节是自成音节或汉字是“的，么，你，他，她，它”之一，且当前汉字的后一个韵母音节为韵母自成音节，则输入到声调处理模块中执行声调省写的全部第二到第三声调省写逻辑处理以及输入到简写处理模块中进行简写逻辑处理；

自成音节分为声母自成音节和韵母自成音节。

所述的声调处理模块中具有按照以下依次进行的六个声调省写逻辑处理，按照以下方式进行处理：

第一声调省写逻辑处理：

判断当前字符的声母是否为“f”且声调是“1”，如果满足则将声调置空，否则声调不变；

第二声调省写逻辑处理：

判断当前字符的声母是否为“p、m、t、n、h、q、ch、r、c”之一且声调为2，如果不是则声调不做变化，否则继续判断声母字符串是否为“t”且韵母字符串为“ou”，如果不是则声调置空，否则声调不变；

第三声调省写逻辑处理：

判断当前字符的声母是否为“b、d、l、ɡ、k、j、x、zh、sh、z、s”之一且声调为4，如果不是则声调不做变化，否则继续判断声母字符串是否为“l”且韵母字符串为“e”，如果是则声调不变，否则继续判断声母字符串是否为“z”且韵母字符串为“i”，如果是则声调不变，否则声调置为空；

第四声调省写逻辑处理：

判断当前字符的韵母音节是否为韵母自成音节且声调为“4”，则声调省写，即将声调的表示删除处理，但是声调省写规则5和6除外；

第五声调省写逻辑处理：

判断当前字符的拼音是否为“i1,er2,uo3,iu3,ie3”之一，如果是则将声调置空，否则继续判断拼音是否为“i4,er4,uo4,iu4,ie4”之一，如果不是则将声调置空，否则声调不省写；

第六声调省写逻辑处理：

判断当前字符的拼音是否为“o1,o2,o3,o4”之一，如果是则将声调置空，否则继续判断是否是“e1,e2,e3,e4”其中之一，如果不是则将声调置空，否则声调不省写。

所述的简写处理模块中按照以下方式依次进行处理：

判断当前字符的拼音是否为“它”，如果是则将声母置为“、t”，声调和韵母置为空，判断当前字符的拼音是否为“o1,o2,o3,o4”；

判断当前字符的拼音是否为“的，么，你，他”之一，如果是则将声调和韵母置为空；

判断当前字符的拼音是否为“她”，如果是则将韵母置为空。

所述的盲文ASCII码包括拼音盲文ASCII码、阿拉伯数字盲文ASCII码、英文字母盲文ASCII码和标点符号盲文ASCII码，用于输出盲文ASCII码和盲文点序。

本发明可以便捷、快速且准确生成海量盲文数字化资源，满足信息时代盲人学习知识的迫切需求，为视障弱势群体的语言文字权益和公平教育提供技术保障。

与现有技术相比，本发明的有益效果是：

本发明可以自动生成“盲文字表或词表”，解决了人工翻译标注的难题，进行了汉字拼音到盲文拼音的修正，提高了盲文的校对效率，便捷、快速且准确生成海量通用盲文数字化资源，满足信息时代盲人的迫切需求。

附图说明

图1是本发明的盲文点序翻译处理流程框架图；

图2是本发明的汉文翻译处理框图；

图3是本发明的盲文标调处理模块的整体流出框图；

图4是本发明的第一声调省写逻辑处理的流程图；

图5是本发明的第二声调省写逻辑处理的流程图；

图6是本发明的第三声调省写逻辑处理的流程图；

图7是本发明的第四声调省写逻辑处理的流程图；

图8是本发明的第五声调省写逻辑处理的流程图；

图9是本发明的第六声调省写逻辑处理的流程图；

图10是本发明的简写处理模块的流程图；

图11是本发明的实例。

具体实施方式

下面结合附图对本发明进一步说明。

如图1所示，盲文点序翻译处理模块中，接收到待处理字符串后，进行以下处理：

如图2所示，汉文翻译处理模块，在接收到带汉字字符串后进行以下处理：

如图3所示，盲文标调处理模块中，接收到临时汉字字符串后进行以下处理获得盲文ASCII码：

若当前声母音节不为空，且声母音节不是声母自成音节，且不符合简写汉字到声调处理模块中执行声调省写的全部第一到第三声调省写逻辑处理以及输入到简写处理模块中进行简写逻辑处理；

自成音节分为声母自成音节和韵母自成音节。

声调处理模块中具有按照以下依次进行的六个声调省写逻辑处理，按照以下方式进行处理：

如图4所示，第一声调省写逻辑处理：

如图5所示，第二声调省写逻辑处理：

如图6所示，第三声调省写逻辑处理：

如图7所示，第四声调省写逻辑处理：

判断当前字符的韵母音节是否为韵母自成音节且声调为“4”，则声调省写，但是声调省写规则5和6除外；

如图8所示，第五声调省写逻辑处理：

如图9所示，第六声调省写逻辑处理：

如图10所示，简写处理模块中按照以下方式依次进行处理：

具体实例如下所述，

特意选用“Linux诞生于1991年。”这个字符串来表述本发明的工作过程，如图11所示。此字符串含有汉字、阿拉伯数字、英文字母和标点符号，其中，汉字需要中文分词、汉拼转化、盲文标调处理等处理。

按照处理过程，可以依次得到此字符串的各个运行结果，包括：

字符串分割结果：Linux/诞生于/1991/年/。

中文分词结果：Linux/诞生/于/1991/年/。

汉拼转化结果：Linux/dan4sheng1/yu2/1991/nian2/。

拼音修正结果：Linux/dan4sheng1/iu2/1991/nian2/。

盲文标调处理模块结果：Linuxdansheng1/iu2/1991/nian2/。

盲文ASCII码结果：,linuxdv:#a/+1/#aiia/n％"2

盲文点序结果：

000001111000010100101110101001101101100110111001100011001111100000000000001101010000000000001111100000010100010100100000000000101110100101000010011000

由此实施可见，系统高效集成了字符串分割、中文分词、汉拼转化、拼音修正、拼音切割等算法，鲁棒执行盲文标调处理，能够处理汉字、阿拉伯数字、英文字母和标点符号等字符，可靠输出盲文点序。

Claims

1.一种汉盲翻译处理系统，其特征在于：

2.根据权利要求1所述的一种汉盲翻译处理系统，其特征在于：

输入待处理字符串后，先将字符串按Unicode码标准分为两类字符串，一类是带汉字字符串，另一类是其他字符串；

对于带汉字字符串，输入到汉文翻译处理模块中得到盲文ASCII码形成盲文点序；

3.根据权利要求2所述的一种汉盲翻译处理系统，其特征在于：

预先建立为空的临时汉字字符串，将带汉字字符串转换为字符串列表后，依次向后遍历字符串列表并判断当前字符的类型，在遍历过程中进行以下判断：

若临时汉字字符串为空，则对当前字符进行其他字符的处理得到对应的盲文ASCII码；

在遍历过程中实时判断标志位置：若标志位置为1，则将临时汉字字符串输入到盲文标调处理模块中获得对应的盲文ASCII码；若标志位置为0，则不进行处理；

4.根据权利要求3所述的一种汉盲翻译处理系统，其特征在于：

将临时汉字字符串转换为汉字的盲文拼音列表，，第一个元素开始遍历盲文拼音列表，找到每一个汉字的盲文拼音中的声母音节、韵母音节和声调音节；

若当前声母音节是自成音节或汉字是“的，么，你，他，她，它”之一，且当前汉字的后一个韵母音节为韵母自成音节，则输入到声调处理模块中执行声调省写的全部第二到第三声调省写逻辑处理以及输入到简写处理模块中进行简写逻辑处理。

5.根据权利要求4所述的一种汉盲翻译处理系统，其特征在于：

所述的声调处理模块中具有按照以下依次进行的六个声调省写逻辑处理：