CN111814437A

CN111814437A - 一种基于深度学习的盲文转中文方法

Info

Publication number: CN111814437A
Application number: CN202010466752.2A
Authority: CN
Inventors: 于红雷; 邹可; 孙俊伟
Original assignee: Hangzhou Kr Vision Technology Co ltd
Current assignee: Hangzhou Kr Vision Technology Co ltd
Priority date: 2020-05-28
Filing date: 2020-05-28
Publication date: 2020-10-23

Abstract

本发明公开了一种基于深度学习的盲文转中文方法。它具体包括如下步骤：(1)对盲文文本预处理：盲文文本预处理对盲文做编码归一化处理；(2)深度学习算法模型构建：深度学习算法模型学习编码后的文本规律；(3)训练深度学习模型：通过深度学习模型翻译出对应的中文内容；(4)文本纠错：在文本纠错单元对盲文中的错别字进一步纠错。本发明的有益效果是：达到高精准度文本翻译结果。

Description

一种基于深度学习的盲文转中文方法

技术领域

本发明涉及深度学习相关技术领域，尤其是指一种基于深度学习的盲文转中文方法。

背景技术

盲文或称点字、凸字，是专为盲人设计、靠触觉感知的文字。透过点字板、点字机、点字打印机等在纸张上制作出不同组合的凸点而组成，一般每一个方块的点字是由六点组成，左侧从上到下为123，右侧为456，叫一方。它是由法国盲人路易·布莱尔于1824年创造的，故国际上通称为“布莱尔(Braille)”。

现有的盲文转中文的操作方式中，只是简单的对盲文进行一对一的中文字符转化，导致转化过来的中文往往存在错别字、语句不通顺或者翻译不正确，这样的转化方式导致盲文的文本转化率大大降低，准确率也不高。

发明内容

本发明是为了克服现有技术中存在上述的不足，提供了一种高精准度的基于深度学习的盲文转中文方法。

为了实现上述目的，本发明采用以下技术方案：

一种基于深度学习的盲文转中文方法，具体包括如下步骤：

(1)对盲文文本预处理：盲文文本预处理对盲文做编码归一化处理；

(2)深度学习算法模型构建：深度学习算法模型学习编码后的文本规律；

(3)训练深度学习模型：通过深度学习模型翻译出对应的中文内容；

(4)文本纠错：在文本纠错单元对盲文中的错别字进一步纠错。

本发明通过盲文文本预处理对算法输入部分做编码归一化处理，然后经过深度学习模型学习编码后的文本规律，经过训练深度学习模型翻译出对应的中文内容，最后在经过文本纠错单元对错别字进一步纠错，达到高精准度文本翻译结果。

作为优选，在步骤(1)中，盲文文本预处理的具体方法如下：

(11)对于盲文句子，根据盲文的特点，每一个中文字符对应的盲文都采用三方对齐表示，不足三方的用数字0填充表示；

(12)对填充对齐后的盲文句子进行编码，转换成十进制编码字符串，编码后的字符串映射到0到63的编码空间，每个编码后的十进制数对应一个0到63的数字；

(13)将每个编码后的十进制数替换成0到63对应的十进制数字，替换后的数字序列就是预处理的最终结果。

作为优选，在步骤(12)中，盲文句子进行编码的具体方法如下：

(121)对每一个盲文点方所代表的数字集合，对每一个数字进行计算，其中N表示盲文点方中每一个点代表的数字；

(122)每一个盲文点方对所有的数字进行计算，然后求和，计算所得的数字就是编码后的值。

作为优选，在步骤(2)中，深度学习模型构建的具体方法如下：

(21)对编码后的盲文句子进行词嵌入编码，输出词嵌入编码后的词向量；

(22)用cnn网络提取句子的语法信息和单词前后关联信息；

(23)用双向lstm网络提取整个句子的句法结构信息；

(24)步骤(23)作为网络的输出，通过交叉熵作为损失函数loss。

作为优选，在步骤(22)中，具体操作方法如下：

(221)该cnn网络的输入是经过词嵌入编码后的词向量；

(222)词向量经过三层一维卷积神经网络，每一层的卷积核依次为7、5、3，用于提取不同长度句子中的语法信息和单词前后关联信息。

作为优选，在步骤(3)中，训练深度学习模型的具体方法如下：

(31)收集不同领域的中文文本，进行文本清洗，按句子分割，按照《国家通用盲文》规则，生成中盲对齐语料；

(32)根据步骤(1)所述的文本预处理算法，对中盲对齐语料中的盲文进行编码；

(33)将常用汉字做成词典，对中盲对齐语料中的中文句子进行编码；

(34)中盲对齐语料中的盲文语句作为深度学习模型的input，中文句子作为深度学习模型的output。

本发明的有益效果是：通过盲文文本预处理对算法输入部分做编码归一化处理，然后经过深度学习模型学习编码后的文本规律，经过训练深度学习模型翻译出对应的中文内容，最后在经过文本纠错单元对错别字进一步纠错，达到高精准度文本翻译结果。

具体实施方式

下面结合具体实施方式对本发明做进一步的描述。

一种基于深度学习的盲文转中文方法，具体包括如下步骤：

(1)对盲文文本预处理：盲文文本预处理对盲文做编码归一化处理；盲文文本预处理的具体方法如下：

(12)对填充对齐后的盲文句子进行编码，转换成十进制编码字符串，编码后的字符串映射到0到63的编码空间，每个编码后的十进制数对应一个0到63的数字；盲文句子进行编码的具体方法如下：

(2)深度学习模型构建：深度学习算法模型学习编码后的文本规律；深度学习模型构建的具体方法如下：

(22)用cnn网络提取句子的语法信息和单词前后关联信息；具体操作方法如下：

(221)该cnn网络的输入是经过词嵌入编码后的词向量；

(23)用双向lstm网络提取整个句子的句法结构信息；

(24)步骤(23)作为网络的输出，通过交叉熵作为损失函数loss。

(3)训练深度学习模型：通过深度学习模型翻译出对应的中文内容；训练深度学习模型的具体方法如下：

通过盲文文本预处理对算法输入部分做编码归一化处理，然后经过深度学习模型学习编码后的文本规律，经过训练深度学习模型翻译出对应的中文内容，最后在经过文本纠错单元对错别字进一步纠错，达到高精准度文本翻译结果。

Claims

1.一种基于深度学习的盲文转中文方法，其特征是，具体包括如下步骤：

(2)深度学习模型构建：深度学习算法模型学习编码后的文本规律；

2.根据权利要求1所述的一种基于深度学习的盲文转中文方法，其特征是，在步骤(1)中，盲文文本预处理的具体方法如下：

3.根据权利要求2所述的一种基于深度学习的盲文转中文方法，其特征是，在步骤(12)中，盲文句子进行编码的具体方法如下：

(121)对每一个盲文点方所代表的数字集合，对每一个数字进行2^N计算，其中N表示盲文点方中每一个点代表的数字；

(122)每一个盲文点方对所有的数字进行2^N计算，然后求和，计算所得的数字就是编码后的值。

4.根据权利要求2或3所述的一种基于深度学习的盲文转中文方法，其特征是，在步骤(2)中，深度学习模型构建的具体方法如下：

(22)用cnn网络提取句子的语法信息和单词前后关联信息；

(23)用双向lstm网络提取整个句子的句法结构信息；

(24)步骤(23)作为网络的输出，通过交叉熵作为损失函数loss。

5.根据权利要求4所述的一种基于深度学习的盲文转中文方法，其特征是，在步骤(22)中，具体操作方法如下：

(221)该cnn网络的输入是经过词嵌入编码后的词向量；

6.根据权利要求2或3所述的一种基于深度学习的盲文转中文方法，其特征是，在步骤(3)中，训练深度学习模型的具体方法如下：