CN111581991B

CN111581991B - 一种基于端到端神经机器翻译的汉盲翻译方法及系统

Info

Publication number: CN111581991B
Application number: CN202010409944.XA
Authority: CN
Inventors: 苏伟; 蔡川; 许存禄; 林和; 吴尽昭; 蒋琪
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2022-05-27
Anticipated expiration: 2040-05-14
Also published as: CN111581991A

Abstract

本发明涉及一种基于端到端神经机器翻译的汉盲翻译方法及系统，所述方法至少包括：基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型；基于现存未经处理的汉语到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。本发明基于端到端深度学习思想，直接绕过分词、标调、合成等多个翻译处理阶段，通过训练较大的端到端神经机器翻译模型进行翻译，能够一步直接得到汉语文本的盲文翻译结果，随着训练数据的不断增加，相比多阶段处理的翻译方式能够在短时间、低成本、系统复杂度降低的情况下显著提高盲文翻译的准确率。

Description

一种基于端到端神经机器翻译的汉盲翻译方法及系统

技术领域

本发明属于自然语言处理技术领域和面向视力障碍者的人机交互技术领域，尤其涉及自然语言处理技术领域中的汉语文本到盲文的自动转换技术领域，特别是使用端到端深度学习和神经机器翻译实现汉语文本-盲文翻译技术领域，具体涉及一种基于端到端神经机器翻译的汉盲翻译方法及系统。

背景技术

随着信息化水平的不断提高，信息技术在人们的工作、学习和生活中得到了广泛地应用，而互联网也成为人们日常生活中的一个重要组成部分。网络以一种便捷的方式为人们提供海量的信息资源，同时也为视力障碍者提供一种前所未有的方式感知世界、认识世界、拉近与普通人的距离，使视力障碍者以更平等的视角感受世界。互联网成为视力障碍者的视觉外延，不断地消解城市、生活带给视力障碍者的阻碍。例如，视力障碍者可以借助汉盲翻译系统通过手机的读屏功能(Voice Over)自由地使用打车软件，可以独立使用淘宝、京东等软件进行网上购物，可以和健全的普通人进行网络游戏，甚至可以写代码，从而拥有更多的就业选择。根据《中国互联网视障用户基本情况报告》，视力障碍者互联网用户30岁以下的占比达到50％，有63％的视力障碍者认为互联网的普及在一定程度上改变了他们的生活或命运。然而，尽管现有的语音合成技术日趋成熟，网络上大量的文本资源可以通过语音合成转换为音频文件，使得视力障碍者可以通过听觉获取文本信息。但是语音资源的存储需要大量的存储空间，进而在携带、查询等方面限制了视力障碍者的使用。更重要的是，文字-语音之间的转换需要大量的时间成本，通过语音获取信息的效率极其低下，因此对于视力障碍者来说，通过阅读获取信息是相对更适合的方式。由此，需要为视力障碍者提供一种能够自动实现汉语文本到盲文的翻译系统，便于视力障碍者获取互联网上的海量资源，也便于视力障碍者实现人机交互。

盲文是视力障碍者阅读和获取信息的重要方式。中国盲文是指专为盲人设计、供盲人使用、靠触觉感知的文字，是中国语言文字的重要组成部分。汉语到盲文的翻译系统，是将已有的汉语资源转换为盲文资源，最终生成盲文文档，可以供各种盲文系统使用。

中国盲文(Braille)体系，其最基本的盲文符号为盲文点字，由6个点组成。根据点的填充与否可形成64种变化，即64个点符(盲符)。计算机中可用盲文ASCII码表示盲文，即64个点符对应64个盲文ASCII码(单个 ASCII字符)。盲文ASCII码极大地方便盲文处理，并且是盲人点显器、盲文刻印机等设备的标准输入。盲人点显器可以与计算机连接，接收计算机中的盲文ASCII码，并将其在点显器面板上显示为相应的凸起点位，当收到新的盲文ASCII码，可在面板上清除原来的点位重新显示新的点位。

虽然有了点显器，但还需要解决汉盲翻译的问题。由于汉语普遍存在一音多字、一字多音等现象，使得汉语文本到盲文的转换并非简单的规则对应，而需要综合考虑语法、语义等。更为重要的是，盲文具有分词连写机制，要求将具备一定语义的词或短语用一个“空方”分割开来，以便于视力障碍者理解。现有技术一般基于盲文分词连写的规则对汉语分词结果进行调整，从而得到分词后的盲文。但是由于盲文分词连写规则一般与语义相关，而且具有一定的主观性，因此由计算机自动完成时分词准确率较低，需要大量人工修正，造成翻译效率低下，成本高昂。

例如，公开号为CN105404621B的中国专利文献公开了一种用于盲人读取汉字的方法及系统，该方法包括获取汉语文本，对所述汉语文本进行分词操作，生成汉字串，通过发音词典、多音字字典与词频信息，参考分词得到的词性标注，将所述汉字串中的每个词转换为对应的拼音并连接为拼音串；通过查找拼音和盲符的对照字典，将所述拼音串转换为盲符串，通过分词模型对所述盲符串进行盲文分词，生成初始盲文分词，将所述汉字串与所述初始盲文分词进行融合，生成新盲文分词，根据盲文分词连写规则对所述新盲文分词进行调整；对根据盲文分词连写规则调整后的所述新盲文分词进行盲文标调，生成最终盲文分词，将所述最终盲文分词进行显示。

例如，公开号为CN109241540A的中国专利文献公开了一种基于深度神经网络的汉盲自动转换方法和系统。方法包括获取句子和词语级对照的汉盲双语语料库，利用汉盲双语语料库训练深度神经网络，得到用于对汉字串进行分词的分词模型，并利用汉盲双语语料库，得到用于对汉字进行标调的标调模型；获取待转换的汉字文本，使用分词模型将汉字文本按照盲文规则进行分词，得到多个字词，使用标调模型对字词进行标调，将标调后的字词转换为盲文。该发明采用训练好的模型直接将汉字串按照盲文规则进行分词。由此可充分利用汉字信息，避免对盲文串分词时因丢失汉字信息以及同音字互相混淆，而影响分词效果。同时，采用深度神经网络模型和标调模型可得到更高的转换准确率。

从以上现有技术可以看出，现有的汉盲翻译方法均采用“汉语文本-分词 -标调-盲文”的多步翻译方法。具体为：首先通过语料库进行训练构建分词模型或者通过盲文分词连写规则将汉语文本分词，得到汉字串；然后通过语料库进行训练构建的标调模型或者标调规则进行标调；最后结合分词和标调信息将汉字串转换为盲文。但是，通过规则或者多个模型提取特征，需要分步进行翻译，即分别采用分词和标调至少两个步骤进行翻译，从而也需要构建至少两个相应的模型来进行翻译。因此这种多个处理阶段进行分步翻译的方式，需要更多的训练时间和成本来训练不同的神经网络模型或者是机器学习模型来进行翻译，而且随着训练数据样本的不断增加，其模型构建的难度、训练时间、成本等成指数级增加。

此外，一方面由于对本领域技术人员的理解存在差异；另一方面由于发明人做出本发明时研究了大量文献和专利，但篇幅所限并未详细罗列所有的细节与内容，然而这绝非本发明不具备这些现有技术的特征，相反本发明已经具备现有技术的所有特征，而且申请人保留在背景技术中增加相关现有技术之权利。

发明内容

针对现有技术之不足，本发明提供了一种基于端到端神经机器翻译的汉盲翻译方法，所述方法至少包括：基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型。现有技术一般基于规则进行查找匹配或者通过多个神经网络模型提取特征，正如公开号为CN105404621B和公开号为CN109241540A的中国专利文献，基于中国盲文分词连写规则以及汉语的重音、一音多意、主观性较强的特点分别采用分词和标调至少两个步骤进行翻译，从而需要构建至少两个相应的模型来进行翻译，导致算法复杂，因此这种多个处理阶段的流水性的翻译方式，随着训练数据样本的不断增加，其模型构建的难度、训练时间、成本等成指数级增加，严重影响翻译效率。而本发明基于端到端深度学习思想，直接绕过分词、标调、合成等多个翻译处理阶段，通过训练较大的端到端神经机器翻译模型进行翻译，能够一步直接得到汉语文本的盲文翻译结果，显著提高翻译的效率。事实上，相对于其他语言，例如英语、德语、韩语、日语等国外语言，我国的汉语具有一词多义、一音多意、重音的特殊性，使得我国使用的现行盲文、双拼盲文、国家通用盲文等均具有声、韵、调三要素，因此我国的汉盲翻译技术从诞生以来，就遵循分词连写机制，分别从分词、标调两个步骤来进行翻译，进而现有技术中一直是以分词、标调两个步骤分别进行多步骤转换处理，即使是最新的基于深度学习的汉盲翻译方法，为了提高翻译的准确率，也依据分词、标调分别构建两种模型进行翻译。本发明打破了需要至少分别构建分词、标调两种模型的多阶段处理翻译方式的技术偏见，不是从提高翻译准确率的角度来构建翻译模型，而是从提高翻译效率和质量的角度出发，构建端到端神经机器翻译模型直接学习汉语文本到盲文转换的映射函数来进行翻译。本发明端到端神经机器翻译模型相对现有的汉盲翻译系统，尽管需要大量的训练数据或训练样本、训练时间才能提高翻译的准确率，即在训练数据或训练样本、训练时间有限的情况下翻译的准确率不如现有多阶段处理的汉盲翻译方式，但是随着训练数据的不断增加，相对多阶段处理的翻译方式能够在短时间、低成本、系统复杂度降低的情况下显著提高盲文翻译的文本质量。

优选地，基于现存未经处理且单一的汉语文本到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。现有的基于深度学习的汉盲翻译方法或者系统，如公开号为CN109241540A的专利文献公开的一种基于深度神经网络的汉盲自动转换方法和系统，该翻译方法和系统不直接运用盲文规则对盲文串进行分词，而是采用汉盲句子级和词语级对照的语料训练分词模型，并采用训练好的模型直接将汉字串按照盲文规则进行分词；另一方面利用汉盲分词对照语料库训练标调模型，与只采用盲文语料的方法相比，利用的信息更为丰富，可以得到更高的准确率。即该现有基于深度学习的汉盲翻译方法或系统不仅需要汉语文本和盲文文本的句子级对应，还需要汉语文本和盲文文本的词语级对应。而且由于目录、页码以及非标准的格式标记，可能造成文本内容混淆，需要采用匹配算法实现字符的精确对齐，从而构建汉盲对照语料库。事实上，公开号为CN109241540A的专利文献使用的对照语料库因为采用分词和标调两个步骤的转换，不仅需要同时构建盲文分词连写语料库和标调语料库，还需要解决词语级精确对照的问题。而本发明打破了现有对照语料库需要同时建立盲文分词连写语料库和标调语料库，以及需要精确的词语级对照的技术偏见，本发明只需要利用现存的盲文数字资料，建立单一的汉语到盲文ASCII的对照语料库就能够很好地训练端到端神经机器翻译模型。此外本发明的对照语料库不需要专家处理、不需要词语级的精确对照，建设难度小、耗时短，显著地降低了成本。

优选地，所述端到端神经机器翻译模型以等长度标记句子的方式建立输入为中文句子而输出为连续生成的盲文ASCII码的映射函数。所述端到端神经机器翻译模型基于输入、输出、输入-输出信息构建所述映射函数。公开号为CN109241540A的专利文献公开的一种基于深度神经网络的汉盲自动转换方法和系统，其准确率明显优于基于纯盲文语料库和传统机器学习模型的方法。其实施例中，首先建立盲文分词连写语料库，利用BiLSTM模型将每个汉字标注为BMES四个词位(B代表词的开头，M代表词的中间，E代表词的末位，S代表单独成词)。接着建立标调语料库，需要将汉字与标点符号分割开来，然后利用bi-gram语言模型对汉字进行标调。完成分词和标调后，利用发音词典和发音－盲文映射表，将完成盲文分词连写和标调的汉字文本转换为盲文。这种处理方式在汉语文本到盲文转换时未充分利用上下文信息。比如在标调步骤中，bi-gram语言模型只能利用极其有限的信息。本发明的所述端到端神经机器翻译模型以等长度标记句子的方式建立输入为中文句子而输出为连续生成的盲文ASCII码的映射函数，而不是采用标注词位的方式翻译。采用标注词位的方式将汉语到盲文的翻译局限在待翻译的句子环境里，不能有效地利用上下文信息，而本发明以句子为单位进行输入和输出，翻译时能够充分利用上下文之间的信息。

根据一种优选实施方式，在构建所述端到端神经机器翻译模型的情况下，所述方法还包括如下步骤：

基于所述对照语料库获取关于汉语语料的第一语料以及与所述第一语料对照的用于表示盲文的第二语料；

对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息，其中，

所述计算机信息至少包括对应所述第一语料的第一字典和对应所述第二语料的第二字典；

基于所述第二字典的键值对交换生成用于能够将所述端到端神经机器翻译模型翻译时生成的预测结果转换为盲文ASCII码的第三字典。

根据一种优选实施方式，对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息的步骤至少包括：

遍历所述第一语料和第二语料生成至少包括所述第一字典和所述第二字典的字典，其中，

基于所述端到端神经机器翻译模型是否需要添加特殊内容，将所述特殊内容添加于所述字典内；

至少基于中文标点符号和截断长度对所述第一语料和第二语料进行切分，从而分别得到对应所述第一语料的汉语句子和对应所述第二语料的盲文句子，其中，

基于所述第一语料的切分位置信息将所述第二语料切分为对照所述汉语句子的盲文句子，并记录所述汉语句子的第一最大长度和所述盲文句子的第二最大长度；

基于切分后得到的所述汉语句子和盲文句子分别进行标记；

通过所述字典将所述汉语句子和盲文句子转换为数字表示。

根据一种优选实施方式，基于切分后得到的所述汉语句子和盲文句子分别进行标记的步骤如下：

在所述汉语句子和盲文句子的首部添加开始标记，并在所述汉语句子和盲文句子的尾部添加结束标记，其中，

在所述汉语句子小于所述第一最大长度和/或所述盲文句子的长度小于所述第二最大长度的情况下，在所述结束标记之后添加补零标记标记；

所述汉语句子作为所述端到端神经机器翻译模型的第一输入，所述盲文句子作为所述端到端神经机器翻译模型的第二输入。

根据一种优选实施方式，在所述端到端神经机器翻译模型获取预处理的所述第一语料和第二语料的计算机信息后，所述方法执行如下步骤：

所述端到端神经机器翻译模型学习汉语文本到盲文ASCII码直接转换的映射函数；

基于预处理后的所述第一语料和第二语料不断训练得到所述端到端神经机器翻译模型的最优超参数；

基于所述最优超参数调整所述端到端神经机器翻译模型得到训练好的端到端神经机器翻译模型。

根据一种优选实施方式，在利用对训练好的端到端神经机器翻译模型进行翻译的情况下，所述方法执行如下步骤：

对输入的汉语文本进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息；

使用训练好的所述端到端神经机器翻译模型将预处理后的汉语文本转为盲文ASCII码。

本发明还提供一种基于端到端神经机器翻译的汉盲翻译系统，至少包括为用户提供汉语文本到盲文转换策略的转换逻辑层。所述转换逻辑层配置为：

基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型；

基于现存未经处理且单一的汉语文本到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。

根据一种优选实施方式，所述转换逻辑层至少包括预处理模块、翻译模块和盲文结果处理模块。所述翻译模块配置为通过训练好的所述端到端神经机器翻译模型将所述预处理模块传输的用户输入的汉语文本转换为盲文 ASCII码。所述翻译模块配置为将所述盲文ASCII码传输至所述盲文结果处理模块。

根据一种优选实施方式，所述预处理模块至少包括汉语文本获取单元和预处理单元。所述汉语文本获取单元配置为将用户录入的汉语转换为所述预处理单元能够识别的汉语文本并传输至所述预处理单元。所述预处理单元配置为对所述汉语文本获取单元传输的汉语文本进行切分、标记处理以使其转换为所述取端到端神经机器翻译模型需要的计算机信息。所述预处理单元配置为将该信息传输至所述翻译模块。

根据一种优选实施方式，所述翻译模块至少包括模型调用单元、模型训练单元和转换单元。所述模型调用单元配置为调用所述对照语料库至所述预处理单元和所述模型训练单元。所述模型调用单元配置为能够根据所述汉盲翻译系统的部署环境调用所述模型训练单元内训练好的所述端到端神经机器翻译模型至所述转换单元。

所述模型训练单元配置为：构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的所述取端到端神经机器翻译模型；基于所述预处理单元传输的所述端到端神经机器翻译模型需要的计算机信息不断训练得到所述端到端神经机器翻译模型的最优超参数；基于所述最优超参数调整所述端到端神经机器翻译模型得到对应现行盲文、双拼盲文、国家通用盲文三种训练好的端到端神经机器翻译模型。

所述转换单元配置为基于训练好的端到端神经机器翻译模型将所述预处理模块传输的用户输入的汉语文本转换为盲文ASCII码。所述转换单元配置为将所述盲文ASCII码传输至所述盲文结果处理模块。

根据一种优选实施方式，所述盲文结果处理模块至少包括盲文表示转换单元、排版处理单元和结果保存单元。所述盲文表示转换单元配置为：用于将所述转换单元传输的盲文ASCII码转换为盲文点字。所述盲文表示转换单元配置为将所述盲文点字传输至所述排版处理单元。所述排版处理单元配置为：用于根据盲文格式设置模块的盲文排版设置单元的排版设置对所述盲文表示转换单元传输的盲文点字进行排版处理。所述排版处理单元配置为将排版处理后的盲文结果传输至所述结果保存单元。所述结果保存单元配置为：用于将所述排版处理单元传输的排版处理后的盲文结果以电子存储的形式保存。

根据一种优选实施方式，所述汉盲翻译系统还包括为用户提供汉盲翻译服务的图形化界面的用户界面层。所述用户界面层至少包括汉语录入模块、盲文格式设置模块以及盲文预览模块。所述汉语录入模块配置为：用于录入用户输入的汉语文本。所述汉语录入模块配置为将所述汉语文本传输至所述预处理模块。所述盲文格式设置模块配置为：将所述转换单元传输的盲文 ASCII码进行排版。所述盲文格式设置模块配置为将排版处理后得到的盲文结果传输至盲文预览模块。

附图说明

图1是本发明方法的一种优选实施方式的步骤示意图；

图2是本发明方法的一种优选实施方式的流程示意图；

图3是本发明系统的一种优选实施方式的模块示意图；

图4是本发明的用户界面层的示意图；

图5是盲文点字的示意图；

图6是盲文点字、盲文ASCII码和Unicode码对照表；和

图7是本发明一种优选的端到端神经机器翻译模型的结构示意图。

附图标记列表

100：对照语料库 200：端到端神经机器翻译模型

300：转换逻辑层 400：用户界面层

310：预处理模块 320：翻译模块

330：盲文结果处理模块 410：汉语录入模块

420：盲文格式设置模块 430：盲文预览模块

311：汉语文本获取单元 312：预处理单元

321：模型调用单元 322：模型训练单元

323：转换单元 331：盲文表示转换单元

332：排版处理单元 333：结果保存单元

421：盲文排版设置单元 422：转换结果选择单元

具体实施方式

下面结合附图1至7进行详细说明。

首先对背景知识和技术术语进行解释。

盲文(Braille)最基本的盲文符号为如图5所示的盲文点字。盲文点字由6个点组成。根据点的填充与否可形成64种变化，即64个点符(盲符)。计算机中也可用盲文ASCII码表示盲文，即64个点符对应64个盲文ASCII 码(ASCII字符组成)，如图6所示。盲文ASCII码极大地方便盲文处理，并且是盲人点显器、盲文刻印机等设备的标准输入。

中国目前使用三种盲文：现行盲文、双拼盲文、国家通用盲文。现行盲文方案(简称“现行盲文”)是1953年由教育部颁布并在全国推行的盲文方案。该方案是以北京语音为标准，以普通话为基础，以词为单位，以声、韵、调三方表示一个完整音节，采用盲文分词连写规则记录汉语的一套盲文方案。现行盲文具有易学易用的优点，存在标调不够规范、信息冗余的明显缺陷。汉语双拼盲文方案(简称“双拼盲文”)是1988年由国家语言文字工作委员会同意试行推广的盲文改革方案。方案可在两方盲符内表示汉语声、韵、调三要素，整个体系包括：字母表、标点符号、同音分化法、简写法、哑音定字法等，同时也采用盲文分词连写规则。汉语双拼盲文方案旨在克服现行盲文的缺点，但因符形类别多、规则繁难，较现行盲文难学，只被部分盲人接受。2018年，教育部、国家语委、中国残联共同发布了《国家通用盲文方案》。国家通用盲文方案(简称“国家通用盲文”)沿用现行盲文的声母、韵母、声调、标点符号等。为了用盲文准确阅读、规范书写国家通用语言，充分体现我国国家通用语言音节带调的特点，该方案确立了全部音节标调的总原则，废止了需要时标调体系。该方案提出了按声母省写声调符号的规范，确定了一些汉字的简写形式，以减少盲文篇幅。该方案解决了阅读盲文时猜测读音问题，提高了盲文的表意功能，将大力促进盲人教育、文化事业的发展，为盲文信息化、盲人无障碍信息交流提供保障。

短语“汉盲翻译”的三种盲文表示如表1所示，现行盲文为全带调现行盲文，即字字标调。

表1汉盲翻译中盲文表示

空格属于盲文ASCII码，为盲文点字64种变化之一，即6个点均不填充，称为“空方”，可携带盲文分词连写信息。“汉盲翻译”国家通用盲文的盲文ASCII码为“HV2M8FVI2”，其分词信息为“汉盲/翻译”。“汉盲”盲文ASCII码为“HV2M8”。盲文点字为

“翻译”盲文ASCII码为“FVI2”。盲文点字为

双拼盲文的盲文ASCII码为“BF[？6P3B”，其分词信息为“汉盲/翻译”。 “汉盲”盲文ASCII码为“BF[？”。其中ang为145点。阳平加第6点。最终为1456点。对应的盲文ASCII码为？。

端到端深度学习(End-to-End Deep Learning)：现有技术中，部分数据处理系统或者学习系统，需要多个阶段的处理，而端到端深度学习就是忽略这些不同的阶段处理，用单个神经网络算法代替。与现有汉盲翻译系统的分词、标调、合成盲文的多阶段处理相比，端到端深度学习是通过训练一个单个、较大的神经网络，其输入是汉语文本，输出直接是盲文ASCII码。具体而言，本发明的端到端深度学习是只需要训练数据样本，就可以学习到汉语文本到盲文ASCII码的函数映射，直接绕过了其中分词连写、标调、合成处理等步骤，能够简化系统架构，不需要搭建多个单独的组件。

神经机器翻译模型：是一种使用深度学习神经网络获取汉语文本与盲文 ASCII码之间的映射关系的翻译模型。

键值对(key＝value)：每个键对应着相应的数值，用于生成与第二字典对应的第三字典，即用于生成盲文ASCII码字典对应的逆盲文ASCII码字典。第三字典能够将端到端神经机器翻译模型200的预测结果转换为盲文ASCII 码。

对照语料库100：该汉盲对照语料库，是指表示汉语语料的第一语料和表示盲文语料的第二语料存储内容相同。盲文语料中的每一个盲文句子，在汉语语料中都有明确对应的汉语句子。盲文句子中的每一个盲文词，都在汉语句子中有明确对应的汉语词或短语。

最优超参数：超参数是在端到端神经机器翻译模型200开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，在学习过程中需要对超参数进行优化，给端到端神经机器翻译模型200选择一组最优超参数，提高学习的性能和效果。

特殊内容：在文本转换时，会遇到一些特殊情况，如汉语文本中有时会夹杂阿拉伯数字、英文字母以及一些特殊符号，盲文在“数字+量词”和采用数字形式的年月日时会需要特殊处理，例如，在数字后增加一个连接符。

实施例1

如图1和图2所示，本实施例公开了一种基于端到端神经机器翻译的汉盲翻译方法，在不造成冲突或者矛盾的情况下，其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。

如图1所示，本实施例公开的汉盲翻译方法包括如下步骤：

S100：基于现行盲文、双拼盲文、国家通用盲文构建至少三种汉语文本到盲文ASCII码转换的对照语料库100。该对照语料库100是汉语到盲文 ASCII码一一映射转换的。该对照语料库100是直接利用现存的盲文数字资源构建的。该对照语料库100是单一的汉语到盲文ASCII码转换的。该对照语料库100是基于现存未经处理的盲文数字资源构建的。优选地，本发明可直接利用现存的盲文数字资源构建汉语-盲文ASCII码对照语料，或者将汉语 -盲文点字对照语料转换为汉语-盲文ASCII码对照语料。而现有技术使用的对照语料库100，还需经过专家处理，得到盲文分词连写语料库和标调语料库。

S200：基于端到端深度学习构建端到端神经机器翻译模型200。该端到端神经机器翻译模型200能够学习汉语文本到盲文ASCII码直接转换的映射函数。现有技术一般基于规则进行查找匹配或者通过多个神经网络模型提取特征，。一般是基于中国盲文分词连写规则以及汉语的重音、一音多意、主观性较强的特点分别采用分词和标调至少两个步骤进行翻译，从而需要构建至少两个相应的模型来进行翻译，导致算法复杂。因此这种多个处理阶段的流水性的翻译方式，随着训练数据样本的不断增加，其模型构建的难度、训练时间、成本等成指数级增加，严重影响翻译效率。而本发明基于端到端深度学习思想，直接绕过分词、标调、合成等多个翻译处理阶段，通过训练较大的端到端神经机器翻译模型200进行翻译，能够一步直接得到汉语文本的盲文翻译结果，显著提高翻译的效率。事实上，相对于其他语言，例如英语、德语、韩语、日语等国外语言，我国的汉语具有一词多义、一音多意、重音的特殊性，使得我国使用的现行盲文、双拼盲文、国家通用盲文等均具有声、韵、调三要素。因此我国的汉盲翻译技术从诞生以来，就遵循分词连写机制，分别从分词、标调两个步骤来进行翻译，进而现有技术中一直是以分词、标调两个步骤分别进行多步骤转换处理。即使是最新的基于深度学习的汉盲翻译方法，为了提高翻译的准确率，也依据分词、标调分别构建两种模型进行翻译。本发明打破了需要至少分别构建分词、标调两种模型的多阶段处理翻译方式的技术偏见，不是从提高翻译准确率的角度来构建翻译模型，而是从提高翻译效率和质量的角度出发，构建端到端神经机器翻译模型200直接学习汉语文本到盲文转换的映射函数来进行翻译。本发明端到端神经机器翻译模型相对现有的汉盲翻译系统，尽管需要大量的训练数据或训练样本、训练时间才能提高翻译的准确率，即在训练数据或训练样本、训练时间有限的情况下翻译的准确率不如现有多阶段处理的汉盲翻译方式。但是随着训练数据的不断增加，相对多阶段处理的翻译方式能够在短时间、低成本、系统复杂度降低的情况下显著提高盲文翻译的文本质量。

优选地，端到端神经机器翻译模型200建立映射函数。映射函数的输入为中文句子而输出为连续生成的盲文ASCII码。端到端神经机器翻译模型 200以等长度标记句子的方式建立映射函数。端到端神经机器翻译模型200 至少基于输入、输出、输入-输出信息构建映射函数。优选地，在构建端到端神经机器翻译模型200的情况下，方法还包括步骤S210。步骤S210如下：

基于对照语料库100获取关于汉语语料的第一语料以及与第一语料对照的用于表示盲文的第二语料。优选地，对第一语料和第二语料进行预处理。预处理后的第一语料和第二语料转换为端到端神经机器翻译模型200需要的计算机信息。优选地，计算机信息至少包括第一字典和第二字典。第一字典对应第一语料。第二字典对应第二语料。优选地，基于第二字典的键值对交换生成第三字典。第三字典能够将端到端神经机器翻译模型200翻译时生成的预测结果转换为盲文ASCII码。优选地，第三字典为与盲文ASCII码字典对应的逆盲文ASCII码字典，能够将端到端神经机器翻译模型200的预测结果转换为盲文ASCII码。

根据一种优选实施方式，对第一语料和第二语料进行预处理以转换为端到端神经机器翻译模型200需要的计算机信息的步骤至少包括：

A、遍历第一语料和第二语料生成字典。字典至少包括第一字典和第二字典。第一字典对应第一语料。第二字典对应第二语料。优选地，基于端到端神经机器翻译模型200是否需要添加特殊内容，将特殊内容添加于字典内。优选地，第一字典的0键对于汉语句子的补零标记。第一字典的1键对应汉语句子的开始标记。第一字典的2键对应汉语句子的结束标记。第二字典的0键对应盲文句子的补零标记。第二字典的1键对应盲文句子的开始标记。第二字典的2键对应盲文句子的结束标记。

B、至少基于中文标点符号和截断长度对第一语料和第二语料进行切分，从而分别得到汉语句子和盲文句子。汉语句子对应第一语料的切分结果。盲文句子对应第二语料的切分结果。优选地，中文标点符号可以是逗号、句号、感叹号、问号等。优选地，截断长度可以是48。优选地，基于第一语料的切分位置信息将第二语料切分为对照汉语句子的盲文句子。记录汉语句子和盲文句子的最大长度。汉语句子的最大长度为第一最大长度。盲文句子的最大长度为第二最大长度。汉语句子和盲文句子的最大长度可以不相同，即第一最大长度与第二最大长度不同。

C、基于切分后得到的汉语句子和盲文句子分别进行标记。优选地，基于切分后得到的汉语句子和盲文句子分别进行标记的步骤如下：

在汉语句子和盲文句子的首部添加开始标记，并在汉语句子和盲文句子的尾部添加结束标记。优选地，在汉语句子的长度小于第一最大长度的情况下，在汉语句子的结束标记之后添加补零标记。在盲文句子的长度小于第二最大长度的情况下，在盲文句子的技术标记之后添加补零标记。优选地，汉语句子作为端到端神经机器翻译模型200的第一输入，盲文句子作为端到端神经机器翻译模型200的第二输入。

D、通过字典将汉语句子和盲文句子转换为数字表示。优选地，转换数字表示的数据可以随机提取部分数据作为测试集，剩余部分可以作为训练集。优选地，可以随机提取10％的数据作为测试集。

优选地，现有基于深度神经网络的汉盲自动转换方法和系统，其准确率明显优于基于纯盲文语料库和传统机器学习模型的方法。现有基于深度学习的汉盲转换方法，首先建立盲文分词连写语料库，利用BiLSTM模型将每个汉字标注为BMES四个词位(B代表词的开头，M代表词的中间，E代表词的末位，S代表单独成词)。接着建立标调语料库，需要将汉字与标点符号分割开来，然后利用bi-gram语言模型对汉字进行标调。完成分词和标调后，利用发音词典和发音－盲文映射表将完成盲文分词连写和标调的汉字文本转换为盲文。这种处理方式在汉语到盲文转换时未充分利用上下文信息，比如在标调步骤中，bi-gram语言模型只能利用极其有限的信息。本发明的所述端到端神经机器翻译模型200以等长度标记句子的方式建立输入为中文句子而输出为连续生成的盲文ASCII码的映射函数，而不是采用标注词位的方式翻译。采用标注词位的方式将汉语到盲文的翻译局限在待翻译的句子环境里，不能有效地利用上下文信息，而本发明基于句子为单位进行输入和输出，翻译时能够充分利用上下文之间的信息。例如，本发明将汉盲翻译等效为输入汉语句子，输出为连续生成的盲文ASCII码。设端到端神经机器翻译模型200的模型输入：

X＝(x_start,x₁,x₂,…,x_i,…,x_n,x_end,x_pad,…)

x_start标记句子开始。x_end标记句子结束。输入句子过短用x_pad补齐。 x₁,x₂,…,x_i,…,x_n为输入汉语句子，如(x₁,x₂,x₃,x₄)＝(汉，盲，翻，译)。

设端到端神经机器翻译模型200的模型输出序列：

Y＝(y₁,y₂,…,y_i,…,y_n,y_end)

y_end标记模型应停止生成盲文ASCII码。y₁,y₂,…,y_i,…,y_n为模型依次生成的ASCII码，如(y₁,y₂,…,y_i,…,y₁₀)＝(H,V,2,M,8,,F,V,I,2)。

S300：基于现存未经处理的对照语料库100训练端到端神经机器翻译模型200。基于汉语文本到盲文ASCII码转换的对照语料库100训练端到端神经机器翻译模型200。基于单一的汉语文本到盲文ASCII码转换的对照语料库100训练端到端神经机器翻译模型200。该对照语料库100至少包括汉语文本盲文ASCII码转换的资源。该对照语料库100可以是单一的汉语文本盲文ASCII码转换的资源。该对照语料库100不用划分为分词语料库和标调语料库。该对照语料库100是句子级汉语文本和盲文对应的。现有的基于深度学习的汉盲翻译方法或者系统不直接运用盲文规则对盲文串进行分词，而是采用汉盲句子级和词语级对照的语料训练分词模型，并采用训练好的模型直接将汉字串按照盲文规则进行分词。另一方面利用汉盲分词对照语料训练标调模型，与只采用盲文语料的方法相比，利用的信息更为丰富，可以得到更高的准确率。即该现有基于深度学习的汉盲翻译方法或系统不仅需要汉语文本和盲文文本的句子级对应，还需要词语级对应。而且由于目录、页码以及非标准的格式标记，可能造成文本内容混淆，需要采用匹算法实现字符的精确对齐，从而构建双语对照语料库。事实上，现有技术使用的对照语料库因为采用分词和标调两个步骤的转换，不仅需要同时构建盲文分词连写语料库和标调语料库，还需要解决词语级精确对照的问题。而本发明打破了现有对照语料库需要同时建立盲文分词连写语料库和标调语料库，以及需要精确的词语级对照的技术偏见，本发明只需要利用现存的盲文数字资料，建立单一的汉语到盲文ASCII的对照语料库100就能够很好地训练端到端神经机器翻译模型200。此外本发明的对照语料库100不需要专家处理、不需要词语级的精确对照，建设难度小、耗时短，显著地降低了成本。

优选地，在端到端神经机器翻译模型200获取预处理的第一语料和第二语料的计算机信息后，方法执行如下步骤：

端到端神经机器翻译模型200学习汉语文本到盲文ASCII码直接转换的映射函数；

基于预处理后的第一语料和第二语料不断训练得到端到端神经机器翻译模型200的最优超参数；

基于最优超参数调整端到端神经机器翻译模型200得到训练好的端到端神经机器翻译模型200。优选地，训练好的端到端神经机器翻译模型200 至少包括对应现行盲文、双拼盲文、国家通用盲文的端到端神经机器翻译模型200。

优选地，本实施例所采用的端到端神经机器翻译模型200可以是基于Transformer模型。端到端神经机器翻译模型200也可选取基于循环神经网络(RNN)的Seq2Seq模型等其它端到端神经机器翻译模型。为了便于理解本实施例的端到端神经机器翻译模型200的构建方式，以基于循环神经网络 (RNN)的Seq2Seq模型为例进行说明。

如图7所示，模型为基于LSTM(RNN变种)和Attention的Seq2Seq 模型。模型的汉语文本输入为盲文结果为“汉盲翻译”。模型的盲文ASCII码输出为国家通用盲文。其中，

Embedding层：词向量维度为100(每个汉字用一个100维的向量表示)；

BiLSTM层：双向LSTM(LSTM：RNN变种，长短期记忆网络)，维度 256；

向右：将Embedding层的输出编码成语义向量(BiLSTM层的隐藏层状态向量)传入解码器中LSTM；

向上：BiLSTM层输出传入注意力层，生成注意力向量；

LSTM层：解码语义向量，维度512；

Softmax层：即为激活函数为softmax的Dense全连接层,结合注意力向量和解码器中LSTM的输出,映射为67维向量(64种盲文ASCII码和开始、结束、补零标记),选择概率最大的类别，这样依次生成，直到生成结束标记。

S400：在利用训练好的端到端神经机器翻译模型200进行翻译的情况下，方法执行如下步骤：

对输入的汉语文本进行预处理以转换为端到端神经机器翻译模型200 需要的计算机信息；

使用端到端神经机器翻译模型200将预处理后的汉语文本转为盲文 ASCII码。

通过以上设置方式，本发明的有益效果是：

现有技术一般基于规则进行查找匹配或者通过多个神经网络模型提取特征，即分别采用分词和标调至少两个步骤进行翻译，从而也需要构建至少两个相应的神经网络模型来进行翻译。因此这种多个处理阶段的流水性的翻译的方式，随着训练数据样本的不断增加，其模型构建的难度、训练时间、成本等成指数级增加。而本发明基于端到端深度学习思想，直接绕过分词、标调、合成等多个翻译处理阶段，通过训练巨大的端到端神经机器翻译模型 200进行翻译，能够一步直接得到汉语文本的盲文翻译结果，随着训练数据的不断增加，相对多阶段处理的翻译方式能够在短时间、低成本、系统复杂度降低的情况下显著提高盲文翻译的准确率。

实施例2

如图3和图4所示，本实施例公开了一种基于端到端神经机器翻译的汉盲翻译系统。在不造成冲突或者矛盾的情况下，其他实施例的优选实施方式的整体和/或部分内容可以作为本实施例的补充。

一种基于端到端神经机器翻译的汉盲翻译系统，至少包括为用户提供转换策略且将该转换策略用于转换用户录入的汉语本文为盲文的转换逻辑层 300。转换逻辑层300配置为：基于现行盲文、双拼盲文、国家通用盲文构建至少三种汉语文本到盲文ASCII码转换的对照语料库100；基于端到端深度学习构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的端到端神经机器翻译模型200；基于现存未经处理的单一汉语文本到盲文ASCII码转换的对照语料库100训练所述端到端神经机器翻译模型200。优选地，本实施采用的端到端神经机器翻译模型200以及相应的汉盲翻译方法与实施例相同，相同的内容不再重复赘述。

根据一种优选实施方式，转换逻辑层300至少包括预处理模块310、翻译模块320和盲文结果处理模块330。翻译模块320配置为通过训练好的端到端神经机器翻译模型200将预处理模块310传输的用户输入的汉语文本转换为盲文ASCII码。翻译模块320配置为将盲文ASCII码传输至盲文结果处理模块330。

根据一种优选实施方式，预处理模块310至少包括汉语文本获取单元 311和预处理单元312。汉语文本获取单元311配置为将用户录入的汉语转换为预处理单元312能够识别的汉语文本并传输至预处理单元312。预处理单元312配置为对汉语文本获取单元311传输的汉语文本进行切分、标记处理以使其转换为取端到端神经机器翻译模型200需要的计算机信息。预处理单元312配置为将该信息传输至翻译模块320。

根据一种优选实施方式，翻译模块320至少包括模型调用单元321、模型训练单元322和转换单元323。模型调用单元321配置为调用对照语料库100至预处理单元312和模型训练单元322。模型调用单元321配置为能够根据汉盲翻译系统的部署环境调用模型训练单元322内训练好的端到端神经机器翻译模型200至转换单元323。

模型训练单元322配置为：构建能够学习汉语文本到盲文ASCII码直接转换的映射函数的取端到端神经机器翻译模型200；基于预处理单元312传输的端到端神经机器翻译模型200需要的计算机信息不断训练得到端到端神经机器翻译模型200的最优超参数；基于最优超参数调整端到端神经机器翻译模型200得到对应现行盲文、双拼盲文、国家通用盲文三种训练好的端到端神经机器翻译模型200。

优选地，转换单元323配置为基于训练好的端到端神经机器翻译模型 200将预处理模块310传输的用户输入的汉语文本转换为盲文ASCII码。转换单元323配置为将盲文ASCII码传输至盲文结果处理模块330。

根据一种优选实施方式，盲文结果处理模块330至少包括盲文表示转换单元331、排版处理单元332和结果保存单元333。盲文表示转换单元331 配置为：用于将转换单元323传输的盲文ASCII码转换为盲文点字。盲文表示转换单元331配置为将盲文点字传输至排版处理单元332。排版处理单元332配置为：用于根据盲文格式设置模块420的盲文排版设置单元421 的排版设置对盲文表示转换单元331传输的盲文点字进行排版处理。排版处理单元332配置为将排版处理后的盲文结果传输至结果保存单元333。结果保存单元333配置为：用于将排版处理单元332传输的排版处理后的盲文结果以电子存储的形式保存。

根据一种优选实施方式，汉盲翻译系统还包括为用户提供汉盲翻译服务的图形化界面用户界面层400，如图4所示。用户界面层400至少包括汉语录入模块410、盲文格式设置模块420以及盲文预览模块430。汉语录入模块410配置为：用于录入用户输入的汉语文本。汉语录入模块410配置为将汉语文本传输至预处理模块310。盲文格式设置模块420配置为：将转换单元322传输的盲文ASCII码进行排版。盲文格式设置模块420配置为将排版处理后得到的盲文结果传输至盲文预览模块430。

优选地，汉语录入模块410配置为至少包括直接录入和文件上传两种录入方式。优选地，盲文格式设置模块420至少包括盲文排版设置单元421 和转换结果选择单元422。优选地，盲文排版设置单元421用于设置翻译盲文结果的每行方数、每页行数、是否需要页码。优选地，转换结果选择单元 422用于让用户选择翻译的盲文类别，例如国家通用盲文、现行盲文、双拼盲文。优选地，转换结果选择单元422还可以选择盲文表示形式，例如盲文点字、盲文ASCII码。转换结果选择单元422还可选择对照方式，例如纯盲文、汉语-盲文对照。

此外，本实施例公开的系统不仅可以应用于盲文出版、盲人教育等实体出版的盲文领域具有重要应用价值，还可以通过计算机设备展现，便于实现人机交互。

需要注意的是，上述具体实施例是示例性的，本领域技术人员可以在本发明公开内容的启发下想出各种解决方案，而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白，本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。

Claims

1.一种基于端到端神经机器翻译的汉盲翻译方法，其特征在于，所述方法至少包括：

基于现存未经处理的汉语文本到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型；在构建所述端到端神经机器翻译模型的情况下，所述方法还包括如下步骤：

所述计算机信息至少包括对应所述第一语料的第一字典和对应所述第二语料的第二字典；对所述第一语料和第二语料进行预处理以转换为所述端到端神经机器翻译模型需要的计算机信息的步骤至少包括：

遍历所述第一语料和第二语料生成至少包括所述第一字典和所述第二字典的字典；

基于切分后得到的所述汉语句子和盲文句子分别进行标记；

通过所述字典将所述汉语句子和盲文句子转换为数字表示；基于切分后得到的所述汉语句子和盲文句子分别进行标记的步骤如下：

在所述汉语句子小于所述第一最大长度和/或所述盲文句子的长度小于所述第二最大长度的情况下，在所述结束标记之后添加补零标记；在所述端到端神经机器翻译模型获取预处理的所述第一语料和第二语料的计算机信息后，所述方法执行如下步骤：

基于所述最优超参数调整所述端到端神经机器翻译模型得到训练好的端到端神经机器翻译模型；在利用训练好的端到端神经机器翻译模型进行翻译的情况下，所述方法执行如下步骤：

使用训练好的端到端神经机器翻译模型将预处理后的汉语文本转为盲文ASCII码。

2.一种用于执行权利要求1所述的基于端到端神经机器翻译的汉盲翻译方法的系统，至少包括为用户提供汉语文本到盲文转换策略的转换逻辑层，其特征在于，

所述转换逻辑层配置为：

基于现存未经处理的汉语文本到盲文ASCII码转换的对照语料库训练所述端到端神经机器翻译模型。

3.根据权利要求2的所述的汉盲翻译系统，其特征在于，所述转换逻辑层至少包括预处理模块、翻译模块和盲文结果处理模块，

所述翻译模块配置为通过训练好的所述端到端神经机器翻译模型将所述预处理模块传输的用户输入的汉语文本转换为盲文ASCII码，并将所述盲文ASCII码传输至所述盲文结果处理模块。

4.根据权利要求3的所述的汉盲翻译系统，其特征在于，所述预处理模块至少包括汉语文本获取单元和预处理单元，其中，

所述汉语文本获取单元配置为将用户录入的汉语转换为所述预处理单元能够识别的汉语文本并传输至所述预处理单元；

所述预处理单元配置为对所述汉语文本获取单元传输的汉语文本进行切分、标记处理以使其转换为所述端到端神经机器翻译模型需要的计算机信息，并将该信息传输至所述翻译模块。

5.根据权利要求4的所述的汉盲翻译系统，其特征在于，所述翻译模块至少包括模型调用单元、模型训练单元和转换单元，其中，

所述模型调用单元配置为调用所述对照语料库至所述预处理单元和所述模型训练单元，并且能够根据所述汉盲翻译系统的部署环境调用所述模型训练单元内训练好的所述端到端神经机器翻译模型至所述转换单元；

所述模型训练单元配置为：

基于所述预处理单元传输的所述端到端神经机器翻译模型需要的计算机信息不断训练得到所述端到端神经机器翻译模型的最优超参数；

基于所述最优超参数调整所述端到端神经机器翻译模型得到训练好的端到端神经机器翻译模型；

所述转换单元配置为基于训练好的端到端神经机器翻译模型将所述预处理模块传输的用户输入的汉语文本转换为盲文ASCII码，并将所述盲文ASCII码传输至所述盲文结果处理模块。