CN116681037A

CN116681037A - 一种基于预训练模型的汉语到盲文的自动转换方法及系统

Info

Publication number: CN116681037A
Application number: CN202310659895.9A
Authority: CN
Inventors: 苏伟; 于海龙; 袁永娜; 许存禄
Original assignee: Lanzhou University
Current assignee: Lanzhou University
Priority date: 2023-06-06
Filing date: 2023-06-06
Publication date: 2023-09-01

Abstract

本申请公开了一种基于预训练模型的汉语到盲文的自动转换方法及系统，其中方法包括以下步骤：构建预训练语料库、汉盲平行语料库和机器翻译模型；对所述预训练语料库和所述汉盲平行语料库进行编码，得到编码后预训练语料库和编码后汉盲平行语料库；基于所述编码后预训练语料库对所述机器翻译模型进行预训练，得到预训练模型；基于所述编码后汉盲平行语料库对所述预训练模型进行参数微调，得到转换模型；将汉语输入至所述转换模型中进行翻译，得到盲文序列，完成汉盲翻译。本申请可以将汉语一步地转换为对应的盲文，并且大大减少了模型对平行数据的依赖，使用少量数据进行训练，也可以达到很好的效果。

Description

一种基于预训练模型的汉语到盲文的自动转换方法及系统

技术领域

本申请属于汉盲转换技术领域，具体涉及一种基于预训练模型的汉语到盲文的自动转换方法及系统。

背景技术

盲文是专门为盲人设计的一种凸点字，盲人通过触摸来识别盲文，它是由法国盲人路易·布莱叶于1824创造的。一个盲文字由三行两列的六个凸点组成，左边一列是123点，右边一列是456点，根据排列组合，六个位置的凸起与否有64种情况，共有64种盲符。其中在计算机中使用64种ASCII字符来表示盲文，即盲文ASCII码。我国盲文主要有三种形式、现行盲文，双拼盲文和国家通用盲文。现行盲文用声母、韵母、声调三个部分来表示一个字，现行盲文需要实时标调，由于汉字存在众多的多音字以及同音字，这对于计算机来说是很难实现的，所以又推行了双拼盲文，双拼盲文不需要进行标调，将声调与韵母结合为一体，它有效地克服了现行盲文存在的诸多不足，从而得到广泛应用。国家通用盲文更加简洁，在双拼盲文基础上，根据某些特定声母可以省略声调，减少了大量工作。

由于盲文字的特殊构造，盲文出版物的制作复杂，因此将明眼人的纸制读物翻译成盲人读物的工作非常费时费力，导致了我国盲文出版物的速度停滞不前。盲人正常生活和学习的需求得不到满足，盲人的教育事业也受到了限制。现如今我国的盲人教育非常令人担忧,在高等教育学生中，盲人学生所占比例仅有1％，造成这种状况是原因是多方面的，其中一个很重要的原因是我国盲文资源匮乏无法正常地满足盲人学生的学习需求。

汉盲翻译技术是一种自动化技术，利用计算机将包括标点符号、英文、数字等在内的汉语信息转化为盲文。汉盲翻译技术不仅可以帮助明眼人了解盲文，还可以与文字识别技术结合，改善我国约1700万视障人群的学习和生活。英语、意大利语、西班牙语等印欧语系的语言由少量的基本字母组成，每个字母和盲符存在一一对应的关系。不同于上述语言的是，中文的基本字符由几千种，不能和64种盲符形成一一对应的关系，因此相较于印欧语系语言翻译成盲文来说，中文翻译成盲文的难度相对较大。汉语盲文是基于汉字的拼音标调以及分词连写规则得来的，一个汉字对应2-3个盲符，其中一个代表声母，一个代表韵母，一个代表声调，一些汉字的韵母或者声调会被省略掉，再结合盲文分词连写规则，形成最终的盲文。出于盲人摸读习惯、减少盲文字符长度等方面的考虑，盲文分词连写规则不同于汉语分词规则。例如“无论如何，结果不很好。”这句话，基于汉语分词规则，应该这样划分，“无论如何/，/结果/不/很/好/。”，基于盲文分词连写规则，应该这样划分，“无论/如何，/结果/不很好。”此外，汉语中含有大量多音字，一个汉字可能对应多种读音，进而可能对应多种盲方的组合，以上两方面是汉盲翻译任务的最大难点，目前多步式汉盲翻译方法存在不符合盲文分词连写规则、多音字混淆等挑战。

发明内容

本申请旨在解决现有技术的不足，提出一种基于预训练模型的汉语到盲文的自动转换方法及系统，首先使用预训练语料库对模型进行预训练，使模型获得良好的初始化状态，然后使用少量的汉盲平行语料进行微调，达到了很好的效果，降低了模型对并行语料数量的依赖。

为实现上述目的，本申请提供了如下方案：

一种基于预训练模型的汉语到盲文的自动转换方法，包括以下步骤：

构建预训练语料库、汉盲平行语料库和机器翻译模型；

对所述预训练语料库和所述汉盲平行语料库进行编码，得到编码后预训练语料库和编码后汉盲平行语料库；

基于所述编码后预训练语料库对所述机器翻译模型进行预训练，得到预训练模型；

基于所述编码后汉盲平行语料库对所述预训练模型进行参数微调，得到转换模型；

将汉语输入至所述转换模型中进行翻译，得到盲文序列，完成汉盲翻译。

优选的，构建所述预训练语料库的方法包括：

收集中文文本，基于所述中文文本，得到拼音信息和分词信息；

将所述中文文本以预设概率删除部分字符得到删除后文本，以所述删除后文本作为源序列、所述中文文本作为目标序列，得到纯汉语语料库；

以所述中文文本作为源序列、所述拼音信息作为目标序列，得到汉语-拼音平行语料库；

以所述中文文本作为源序列、所述分词信息作为目标序列，得到汉语-汉语分词平行语料库；

以所述中文文本作为源序列、所述拼音信息作为目标序列，并加入所述分词信息，得到汉语-带分词拼音语料库；

基于所述纯汉语语料库、所述汉语-拼音平行语料库、所述汉语-汉语分词平行语料库和汉语-带分词拼音语料库构建所述预训练语料库。

优选的，构建所述汉盲平行语料库的方法包括：

基于所述中文文本提取汉语序列；

提取盲文的盲文ASCII码序列；

将所述汉语序列和所述盲文ASCII码序列相互对应，得到汉语-盲文对照序列对，即所述汉盲平行语料库。

优选的，所述机器翻译模型包括但不限于：基于注意力机制的Transformer模型和GPT模型。

优选的，所述编码的方法包括：

基于所述预训练语料库和所述汉盲平行语料库构建字典；

基于所述字典对所有语料库中的汉语和盲文ASCII码进行字符单独编码，对所有语料库中的拼音数据进行读音整体编码，得到编码后预训练语料库和编码后汉盲平行语料库。

优选的，所述预训练的方法包括：

将所述编码后预训练语料库中的编码后源序列输入至所述机器翻译模型中，并对所述编码后源序列进行特征提取，得到提取后特征；

所述机器翻译模型基于所述提取后特征生成预测目标序列；

基于所述编码后预训练语料库中的编码后目标序列和所述预测目标序列对所述机器翻译模型进行参数更新，得到所述预训练模型。

优选的，所述参数微调的方法包括：

将所述编码后汉盲平行语料库中的编码后汉语序列输入至所述预训练模型中；

所述预训练模型基于所述编码后汉语序列进行预测，得到盲文ASCII码序列预测值；

基于所述编码后汉盲平行语料库中的编码后盲文ASCII码序列和所述盲文ASCII码预测值，对所述预训练模型进行参数微调，得到所述转换模型。

本申请还提供了一种基于预训练模型的汉语到盲文的自动转换系统，包括：数据模型构建模块、编码模块、预训练模块、参数调整模块和翻译模块；

所述数据模型构建模块用于构建预训练语料库、汉盲平行语料库和机器翻译模型；

所述编码模块用于对所述预训练语料库和所述汉盲平行语料库进行编码，得到编码后预训练语料库和编码后汉盲平行语料库；

所述预训练模块用于基于所述编码后预训练语料库对所述机器翻译模型进行预训练，得到预训练模型；

所述参数调整模块用于基于所述编码后汉盲平行语料库对所述预训练模型进行参数微调，得到转换模型；

所述翻译模块用于将汉语输入至所述转换模型中进行翻译，得到盲文序列，完成汉盲翻译。

与现有技术相比，本申请的有益效果为：

本申请可以将汉语一步地转换为对应的盲文，并且大大减少了模型对平行数据的依赖，使用少量数据进行训练，也可以达到很好的效果。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例的方法流程示意图；

图2为本申请实施例的Transformer模型的输入输出示意图；

图3为本申请实施例的GPT模型的输入输出示意图；

图4为本申请实施例的系统结构示意图；

图5为本申请实施例的不同大小微调数据量翻译效果对比图；

图6为本申请实施例的不同大小预训练数据量翻译效果对比图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

实施例一

在本实施例中，如图1所示，一种基于预训练模型的汉语到盲文的自动转换方法，包括以下步骤：

S1.构建预训练语料库、汉盲平行语料库和机器翻译模型。

构建预训练语料库的方法包括：收集中文文本，基于中文文本，得到拼音信息和分词信息；将中文文本以预设概率删除部分字符得到删除后文本，本实施例中，预设概率的范围在3％-50％之间，本实施例中将预设概率设置为15％，以删除后文本作为源序列，所述中文文本作为目标序列，得到纯汉语语料库；以中文文本作为源序列、拼音信息作为目标序列，得到汉语-拼音平行语料库；以中文文本作为源序列、分词信息作为目标序列，得到汉语-汉语分词平行语料库；以中文文本作为源序列、拼音信息作为目标序列，并加入分词信息，得到汉语-带分词拼音语料库；基于纯汉语语料库、汉语-拼音平行语料库、汉语-汉语分词平行语料库和汉语-带分词拼音语料库构建预训练语料库。

本实施例中，首先获取大量纯中文文本数据，利用算法生成该数据对应的拼音以及分词信息。使用纯文本数据生成纯汉语语料库，基于拼音以及分词信息生成三种语料库，包括：汉语-拼音平行语料库、汉语-汉语分词平行语料库和汉语-带分词拼音语料库；其中，纯汉语语料库源序列为随机删除部分字符的中文序列，目标序列为原始汉语句子，汉语-拼音语料库源序列为中文句子，目标序列为其对应的拼音序列，汉语-汉语分词语料库源序列为中文句子，目标序列为带分词的中文句子，汉语-带分词拼音语料库源序列为中文句子，目标序列为其对应的拼音序列，并加入分词信息。将上述的四种语料库汇总为预训练语料库。其中95％的数据用于训练，5％的数据用于验证。

构建汉盲平行语料库的方法包括：基于中文文本提取汉语序列；提取盲文的盲文ASCII码序列；将汉语序列和盲文ASCII码序列相互对应，得到汉语-盲文对照序列对，即汉盲平行语料库。

机器翻译模型包括：基于注意力机制的Transformer模型和GPT模型。

在本实施例中，在Transformer的构建上，如图2所示，主要包含编码器以及解码器，编码器由多个相同的模块堆叠而成，其中每个模块包含Multi-head self-attention层以及前馈神经网络层，在多头自注意力机制中使用了Padding MASK机制，由于输入句子长度不一，需要补齐成一样的长度，为了避免填充的位置对结果的影响，采用了Padding MASK机制。解码器端与编码器端类似，由多个相同模块堆叠而成，每个模块包含Decoder Multi-Head self-attention以及Encoder-Decoder Multi-Head attention以及前馈神经网络层，由于模型需要并行训练，训练过程中需要将目标序列一次性输入到模型中，为了避免模型看到未来时刻信息，在self-attention层使用了一种MASK机制，将注意力矩阵上三角MASK，避免了模型作弊，看到未来时刻信息。Encoder-Decoder Multi-Head attention将Encoder中提取到的源序列信息与之前目标序列信息结合，生成下一个目标序列token。

本实施例中，机器翻译模型的GPT模型，如图3所示，在GPT的构建上与Transformer类似，GPT只包含Transformer的解码器。

S2.对预训练语料库和汉盲平行语料库进行编码，得到编码后预训练语料库和编码后汉盲平行语料库。

编码的方法包括：基于字典对语料库中的汉语和盲文ASCII码进行字符单独编码，对语料库中的拼音数据进行读音整体编码，得到编码后预训练语料库和编码后汉盲平行语料库。

在本实施例中，基于预训练语料库以及汉盲平行语料库构建一个字典，字典中每个字符对应一个数字。基于该字典对所有数据进行编码，其中汉语以及盲文ASCII码，每个字符单独编码，对于拼音数据，整个读音进行编码，例如“mang2”这个读音，对其整体编码。

S3.基于编码后预训练语料库对机器翻译模型进行预训练，得到预训练模型。

预训练的方法包括：将编码后预训练语料库中的编码后源序列输入至机器翻译模型中，并对编码后源序列进行特征提取，得到提取后特征；机器翻译模型基于提取后特征生成预测目标序列；基于编码后预训练语料库中的编码后目标序列和预测目标序列对机器翻译模型进行参数更新，得到预训练模型。

在本实施例中，预训练语料库包含若干条序列对，源序列与目标序列，将编码后的源序列输入机器翻译模型，对其进行特征提取，机器翻译模型基于提取的特征对目标序列进行生成，利用真实的目标序列，使用交叉熵损失函数对模型参数进行更新，得到预训练模型，预训练完成后模型将会获得一个良好的初始化状态。

对于Transformer模型来说，训练过程中，目标端的输入序列需要加上开始符[START]，目标端的输出序列末尾需要加上结束符[END]。模型对输入模型的数据进行特征提取，并生成对应的目标序列，通过正确的标签建模损失，并进行反向传播更新模型参数。在预测过程中，输入中文序列，利用字典对其进行编码，将编码后的序列输入Encoder中，再将一个开始符号[START]输入到Decoder中，预测第一个目标序列字符，再将[START]与第一个字符输入Decoder预测第二个字符，直到预测到结束符[END]为止，至此得到预测目标序列。

对于GPT模型来说，在训练过程中，将源序列以及目标序列拼接起来，中间使用[SEP]分割，将拼接后的数据输入模型中，让模型基于之前位置字符预测当前字符来优化模型。在预测阶段，将源序列拼接上[SEP]输入到模型中，依次进行预测，直到预测出[END]符号，至此得到预测目标序列。

S4.基于编码后汉盲平行语料库对预训练模型进行参数微调，得到转换模型。

参数微调的方法包括：将编码后汉盲平行语料库中的编码后汉语序列输入至预训练模型中；预训练模型基于编码后汉语序列进行预测，得到盲文ASCII码序列预测值；基于编码后汉盲平行语料库中的编码后盲文ASCII码序列和盲文ASCII码预测值，对预训练模型进行参数微调，得到转换模型。

在本实施例中，汉盲对照语料库包含若干条汉语盲文对照序列对，与预训练时类似，将编码后的汉语序列输入模型，让模型预测对应的盲文ASCII码序列，通过真实的盲文ASCII码标签根据交叉熵损失函数使用梯度下降法对模型参数进行更新，得到转换模型。

S5.将汉语输入至转换模型中进行翻译，得到盲文序列，完成汉盲翻译。

本实施例中，首先将中文编码后输入转换模型，经过计算生成对应的盲文ASCII码完成汉语到盲文的翻译。

实施例二

在本实施例中，如图4所示，一种基于预训练模型的汉语到盲文的自动转换系统，包括：数据模型构建模块、编码模块、预训练模块、参数调整模块和翻译模块

数据模型构建模块用于构建预训练语料库、汉盲平行语料库和机器翻译模型。

构建预训练语料库的方法包括：收集中文文本，基于中文文本，得到拼音信息和分词信息；将中文文本以预设概率删除部分字符得到删除后文本，其中，预设概率的范围在3％-50％之间，本实施例中将预设概率设置为15％，以删除后文本作为源序列，所述中文文本作为目标序列，得到纯汉语语料库；以中文文本作为源序列、拼音信息作为目标序列，得到汉语-拼音平行语料库；以中文文本作为源序列、分词信息作为目标序列，得到汉语-汉语分词平行语料库；以中文文本作为源序列、拼音信息作为目标序列，并加入分词信息，得到汉语-带分词拼音语料库；基于汉语-拼音平行语料库、汉语-汉语分词平行语料库和汉语-带分词拼音语料库构建预训练语料库。

本实施例中，首先获取大量纯中文文本数据，利用算法生成该数据对应的拼音以及分词信息。基于纯中文文本数据生成纯汉语语料库，基于拼音以及分词信息生成三种语料库，包括：汉语-拼音平行语料库、汉语-汉语分词平行语料库和汉语-带分词拼音语料库；其中，纯汉语语料库源序列为随机删除部分字符的中文序列，目标序列为原始汉语句子，汉语-拼音语料库源序列为中文句子，目标序列为其对应的拼音序列，汉语-汉语分词语料库源序列为中文句子，目标序列为带分词的中文句子，汉语-带分词拼音语料库源序列为中文句子，目标序列为其对应的拼音序列，并加入分词信息。将上述的四种语料库汇总为预训练语料库。其中95％的数据用于训练，5％的数据用于验证。

在本实施例中，在Transformer的构建上，如图2所示，主要包含编码器以及解码器，编码器由多个相同的模块堆叠而成，其中每个模块包含Multi-head self-attention层以及前馈神经网络层，在多头自注意力机制中使用了Padding MASK机制，由于输入句子长度不一，需要补齐成一样的长度，为了避免填充的位置对结果的影响，采用了Padding MASK机制。解码器端与编码器端类似，由多个相同模块堆叠而成，每个模块包含Decoder Multi-Head self-attention以及Encoder-Decoder Multi-Head attention以及前馈神经网络层，由于模型需要并行训练，训练过程中需要将目标序列一次性输入到模型中，为了避免模型看到未来时刻信息，在self-attention层使用了一种MASK机制，将注意力矩阵上三角MASK，避免了模型作弊，看到未来时刻信息。Encoder-Decoder Multi-Head attention将Encoder中提取到的源序列信息与之前目标序列所有token信息结合，生成下一个目标序列token。

本实施例中，机器翻译模型还可以选用GPT模型，如图3所示，在GPT的构建上与Transformer类似，GPT只包含Transformer的解码器。

编码模块用于对预训练语料库和汉盲平行语料库进行编码，得到编码后预训练语料库和编码后汉盲平行语料库。

预训练模块用于基于编码后预训练语料库对机器翻译模型进行预训练，得到预训练模型。

在本实施例中，预训练语料库包含若干条序列对，即源序列与目标序列，将编码后的源序列输入机器翻译模型，对其进行特征提取，机器翻译模型基于提取的特征对目标序列进行生成，利用真实的目标序列，使用交叉熵损失函数对模型参数进行更新，得到预训练模型，预训练完成后模型将会获得一个良好的初始化状态。

对于Transformer模型来说，训练过程中，目标端的输入序列需要加上开始符[START],目标端的输出序列末尾需要加上结束符[END]。模型对输入模型的数据进行特征提取，并生成对应的目标序列，通过正确的标签建模损失，并进行反向传播更新模型参数。在预测过程中，输入中文序列，利用字典对其进行编码，将编码后的序列输入Encoder中，再将一个开始符号[START]输入到Decoder中，预测第一个目标序列字符，再将[START]与第一个字符输入Decoder预测第二个字符，直到预测到结束符[END]为止，至此得到预测目标序列。

参数调整模块用于基于编码后汉盲平行语料库对预训练模型进行参数微调，得到转换模型。

在本实施例中，汉盲对照语料库包含若干条汉语盲文对照序列对，与预训练时类似，将编码后的汉语序列输入模型，让模型预测对应的盲文ASCII码序列，通过真实的盲文ASCII码标签根据损失函数使用梯度下降法对模型参数进行更新，得到转换模型。

翻译模块用于将汉语输入至转换模型中进行翻译，得到盲文序列，完成汉盲翻译。本实施例中，首先将中文编码后输入转换模型，经过计算生成对应的盲文ASCII码完成汉语到盲文的翻译。

实施例三

在本实施例中，为了验证不同大小以及种类的预训练数据以及不同大小的微调数据对结果的影响，将预训练数据分别分成大、中、小三种大小的数据，将微调数据分为1w，5w，10w以及20w的数据，分别进行实验，评价指标选用BLEU，实验结果如图5和图6所示。可以看出，无论Transformer或GPT模型，在汉语-带分词拼音语料库预训练的后模型均取得了最好的效果，在Transformer以及GPT模型上，最高提升了5.43％以及10.36％的BLEU。由于盲文是基于汉语拼音以及盲文分词连写信息得来的，而中文分词规格与盲文分词规则有一定的相似性，所以首先使模型学习拼音信息以及中文分词信息，对后续汉盲翻译任务十分有利。另外，在大多数情况下，随着预训练数据量的提高，模型效果也会有相应的提升。但是随着微调数据量的增加，预训练对模型的提升越来越少，因为微调的数据越来越占据主导地位，不需要预训练也可以达到很好的效果。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，包括以下步骤：

构建预训练语料库、汉盲平行语料库和机器翻译模型；

2.根据权利要求1所述一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，构建所述预训练语料库的方法包括：

3.根据权利要求2所述一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，构建所述汉盲平行语料库的方法包括：

基于所述中文文本提取汉语序列；

提取盲文的盲文ASCII码序列；

4.根据权利要求1所述一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，所述机器翻译模型包括但不限于：基于注意力机制的Transformer模型和GPT模型。

5.根据权利要求1所述一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，所述编码的方法包括：

基于所述预训练语料库和所述汉盲平行语料库构建字典；

6.根据权利要求1所述一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，所述预训练的方法包括：

所述机器翻译模型基于所述提取后特征生成预测目标序列；

7.根据权利要求1所述一种基于预训练模型的汉语到盲文的自动转换方法，其特征在于，所述参数微调的方法包括：

8.一种基于预训练模型的汉语到盲文的自动转换系统，其特征在于，包括：数据模型构建模块、编码模块、预训练模块、参数调整模块和翻译模块；