CN116167362A

CN116167362A - 模型训练方法、中文文本纠错方法、电子设备和存储介质

Info

Publication number: CN116167362A
Application number: CN202111394466.0A
Authority: CN
Inventors: 郑浩杰; 屠要峰; 李忠良
Original assignee: Nanjing ZTE New Software Co Ltd
Current assignee: Nanjing ZTE New Software Co Ltd
Priority date: 2021-11-23
Filing date: 2021-11-23
Publication date: 2023-05-26
Also published as: WO2023093525A1

Abstract

本发明提供了一种模型训练方法、中文文本纠错方法、电子设备和存储介质，该模型训练方法包括：获取训练中文语料和字音字形混淆集；根据字音字形混淆集构建字音模型和字形模型；根据训练中文语料确定字符嵌入；将训练中文语料输入字音模型和字形模型，分别得到拼音嵌入和字形嵌入；将字符嵌入、拼音嵌入和字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；对预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。根据本发明实施例提供的方案，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

Description

模型训练方法、中文文本纠错方法、电子设备和存储介质

技术领域

本发明涉及但不限于自然语言处理和人工智能技术领域，尤其涉及一种模型训练方法、中文文本纠错方法、电子设备和存储介质。

背景技术

互联网中存有海量的文本信息，这些文本中包含许多错别字。在日常生活中，经常在公众号，微博等自媒体平台发现错误文字。据统计，在新媒体中文本出错率在2％左右，在一些问答系统中，出错率高达9％。在中文文本中大约83％的错误与相似发音相关，因为互联网内的中文基本是以拼音输入为主，48％的错误与相似字形相关，主要是由于五笔输入法和相似字形容易误选。输入准确性是自然语言处理领域内上层任务的前提，故而文本纠错是提升上层任务性能的关键，也是自然语言处理领域中的一项巨大挑战。

目前，语言模型无法学习到中文的近音字信息和形似字信息，导致在利用语音模型进行中文文本纠错时，无法利用近音字信息和形似字信息对错别字纠正，中文文本纠错结果的准确率低和可解释性差。

发明内容

以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。

本发明实施例提供了一种模型训练方法、中文文本纠错方法、电子设备和存储介质，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，从而提高中文文本纠错结果的准确率和可解释性。

第一方面，本发明实施例提供了一种模型训练方法，包括：获取训练中文语料和字音字形混淆集，其中，所述字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；根据所述字音字形混淆集构建字音模型和字形模型；根据所述训练中文语料确定字符嵌入；将所述训练中文语料输入所述字音模型和所述字形模型，分别得到拼音嵌入和字形嵌入；将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；对所述预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。

在一些实施例中，所述获取训练中文语料和字音字形混淆集的步骤之后，还包括：对所述训练中文语料进行预处理，其中，所述预处理包括标点符号标准化处理和简体化处理；对所述字音字形混淆集进行简体化处理。

在一些实施例中，所述将所述训练中文语料输入所述字音模型和所述字形模型，分别得到拼音嵌入和字形嵌入，包括：对所述训练中文语料进行分词处理，得到中文字符；将所述中文字符输入预设的中文拼音转换模块，得到拼音序列；将所述拼音序列输入所述字音模型，得到拼音嵌入；将所述中文字符输入预设的中文图片转换模块，得到字符图像；对所述字符图像进行图像增强处理，得到图像数据集；将所述图像数据集输入所述字形模型，得到字形嵌入。

在一些实施例中，所述字音模型包括长短期记忆网络，所述字形模型包括卷积神经网络。

在一些实施例中，所述将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练，包括：将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型，得到字符预测、近音字混淆集预测和形似字混淆集预测；根据所述字符嵌入和所述字符预测确定掩码损失；根据所述拼音嵌入和所述近音字混淆集预测确定近音字混淆集预测损失；根据所述字形嵌入和所述形似字混淆集预测确定形似字混淆集预测损失；根据所述掩码损失、所述近音字混淆集预测损失和所述形似字混淆集预测损失确定模型损失；根据所述模型损失，利用掩码策略对所述深度双向预训练语言模型进行预训练。

在一些实施例中，所述对所述预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型，包括：获取第一纠错语料和第二纠错语料，其中，所述第一纠错语料由预设的中文纠错语料生成算法生成，所述第二纠错语料由预设的中文文本纠错数据集得到；对所述第一纠错语料和所述第二纠错语料进行预处理，其中，所述预处理包括标点符号标准化处理和简体化处理；根据所述预处理后的第一纠错语料和预设的第一微调参数，对所述深度双向预训练语言模型进行微调；根据所述预处理后的第二纠错语料和预设的第二微调参数，对所述深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。

第二方面，本发明还提供了一种中文文本纠错方法，包括：获取待纠错中文文本；将所述待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本，其中，所述中文文本纠错语言模型由如上第一方面所述的模型训练方法训练得到。

第三方面，本发明还提供了一种中文语音识别纠错方法，包括：获取待纠错语音；对所述待纠错语音进行语音识别处理，得到待纠错中文文本；将所述待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本，其中，所述中文文本纠错语言模型由如上第一方面所述的模型训练方法训练得到。

第四方面，本发明还提供了一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上第一方面所述的模型训练方法，或者如上第二方面所述的中文文本纠错方法，或者如上第三方面所述的中文语音识别纠错方法。

第五方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如上第一方面所述的模型训练方法，或者如上第二方面所述的中文文本纠错方法，或者如上第三方面所述的中文语音识别纠错方法。

本发明实施例包括：获取训练中文语料和字音字形混淆集，其中，所述字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；根据所述字音字形混淆集构建字音模型和字形模型；根据所述训练中文语料确定字符嵌入；将所述训练中文语料输入所述字音模型和所述字形模型，分别得到拼音嵌入和字形嵌入；将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；对所述预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。根据本发明实施例提供的方案，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。

附图说明

附图用来提供对本发明技术方案的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明的技术方案，并不构成对本发明技术方案的限制。

图1是本发明一个实施例提供的模型训练方法的流程图；

图2是本发明另一个实施例提供的语料和混淆集处理的流程图；

图3是本发明另一个实施例提供的字音字形模型处理的流程图；

图4是本发明另一个实施例提供的确定模型损失的流程图；

图5是本发明另一个实施例提供的模型微调的流程图；

图6是本发明另一个实施例提供的中文文本纠错方法的流程图；

图7是本发明另一个实施例提供的中文语音识别纠错方法的流程图；

图8是本发明另一个实施例提供的中文文本纠错系统的系统框图；

图9是本发明另一个实施例提供的中文语音识别纠错系统的系统框图；

图10是本发明另一个实施例提供的语言模型设计优化的系统框图；

图11是本发明另一个实施例提供的电子设备的结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

需要说明的是，虽然在装置示意图中进行了功能模块划分，在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于装置中的模块划分，或流程图中的顺序执行所示出或描述的步骤。说明书、权利要求书或上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

针对语言模型无法学习到中文的近音字信息和形似字信息的问题，本发明提供了一种模型训练方法、中文文本纠错方法、电子设备和存储介质，该模型训练方法包括：获取训练中文语料和字音字形混淆集，其中，字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；根据字音字形混淆集构建字音模型和字形模型；根据训练中文语料确定字符嵌入；将训练中文语料输入字音模型和字形模型，分别得到拼音嵌入和字形嵌入；将字符嵌入、拼音嵌入和字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；对预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。根据本发明实施例提供的方案，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

首先，对本发明中涉及的若干名词进行解析：

自然语言处理(Natural Language Processing,NLP)，是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。

卷积神经网络(Convolutional Neural Networks,CNN)，是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元；卷积神经网络被广泛应用于图片特征提取，其可以通过对局部底层特征的提取，通过堆叠的方式逐渐学习到一些高级的特征。

长短期记忆网络(Long Short-Term Memory,LSTM)，是循环神经网络的一个变种，其具有建模序列特征的能力，通过引入输入门、忘记门和输出门对循环神经网络进行优化。

深度双向预训练语言模型(Bidirectional Encoder Representations fromTransformers,BERT)，是一个预训练的语言表征模型。它强调了不再像以往一样采用传统的单向语言模型或者把两个单向语言模型进行浅层拼接的方法进行预训练，而是采用新的掩码语言模型(Masked Language Model,MLM)，以致能生成深度的双向语言表征。BERT论文发表时提及在11个NLP任务中获得了新的最佳效果；Transformer是自然语言处理领域目前主流的特征抽取器，有很强的抽象表达能力。

语音识别(Speech Recognition)，也被称为自动语音识别(Automatic SpeechRecognition,ASR)、电脑语音识别(Computer Speech Recognition)或是语音转文本识别(Speech To Text,STT)，其目标是以电脑自动将人类的语音内容转换为相应的文字。

光学字符识别(Optical Character Recognition,OCR)是指对文本资料的图像文件进行分析识别处理，获取文字及版面信息的过程。

下面结合附图，对本发明实施例作进一步阐述。

如图1所示，图1是本发明一个实施例提供的一种模型训练方法的流程图。该模型训练方法包括但不限于如下步骤：

步骤110，获取训练中文语料和字音字形混淆集，其中，字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；

步骤120，根据字音字形混淆集构建字音模型和字形模型；

步骤130，根据训练中文语料确定字符嵌入；

步骤140，将训练中文语料输入字音模型和字形模型，分别得到拼音嵌入和字形嵌入；

步骤150，将字符嵌入、拼音嵌入和字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；

步骤160，对预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。

可以理解的是，从现有的数据库中获取训练中文语料和字音字形混淆集，利用字音字形混淆集构建字音模型和字形模型，进而确定字符嵌入、拼音嵌入和字形嵌入，将字符嵌入、拼音嵌入和字形嵌入输入BRET，并通过预设的掩码策略进行预训练，使得BERT能学习到近音字信息和形似字信息，然后对BERT进行微调，得到符合真实的中文文本纠错应用场景的中文文本纠错语言模型。基于此，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

值得注意的是，BRET在预训练和微调完成后，需要去除掉不需要的参数，将BERT转化为预测模式，进而部署得到中文文本纠错语言模型，中文文本纠错语言模型只需输入待纠错中文文本，然后输出纠正后的中文文本，无需输入拼音嵌入和字形嵌入。

在具体实践中，需要先获取大规模的文本数据，例如获取20G以上的文本数据，然后从文本数据中提取训练模型所需的训练中文语料，提取训练中文语料具体是指去除包含较多英文语料的文本数据，其余的文本数据作为训练中文语料。

需要说明的是，获取训练中文语料和字音字形混淆集的具体步骤，属于本领域技术人员熟知的技术，在此不多作赘述。

另外，参照图2，在一实施例中，图1所示实施例中的步骤110之后，还包括但不限于有以下步骤：

步骤210，对训练中文语料进行预处理，其中，预处理包括标点符号标准化处理和简体化处理；

步骤220，对字音字形混淆集进行简体化处理。

需要说明的是，预处理包括但不限于标点符号标准化处理和简体化处理，标点符号标准化处理是指中英文标号归一和全半角标号归一，具体为将标点符号都统一改为中文标号和设置为全角格式；简体化处理是指将繁体字统一改为简体字。

另外，参照图3，在一实施例中，图1所示实施例中的步骤140，还包括但不限于有以下步骤：

步骤310，对训练中文语料进行分词处理，得到中文字符；

步骤320，将中文字符输入预设的中文拼音转换模块，得到拼音序列；

步骤330，将拼音序列输入字音模型，得到拼音嵌入；

步骤340，将中文字符输入预设的中文图片转换模块，得到字符图像；

步骤350，对字符图像进行图像增强处理，得到图像数据集；

步骤360，将图像数据集输入字形模型，得到字形嵌入。

在具体实践中，分词处理采用BERT的分词工具；中文拼音转换模块为pypinyin开源工具包，pypinyin获得中文字符的发音后，生成对应的拼音序列；中文图片转换模块能够将中文字符转换为64*64像素的图片。

可以理解的是，训练中文语料确定字符嵌入之前，也需要对训练中文语料进行分词处理。

需要说明的是，图像增强处理包括但不限于将字符图像进行对称、旋转和加入噪声信息，进而得到经过图像增强的图像数据集，从而提高字形模型的质量。

在一实施例中，字音模型包括长短期记忆网络LSTM，字形模型包括卷积神经网络CNN。

可以理解的是，字音是一个拼音和声调组成的序列，采用LSTM建模，效果更佳；另外，中文字形本身就能一定程度反应字本身意思，采用CNN建模，通过对汉字图片卷积的方式完成中文字形的建模，与采用序列模型建模的方式相比，汉字笔画更能反应两个汉字的形似程度，从而提高中文文本纠错结果的准确率和可解释性。

在具体实践中，LSTM的隐藏层的维度设置为32；CNN的隐藏层的维度设置为32，CNN的卷积核大小为2*2或3*3，卷积核总数为64，卷积网络层数为2层。

另外，参照图4，在一实施例中，图1所示实施例中的步骤150，还包括但不限于有以下步骤：

步骤410，将字符嵌入、拼音嵌入和字形嵌入输入深度双向预训练语言模型，得到字符预测、近音字混淆集预测和形似字混淆集预测；

步骤420，根据字符嵌入和字符预测确定掩码损失；

步骤430，根据拼音嵌入和近音字混淆集预测确定近音字混淆集预测损失；

步骤440，根据字形嵌入和形似字混淆集预测确定形似字混淆集预测损失；

步骤450，根据掩码损失、近音字混淆集预测损失和形似字混淆集预测损失确定模型损失；

步骤460，根据模型损失，利用掩码策略对深度双向预训练语言模型进行预训练。

在具体实践中，模型损失的计算公式如下：

L(θ)＝L(mlm)+L(p)+L(v)，

其中，L(θ)为模型损失，L(mlm)为掩码损失，L(p)为近音字混淆集预测损失，L(u)为形近字混淆集预测损失；

L(mlm)计算方法如下：

先对token采用softmax激活函数，再采用交叉熵损失，计算公式如下：

其中，W_A为待训练参数矩阵，W_A∈R^h×d，h为BERT隐藏层的维度，d为词表大小，f_i为第i个字的隐藏层表示；

其中，λ表示交叉熵损失，y_i为MLM第一任务标签，D为数据集，n代表句子长度；

L(p)和L(v)计算方法相同，先对token采用sigmod激活函数，再采用交叉熵损失，以L(p)为例子，计算公式如下：

其中，W_B为待训练参数矩阵，W_B∈R^h×d，h为BERT隐藏层的维度，d为词表大小，f_i为第i个字的隐藏层表示；

其中，λ表示交叉熵损失，p_i为MLM第二任务标签，D为数据集，n代表句子长度；

掩码策略包括但不限于：在所有中文字符中随机选取15％的字符作为掩码字符，在掩码字符中选取10％的字符作为不替换字符，选取10％的字符作为随机替换字符，选择80％的字符利用特殊字符[MASK]进行替换；预训练模型时，设置预训练参数为：最大长度：512、批大小：16、学习率：动态递减学习率。

另外，参照图5，在一实施例中，图1所示实施例中的步骤160，还包括但不限于有以下步骤：

步骤510，获取第一纠错语料和第二纠错语料，其中，第一纠错语料由预设的中文纠错语料生成算法生成，第二纠错语料由预设的中文文本纠错数据集得到；

步骤520，对第一纠错语料和第二纠错语料进行预处理，其中，预处理包括标点符号标准化处理和简体化处理；

步骤530，根据预处理后的第一纠错语料和预设的第一微调参数，对深度双向预训练语言模型进行微调；

步骤540，根据预处理后的第二纠错语料和预设的第二微调参数，对深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。

可以理解的是，第一纠错语料是算法生成的中文错别字数据，利用第一纠错语料对BERT进行第一轮微调，能够解决数据不足的问题；另外，中文文本纠错数据集为真实中文纠错语料的数据集，第二纠错语料是契合中文纠错的真实场景的中文错别字数据，利用第二纠错语料对BERT进行第二轮微调，能够使中文文本纠错语言模型符合真实的中文文本纠错应用场景。

在具体实践中，中文纠错语料生成算法包括但不限于Automatic-Corpus-Generation开源算法；中文文本纠错数据集包括但不限于SIGHAN13、SIGHAN14和SIGHAN15数据集；第一微调参数设置如下：迭代次数：8、批大小：32、学习率：0.00002、最大句子长度：512；第二微调参数设置如下：迭代次数：6、批大小：32、学习率：0.00002、最大句子长度：512。

可以理解的是，本发明的模型训练方法训练得到的中文文本纠错语言模型可应用在不同的场景，例如，将OCR识别的中文文本输入训练后的中文文本纠错语言模型，进行纠错处理，或者通过语音识别，将待纠错语音识别为待纠错中文文本，进而将待纠错中文文本输入训练后的中文文本纠错语言模型，进行纠错处理。不同场景和不同领域的中文文本错误类型相差较大，例如OCR识别得到中文文本有较多的形近字错误，语音识别得到的中文文本有较多的近音字错误，利用训练后的中文文本纠错语言模型进行纠错处理，能够提高中文文本纠错结果的准确率和可解释性。

如图6所示，图6是本发明另一个实施例提供的中文文本纠错方法的流程图。该中文文本纠错方法包括但不限于如下步骤：

步骤610，获取待纠错中文文本；

步骤620，将待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本，其中，中文文本纠错语言模型由上述模型训练方法训练得到。

可以理解的是，将待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本；基于此，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

如图7所示，图7是本发明另一个实施例提供的中文语音识别纠错方法的流程图。该中文语音识别纠错方法包括但不限于如下步骤：

步骤710，获取待纠错语音；

步骤720，对待纠错语音进行语音识别处理，得到待纠错中文文本；

步骤730，将待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本，其中，中文文本纠错语言模型由上述模型训练方法训练得到。

可以理解的是，待纠错语音经过语音识别处理后，得到待纠错中文文本，将待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本；基于此，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

在具体实践中，对待纠错语音进行语音识别处理，得到待纠错中文文本之后，需要对待纠错中文文本进行预处理，预处理包括但不限于标点符号标准化处理和简体化处理，标点符号标准化处理是指中英文标号归一和全半角标号归一，具体为将标点符号都统一改为中文标号和设置为全角格式；简体化处理是指将繁体字统一改为简体字。

需要说明的是，语音识别处理的技术，属于本领域技术人员熟知的技术，在此不多作赘述。

如图8所示，图8是本发明另一个实施例提供的中文文本纠错系统的系统框图。

可以理解的是，中文文本纠错系统包括但不限于：处理预训练数据模块、预训练模块、微调模块和中文文本纠错模块；其中，处理预训练数据模块用于获取字音字形混淆集、对字音字形混淆集进行简体化处理、获取训练中文语料、对训练中文语料进行预处理、对训练中文语料进行分词处理和确定预训练数据；预训练模块用于构建字音模型、构建字形模型、语言模型设计优化、确定损失函数、设置预训练参数和开始预训练；微调模块用于获取第一纠错语料、对第一纠错语料进行预处理、利用第一纠错语料微调模型、获取第二纠错语料、对第二纠错语料进行预处理和利用第二纠错语料微调模型；中文文本纠错模块用于获取待纠错中文文本、对待纠错中文文本进行预处理、输入中文文本纠错语音模型和输出纠错文本。

如图9所示，图9是本发明另一个实施例提供的中文语音识别纠错系统的系统框图。

可以理解的是，中文语音识别纠错系统包括但不限于：处理预训练数据模块、预训练模块、微调模块和中文语音识别纠错模块；其中，处理预训练数据模块用于获取字音字形混淆集、对字音字形混淆集进行简体化处理、获取训练中文语料、对训练中文语料进行预处理、对训练中文语料进行分词处理和确定预训练数据；预训练模块用于构建字音模型、构建字形模型、语言模型设计优化、确定损失函数、设置预训练参数和开始预训练；微调模块用于获取第一纠错语料、对第一纠错语料进行预处理、利用第一纠错语料微调模型、获取第二纠错语料、对第二纠错语料进行预处理和利用第二纠错语料微调模型；中文语音识别纠错模块用于获取待纠错语音、对待纠错语音进行语音识别处理、得到待纠错中文文本、对待纠错中文文本进行预处理、输入中文文本纠错语音模型和输出纠错文本。

如图10所示，图10是本发明另一个实施例提供的语言模型设计优化的系统框图。

可以理解的是，BERT设计优化具体包括：原先的BERT的输入为字符嵌入，优化后的BERT的输入增加了拼音嵌入和字形嵌入；原先的BERT的预训练任务为掩码语言模型任务和下一句预测任务，优化后的BERT去除下一句预测任务，增加了近音字混淆集预测任务和形似字混淆集预测任务；当损失函数的损失最小时，BERT的预训练完成。

另外，参照图11，本发明的一个实施例还提供了一种电子设备。

具体地，该电子设备包括：一个或多个处理器和存储器，图11中以一个处理器及存储器为例。处理器和存储器可以通过总线或者其他方式连接，图11中以通过总线连接为例。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序以及非暂态性计算机可执行程序，如上述本发明实施例中的模型训练方法、中文文本纠错方法或中文语音识别纠错方法。处理器通过运行存储在存储器中的非暂态软件程序以及程序，从而实现上述本发明实施例中的模型训练方法、中文文本纠错方法或中文语音识别纠错方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储执行上述本发明实施例中的模型训练方法、中文文本纠错方法或中文语音识别纠错方法所需的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至该电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现上述本发明实施例中的模型训练方法、中文文本纠错方法或中文语音识别纠错方法所需的非暂态软件程序以及程序存储在存储器中，当被一个或者多个处理器执行时，执行上述本发明实施例中的模型训练方法，例如，执行以上描述的图1中的方法步骤110至步骤160、图2中的方法步骤210至步骤220、图3中的方法步骤310至步骤360、图4中的方法步骤410至步骤460、图5中的方法步骤510至步骤540，或者执行上述本发明实施例中的中文文本纠错方法，例如，执行以上描述的图6中的方法步骤610至步骤620，或者执行上述本发明实施例中的中文语音识别纠错方法，例如，执行以上描述的图7中的方法步骤710至步骤730，通过获取训练中文语料和字音字形混淆集，其中，字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；根据字音字形混淆集构建字音模型和字形模型；根据训练中文语料确定字符嵌入；将训练中文语料输入字音模型和字形模型，分别得到拼音嵌入和字形嵌入；将字符嵌入、拼音嵌入和字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；对预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。基于此，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

此外，本发明的一个实施例还提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机可执行指令，该计算机可执行指令被一个处理器或控制器执行，例如，被上述电子设备实施例中的一个处理器执行，可使得上述处理器执行上述本发明实施例中的模型训练方法，例如，执行以上描述的图1中的方法步骤110至步骤160、图2中的方法步骤210至步骤220、图3中的方法步骤310至步骤360、图4中的方法步骤410至步骤460、图5中的方法步骤510至步骤540，或者执行上述本发明实施例中的中文文本纠错方法，例如，执行以上描述的图6中的方法步骤610至步骤620，或者执行上述本发明实施例中的中文语音识别纠错方法，例如，执行以上描述的图7中的方法步骤710至步骤730，通过获取训练中文语料和字音字形混淆集，其中，字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；根据字音字形混淆集构建字音模型和字形模型；根据训练中文语料确定字符嵌入；将训练中文语料输入字音模型和字形模型，分别得到拼音嵌入和字形嵌入；将字符嵌入、拼音嵌入和字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；对预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。基于此，利用训练中文语料和字音字形混淆集进行端到端模型训练，进而得到中文文本纠错语音模型，实现了中文文本纠错语音模型能学习到近音字信息和形似字信息，在进行中文文本纠错时，能够利用近音字信息和形似字信息纠正错别字，提高中文文本纠错结果的准确率和可解释性。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD-ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据，并且可包括任何信息递送介质。

以上是对本发明的较佳实施进行了具体说明，但本发明并不局限于上述实施方式，熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换，这些等同的变形或替换均包含在本发明权利要求所限定的范围内。

Claims

1.一种模型训练方法，包括：

获取训练中文语料和字音字形混淆集，其中，所述字音字形混淆集为中文近音字混淆集和中文形似字混淆集的合集；

根据所述字音字形混淆集构建字音模型和字形模型；

根据所述训练中文语料确定字符嵌入；

将所述训练中文语料输入所述字音模型和所述字形模型，分别得到拼音嵌入和字形嵌入；

将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练；

对所述预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。

2.根据权利要求1所述的方法，其特征在于，所述获取训练中文语料和字音字形混淆集的步骤之后，还包括：

对所述训练中文语料进行预处理，其中，所述预处理包括标点符号标准化处理和简体化处理；

对所述字音字形混淆集进行简体化处理。

3.根据权利要求1所述的方法，其特征在于，所述将所述训练中文语料输入所述字音模型和所述字形模型，分别得到拼音嵌入和字形嵌入，包括：

对所述训练中文语料进行分词处理，得到中文字符；

将所述中文字符输入预设的中文拼音转换模块，得到拼音序列；

将所述拼音序列输入所述字音模型，得到拼音嵌入；

将所述中文字符输入预设的中文图片转换模块，得到字符图像；

对所述字符图像进行图像增强处理，得到图像数据集；

将所述图像数据集输入所述字形模型，得到字形嵌入。

4.根据权利要求1所述的方法，其特征在于，所述字音模型包括长短期记忆网络，所述字形模型包括卷积神经网络。

5.根据权利要求1所述的方法，其特征在于，所述将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型并利用掩码策略进行预训练，包括：

将所述字符嵌入、所述拼音嵌入和所述字形嵌入输入深度双向预训练语言模型，得到字符预测、近音字混淆集预测和形似字混淆集预测；

根据所述字符嵌入和所述字符预测确定掩码损失；

根据所述拼音嵌入和所述近音字混淆集预测确定近音字混淆集预测损失；

根据所述字形嵌入和所述形似字混淆集预测确定形似字混淆集预测损失；

根据所述掩码损失、所述近音字混淆集预测损失和所述形似字混淆集预测损失确定模型损失；

根据所述模型损失，利用掩码策略对所述深度双向预训练语言模型进行预训练。

6.根据权利要求1所述的方法，其特征在于，所述对所述预训练后的深度双向预训练语言模型进行微调，得到中文文本纠错语言模型，包括：

获取第一纠错语料和第二纠错语料，其中，所述第一纠错语料由预设的中文纠错语料生成算法生成，所述第二纠错语料由预设的中文文本纠错数据集得到；

对所述第一纠错语料和所述第二纠错语料进行预处理，其中，所述预处理包括标点符号标准化处理和简体化处理；

根据所述预处理后的第一纠错语料和预设的第一微调参数，对所述深度双向预训练语言模型进行微调；

根据所述预处理后的第二纠错语料和预设的第二微调参数，对所述深度双向预训练语言模型进行微调，得到中文文本纠错语言模型。

7.一种中文文本纠错方法，包括：

获取待纠错中文文本；

将所述待纠错中文文本输入训练后的中文文本纠错语言模型，得到纠错文本，其中，所述中文文本纠错语言模型由权利要求1至6任一所述的模型训练方法训练得到。

8.一种中文语音识别纠错方法，包括：

获取待纠错语音；

对所述待纠错语音进行语音识别处理，得到待纠错中文文本；

9.一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至6任意一项所述的模型训练方法，或者如权利要求7所述的中文文本纠错方法，或者如权利要求8所述的中文语音识别纠错方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机可执行程序，所述计算机可执行程序用于使计算机执行如权利要求1至6任意一项所述的模型训练方法，或者如权利要求7所述的中文文本纠错方法，或者如权利要求8所述的中文语音识别纠错方法。