CN111310441A

CN111310441A - 基于bert的语音识别后文本修正方法、装置、终端及介质

Info

Publication number: CN111310441A
Application number: CN202010064914.XA
Authority: CN
Inventors: 周康明; 杨光
Original assignee: Shanghai Eye Control Technology Co Ltd
Current assignee: Shanghai Eye Control Technology Co Ltd
Priority date: 2020-01-20
Filing date: 2020-01-20
Publication date: 2020-06-19

Abstract

本发明提供基于BERT的语音识别后文本修正方法、装置、终端及介质，其包括：采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；将修正后的文本字串输入预训练的BERT网络模型中，并通过BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。本发明通过使用拼音和噪声拼音作为输入的一部分，提升模型对于语音识别模型识别错误问题的鲁棒性，对于垂直领域也有很好的识别效果；基于BERT模型可以处理比传统的N‑gram算法或RNN类深度网络更长的序列预测任务，能处理最大序列长度为128的句子，虽然模型参数较多，但基于BERT模型的可并行能力，模型的推理效率极高。

Description

基于BERT的语音识别后文本修正方法、装置、终端及介质

技术领域

本发明涉及文本修正技术领域，特别是涉及基于BERT的语音识别后文本修正方法、装置、终端及介质。

背景技术

目前的语音识别算法能够帮助我们自动识别语音，并记录成文字，但语音识别的结果不一定完全正确，特别是在一些垂直领域，市面上的语音识别产品往往难以识别特定的专业词汇，此时就需要进行语音识别后的文本修正工作。

当前，有基于错误规则的文本纠错算法，也有基于深度学习的算法，同时在垂直领域，也有基于特殊领域数据库建立索引和提供候选的方法。其中，基于规则和特殊领域数据库的方法面临规则不全和纠错率不高的问题，而基于深度学习的方法则主要基于LSTM网络，训练耗时的同时，也难以捕捉较长序列的语义特征。

因此，本领域亟需一种规则齐全、纠错率高且能够提升语音识别后文本修正任务的准确率的技术解决方案。

申请内容

鉴于以上所述现有技术的缺点，本发明的目的在于提供基于BERT的语音识别后文本修正方法、装置、终端及介质，用于解决现有技术中的文本修正方法尚存在规则不齐全、纠错率低、准确率低等问题。

为实现上述目的及其他相关目的，本发明的第一方面提供一种基于BERT的语音识别后文本修正方法，其包括：采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

于本发明的第一方面的一些实施例中，所述采用预设尺寸的滑动窗口来提取文本字串，其包括：采用长度为奇数个字的滑动窗口来提取文本字串，以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。

于本发明的第一方面的一些实施例中，所述方法包括：在所述滑动窗口提取的字数不满足字数要求的情况下，采用指定字符来填充窗口中的空缺位置。

于本发明的第一方面的一些实施例中，所述对所提取的文本字串的中间字进行修正，其包括：采用所述文本字串的中间字所对应的拼音来替换该中间字。

于本发明的第一方面的一些实施例中，所述方法还包括：对该中间字所对应的拼音进行噪声扰动；其中，噪声扰动的方式包括如下任意一种或多种方式的组合：方式1)随机去除或增加前后鼻音；方式2)获取容易混淆的声母、韵母和近音字字典，并对中间字所对应的拼音进行随机替换；方式3)随机替换当前拼音为任意一种拼音。

于本发明的第一方面的一些实施例中，所述将修正后的文本字串输入预训练的BERT网络模型中，其包括：将文本字串中的各字从以token为最小单元的独热编码向量转换成嵌入向量后输入BERT网络模型中；对文本字串中的各字标记其所属的句子类型后输入至BERT网络模型中；对文本字串中的各字进行位置信息弥补后，将每个字所对应的位置信息输入至BERT网络模型中。

于本发明的第一方面的一些实施例中，所述方法还包括：当所述滑动窗口滑动至非首字串的当前文本字串时，使用上个窗口位置输出的预测置信度降序序列中的前若干个预测置信度所对应的预测字，来分别预测当前文本字串的中间字，并选取其中预测置信度最高的中间字来作为作为当前文本字串的中间字。

为实现上述目的及其他相关目的，本发明的第二方面提供一种基于BERT的语音识别后文本修正装置，其包括：滑窗模块，用于采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；BERT模型模块，用于将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；修正模块，用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

为实现上述目的及其他相关目的，本发明的第三方面提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于BERT的语音识别后文本修正方法。

为实现上述目的及其他相关目的，本发明的第四方面提供一种电子终端，包括：处理器及存储器；所述存储器用于存储计算机程序，所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行所述基于BERT的语音识别后文本修正方法。

如上所述，本发明的基于BERT的语音识别后文本修正方法、装置、终端及介质，具有以下有益效果：本发明巧妙地将文本后修正任务基于BERT模型进行了微调，借助Transformer自注意力机制强大的语义特征提取能力，使文本后修正过程可以获得更强上下文信息，从而改进了文本后处理效果；本发明通过使用拼音和噪声拼音作为输入的一部分，提升了模型对于语音识别模型识别错误问题的鲁棒性，对于垂直领域也有非常不错的识别效果；本发明基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务，本发明因此可以处理最大序列长度为128的句子，且虽然模型参数较多，但基于BERT模型的可并行能力，模型的推理效率非常高。

附图说明

图1显示为本发明一实施例中基于BERT的语音识别后文本修正方法的流程示意图。

图2显示为本发明一实施例中BERT网络模型的结构示意图。

图3显示为本发明一实施例中输入BERT网络模型的数据转换示意图。

图4显示为本发明一实施例中基于BERT的语音识别后文本修正装置的结构示意图。

图5显示为本发明一实施例中电子终端的结构示意图。

具体实施方式

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。

需要说明的是，在下述描述中，参考附图，附图描述了本发明的若干实施例。应当理解，如同在本文中所使用的，单数形式“一”、“一个”和“该”旨在也包括复数形式，除非上下文中有相反的指示。应当进一步理解，术语“包含”、“包括”表明存在所述的特征、操作、元件、组件、项目、种类、和/或组，但不排除一个或多个其他特征、操作、元件、组件、项目、种类、和/或组的存在、出现或添加。此处使用的术语“或”和“和/或”被解释为包括性的，或意味着任一个或任何组合。因此，“A、B或C”或者“A、B和/或C”意味着“以下任一个：A；B；C；A和B；A和C；B和C；A、B和C”。仅当元件、功能或操作的组合在某些方式下内在地互相排斥时，才会出现该定义的例外。

现有的语音识别文本后的修正方法虽能完成一定的修正工作，但都有不足之处。例如，基于错误规则的文本纠错算法尚存规则不全和纠错率不高的问题；基于深度学习的算法主要基于LSTM网络，模型训练非常耗时而且也难以捕捉较长序列的语义特征；而在垂直领域，也采用基于特殊领域数据库建立索引和提供候选的方法，但这种方法也存在规则不全和纠错率不高的问题。

有鉴于此，本发明提出一种基于BERT网络模型的语音识别文本后进行修正的技术解决方案。其中，BERT网络模型是谷歌公司在2018年提出的一种智能模型，BERT凭借其优秀的网络结构和基于大量数据集的预训练，提供了NLP领域的预训练框架。本发明借助BERT网络模型的优越性和使用拼音提供额外信息的方法，很好地完成了垂直领域的语音识别后的文本修正任务，提升了语音识别后文本修正任务的准确率。

为了使本发明的目的、技术方案及优点更加清楚明白，通过下述实施例并结合附图，对本发明实施例中的技术方案的进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定发明。

实施例一

如图1所示，展示了本发明一实施例中基于BERT的语音识别后文本修正方法的流程示意图。本实施例中的文本修正方法主要包括步骤S11～S13。

需说明的是，所述BERT网络模型即Bidirectional Encoder Representationsfrom Transformers，是使用Transformer单元构成的双向编码表征方法。本发明中预训练的BERT网络模型可应用于多种任务，包括但不限于句子级别的分类任务、问答任务或者序列标注任务等等。BERT网络模型结构如图2所示，其输入为可能含有错字的句子，输出为错字对应的正确字。以句子级别的分类任务中单句分类任务为例，采用第一个token(即[CLS])的最后一个隐藏状态的输出作为整个句子的表示，只需引入一层分类层，即一个类别数目×隐藏状态个数的矩阵进行微调即可。

应理解的是，Transformer单元是一种基于自制力机制的编码单元；token是指输入字符的最小单元，例如拼音“chang”可以拆分为“ch”和“ang”两个token。

步骤S11：采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正。

具体而言，为了简化问题并将问题适用于BERT网络模型，对于句子中可能出现的错字或错词问题，本实施例采用滑窗的方法，即采用滑动窗口来提取预设文字数量的文本字串，并对每个窗口中间位置的文字进行修正。

在本实施例较佳的实现方式中，采用长度为奇数个字的滑动窗口来提取文本字串，例如：采用31个字的窗口来提取文本字串，即每个窗口的长度为前15个字+中间字+后15个字，共31个字，对于字数不足的窗口位置采用“#”字符来替代。需说明的是，本实施例中滑动窗口的长度可根据实际应用场景(即实际问题类型和/或模型效果等)进行调整。

进一步的，采用所述文本字串的中间字所对应的拼音来替换该中间字。为了避免模型直接将文本字串的中间字作为结果输出而无法学习到纠错能力，特别是文本字串的中间字是错字的情况，更是对模型的训练学习不利，因此本实施例将文本字串的中间字替换成其对应的拼音来作为输入BERT网络模型的一部分。为便于本领域技术人员理解，BERT网络模型的输入样例如下表所示：

其中，每个文字占用一个字的长度；每个标点符号如“，”、“、”或“。”等都占用一个字的长度，连续数字如“24”或“28”占用一个字的长度，字数不足的位置采用“#”字符来替代，每个“#”字符均占用一个字的长度，其它用到的特殊字符如“-”也是占用一个字的长度。

本表对文本字串的中间字进行了相应的修正，将文字替换为对应的拼音，例如将“空”替换为“kong”，将“高”替换为“gao”，将“浙”替换为“zhe”，将“雨”替换为“yu”等等，从而形成能够训练模型的纠错能力的训练样本。

进一步的，由于错字训练样本很难获得，而且标注工作量大，因此本实施例在使用正确文本串的基础上对文本串的中间字进行了相应的噪声扰动，从而形成错字样本。噪声扰动的方式包括但不限于如下几种：

方式1)随机去除或增加前后鼻音；

方式2)提炼和创建容易混淆的声母、韵母和近音字字典，并对中间字所对应的拼音进行随机替换；

方式3)随机替换当前拼音为任意一种拼音。

可选的，由于句子中的非中文字符，如标点、数字或特殊字符等在对应的语音中所占的音节不定，所以在数据创建的过程中，将标点不算作字符，将连续数字和连续特殊字符当作单个字符计数。

每一条训练样本数据(前15个字+中间字拼音+后15个字)将中间字作为输出的标签，所以对应到模型中，BERT网络模型输出值的label种类为任务中涉及的中文字符的种类。

步骤S12：将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度。

在将文本字串输入BERT网络模型的过程中，输入的文字序列会进行格式转换以符合BERT网络模型的数据规则。具体如图3所示，输入的文字序列会依次转换成TokenEmbeddings、Segment Embeddings和Position Embeddings后输入BERT网络模型。

其中，Token Embeddings用于将输入的文字序列以token为最小单元的独热编码向量转换成词嵌入向量后输入到BERT网络模型中。需说明的是，与现有的BERT任务不同的是，通常BERT任务的字库中没有所有的拼音项，本实施例为了适配拼音任务，补齐了BERT字库中缺少的拼音项token。

Segment Embeddings用于BERT模型处理“双句任务”的情形，当BERT模型处理“双句任务”时，例如判断B句是否是A句的下句，需要使用Segment Embeddings标记字符所属的句子种类。在本实施例中，在使用滑动窗口所提取的前15字+中间字拼音+后15字作为输入的文字序列输入模型时，所有字符都属于Segment A；为了提供更多的信息给BERT模型并充分利用BERT模型的结构，同时增强模型的鲁棒性，将输入的文字序列中所有的中文字符和数字都转换成对应的拼音构成拼音序列，以作为Segment B，与Segment A一同输入BERT模型中。

Position Embeddings用于弥补序列的位置信息，由于BERT模型中的Transformer单元基于自注意力机制构建，从而丢失了位置信息，所以为了弥补序列的位置信息，将每个字符对应的位置处理成position embedding输入到模型中。

需说明的是，现有的序列模型大多使用LSTM或其他RNN类网络模型捕捉序列信息，但这些方法用于长序列时性能有限，且受到网络下一个单元需要接受上一个单元的输出作为输入的限制，而且RNN类方法无法并行计算，训练极为耗时。BERT模型将RNN类单元替换成Transformer单元，很好地解决了这两个问题。本实施例中设置最大序列长度为128，Transformer的深度为12层，即共有128*12＝1536个Transformer单元。

应理解的是，RNN类网络模型是指以RNN网络结构为基础的网络，包括但不限于RNN网络、LSTM网络、GRU网络或者BLSTM网络等等；Embedding是向量的嵌入表示，通常在输入层，可在减小维度的同时获取输入字符间更深的内在关联。

步骤S13：采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

模型的输出是输入的文字序列的中间字拼音所对应的汉字，可能的输出种类为7000多种。采用交叉熵作为反向传播算法中的损失函数，如下式所示：

其中，M表示网络可能输出的汉字种类；y_c表示0或1，是指训练过程中若网络输出的汉字类别和训练样本本身的类别相同则为1，否则为0；p_c表示网络预测的样本属于类别c的概率。

可选的，所述方法还包括在建立BERT模型后再对该模型进行测试。在测试阶段，模型输入是一整句话，模型输出是纠正后的整句话。为了符合训练好的BERT模型的输入，同样对这一整句话进行滑窗，并将中间字转换成对应的拼音。输出中间字的预测值和预测置信度，即输出字为当前类别的概率值。设置一个置信度阈值，当置信度大于该阈值时，使用预测值替换原有字。

进一步的，为了减少误纠正率，采用Beam Search的方法进行输出，即每次输出概率值前两名。当滑窗中心滑到下一个字时，同时使用上个位置输出的前两名组成两条序列(序列里的其他字符保持不变)，分别预测当前序列的中间字，取预测的中间字最大概率值更高的序列对应的上个位置的字作为上个位置的真实值，同时保留当前位置的输出的概率值前两名的字，并滑窗到下一位置，如此迭代，直到整句话被纠正完毕。

需说明的是，本实施例中基于BERT的语音识别后文本修正方法可应用于多种类型的硬件设备。所述硬件设备例如是控制器，其包括但不限于ARM(Advanced RISC Machines)控制器、FPGA(Field Programmable Gate Array)控制器、SoC(System on Chip)控制器、DSP(Digital Signal Processing)控制器、或者MCU(Micorcontroller Unit)控制器等等。在一些实施方式中，所述硬件设备也可以是包括存储器、存储控制器、一个或多个处理单元(CPU)、外设接口、RF电路、音频电路、扬声器、麦克风、输入/输出(I/O)子系统、显示屏、其他输出或控制设备，以及外部端口等组件的计算机；所述计算机包括但不限于如台式电脑、笔记本电脑、平板电脑、智能手机、智能电视、个人数字助理(Personal Digital Assistant，简称PDA)等个人电脑。在另一些实施方式中，所述硬件设备还可以是服务器，所述服务器可以根据功能、负载等多种因素布置在一个或多个实体服务器上，也可以由分布的或集中的服务器集群构成，本实施例不作限定。

由上述技术内容可知，本发明有如下几大优势：

首先，本发明巧妙地将文本后修正任务基于BERT模型进行了微调，借助Transformer自注意力机制强大的语义特征提取能力，使文本后修正过程可以获得更强上下文信息，从而改进了文本后处理效果。

其次，本发明通过使用拼音和噪声拼音作为输入的一部分，提升了模型对于语音识别模型识别错误问题的鲁棒性，对于垂直领域也有非常不错的识别效果。

最后，本发明基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务，本发明因此可以处理最大序列长度为128的句子，且虽然模型参数较多，但基于BERT模型的可并行能力，模型的推理效率非常高。

实施例二

如图4所示，展示了本发明一实施例中基于BERT的语音识别后文本修正装置的结构示意图。本实施例中的装置包括滑窗模块41、BERT模型模块42及修正模块43。

滑窗模块41用于采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；BERT模型模块42用于将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；修正模块43用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

由于本实施例中基于BERT的语音识别后文本修正装置与上文实施例一中基于BERT的语音识别后文本修正方法的实施方式实施方式类似，故不再赘述。

应理解的是，以上装置的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块通过处理元件调用软件的形式实现，部分模块通过硬件的形式实现。例如，修正模块可以为单独设立的处理元件，也可以集成在上述装置的某一个芯片中实现，此外，也可以以程序代码的形式存储于上述装置的存储器中，由上述装置的某一个处理元件调用并执行以上修正模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。这里所述的处理元件可以是一种集成电路，具有信号的处理能力。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit，简称ASIC)，或，一个或多个微处理器(digital signal processor，简称DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array，简称FPGA)等。再如，当以上某个模块通过处理元件调度程序代码的形式实现时，该处理元件可以是通用处理器，例如中央处理器(Central Processing Unit，简称CPU)或其它可以调用程序代码的处理器。再如，这些模块可以集成在一起，以片上系统(system-on-a-chip，简称SOC)的形式实现。

实施例三

如图5所示，展示了本发明一实施例中的电子终端的结构示意图。本实例提供的电子终端，包括：处理器51、存储器52、通信器53；存储器52通过系统总线与处理器51和通信器53连接并完成相互间的通信，存储器52用于存储计算机程序，通信器53用于和其他设备进行通信，处理器51用于运行计算机程序，使电子终端执行如上基于BERT的语音识别后文本修正方法的各个步骤。

上述提到的系统总线可以是外设部件互连标准(Peripheral ComponentInterconnect，简称PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等。该系统总线可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。通信接口用于实现数据库访问装置与其他设备(例如客户端、读写库和只读库)之间的通信。存储器可能包含随机存取存储器(Random Access Memory，简称RAM)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital Signal Processing，简称DSP)、专用集成电路(Application SpecificIntegrated Circuit，简称ASIC)、现场可编程门阵列(Field－Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

实施例四

本实施例提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现所述基于BERT的语音识别后文本修正方法。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

综上所述，本发明提供基于BERT的语音识别后文本修正方法、装置、终端及介质，本发明巧妙地将文本后修正任务基于BERT模型进行了微调，借助Transformer自注意力机制强大的语义特征提取能力，使文本后修正过程可以获得更强上下文信息，从而改进了文本后处理效果；本发明通过使用拼音和噪声拼音作为输入的一部分，提升了模型对于语音识别模型识别错误问题的鲁棒性，对于垂直领域也有非常不错的识别效果；本发明基于BERT模型可以处理比传统的N-gram算法或RNN类深度网络更长的序列预测任务，本发明因此可以处理最大序列长度为128的句子，且虽然模型参数较多，但基于BERT模型的可并行能力，模型的推理效率非常高。所以，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种基于BERT的语音识别后文本修正方法，其特征在于，包括：

采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；

将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；

采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

2.根据权利要求1所述的方法，其特征在于，所述采用预设尺寸的滑动窗口来提取文本字串，其包括：

采用长度为奇数个字的滑动窗口来提取文本字串，以提取由前偶数个字、中间字以及后偶数个字组成的文本字串。

3.根据权利要求2所述的方法，其特征在于，所述方法包括：

在所述滑动窗口提取的字数不满足字数要求的情况下，采用指定字符来填充窗口中的空缺位置。

4.根据权利要求1所述的方法，其特征在于，所述对所提取的文本字串的中间字进行修正，其包括：

采用所述文本字串的中间字所对应的拼音来替换该中间字。

5.根据权利要求4所述的方法，其特征在于，所述方法还包括：

对该中间字所对应的拼音进行噪声扰动；其中，噪声扰动的方式包括如下任意一种或多种方式的组合：

方式1)随机去除或增加前后鼻音；

方式2)获取容易混淆的声母、韵母和近音字字典，并对中间字所对应的拼音进行随机替换；

方式3)随机替换当前拼音为任意一种拼音。

6.根据权利要求1所述的方法，其特征在于，所述将修正后的文本字串输入预训练的BERT网络模型中，其包括：

将文本字串中的各字从以token为最小单元的独热编码向量转换成嵌入向量后输入BERT网络模型中；

对文本字串中的各字标记其所属的句子类型后输入至BERT网络模型中；

对文本字串中的各字进行位置信息弥补后，将每个字所对应的位置信息输入至BERT网络模型中。

7.根据权利要求1所述的方法，其特征在于，所述方法还包括：

当所述滑动窗口滑动至非首字串的当前文本字串时，使用上个窗口位置输出的预测置信度降序序列中的前若干个预测置信度所对应的预测字，来分别预测当前文本字串的中间字，并选取其中预测置信度最高的中间字来作为作为当前文本字串的中间字。

8.一种基于BERT的语音识别后文本修正装置，其特征在于，包括：

滑窗模块，用于采用预设尺寸的滑动窗口来提取文本字串，并对所提取的文本字串的中间字进行修正；

BERT模型模块，用于将修正后的文本字串输入预训练的BERT网络模型中，并通过所述BERT网络模型输出该文本字串的中间字的预测值及对应的预测置信度；

修正模块，用于采用预测置信度高于预设阈值的预测字来修正该文本字串的中间字。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述基于BERT的语音识别后文本修正方法。

10.一种电子终端，其特征在于，包括：处理器及存储器；

所述存储器用于存储计算机程序；

所述处理器用于执行所述存储器存储的计算机程序，以使所述终端执行如权利要求1至7中任一项所述基于BERT的语音识别后文本修正方法。